ESTADÍSTICA BÁSICA APLICADA A LA GANADERIA
Vladimiro Ibañez Quispe
ESTADÍSTICA BÁSICA APLICADA A LA GANADERÍA VLADIMIRO IBAÑEZ QUISPE Ingeniero Estadístico. Estadístico. Profesor Asociado a T.C. Universidad Nacional del Altiplano - Puno - Perú Facultad de Ingeniería Estadística e Informática.
Composición y Diagramación: Vladimiro Ibañez Quispe Primera Edición : Abril del 2001 Impreso Impreso en el Perú - Printed in Peru Editado en : Editorial Universitaria - UNA - Puno. Ciudad Universitaria. Apartado 291. Fax (054) 352992. Prohíbida Prohíbida la reproducción total o parcial de esta obra, por cualquier medio, sin autorización escrita del autor. autor. Derechos reservados reservados : Decreto Decreto Ley 822.
PRESENTACION En la actualidad hay pocas bibliografías que están orientadas y aplicadas a la ganadería, biología, nutrición, agronomía agronomía y otras afines, especialmente en la Universidad Nacional del Altiplano, razón por la cual existe la necesidad nec esidad de contar con un texto guía que permita desarrollar mejor y despertar a los estudiantes de los primeros ciclos en los diferentes temas relacionados a la estadística básica, para lo cual se ha tomado en cuenta los diferentes tipos de variables (cualitativas y cuantitativas) que se han generado como producto de los diferentes trabajos de investigaciones investigacion es desarrolladas en el campo de la ganadería, y como apoyo de soporte a la estadística, se presenta el software estadístico de STA STATGRAPHICS Plus v4.0, v 4.0, bajo el e l entorno Windows, que nos permite per mite obtener salidas o resultados de los análisis efectuados, ya que este paquete estadístico tiene las mejores bondades en la tabulación de frecuencias, medidas de tendencias central, de dispersión entre otras estadísticas. Para tal efecto se "ESTADÍSTICA BÁSICA APLICADA A LA GANApresenta el texto: "ESTADÍSTICA DERIA". Espero que el presente trabajo alcance la acogida a las personas interesadas en aprender estadísticas básicas como inicio para las estadísticas avanzadas, asimismo debo indicar que cualquier error o concepto es nétamente responsabilidad del autor y agradecer a los lectores que alcancen sus sugerencias que sin duda, servirá de incentivo y motivará la preparación de nuevas publicaciones. Autor Abril 2001
INDICE Pág. PRESENTACION
CAPITULO 1: CONCEPTOS BÁSICOS DE ESTADÍSTICA .... .................. 01 1.1. División División de la Estadísticas Estadísticas......... ................... ................... ................... ................... .............. ..... A. Estadísti Estadística ca Descriptiva Descriptiva .................. ........................... ................... ................... ............... ...... B. Estadística Estadística Inferencial Inferencial ................... ............................ .................. ................... ................ ...... 1.2. Població Poblaciónn y Muestra .................. ............................ ................... ................... ................... ............. .... 1.3. Parámetro Parámetro y Estadígrafo Estadígrafo .................. ........................... ................... ................... ................. ........
02 02 03 03 06
CAPITULO 2: PROC. Y MÉTODOS DE RECOLECCIÓN DE DATOS . 2.1. Fuentes de Informac Información ión ................... ............................ ................... ................... ................. ........ 2.1.1. 2.1.1. Fuentes Fuentes de Datos Datos Internos Internos ............ .................. ............ ............. ............. .......... .... 2.1.2. 2.1.2. Fuentes Fuentes de Datos Datos Externo Externoss ............ .................. ............ ............ ............. .......... ... 2.1.3. 2.1.3. Fuentes Fuentes primaria primariass ......... .............. .......... ......... ......... .......... .......... ......... ......... .......... ....... 2.1.4. Fuentes secundarias secundarias ...................... ................................. ....................... ................. ..... 2.2. Sistema Sistema de recolección recolección ................ ........................ ................ ................ ................ ................ ........ 2.2.1. 2.2.1. Registros Registros ............. .................. .......... .......... .......... .......... .......... .......... .......... .......... .......... ........ ... 2.2.2. 2.2.2. Encuesta Encuestass .......... ............... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ..... 2.3. Técnica Técnica de recolección recolección ............... ....................... ................ ................ ................ ................ .......... 2.3.1. 2.3.1. Observac Observación ión .............. .................. ......... ......... ......... .......... .......... ......... ......... .......... .......... ..... 2.3.2. La técnica técnica documental documental ................ ......................... ................. ................ ............. ..... 2.3.3. 2.3.3. Entrevista Entrevista ................ ..................... .......... ........... ........... ........... ........... ........... ........... .......... ....... 2.3.4. El cuestionario cuestionario ........................... ......................................... ............................ ................. ... 2.3.5. 2.3.5. Preparac Preparación ión del cuesti cuestionar onario io y formulari formularioo ........... ................ ....... 2.4. Tipos Tipos de datos ....................... .................................. ...................... ....................... ....................... .............
07 07 08 08 08 08 09 09 10 10 10 12 12 13 13 15
Pág. 2.4.1. 2.4.1. Según Según la naturaleza naturaleza de la variabl variablee ........... ................ ......... ......... ......... .... A. Variable cualitativa cualitativa ...................... ................................. ....................... ................ B. Variable cuantitativa cuantitativa ....................... .................................. ...................... ........... 2.4.2. 2.4.2. Según Según la escala escala de medic medición ión ........ ............. .......... .......... .......... .......... ......... .... A. Varia Variables bles nominal nominales es .......... .............. ........ ........ ........ ........ ........ ........ ........ ....... ... B. Varia Variables bles ordinale ordinaless ........ ............ ........ ........ ........ ........ ........ ........ ........ ........ ....... ... C. Variables ariables de intervalo intervalo .............. ..................... .............. .............. .............. ......... D. Varia Variables bles de razón razón o proporció proporciónn ........... ............... ......... .......... ........ ...
15 15 17 18 18 18 19 19
CAPITULO 3: ETAPA DE ELABORACIÓN DE DATOS .... ........................................ 21 3.1. Revisió Revisiónn y correcció correcciónn de la informac información ión recogid recogidaa .......... ............... ....... 3.2. Tabla Tablass de distribuc distribución ión de frecuen frecuencias cias ........ ............. ......... ......... .......... .......... ......... 3.2.1. Varia Variables bles cuantita cuantitativas tivas contín contínuas uas (números (números decimale decimales) s) 3.2.2. 3.2.2. Distrib Distribució uciónn de frecu frecuenci encias as (númer (números os entero enteros) s) ........ ........... ... 3.2.3. Variab Variables les cuantita cuantitativas tivas discre discreta ta .......... ................ ............ ........... ........... ........ Propiedad Propiedades es de las frecuenci frecuencias as ........... ................. ............ ............ ............ ...... 3.2.4. Distri Distribuci bución ón de variable variabless cualitativ cualitativas as .......... ............... .......... .......... ..... 3.2.5. 3.2.5. Diagrama Diagrama de de Hojas Hojas y Tallos Tallos (Stem-an (Stem-and-Le d-Leaf) af) ....... ............ ....... 3.3. Métodos automatizados automatizados ...................... .................................. ....................... ..................... .......... Ejercicios Ejercicios propuestos propuestos ...................... .................................. ....................... ...................... .............. ...
21 22 22 31 36 41 43 44 48 64
...................................... 73 CAPITULO 4: ETAPA DE PRESENTACIÓN DE DATOS .... 4.1. Representación Representación tabular ............................ .......................................... ............................ .............. 4.1.1. Cuadros Cuadros estadísticos estadísticos ............... ....................... ................ ................ ................ ........... ... 4.1.2. Partes Partes de un cuadro estadís estadístico tico ........ ............. .......... .......... ......... ......... ........ ... 4.1.3. 4.1.3. Tipos Tipos de de tablas tablas estadís estadística ticass ......... ............... ............ ............ ........... ........... .......... A. De acuerdo acuerdo al uso ....... .......... ...... ....... ....... ...... ...... ...... ...... ...... ...... ...... ....... ....... ..... 1. Tabla Tabla general general o de de referen referencia cia ...... ........... .......... .......... .......... ......... 2. Tabla Tabla de de texto texto o resume resumenn ......... .............. ......... ......... .......... ......... ........ B. Desd Desdee el punt puntoo de vist vistaa de su su dispo disposic sición ión ...... ......... ...... ....... 1. Tabla Tablass de una una entrada entrada o entra entrada da simple simple ....... ............ ....... 2. Tablas Tablas de dos dos entrad entradas as o entrada entrada doble doble ...... ........... ......... 3. Tablas Tablas complej complejas as ........... ............... ........ ........ ........ ........ ........ ........ ........ ....... ...
73 73 74 77 77 77 77 78 78 80 81
Pág. 4.2. Representación gráfica ........................................................ 4.2.1. Partes de un gráfico .................................................... 4.2.2. Tipo de gráficos estadísticos ....................................... A. Cuando los datos están a nivel nom. y ordinal......... 1. Gráfico de barras ............................................... a. Gráfico de barra simple ................................ b. Gráfico de barras compuestas ....................... c. Gráfico de barras superpuestas ..................... 2. Gráfico de sectores o pastel (circulares) ............ 3. Gráfico lineal o tendencia .................................. 4. Gráfico de pictograma o pictográfos .................. B. Cuando los datos son medidos a nivel de intervalo . 1. Histograma de frecuencias ................................. 2. Polígono de frecuencias ..................................... 3. Polígono de frecuencias acumuladas u ojivas .... 4. Diagrama de frecuencias (bastones) ..................
82 83 84 84 84 84 87 89 91 94 99 101 101 102 104 108
CAPITULO 5: ESTADÍGRAFOS DE POSICIÓN .................................. 111 5.1. Introducción ........................................................................ 5.2. Medidas o estadígrafos de tendencia central ......................... 5.2.1. Media aritmética o media ........................................... A. Media aritmética con datos no agrupados .............. B. Media aritmética con datos agrupados .................. 5.2.2. Media aritmética, tabulados de variable discreta ........ 5.2.3. Métodos abreviados de cálculo de la media aritmética . A. Método abreviado .................................................. B. Método codificado ................................................. 5.2.4. Media aritmética ponderada ...................................... 5.2.5. Media geométrica ...................................................... A. Media geométrica con datos no agrupados ............ B. Media geométrica con datos agrupados ................ 5.2.6. Media armónica ........................................................ A. Media armónica con datos no agrupados ............... B. Media armónica con datos agrupados ................... 5.2.7. Media cuadrática ....................................................... A. Media cuadrática con datos no agrupados ..............
111 112 112 112 113 115 119 120 121 123 126 126 127 130 130 131 133 133
Pág. B. Media cuadrática con datos agrupados ................. 5.2.8. La mediana (Me, Me(x)) ........................................... A. Mediana con datos no agrupados .......................... B. Mediana con datos agrupados .............................. 1. Mediana para variable discreta ......................... 2. Median para variable contínua ......................... Propiedades de la mediana ........................................ 5.2.9. La moda (Md, Mo, Xmo) ........................................... A. Moda con datos no agrupados ............................... B. Moda con datos agrupados ................................... 1. Moda para variable discreta .............................. 2. Moda para variable contínua ............................ Ventajas y desventajas de la moda .............................. 5.2.10. Relación entre moda, media y mediana ........................... A. Distribuciones simétricas .......................................... B. Distribuciones Asimétricas ........................................ i. Asimetría a la derecha o positiva ........................... ii. Asimetría a la izquierda o negativa ....................... 5.3. Medidas de posición o cuantiles ............................................... 5.3.1. Cuantiles ........................................................................ A. Primer cuartil (Q 1) .................................................... Q1 con datos no agrupados ........................................ Q1 con datos agrupados ............................................. B. Segundo cuartil (Q 2) ................................................... C. Tercer cuartil (Q 3) ...................................................... Q3 con datos no agrupados ......................................... Q3 con datos agrupados .............................................. 5.3.2. Deciles (D i) ..................................................................... A. Deciles con datos no agrupados ................................. B. Deciles con datos agrupados ....................................... 5.3.3. Percentiles o centilas (D i)................................................. 5.4. Métodos automatizados ............................................................ Ejercicios Propuestos ................................................................
134 135 136 138 138 142 147 149 149 151 151 152 156 157 157 157 157 157 158 158 159 159 161 164 164 164 166 170 170 172 180 188 194
CAPITULO 6: ESTADÍGRAFOS DE DISPERSIÓN .............................. 197 6.1. Introducción ............................................................................ 197 6.2. Recorrido o rango (R) .............................................................. 198
Pág. 6.2.1. Recorrido con datos no agrupados ................................... 6.2.2. Recorrido con datos agrupados ........................................ 6.3. Recorrido intercuartílico (RI) .................................................... 6.4. Recorrido interdecil (RID) ........................................................ 6.5. El rango semi-intercuartil (Q) ................................................... 6.6. La desviación media (DM) ........................................................ 6.6.1. Desviación media con datos no agrupados ....................... 6.6.2. Desviación media con datos agrupados ............................ Ventajas y desventajas ............................................................... 6.7. Desviación mediana absoluta (DMe) ......................................... 6.7.1. DMe con datos no agrupados .......................................... 6.7.2. DMe con datos agrupados ............................................... 6.8. La varianza .............................................................................. 6.8.1. Varianza poblacional ....................................................... 6.8.2. Varianza muestral ........................................................... A. Varianza para datos no agrupados .............................. B. Varianza para datos agrupados ................................... 1. Varianza con variable discreta ............................... 2. Varianza con datos tabulados por intervalos ........... Propiedades de la varianza .............................................. 6.9. Componentes de varianza ........................................................ 6.9.1. Intravarianza .................................................................. 6.9.2. Intervarianza ................................................................... 6.10 Métodos abreviados de cálculo de la varianza .......................... 6.10.1. Método abreviado .......................................................... 6.10.2. Método codificado o tipificado ...................................... 6.11 Desviación estándar o desviación típica ................................... 6.11.1. Desviación estándar con datos no agrupados ................. 6.11.2. Desviación estándar con datos agrupados ...................... Propiedades de la desviación estándar ........................... Ventajas de la desviación estándar ................................. 6.12 Error estándar (E.S.) ............................................................... 6.13 Corrección Sheppard ............................................................... 6.14 Medidas de dispersión relativa ................................................ 6.14.1. Coeficiente de apertura (CA) ......................................... 6.14.2. Recorrido relativo (RR) ................................................. 6.14.3. Dispersión relativa (RIR) ...............................................
198 198 199 202 202 203 203 205 206 206 206 208 210 210 210 212 213 213 215 217 218 218 219 222 222 225 227 228 231 232 233 233 236 237 237 238 238
Pág. 6.15 Coeficiente de variación (CV) .................................................. 240 6.16 Momentos ................................................................................ 244 6.16.1. Momento respecto a un valor constante «a» ................... 244 A. Momento para datos no agrupados .............................. 244 B. Momento para datos agrupados ................................... 248 6.16.2. Momento con respecto al origen ..................................... 250 A. Momento con respecto al origen con datos no agrupad. 250 B. Momento con respecto al origen con datos agrupados .. 253 6.16.3. Momentos con respecto a la media aritmética ................. 255 A. Momentos: media aritmética para datos no agrupados . 255 B. Momentos: media aritmética para datos agrupados ...... 258 6.16.4. Relaciones entre momentos ............................................ 260 6.17 Estadígrafos de deformación .................................................... 262 (Medidas de forma de la distribución) 6.17.1. Medidas de Asimetría (AS) ........................................... 262 6.17.2. Coeficiente de asimetría ................................................ 264 6.17.3. Coeficiente de asimetría de Pearson .............................. 264 6.17.4. Coeficiente de asimetría en función de los momentos .... 265 6.17.5. Coeficiente de asimetría en función de los cuartiles ....... 266 A. Coeficiente de asimetría cuartílico o de Bowley .......... 266 B. Coeficiente de asimetría en función de los percentiles . 267 6.18 Estadígrafos de Apuntamiento o Kurtosis ................................ 272 (Medidas de deformación o curtosis) 6.18.1. Kurtosis ......................................................................... 272 A. Leptokúrtica ............................................................... 272 B. Mesokúrtica ................................................................ 272 C. Platikúrtica ................................................................. 273 6.18.2. Medidas de la kurtosis ................................................... 273 A. Kurtosis en función de momentos ............................... 273 B. Kurtosis en función de cuantiles ................................. 274 6.19 Métodos automatizados (medidas de dispersión) ...................... 284 Ejercicios propuestos ................................................................ 287 BIBLIOGRAFÍA CITADA .............................................................. 299
1 CONCEPTOS BÁSICOS DE ESTADÍSTICA ¿Qué es Estadística? . La estadística es una ciencia que nos proporciona un con junto de métodos y procedimientos para recolección, clasificación (organización), análisis e interpretación del comportamiento de los datos para tomar decisiones con respecto a una característica materia de estudio o investigación. El término «estadística» también se emplea para designar un área de estudio, una disciplina. Por ejemplo, cuando se emplea esta palabra en el título de un libro o cuando nos referimos a los cursos de estadística de la currícula de una profesión, etc.
Etimología. La etimología de la palabra estadística no tiene un origen claro, por lo que hay varias teorías; unos dicen que proviene del griego STATERA que quiere decir balanza, otros del griego STATIZEIN que significa comprobar, otros del latín STATUS que indica situación y otros del alemán STAAT que quiere decir estado político.
-2-
V. Ibañez Q.
Conceptos Básicos de Estadística
Objetivos de la Estadística . La estadística tiene cuatro grandes objetivos: 1. Planificar y diseñar experimentos, es la manera de plantear un problema con el fin de obtener la información (encuestas, censos, etc.) 2. Describir la información obtenida tratando de ordenar para luego presentarla en cuadros, gráficos y si es posible reducir a unos pocos datos que la representan para luego interpretarlas (Estadísticas descriptivas). 3. El análisis científico, este es el objetivo fundamental de la Estadística, que significa realizar estudios acerca de la verificación de los resultados obtenidos tratando de contestar toda pregunta que podría surgir del problema fundamentándolo con pruebas razonables. Esto constituye la INFERENCIA ESTADÍSTICA, analizando el grado de error que podría cometerse al hacer inferencia a la vez que mide el grado de confiabilidad del estudio que se realice. 4. Predicción del futuro . Consiste en buscar la forma de obtener una estimación de lo desconocido del fenómeno en estudio, los alcances que podría tener a partir del análisis científico.
1.1. DIVISION DE LA ESTADÍSTICA La estadística se puede clasificar en dos campos grandes: Estadística Descriptiva y Estadística Inferencial.
A. Estadística Descriptiva o Deductiva. Es la parte de la estadística que trata solamente de recolección, clasificación, presentación, descripción y simplificación de los datos, es decir el objetivo es presentar la información en forma clara y comprensible, sin sacar conclusiones o inferencias de un grupo mayor. Los gráficos, tablas y mapas que muestra datos de tal forma que sean más fáciles de entender son todos ejemplos del uso de Estadística Descriptiva. Tablas Recolección de Datos
Crítica de los Datos
Presentación de los datos
ANÁLISIS DESCRIPTIVO Gráficas
Estadística Básica Aplicada a la Ganadería
-3-
B. Estadística Inferencial o Inductiva. La estadística inferencial es el conjunto de métodos o técnicas que posibilitan la generalización o toma de las decisiones en base a una información parcial obtenida mediante técnicas descriptivas. La Estadística inferencial es la que nos proporciona la teoría necesaria para inferir o estimar las leyes de una población partiendo de los resultados o conclusiones del análisis de una muestra.
P OB LA CI
muestreo
N
Estimación Inferencial
muestra
Campos de una investigación con Estadística 1
2
3
4
Compilación Reglas Organización Sistematizac. de datos Normas de datos de datos
5
Análisis X ,s,r
6
Interpretación de Resultados
7
Decisión Buena
8
Conclusión sólida
9
Inferencia a Población
Estadística Descriptiva
Estadística Inferencial
1.2. POBLACIÓN Y MUESTRA Población. Es el conjunto de todos los individuos, objetos u observaciones que poseen al menos una característica común susceptible de ser estudiada. Una población se define como la totalidad de valores posibles (mediciones o conteos) de una característica particular de un grupo especificado de objetos. Al
-4-
V. Ibañez Q.
Conceptos Básicos de Estadística
grupo especificado de objetos se llama un universo. Los términos población y universo, suelen usarse indistintamente.
n i ó c l a b o P
M u e s t r a
Inferencia estadística
Estadística descriptiva
Error
Probabilidades
Ejemplos: - Población de venta anuales de fibra de lana de alpacas en el Centro de Investigación y Producción La Raya. - Las edades de alpacas de la Raza Wacaya en el departamento de Puno. - La población ovina en el Perú. - Los ciudadanos de un país en edad de votar en las elecciones. - Volúmenes de descarga del río Ilave. - Población de puntajes de rendimiento en la lectura de todos los alumnos del primer nivel del sistema universitario. - Población de todos los posibles resultados cara y sello que se obtienen al arrojar una moneda un número indefinido de veces.
Estadística Básica Aplicada a la Ganadería
-5-
P O BL A CI N SE M EN T AL DE TO R O S.
N = 50
n=5 MUESTRA
La población puede clasificarse como finita o infinita, dependiendo del número de elementos que la forman.
Población Finita .- Una población finita es aquella que tiene un número limitado de elementos. Ejemplo: - Las estaturas de todos los estudiantes que actualmente estudian en las Universidades del Perú. - Alumnos matriculados enl a Universidad Nacional del Altiplano - Puno. - Todas las personas que compran teléfono celular.
Población Infinita .- Es aquella que no tiene límite o cotas, es decir, tiene un número infinito de elementos.
-6-
V. Ibañez Q.
Conceptos Básicos de Estadística
Ejemplo: - Calidad de todas las unidades producida mediante un proceso manufacturero. - Los peces del Lago Titicaca. - Los gases, los líquidos y algunos sólidos, tales como talco, puesto que las unidades no pueden identificarse ni contarse.
Muestra.- Es una parte o un subconjunto representativo de la población.
1.3. PARÁMETRO Y ESTADÍGRAFO. Parámetro.- Es una medida resumen que describe una característica de toda la población, es decir son los valores que se calculan a partir de la población. -
µ (Media
poblacional).
- σ2 (Varianza poblacional). - P (Proporción poblacional).
Estadístico o Estadígrafo.- Es una medida resumen que describe una característica de la muestra. - x (Media muestral) - s2 (Varianza muestral). - p (proporción muestral)
Estadística Básica Aplicada a la Ganadería - 7 -
2 PROCEDIMIENTOS Y MÉTODOS DE RECOLECCIÓN DE DATOS En esta etapa empieza la ejecución de la investigación; es decir, el investigador pone en marcha la etapa de planeamiento. A través de la recolección, se obtiene los datos que se requieren para alcanzar los objetivos y demostrar las hipótesis de la investigación. La obtención de los datos se hace teniendo en cuenta los siguientes procedimiento:
2.1. FUENTES DE INFORMACIÓN. Es el lugar, la institución, la persona donde están los datos que se necesitan para cada una de las variables o aspectos de la investigación. Cuando se recoge información es posible que los datos ya hayan sido obtenidos de las unidades de
-8-
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
observación y publicados o registrados por otros, o que los datos se tengan que obtener directamente de las unidades de observación en forma personal. Según los casos, estamos hablando de las fuentes de información, que son los siguientes:
2.1.1. Fuentes de datos internos. Es la información recopilada por la empresa (o la institución) de los resultados de su propia gestión. Estas pueden ser por ejemplo: - Reportes financieros, - Reportes de operaciones, que están dadas por la información de la producción, ventas, compras, estados de pérdidas y ganancias.
2.1.2. Fuentes de datos externos. Son informaciones estadísticas elaboradas por instituciones de investigación, ya sean públicos o privados, o dependencias especializadas, requeridos a nivel nacional o sectorial.
2.1.3. Fuentes Primarias. Si la información se obtiene directamente de la misma persona o entidad utilizando ciertas técnicas (entrevista, cuestionario, etc.). Ejemplos: - Aplicar un test a un grupo de estudiantes para determinar el nivel intelectual. - Llevar a cabo una encuesta para conocer la situación socio-económica de los pobladores del Asentamiento Humano «Y». - Los resultados de los censos de población y vivienda, censo agropecuario, censo económico, índices de precios al consumidor, etc. - Observar la reacción de un grupo de pacientes con determinada enfermedad.
2.1.4. Fuentes Secundarias. Si la información a obtener, ya ha sido recopilada y elaborada por otras personas o instituciones de los datos de fuentes primarias.
Estadística Básica Aplicada a la Ganadería - 9 -
Ejemplo: Este tipo de información se puede encontrar en los informes estadísticos de las Instituciones Públicas y Privadas. En el Perú, el Instituto Nacional de Estadística e Informática (INEI), publica boletines estadísticos con respecto a la producción, inversión, población, migración, salud. Ésta institución se encarga de formular y desarrollar el sistema Estadístico Nacional; además levanta los censos nacionales de población y vivienda cada 10 años y los censos económicos cada 10 años, etc. Otras publicaciones pueden ser la Tesis, Anuarios, Series de Compendios, Revistas, Folletos, etc. El Ministerio de Industria Turismo e Integración. Encargada de elaborar estadísticas como: índice de volumen físico de producción, producto bruto interno (PBI), etc. El Ministerio de Economía y Finanzas. Encarga de elaborar estadísticas de comercio al por mayor y al por menor, comercio exterior (importación y exportación), etc.
2.2. SISTEMA DE RECOLECCIÓN. Los datos pueden ser recogidos a través de:
2.2.1. Registros . Mediante los registros se anotan los datos en forma regular, permanente y obligatoria, obteniendo la información total y sistemática de los hechos ocurridos. Ejemplo: - Registros genealógicos de alpacas. - Registro de parición de las alpacas de la raza Huacaya. - Registro de contribuyentes. - Registro Electoral. - Registro Civil, etc.
- 10 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
2.2.1. Encuestas . Es la recolección de datos en forma temporal (a través de una muestra) y puede ser:
Censal. Cuando abarca a toda la población en estudio. Ejemplo: - Censo Nacional de Población y Vivienda de una localidad o de un país. - Censo Nacional Agropecuario de un país.
Muestral. Cuando abarca una parte de la población en estudio. Ejemplo: - Encuesta fecundidad - Encuesta de nutrición. - Encuesta de las Enfermedades Diarreícas Agudas de un Hospital, etc.
2.3. TÉCNICAS DE RECOLECCIÓN. Existen muchos procedimientos para recoger la información, entre los cuales el investigador debe elegir los que se adapten mejor a las circunstancias o al tipo de investigación. Entre las técnicas más usuales tenemos: - Observación. - La técnica documental. - Entrevista. - El cuestionario. - Preparación del cuestionario y formulario.
2.3.1. Observación. La observación es el método básico que se utiliza para adquirir información acerca del mundo que nos rodea, y por lo tanto, constituye la técnica primordial de la investigación científica.
Estadística Básica Aplicada a la Ganadería - 11 -
Tipos de observación: a) Según el lugar o ámbito donde se encuentran los datos, se tienen: - Observación documental, cuando los datos son recogidos en manuscritos o impresos. - Observación de campo, que puede ser observación de monumentos de campo y observación de conductas. b) Según como se relaciona el investigador con el objeto de estudio; como: - Observación directa; cuando el investigador puede recoger y observar datos mediante su propia observación, obtener información del comportamiento tal como ocurre. - Observación indirecta; cuando el investigador verifica los datos que ha tomado de otros, aquí el investigador no está presente en el momento de la ocurrencia del fenómeno. - Observación no participante; cuando el investigador extrae sus daatos, pero sin una participación en los acontecimientos de la vida del grupo que estudia. - Observación participante o activa; cuando el investigador, de una u otra manera, se introduce y actúa en el grupo observado, de modo que se le acepta como miembro, y es identificado como observador. c) Según los medios utilizados, se tiene: - La observación no estructura; asistemática y libre, aquí los hechos se observan al natural, en forma espontánea, en el momento mismo, que en muchas de las veces puede sorprender al observador. - La observación estructurada; sistemática o regulada, aquí se tiene un plan específico para la realización de las observaciiones, para lo cual se recurre al empleo de instrumentos o guías para la recopilación de datos.
- 12 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
2.3.2. La técnica documental . La técnica documental es un tipo de observación que recopila o busca sus datos en documentos, fuentes escritas o gráficas de todo tipo. En los documentos se tienen: - Documentos académicos, constituido por la bibliografía más importante para conocer el estado del conocimiento de una ciencia. - Actas e informes, donde las actas son documentos que recogen lo ocurrido en el momento mismo en que está pasando; en tanto que los informes son documentos escritos después de ocurrido el acontecimiento. - Documentos personales, como las autobiografías, darios, cartas, historias de vidas y estudios de casos. - Fotografías, planos, videos, etc.
2.3.3. Entrevista . La entrevista es una situación de interrelación o diálogo entre personas es una técnica donde una persona llamada entrevistador, encuestador o empadronador solicita al entrevistado, le proporciona algunos datos o información. La entrevista es un diálogo intencionado entre personas. El éxito de la entrevista como técnica de recolección, depende de la eficiencia del trabajo del entrevistador. La entrevista como técnica de recolección, presenta diversas modalidades, como: - La entrevista asistemática o libre. - Entrevista estructura, en la cual se precisa previamente los puntos interrogar, existe un libreto o cuestionario. - Entrevista focalizada, donde la interrogación se centra alrededor de un solo tema específico. - Entrevista simultánea, cuando los entrevistados son varios al mismo tiempo. - Entrevista sucesiva, cuando son varias entrevistas, pero en diveros momentos.
Estadística Básica Aplicada a la Ganadería - 13 -
2.3.4. El cuestioanrio. El cuestionario es un instrumento constituído por un conjunto de preguntas sistemáticamente elaboradas, que se formulan al encuestado o entrevistado, con el propósito de obtener los datos de las variables consideradas en el estudio. Cuando las preguntas se organian y se imprimen, se obtiene el formulario o cédula , que es el instrumento que se utiliza para registrar las respuestas o datos. La elaboración del cuestionario requiere de un conocimiento previo del fenómeno, tener precisado cuáles son las unidades de análisis y qué aspectos interesa estudiar. El cuestionario debe ser adaptado a las necesidades de la investigación y a las características del grupo que se estudia, su estructura y su forma deben estar cuidadosamente elaboradas, la redacción de las preguntas requiere de una experiencia y para comprobar su comprensión, es recomendable someter a prueba todo tipo de cuestionario.
2.3.5. Preparación del cuestionario y formulario . La preparación y presentación del cuestionario supone elaborar el formulario, que es el diseño del documento donde se registran los datos referentes a la unidad de investigación, permite obtener los datos para llenar los cuadros estadísticos establecidos. Su preparación se efectúa durante la fase del planeamiento de la encuesta, después de que están definidos aquellos aspectos que son fundamentales para conseguir información de buena calidad y fácil de procesar. A. Criterios para preparar el cuestionario y el formulario. - Objetivos de la investigación. - Sistema de variables. - Características del informante. - Tiempo disponible para efectuar la recolección. - Técnica de recolección. - Procedimiento de elaboración. B. Características formales del cuestionario y el formulario. - Forma y tamaño del formulario. - Calidad del papel del formulario. - Tipo y color de la impresión. - Tipo de archivo.
- 14 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
C. Formas y clases de preguntas. Existen algunas clases de preguntas que se utilizan con mayor frecuencia en la construcción de cuestionario. - Preguntas abiertas , llamadas también ilimitadas, son aquellas que el investigado responde con su propio vocabulario, sin que se le ponga alguna alternativa, conjunto de palabras o frases. Ejemplo:
Describe el fenotipo de un animal. Describa el sistema de manejo que realiza.
- Preguntas cerradas dicotómicas , aquellas que sólo pueden responderse por un SI o NO, o simplemente cuando sólo tienen dos alternativas. Ejemplo: ¿Sabe leer? Si ( ) 1, No ( ) 2 Sexo: Masculino ( ) 1 Femenino ( ) 1. ¿Trabaja actualmente? Si ( ) 1, No ( ) 2. - Preguntas cerradas de elección múltiple , son aquellos que proponen un conjunto de alternativas en la respuesta. Ejemplo:
- Categoría Docente: Principal Asociado Auxiliar Jefe de Práctica - Clases de las alpacas:
Crías Tuis Jóvenes Adultos
()1 ()2 ()3 ()4 ()1 ()2 ()3 ()4
- Preguntas literales , son preguntas abiertas cuyas respuestas se expresan con una palabra o cantidad. Ejemplo:
¿Cuál es su estado civil? ¿Cuál es su ocupación actual? Lugar de nacimiento.
Estadística Básica Aplicada a la Ganadería - 15 -
- Preguntas con respuesta en grados de intensidad , cuyas respuestas indican un grado de intensidad dentro de una escala creciente o decreciente, ascendente o descendente. Hay una abanico cerrado, donde el encuestado tiene que elegir una de las posibilidades. Ejemplo: La gestión del Rector de la Universidad es: Muy buena ( ), Buena ( ), Regular ( ), Mala ( ), No Opina ( ).
2.4. TIPOS DE DATOS. La información recopilada de las fuentes primarias o secundarias, puede estar referida a características cualitativas o cuantitativas.
Variable : Es una característica de la población o fenómeno que puede tomar diferentes valores de un conjunto de magnitudes diferentes. Ejemplo: Las horas extras trabajadas por los trabajadores de la UNA y los valores de esta variable vendrían dadas por las diferentes horas trabajados por cada traba jador fuera de la jornada normal: ninguna, una, dos, tres, .....,. Las variables se denotan por X, Y, etc. Las variables se clasifican en: CUALITATIVAS y CUANTITATIVAS.
2.4.1. Según la naturaleza de la variable. A. Variable Cualitativa . Expresan una cualidad, característica, atributo o condición social. Es decir, son variables cuyos valores son cualidades que presenta la población o son aquellas cuyo dominio de variación son objeto de clasificación. Ejemplo: - La variable «raza de vacunos»: Brown Swiss, Aberdeen Angus, Holsteín, etc.
- 16 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
- La variable «raza de alpacas» : Wacaya, Suris. - La variable «colores de lana alpaca»: Blanco, LF, Café, Negro. - Sexo: Masculino, femenino. Las variables cualitativas se clasifican en: 1) Nominales y 2) Ordinales.
1. Variable Cualitativa Nominal: Son aquellas que establecen la distinción de los elementos en las categorías sin implicar orden entre ellas. Ejemplos: - Color de cabello: Negro, Castaño, pelirrojo, rubio. - Color de ojos: Marrón, gris, verde, azul. - Razas de ovinos: Corriedale, Junín, Merino. - Estado civil: soltero, casado, viudo, divorciado. - Partidos políticos: Conservador, liberal, independiente y socialista. - En el sexo: machos y hembras. - Razas de conejos: Angora, California, Nueva Zelandía, etc.
2. Variable Cualitativa Ordinal: Son variables que expresan orden, de acuerdo a una característica medible cualitativa, es decir son aquellas que agrupan a los objetos, individuos, en categorías ordenadas, para establecer relaciones comparativas. Es decir, son suceptibles de ordenación pero no de medición cuantitativas. Ejemplos: - Nivel de instrucción: Analfabeto, primaria, secundaria y superior. - Nivel socio-económico: Bajo, medio, alto. - La variable cualitativa de estudio: 1er., 2do, 3er, 4to, etc. - La clasificación de la lana: A, AA y AAA. - Clasificación de la sarna sarcóptica: Larva, ninfa y adultos.
Estadística Básica Aplicada a la Ganadería - 17 -
B. Variables cuantitativas. Es aquella variable que está asociada a una característica cuantitativa. Se obtienen como resultado de mediciones y conteos. Ejem Ejempl plo: o: - El El pes pesoo de de los los anim animal ales es.. - La frecuencia respiratoria de los animales. - El número de sarna sarcoptes de un animal. - El número de insectos de una planta. Las variables cuantitativas se clasifican en: Discretas Discretas y continuas.
1. Variable Discreta: Se expresan por números reales enteros positivos nunca en números o cantidades fraccionarias; son aquellas que surgen por el procedimiento de conteo. Ejem Ejempl plo: o:
- El El núm númer eroo de de hij hijos os po porr fam famil ilia ia.. - El número de vacas por establo. - El número de estudiantes de la F.M.V.Z. - El número de pollos de una granja avícola. - El número de conejos de una granja. - Número de nacidos vivos: 100, 150 y 200 niños. - Número de alumnos. 50, 80 y 100 alumnos.
2. Variable Contínua: Son aquellas que pueden tomar infinitos valores entre dos números, tomando cualquier valor dentro de su rango. Ejemplos: - Peso: 56.5, 58.7 y 60.0 kg. - Temperatura: 28.5°C, 32.0°C, 35.5°C - Estatura de los estudiantes de la UNA - Puno. - Las medidas de altura a la cruz en ovinos corriedale (cm). - Peso vivo (kg) al destete en ovinos del CIP - Chuquibambilla. - La frecuencia respiratoria a 3827 msnm. en vacunos Aberdeen Angus. - Rendimiento de papa obtenido de un determinado valle. - Nivel de colesterol de ciertos pacientes pacient es del Hospital MNB - Puno. La diferencia entre las variables cuantitativas y cualitativas, es que en el primer caso se puede calcular promedios, en cambio en
- 18 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
el segundo caso se calculan con porcentajes.
Nominal (cualidad) Variable cualitativa
Ordinal (categorizar)
TIPOS DE DATOS Discreta (conteo) Variable cuantitativa
Contínuas (intervalo)
2.4.1. Según la Escala de Medición. A. Variables Nominales. Son aquellas que establecen dos o más categorías que no guardan solución entre ellas. Ejemplo:
- Sexo: Masculino, femenino - Estado civil: Soltero, Casado, Viudo, Divorciado. - Ocupación: Enfermera, Mecánico, Artesano, etc. - Lugar de nacimiento: Puno, Juliaca, Arequipa, etc. - Raza: Blanca, Negra, Amarilla.
B. Variables Ordinales. Es el segundo nivel de medición donde la variable establece categorías jerarquizadas. Este nivel de medición no mide las magnitudes de las diferencias, pero sí permite apreciar que los valores asignados a los individuos caen más alto o bajo que otros. Ejemplo: - Nivel socio-económico: Alto, Medio, Bajo. - Orden de méritos: Primero, Segundo y Tercero.
Estadística Básica Aplicada a la Ganadería - 19 -
- Grado de instrucción: Primero, Segundo, Tercero, Cuarto y Quinto.
C. Variables de Intervalos. Son aquellas que establecen categorías que guardan entre sí un orden o jerarquía convencional y mantienen grados de distancia entre ellas, pero no tienen un origen común. Ejemplo: - Cociente de inteligencia. - Puntuación en una escala de calificación, - Temperatura, presión arterial, etc.
D. Variables de razón o proporción. Son aquellas que comprenden a todos los tipos anteriores, establecen categorías, orden, distancia y origen común cuyos valores se expresan como números reales. Ejemplo: - Edad: Una alpaca puede tener 6 años de edad. - pesos, estatura, producción anual, cantidad de accidentes, tiempo de reacción mental
- 20 -
V. Ibañez Q.
Procedimientos y Métodos de Recolección de Datos
CLASIFICACIÓN DE LAS VARIABLES SEGÚN SU NATURALEZA Escala de Medición:
NOMINAL CUALITATIVAS ORDINALES
ORDINAL VARIABLES
CUANTITATIVAS:
INTERVALO
- Discretas - Contínuas
R AZ AZ N O P R OP O P O RC RC I N
3 ETAPA DE ELABORACIÓN DE DATOS Una vez recogida la información, es necesario revisarla cuidadosamente y luego resumirla y presentarla convenientemente. En esta etapa de organización, se consideran tres pasos siguientes: - Revisión y corrección de la información recogida. - Presentación de la información en tablas de frecuencias.
3.1. REVISIÓN Y CORRECCIÓN DE LA INFORMACIÓN RECOGIDA. La revisión y la corrección de la información recolectada debe ser obligatoriamente el paso previo a la clasificación y automatización de los datos. Un corrector puede encontrar una o varias de las siguientes cosas que deberían ser corregidos o tratadas.
- 22 -
V. Ibañez Q.
Etapa de Elaboración de Datos
a. La escritura es demasiado pobre para leerla o la marca no esta colocada adecuadamente. b. Las respuestas son inconsistentes; cuando una respuesta está en conflicto con otra (es necesario volver al informante). c. Las respuestas son incompletas; se presentan respuestas sin contestar, realizar esfuerzos para obtener una respuesta. d. Se necesitan cálculos; si las cifras son reportadas en detalle, los cálculos deberían ser completados por el corrector.
3.2. TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS. Una vez aplicado una encuesta, es indispensable clasificarlos éstos datos para presentarlos en un cuadro o tabla resumen de las observaciones originales en una tabla de distribución de frecuencias o tabla de frecuencias de acuerdo a la clasificación de variables.
3.2.1. Variables cuantitativas contínuas (datos con números decimales). 1. Ordenar los datos en forma creciente o decreciente: X min, X2, X3, ..., Xmáx. 2. Determinación del rango (R). Se observa, cuál es el valor más alto (Xmáx) que se llamará límite superior y el valor más bajo (X mín), se le llamará límite inferior. El rango está dado por la diferencia del X máx menos el X mín.
R = Xmáx - Xmín
3. Encontrar el número aproximado de intervalos (NC), para esto existen varios criterios. No hay una fórmula exacta para calcular el número de intervalos de clase. Este número es determinado por tentativas y aproximaciones. Entre más datos se tengan, más intervalos de clase deben considerarse, aquí presentamos algunos criterios: i. Tomar un número arbitrario que sea mayor o igual a 5, y menor o igual a 16.
5 ≤ NC ≤ 16
Estadística Básica Aplicada a la Ganadería
- 23 -
ii. Método muy utilizado es la regla de Sturges: K = 1+3.3Log 10(n), n ≥ 10 . iii. Un procedimiento, no muy recomendado, es calculando cuando K = 5, si n < 25 y K = n , si n >25. iv. En la práctica se determina NC atendiendo a varios factores tales como: finalidad del estudio, grado de variabilidad de los datos, necesidad de efectuar comparaciones con otros estudios para mantener intervalos y su número. 4. Encontrar la amplitud de clase o intervalo de clase (C), para esto divídase el rango de las observaciones entre el número de intervalos de clase, esto es:
C=
R NC
5. Determinar el nuevo Rango: R’ = KxC ó R’ = NCxC, donde R’ debe ser mayor al rango encontrado de las observaciones. 6. Hallar la diferencia de Rangos: ∆x = R ' - R 7. Cálculo de límites de clase (se encontrará el límite inferior de la primera clase del intervalo y el límite superior del último intervalo de clase).
LCI = X mín −
∆x
2
(redondear al valor inmediato superior, aún cuando la parte decimal sea menor a 5).
LCS = X máx +
∆x
2
8. Una vez que se tiene los nuevos límites, se comienza a construir la tabla de la distribución de frecuencias por intervalos de clase, teniendo en cuenta que los valores sean mutuamente excluyentes. Las diferentes tablas de frecuencias que se pueden confeccionar para un conjunto de datos contínuos está dada en la siguiente tabla.
- 24 -
V. Ibañez Q.
Etapa de Elaboración de Datos
TABLA 3.1: DISTRIBUCIÓN DE FRECUENCIA. *
Y'i-1 - Y'i n i Ni Yi h i Hi h ix100 Hi x100 N
*
Y'0 - Y'1 n 1 N1 Y1 h 1 H1 h 1 x100 H1 x100 N Y'1- Y'2 Y'2 - Y'3 . . . Y'm-1 - Y'm Totales
*
n 2 N2 Y2 h 2 H2 h 2 x100 H2 x100 N n3 . . . nm n
N3 . . . n
Y3 . . . Ym
*
i
1 2
*
*
H i 100xH 1
i
100
*
*
*
*
H 1 100xH
1
h 3 H3 h 3 x100 H3 x100 N 3 H 2 100xH 2 . . . . . . . . . . . . . . . . . . . . . * * * h m 1 100xh m 100 N m H m 100xH m 1 100
EJEMPLO: Se recolectó 100 muestras representativas de vellón de color blanco de las alpacas Huacayas de la zona de Melgar de ambos sexos, de las edades 1, 2, 3, 4 y 5 años. El objetivo fue la determinación de los promedios de longitud de mecha (cm), longitud de fibra (cm) y el diámetro (micras), ésta información se analizó en el Lab. de la Facultad de Medicina Veterinaria y Zootecnia-UNA-Puno, los vellones podrían utilizarse para la producción de hilados en el proceso de peinado y cardado para la industría textil. Las muestras fueron tomadas de la región del costillar medio. La información se presenta a continuación para la variable longitud de mecha (cm). 6.4 3.7 7.1 8.5 8.6 7.4 7.5 8.1 7.1 8.3
8.8 6.9 11.0 13.0 13.9 12.3 11.4 14.5 12.0 11.4
16.9 13.4 11.3 13.4 10.3 12.9 8.0 8.9 6.4 12.3
12.0 8.3 11.6 7.4 11.6 7.6 14.0 6.5 9.1 7.1 15.6 7.5 14.6 6.3 12.8 10.8 17.3 9.8 14.9 13.0
13.4 10.0 10.3 9.5 15.1 10.8 8.5 11.5 9.5 5.0
2.3 5.4 4.0 11.3 12.1 6.3 6.4 9.0 11.9 11.1
13.1 5.0 11.8 10.4 7.5 9.4 10.3 9.4 14.6 5.3 6.5 14.3 9.8 11.8 15.1 7.9 12.8 16.0 12.3 8.3 11.3 8.0 9.4 14.4 6.0 11.3 14.6 13.1 9.5 13.0
Estadística Básica Aplicada a la Ganadería
- 25 -
a. Construya la tabla de distribución de frecuencias para la variable Longitud de mecha (cm.). SOLUCIÓN: 1. Ordenar los datos en forma ascendente. 2. Determinación del rango (R): R = X máx - X mín = 17.3 - 2.3 = 15.0 3. Encontrar el número aproximado de intervalos (NC), usaremos la fórmula de Sturges: K = 1+3.3Log 10(1n) = 1 + 3.3Log(100) = 7.6 ~ 8 4. Encontrar la amplitud de clase o intervalo de clase (C): C=
R NC
=
15.0 . ≈ 19 . = 1875 8
5. Determinar el nuevo Rango: R’ = KxC=8x1.9 = 15.2 6. Hallar la diferencia de Rangos: ∆x = R’ - R = 15.2 - 15.0 = 0.2 7. Cálculo de límites de clase:
LCI = X mín − LCS = X máx +
2.3 2.2
∆x
= 2.3 −
0.2 = 2.2 2
= 17.3 +
0.2 = 17.4 2
2 ∆x
2
17.3 17.4
- 26 -
V. Ibañez Q.
Etapa de Elaboración de Datos
8. Asignar cada dato obtenido al intervalo de clase correspondiente. TABLA 3.2: DISTRIBUCIÓN DE LAS FRECUENCIAS ABSOLUTAS. Long. De mecha
Y'i-1 - Y'i Conteo o Paloteo 2.2 - 4.1 2.3 3.7 4.0 4.1 - 6.0 5.0 5.4 5.3 5.0 6.0 - 7.9 6.4 7.4 7.5 7.1 7.6 6.5 6.5 7.1 7.4 7.5 6.3 7.5 6.3 6.4 7.1 6.4 6.9 6.0 7.9 - 9.8 8.3 9.4 8.5 8.6 8.0 8.3 8.1 8.9 9.0 9.4 8.3 9.5 8.8 9.4 9.5 9.1 7.9 8.5 8.0 9.5 9.8 - 11.7 11.3 11.3 10.3 10.8 9.8 11.3 11.1 11.6 10.0 10.4 11.0 11.6 10.3 10.3 9.8 10.8 11.4 11.3 11.5 11.4 11.7 - 13.6 13.4 13.4 12.1 11.8 12.9 12.8 11.9 12.3 13.0 12.0 13.4 13.1 11.8 13.0 12.3 12.3 12.8 12.0 13.1 13.0 13.6 - 15.5 14.6 14.0 14.3 13.9 15.1 15.1 14.6 14.5 14.4 14.6 14.9 15.5 - 17.4 16.9 15.6 16.0 17.3 Total
ni 3 4 18 20 20 20 11 4 100
Completando la tabla de distribución de frecuencias se tiene: TABLA 3.3: DISTRIBUCIÓN DE FRECUENCIA DE LA LONGITUD DE MECHA (cm) EN ALPACAS DE COLOR BLANCO DE LA ZONA DE MELGAR [Y'i-1 - Y'i 2.2 - 4.1 4.1 - 6.0 6.0 - 7.9 7.9 - 9.8 9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
ni 3 4 18 20 20 20 11 4 100
Ni 3 7 25 45 65 85 96 100
Yi 3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
hi 0.03 0.04 0.18 0.20 0.20 0.20 0.11 0.04 1
Hi hix100 Hix100 0.03 3 3 0.07 4 7 0.25 18 25 0.45 20 45 0.65 20 65 0.85 20 85 0.96 11 96 1 4 100 100
*
Ni 100 97 93 75 55 35 15 4
*
*
H i 100xH i 1.00 100 0.97 97 0.93 93 0.75 75 0.55 55 0.35 35 0.15 15 0.04 4
INTERPRETACIÓN: Se tiene reporte para la variable de longitud de mecha (cm) por Villarroel (1963), quién determinó que la longitud de mecha mínimo es 7.6 cm. para el proceso de peinado y cardado en vellones de alpaca, además indica que se puede aceptarse normalmente hasta un 30% de los vellones de una esquila de alpacas para el sistema de cardado. Entonces interpretando en nuestro ejemplo de aplicación podemos indicar lo siguiente:
Estadística Básica Aplicada a la Ganadería
- 27 -
n2 = 4 muestras de vellón miden mayor a 4.1 cm. de longitud de mecha y menor a 6.0 cm, de acuerdo al reporte de Villarroel está fuera del mínimo requerido para el peinado y cardado. n4 = 20 muestras de vellón miden mayor o igual a 7.9 cm. de longitud de mecha y menor a 9.8 cm, que estaría permitido para el peinado y cardado. n7 = 11 muestras de vellón miden mayor o igual a 13.6 cm. de longitud de mecha y menor a 15.5 cm, en este intervalo posiblemente los vellones corresponden a los animales de mayor edad. N2 = 7 muestras de longitud de mecha (cm) miden menos de 6.0 cm. h3x100 = 18, es el porcentaje de muestras de vellón que miden 6.0 cm. o más, pero menos de 7.9 cm. h4 = 0.20, es la proporción de muestras de vellón que miden 7.9 cm. o más, pero menos de 9.8 cm. N*3 = 93, es el número de muestras de vellón que miden por lo menos 6.0 cm. H2 = 0.07, es la proporción de muestras de vellón que miden menos de 6.0 cm. H*2 = 0.97, es la proporción de muestras de vellón que miden por lo menos 4.1 cm.
Terminología usada en la construcción de la distribución de Frecuencias. 1. CLASE.- Se llama clase a cada uno de los intervalos de clase o grupos de datos en las que se distribuye el total de observaciones. Xmáx = máx{X/i = 1,2,3, ..., n} Xmín = mín{X/i = 1,2,3, ..., n} 2. INTERVALO DE CLASE.- Es el ancho o magnitud dentro de una clase, cuyos datos se encuentran por un límite inferior y un límite superior. Sea «m» el número de clases y Y’ 1, Y’2, Y’3, ...., Y’m, los extremos o límites de los intervalos de clase, entonces: Y’ i-1-Y’i, i = 1,2,3, ...., m.
- 28 -
V. Ibañez Q.
Etapa de Elaboración de Datos
Ejemplo: 2.2 ↔ 4.1, 4.1 ↔ 6.0, .... , 15.5 ↔ 17.4 3. INTERVALO ENTRE CLASES.- Es la magnitud o ancho de clase a clase y se estima restando del límite superior, el límite inferior de cada intervalo de clase. Ejemplo: 17.4 - 15.5 = 1.9 ó 13.6 - 11.7 = 1.9, etc. 11.7 - 9.8 = 1.9 4. MARCAS DE CLASE Ó PUNTOS MEDIOS (Y i).- Es el punto medio de cada intervalo de clase. Se obtiene sumando los dos puntos (límite inferior y límite superior) de un intervalo de clase y luego dividido entre dos. Es denotado por «Yi», i = 1,2,3, ... , m ó simplemente:
Yi
=
Y' i −1 + Y'i , i = 1,2, ... , m. 2
Ejemplo: 2.2 + 4.1 Y1 = . , Y2 = 315 2
=
4.1+ 6.0 155 . +174 . = 1645 . = 5.05 , ......., Y8 = 2 2
5. FRECUENCIA ABSOLUTA (n i).- Es el número de veces una observación o varios datos numéricos se repite, es decir, es el número de observaciones del conjunto original que pertenece a dicha clase. TABLA 3.4: DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS. [Y'i-1 - Y'i > Conteo, paloteo Frec. Abs oluta (ni ) 2.2 - 4.1 /// n1 = 3 4.1 - 6.0 //// n2 = 4 6.0 - 7.9 /// n3 = 18 7.9 - 9.8 n4 = 20 9.8 - 11.7 n5 = 20 11.7 - 13.6 n6 = 20 13.6 - 15.5 / n7 = 11 15.5 - 17.4 //// n8 = 4 Totales n = 100
Estadística Básica Aplicada a la Ganadería
- 29 -
6. FRECUENCIA ABSOLUTA ACUMULADA (N i).- Es la acumulación del valor de las frecuencias absolutas en forma sucesiva, comenzando de la parte inferior de la distribución. i
Ni
= n1 + n 2 +
+ ni = ∑ n j j=1
Ejemplo: N1 = n 1 = 3, es el número de muestras de vellón que miden menores a 4.1cm. N2 = n 1 + n 2 = 3 + 4 = 7 N3 = n 1 + n 2 + n 3 = 3 + 4 + 18 = 25 N4 = n 1 + n 2 + n 3 + n 4= 3 + 4 + 18 + 20 = 45 N5 = n 1 + n 2 + n 3 + n 4 + n 5 = 3 + 4 + 18 + 20 + 20 = 65 N6 = n 1 + n 2 + n 3 + n 4 + n 5 + n 6 = 3 + 4 + 18 + 20 + 20 + 20 = 85 N7 = n 1 + n 2 + n 3 + n 4 + n5 + n 6 + n 7 = 3 + 4 + 18 + 20 + 20 + 20 + 11 = 96 N8 = n = 100 7. FRECUENCIA RELATIVA (h i).- Es el valor relativo que toma la frecuencia absoluta, se estima dividiendo la frecuencia de cada intervalo de clase entre la sumatoria total de las frecuencias.
hi
=
ni , i = 1,2, n
, m ó hi
=
ni m
∑ ni i =1
Ejemplo:
h1 =
n1 n
=
3 = 0.03 , prop. de muestras de vellón que miden menos de 4.1 cm. 100
h2
=
n2 n
=
4 = 0.04 100
h3 =
n3 n
=
18 = 018 . , prop. de muestras de vellón que miden 6 cm o más, pero 100 menos de 7.9cm.
.... = .... = ...... = ......
h8 =
n8 n
=
4 = 0.04 100
- 30 -
V. Ibañez Q.
Etapa de Elaboración de Datos
8. FRECUENCIA RELATIVA ACUMULADA (H i).- Es la agrupación o acumulación de las frecuencias relativas en forma ascendente y sucesiva, comenzando de la parte inferior de la distribución. i
Hi
= h1 + h 2 +
+ hm = ∑ h j j=1
Ejemplo: H1 = 0.03 H2 = h1 + h2 = 0.03 + 0.04 = 0.07 H3 = h1 + h2 + h3 = 0.03 + 0.04 + 0.18 = 0.25 H4 = h1 + h2 + h3 + h4= 0.03 + 0.04 + 0.18 +0.20 = 0.45 H5 = h1 + h2 + h 3 + h4 + h 5=0.03 + 0.04 + 0.18 + 0.20 + 0.20 = 0.65 H6 = h1 + h2 + h3 + h4 + h5 + h6 = 0.03 + 0.04 + 0.18 + 0.20 + 0.20+0.20 = 0.85 H7 = h1+h2+h3+h4+h5+h6+h7 = 0.03+0.04+0.18+0.20+0.20+0.20+0.11 = 0.96 H8=h1+h2+h3+h4+h5+h6+h7+h8=0.03+0.04+0.18+0.20+0.20+0.20+0.11+0.04 =1.0 9. FRECUENCIA ABSOLUTA ACUMULADA «mayor o igual que» (N *i).- Es el número de observaciones mayores o iguales que el extremo inferior del intervalo de clase i-ésimo, es decir mayor o igual a Y’ i-1. * i
N
m
= n1 + ni +1 +
+ nm = ∑ n j j=1
Ejemplo: N*1 = n1 + n2 + n3 + n4 + n5 + n 6 + n7 + n 8= n = 100 N*2 = n 2 + n3 + n4 + n5 + n6 + n7 + n8= 4 + 18 + 20 +20 + 20 + 11 + 4 = 97 N*3 = n 3 + n4 + n5 + n6 + n7 + n8= 18 + 20 + 20 + 20 + 11 + 4 = 93 N*4 = n 4 + n5 + n6 + n7 + n8= 20 + 20 + 20 + 11 + 4 = 75 N*5 = n 5 + n6 + n7 + n8= 20 + 20 + 11 + 4 = 55 N*6 = n 6 + n7 + n8= 20 + 11 + 4 = 35 N*7 = n 7 + n8= 11 + 4 = 15 N*8 = n8= 4 10. FRECUENCIA RELATIVA ACUMULADA (mayor o igual que) (H *i).- Es la frecuencia relativa total correspondiente a los valores observados mayores o iguales al extremo inferior del intervalo de clase i-ésimo, mayor o igual que Y’i-1.
Estadística Básica Aplicada a la Ganadería * i
H
- 31 -
m
= h1 + hi +1 +
+ hm = ∑ h j j=1
Ejemplo: H*1 = h1 + h2 + h 3 + h4 + h 5 + h6 + h7 + h 8= 1.00 H*2 = h2+h3+h4+h5+h6+h7+h8= 0.04+0.18+0.20+0.20+0.20+0.11+0.04 = 0.97 H*3 = h3 + h 4 + h 5 + h 6 + h 7 +h8= 0.18 + 0.20 + 0.20 + 0.20+0.11+0.04 = 0.93 H*4 = h4 + h5 + h 6 + h7 + h 8= 0.20 + 0.20 + 0.20 + 0.11 + 0.04 = 0.75 H*5 = h5 + h6 + h 7 + h8= 0.20 + 0.20 + 0.11 + 0.04 = 0.55 H*6 = h6 + h7 + h 8= 0.20 + 0.11 + 0.04 = 0.35 H*7 = h7 + h8= 0.11 + 0.04 = 0.15 H*8 = h8= 0.04
3.2.2. Distribución de frecuencias con variables cuantitativas. (datos con números enteros). Este tipo de distribución, se utiliza cuando los datos toman valores numéricos enteros y para transformar este tipo de distribuciones a distribuciones de frecuencias, se construye con intervalos de clases no traslapados. PROCEDIMIENTO. 1. Ordenar los datos en forma creciente o decreciente: X min, X 2, X3, ..., Xmáx. 2. Determinación del rango (R): R = Xmáx - Xmín+ 1 (para intervalos de clase no traslapados). 3. Determinación del número de intervalos de clase (NC): Utilizando la regla de Sturges: K = 1+3.3Log 10(n), n ≥ 10 . 4. Encontrar la amplitud de clase o intervalo de clase (C), para esto divídase el rango de las observaciones entre el número de intervalos de clase, esto es:
C=
R NC
5. Determinar el nuevo Rango: R’ = KxC ó R’ = NCxC, donde 6. Hallar la diferencia de Rangos: ∆x = R ' - R 7. Determinación de los límites de clase:
R' ≥ R .
- 32 -
V. Ibañez Q.
Etapa de Elaboración de Datos
LCI = X mín − LCS = X máx +
∆x
2 ∆x
2
NOTA: Agregar C - 1 para obtener el límite superior de clase, para usar intervalos no traslapados y se añaden los demás intervalos. Para formar el primer intervalo de clase, se toma el valor mínimo de la distribución (LCI) y a ella le sumamos C-1, entonces LCS1. 8. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase.
EJEMPLO: Se dispone de 40 datos sobre el número de alpacas que posee un comunero del Sector Aymara que corresponde a 40 familias. Los datos se presentan a continuación: 57 40 52 80
56 60 54 94
92 76 77 83
88 106 82 84
87 73 77 64
96 67 113 120 74 118 76 100 118 108 132 82 103 128 102 118
76 93 78 96
n = 40
a) Construya la tabla de distribución de frecuencias. SOLUCION: 1. Ordenar los datos en forma creciente o decreciente: X min, X2, X3, ..., Xmáx. 2. Determinación del rango (R): R = Xmáx - Xmín+ 1= 132 - 40 + 1 = 93 (+1 por ser discreta). 3. Determinación del número de intervalos de clase (NC): Por Sturges K = 1+3.3Log 10(n) = 1 + 3.3Log(40) = 6.29 ~ K = 6 4. Encontrar la amplitud de clase o intervalo de clase (C): C=
R 93 . ≈ 16 = = 155 K 6
Estadística Básica Aplicada a la Ganadería
- 33 -
5. Determinar el nuevo Rango: R’ = KxC = 6x16 = 96. 6. Hallar la diferencia de Rangos: ∆x = R’ - R = 96 - 93 = 3, donde R' ≥ R . 7. Determinación de los límites de clase: ∆x 3 LCI = X mín − = 40 − = 38.5 ≈ 39 2 2 3 ∆x = 132 + = LCS = X máx + 1335 . ≈ 134 2 2 8. Determinación de la frecuencia de clase.- Consiste en determinar el número de observaciones que caen en cada intervalo de clase.
Observación: Para formar el primer intervalo de clase, se toma el valor mínimo de la distribución 39 a este valor se suma el (C-1) = 16 - 1 = 15, es decir 39+15 = 54, luego la primera clase es <39 - 54], la segunda clase es: 55+15 = 70, luego la segunda clase es <55 - 70], y así sucesivamente hasta formar el último intervalo de clase [119 - 134>. TABLA 3.5: DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS. Int. De clase 39 - 54 55 - 70 71 - 86 87 - 102 103 - 118 119 - 134 Totales
Valores que caen dentro del intervalo 40, 52, 54 57, 56, 60, 64, 67 80, 76, 77, 83, 82, 84, 73, 77, 74, 76, 82, 76, 78 94, 92, 88, 87, 96, 102, 100, 93, 96 106, 118, 103, 118, 108, 113, 118 128, 132, 120
ni 3 5 13 9 7 3 40
Convirtiendo los intervalos de clase a límites reales de clase, es decir encontrar los intervalos de clase traslapados, esto se logra de la siguiente manera:
- 34 -
V. Ibañez Q.
Etapa de Elaboración de Datos
TABLA 3.6: LÍMITES REALES DE CLASE Y FRECUENCIA ABSOLUTA. Int. De clase 38.5 - 54.5 54.5 - 70.5 70.5 - 86.5 86.5 - 102.5 102.5 - 118.5 118.5 - 134.5 Totales
Valores que caen dentro del intervalo 40, 52, 54 57, 56, 60, 64, 67 80, 76, 77, 83, 82, 84, 73, 77, 74, 76, 82, 76, 78 94, 92, 88, 87, 96, 102, 100, 93, 96 106, 118, 103, 118, 108, 113, 118 128, 132, 120
ni 3 5 13 9 7 3 40
En resumen, se tiene la tabla completa de la distribución de frecuencias: TABLA 3.7: DISTRIBUCIÓN DE FRECUENCIA DEL NÚMERO DE ALPACAS DEL SECTOR AYMARA. Int. De clase 39 - 54 55 - 70 71 - 86 87 - 102 103 - 118 119 - 134 Totales
ni 3 5 13 9 7 3 40
Ni 3 8 21 30 37 40
Yi 46.5 62.5 78.5 94.5 110.5 126.5
hi 0.075 0.125 0.325 0.225 0.175 0.075 1.000
Hi hix100 Hix100 0.075 7.5 7.5 0.200 12.5 20.0 0.525 32.5 52.5 0.750 22.5 75.0 0.925 17.5 92.5 1.000 7.5 100 100
*
Ni 40 37 32 19 10 3
*
*
H i 100xH i 1.000 100 0.925 92.5 0.800 80.0 0.475 47.5 0.250 25.0 0.075 7.5
INTERPRETACIÓN: n1 = 3 comuneros del sector aymara tienen mayor a 39 alpacas y menor o igual a 54 alpacas. n3 = 13 comuneros del sector aymara poseen mayores a 71 y menores o iguales a 86 alpacas. N2 = 8 comuneros del sector aymara poseen alpacas menores o igual a 70 alpacas. h3x100 = 32.5% es el porcentaje de comuneros que poseen alpacas entre 71 y 86.
Estadística Básica Aplicada a la Ganadería
- 35 -
h4 = 0.225 es la proporción de comuneros que poseen 87 o más, pero menor o igual 102 alpacas.
Otra forma de construir la tabla de distribución de frecuencias . 1. Ordenar los datos en forma ascendente o descendente: X min, X2, X3, ..., Xmáx. 2. Determinación del rango (R): R = Xmáx - Xmín+ 1= 132 - 40 = 92 3. Determinación del número de intervalos de clase (NC), por Sturges es: K = 1+3.3Log10(n) = 1 + 3.3Log(40) = 6.29 ~ K = 6 4. Encontrar la amplitud de clase o intervalo de clase (C): C=
R 92 . ≈ 16 = = 1533 K 6
5. Determinación del nuevo Rango: R’ = KxC = 6x16 = 96. 6. Cálculo del número de rango: ∆x = R’ - R = 96 - 92 = 4, donde R' ≥ R . Entonces: ∆x = 4
2 (Se le resta al X mín, esto es: 40 - 2 = 3 8 2 (S e l e s u ma a l X máx, e s t o es : 13 2 + 2 = 13 4
OBSERVACIÓN: a) Si la diferencia es número par, se reparte equitativamente entre el primero y último dato: Ejemplo: 2 (Se le resta al primer dato).
∆x = 4 2 (Se le suma al último dato)
b) Si la diferencia es un número impar, se reparte en dos números consecutivos el menor para el primer dato y el mayor para el último dato. Ejemplo: 1 (Se le resta al primer dato).
∆x =
3 2 (Se le suma al último dato)
- 36 -
V. Ibañez Q.
Etapa de Elaboración de Datos 2 (Se le resta al primer dato).
∆x =
5 3 (Se le suma al último dato) 3 (Se le resta al primer dato).
∆x =
7 4 (Se le suma al último dato)
7. Determinación de la frecuencia de clase, que consiste en determinar el número de observaciones que caen dentro de cada intervalo de clase.
EJEMPLO: Con la información del ejemplo anterior referente a los datos sobre el número de alpacas que posee un comunero del sector aymara que corresponde a 40 familias. Construir la tabla de distribución de frecuencias. TABLA 3.7: DISTRIBUCIÓN DE FRECUENCIA DE LAS ALPACAS DEL SECTOR AYMARA. Int. De clase 38 - 54 54 - 70 70 - 86 86 - 102 102 - 118 118 - 134 Totales
ni 2 6 13 9 6 4 40
Ni 2 8 21 30 36 40
Yi 46 62 78 94 110 126
hi 0.050 0.150 0.325 0.225 0.150 0.100 1.000
Hi hix100 Hix100 0.050 5.0 5.0 0.200 15.0 20.0 0.525 32.5 52.5 0.750 22.5 75.0 0.900 15.0 90.0 1.000 10.0 100 100
*
Ni 40 38 32 19 10 4
*
*
H i 100xH i 1.000 100 0.950 95.0 0.800 80.0 0.475 47.5 0.250 25.0 0.100 10.0
3.2.3. Distribución de frecuencias con variable cuantitativa discreta. Cuando los datos no constituyen en intervalos (son discontínuas), entonces el interés del investigador es conocer la distribución de esta característica a partir de la información recopilada. Entonces una distribución de frecuencias es un arreglo de los valores observados Y 1, Y2, .... , Y n de la variable Y (población) con sus respectivas frecuencias que se presenta a continuación:
Estadística Básica Aplicada a la Ganadería
- 37 -
TABLA 3.8: DISTRIBUCIÓN DE FRECUENCIA PARA LA VARIABLE DISCRETA. *
*
*
*
*
*
*
*
*
*
*
*
Valores de Yi
ni
Ni
hi
Hi hix100 Hix100 N i H i 100xH i
Y1
n1
N1
h1
H1 h1x100 H1x100 N 1 H 1 100xH 1
Y2
n2
N2
h2
H2 h2x100 H2x100 N 2 H 2 100xH 2
Y3 . . . Ym
n3 . . . nm
N3 h3 H3 h3x100 H3x100 N 3 H 3 100xH 3 . . . . . . . . . . . . . . . . . . . . . . . . * * * Nm hm Hm 100xhm Hmx100 N m H m 100xH m
m
Totales
∑ni = n i=1
m
∑hi =1 i=1
100
Donde: Yi = Son los valores de la variable. ni = Son frecuencias absolutas. Ni = Son frecuencias absolutas acumuladas (o menor que). hi = Son frecuencias relativas. Hi = Son frecuencias absolutas acumuladas. Ni* = Frecuencia absoluta acumulada «mayor que». Hi* = Frecuencia relativa acumulada «mayor que». 100xh i = Frecuencia relativa porcentual. 100xHi = Frecuencia relativa acumulada porcentual. 100xHi* = Frecuencia relativa acumulada porcentual.
EJEMPLO: Se recolectó muestras para la evaluación de tres acaricidas para el control de la sarna sarcóptica ( Sarcoptes scabie var. aucheniae) en alpacas jóvenes y adultos del CIP - La Raya, para esto se ha tomado en cuenta la duración del período: larval, ninfas y adultos hasta el 10mo. día del primer tratamiento, usándose los siguientes productos veterinarios: A1: Diazinón 15% + Cypermetrina 5%, A2: Diazinón 60%, A3: Lindano 16% + Cypermetrina 4% y A4: grupo control. La información se presenta a continuación:
- 38 -
V. Ibañez Q.
8 7 2 7 1
8 9 4 6 3
5 0 8 6 8
6 7 10 10 0
Etapa de Elaboración de Datos
1 4 9 7 7
7 4 4 0 10
4 7 9 7 7
7 9 8 10 0
7 7 1 6 5
2 5 5 0 7
5 9 10 2
0 9 0 9
10 0 0 3
4 5 0 3
5 6 9 5
3 10 2 8
6 3 6 5
5 9 6 6
5 4 5 8
10 8 6 9 n = 90
a) Construya la tabla de distribución de frecuencias. b) Interprete los resultados. TABLA 3.9: DISTRIBUCIÓN DE LA FRECUENCIA ABSOLUTAS PARA LA EVALUACIÓN DE TRES ACARICIDAS EN LAS ALPACAS.
Sarna Sarcóptica (Yi ) Conteo Frec. A bs oluta (n i ) 0 n 1 = 10 1 /// n 2 = 3 2 //// n 3 = 4 3 n 4 = 5 4 // n 5 = 7 5 // n 6 = 12 6 n 7 = 10 7 /// n 8 = 13 8 /// n 9 = 8 9 n 10 = 10 10 /// n 11 = 8 Totales n = 90
Estadística Básica Aplicada a la Ganadería
- 39 -
TABLA 3.10: DISTRIBUCIÓN DE LA FRECUENCIA PARA LA EVALUACIÓN DE TRES ACARICIDAS EN LAS ALPACAS DEL CIP. - LA RAYA. Sarna Sarcóptica (Yi) 0 1 2 3 4 5 6 7 8 9 10 Total
ni 10 3 4 5 7 12 10 13 8 10 8
Ni 10 13 17 22 29 41 51 64 72 82 90
11
∑ ni = 90 i =1
hi 0.111 0.033 0.044 0.056 0.078 0.133 0.111 0.144 0.089 0.111 0.089 11
∑hi =1
Hi 0.111 0.144 0.189 0.244 0.322 0.456 0.567 0.711 0.800 0.911 1.000
*
hix100 Hix100 N i 11.11 11.11 90 3.333 14.44 80 4.444 18.89 77 5.556 24.44 73 7.778 32.22 68 13.33 45.56 61 11.11 56.67 49 14.44 71.11 39 8.889 80.00 26 11.11 91.11 18 8.889 100.00 8
*
*
H i 100xH i 1.000 100.00 0.889 88.89 0.856 85.56 0.811 81.11 0.756 75.56 0.678 67.78 0.544 54.44 0.433 43.33 0.289 28.89 0.200 20.00 0.089 8.89
100
i=1
INTERPRETACIÓN: n1 = 10, significa que 10 alpacas no tienen sarna sarcóptica al 10mo. día del primer tratamiento, usando productos veterinarios. n6 = 12, significa que 12 alpacas están infectadas con 5 acaricidas de sarna. N13 = 13, significa que hay 13 alpacas con 1 ó menos que están infectadas con sarna. N1* = 90, significa que las alpacas jóvenes y adultas tienen sarna entre 0 y 10 larvas, ninfas y adultas inclusive.
EJEMPLO: Construya una tabla de frecuencias para los datos que corresponden a 42 rebaños de ovinos; registrándose el número de ovinos muertos por rebaño, durante el período de invierno de 1999 en el Centro Experimental Chuquibambilla.
- 40 -
V. Ibañez Q.
Etapa de Elaboración de Datos
Número de Ovinos muertos. 9 8 7 2 3 9 0 9 2 4 5 7 8 1 6 4 3 4 0 1 6 3 9 1 7 2 2 6 4 2 8 2 2 4 5 6 1 3 3 3 7 4
n = 42
SOLUCION: TABLA 3.11: DISTRIBUCIÓN DE FRECUENCIA PARA LOS OVINOS MUERTOS POR REBAÑO EN EL PERÍODO DE INVIERNO DE 1999. N° ov. Muert. N° rebaño (Yi) ni 0 2 1 4 2 7 3 6 4 6 5 2 6 4 7 4 8 3 9 4
Ni 2 6 13 19 25 27 31 35 38 42
10
Total
∑ni = 42 i =1
hi 0.05 0.10 0.17 0.14 0.14 0.05 0.10 0.10 0.07 0.10
*
Hi hix100 Hix100 N i 0.05 5 5 42 0.14 10 14 40 0.31 17 31 36 0.45 14 45 29 0.60 14 60 23 0.64 5 64 17 0.74 10 74 15 0.83 10 83 11 0.90 7 90 7 1.00 10 100 4
*
*
H i 100xH i 1.0000 100.00 0.9524 95.24 0.8571 85.71 0.6905 69.05 0.5476 54.76 0.4048 40.48 0.3571 35.71 0.2619 26.19 0.1667 16.67 0.0952 9.52
10
∑hi =1
100
i=1
INTERPRETACIÓN: n3 = 7, significa que en 7 rebaños hay 2 ovinos muertos en el perío de invierno de 1999. N5 = 25, significa que en 25 rebaños, hay 0, 1,2,3, y 4 ovinos muertos en el período de invierno de 1999. h4 = 0.14, significa la proporción de rebaños en la muestra que tiene 3 ovinos muertos por rebaño, la cual expresado en porcentaje es 14%.
Estadística Básica Aplicada a la Ganadería
- 41 -
h5x100 = 14%, porcentaje de rebaños con 4 ovinos muertos en el período de invierno de 1999 ó siginifica que en el 14% de majadas hay 4 ovinos muertos en el período de invierno de 1999. 100xH7 = 75%, es el porcentaje de rebaños en la muestra, por lo menos 6 ovinos muertos en el período de invierno de 1999. N1* = 42, significa que en la encuesta hay 0 y 9 ovinos muertos inclusive en el período de invierno de 1999. N2* = 40, significa que en la encuesta hay 40 rebaños que tienen por lo menos 1 ovino muerto.
PROPIEDADES DE LAS FRECUENCIAS. 1) Las frecuencias absolutas (n i) y las frecuencias absolutas acumuladas (N i) son siempre enteros no negativos.
n i ≥ 0, N i ≥ 0 y N *i ≥ 0 para i = 1,2,...., m 2) La suma de todas las frecuencias absolutas es igual al número total del conjunto de observaciones. m
∑ n i = n1 + n 2 +
+n m = n
i =1
3) Las frecuencias relativas (h i) y las frecuencias relativas acumuladas (H i) son siempre números fraccionarios no negativos, no mayores que uno.
0 ≤ h i ≤ 1, 0 ≤ H i ≤ 1 y 0 ≤ H *i ≤ 1 para i = 1, 2, ...., m 4) La frecuencia absoluta acumulada menor que correspondiente al valor X m coincide con el númerto total del conjunto de observaciones. m
N m = ∑ ni i =1
= n.
- 42 -
V. Ibañez Q.
Etapa de Elaboración de Datos
5) La frecuencia absoluta acumulada mayor que correspondiente al valor X 1 coincide con el número total del conjunto de datos.
N 1*
m
∑ n i = n.
=
i =1
6) La frecuencia relativa acumulada menor que correspondiente al valor X m coincide con la unidad. m
Hm
=
∑ hi = 1 i =1
7) La frecuencia relativa acumulada mayor que correspondiente al valor X 1 coincide con la unidad.
H
* 1
m
=
∑ hi = 1 i =1
8) La frecuencia absoluta acumulada menor que correspondiente al valor Y 1 es n1 1
N1
=
∑ ni = 1 i =1
9) La frecuencia absoluta acumulada mayor que correspondiente al valor X m es n m.
N
* m
m
= ∑ ni = n m i=m
10) La frecuencia relativa acumulada menor que correspondiente al valor X 1 es h1 es: 1
H1 = ∑ hi
=
h1
i =1
11) La frecuencia relativa acumulada mayor que correspondiente al valor X m es h m. m
H*m = ∑ hi = h m i=m
Estadística Básica Aplicada a la Ganadería
- 43 -
3.2.4. DATOS DE VARIABLES CUALITATIVAS. Cuando se tiene la información de tipo cualitativo, la forma de presentar la tabla de distribución de frecuencias es la siguiente: TABLA 3.12: DISTRIBUCIÓN DE FRECUENCIA DE VARIABLES CUALITATIVAS. Frec. Absoluta Frec. Relativas Frec. Rel. Porcentual Variable ni hi 100xhi Característica A nA hA 100xhA Característica B nB 100xhB hB ... ... ... ... ... ... ... ... Característica Z nZ hZ 100xhZ Totales n 1 100%
EJEMPLO: En el Centro de Investigación y Producción La Raya, se encontró 860 alpacas de la Raza Huacaya de diferentes colores para estudiar las variedades de las mismas y éstos datos se presentan en la tabla siguiente: Colores Blanco Frecuencias 390
LF 170
Café 250
Negro 50
Total 860
- 44 -
V. Ibañez Q.
Etapa de Elaboración de Datos
SOLUCION: TABLA 3.13: DISTRIBUCIÓN DE FRECUENCIA POR COLORES DE ALPACAS Colores Blanco LF Café Negro Total
Frec. Absoluta Frec. Abs. Acum. Frec. Relativ. ni Ni hi 390 390 0.4535 170 560 0.1977 250 810 0.2907 50 860 0.0581 860 1
hix100 45.35 19.77 29.07 5.81 100
INTERPRETACIÓN: - El 45.3% de las alpacas corresponden al color blanco en el CIP - La Raya. - El 5.8% de las alpacas corresponden al color negro en el CIP - La Raya.
3.2.5. DIAGRAMA DE HOJAS Y TALLOS. La técnica para presentar datos numéricos conocida como representación tallo-hoja (Stem-and-leaf), ha ganado popularidad recientemente y sirve para datos cuantitativos, y es útil cuando el número total de observaciones es pequeño (menor de 50). Esta técnica es una combinación de dos procedimientos: uno gráfico y otro de ordenación. Los principios básicos para construir son los siguientes: a) Redondear los datos a dos o tres cifras significativas, expresándolos en unidades convenientes. b) Disponerlos en una tabla con dos columnas separadas por una línea como sigue: i. Para datos con dos dígitos, escribir a la izquierda de la línea los dígitos de las decenas, que forman el tallo, y a la derecha las unidades que serán las ramas. Por ejemplo 89 se escribe: Tallo Hoja 8 9
Estadística Básica Aplicada a la Ganadería
- 45 -
ii. Para datos con tres dígitos el tallo estará formado por los dígitos de las centenas y decenas, que se escribirán a la izquierda, separados de las unidades. Por ejemplo: 349 Tallo Hoja 34 9
c) Cada tallo define una clase, y se escribe sólo una vez. El número de «hojas» representa la frecuencia de dicha clase, que se ubica en una tercera columna del diagrama.
EJEMPLO: Los siguientes datos representan la longitud de fibra (cm) de 16 alpacas de un rebaño. 11.692 16.832
13.855 14.620
11.712 18.612
12.542 10.685
16.585 17.631
13.185 15.713
16.621 18.410 10.120 14.923
Construir un diagrama de hojas y tallos. SOLUCION: Los datos redondeados están expresados como: 117 168
139 146
117 186
125 107
166 176
132 157
166 101
184 149
TABLA 3.14: DIAGRAMA DE TALLOS Y HOJAS DE LA LONGITUD DE FIBRA (cm) EN ALPACAS. Tallo s 10 11 12 13 14 15 16 17 18
Ho jas 71 77 5 92 69 7 668 6 46
Frecu en cia 2 2 1 2 2 1 3 1 2 n = 16
- 46 -
V. Ibañez Q.
Etapa de Elaboración de Datos
EJEMPLO: Construir una representación Tallo-Hoja para el siguiente conjunto de 20 calificaciones de exámenes. 82 62
74 68
88 72
66 92
58 86
74 76
78 52
84 76
96 82
76 78
SOLUCION: TABLA 3.15: DIAGRAMA DE TALLOS Y HOJAS DE LAS 20 CALIFICACIONES DE EXAMENES. Tallo 5 6 5 tallos 7 8 9
Hoja 82 628 44862668 28462 62
Frecuencia 2 3 8 5 2 n = 20
Diagramas de Doble Tallo y Hojas . Existen dos formas de realizar: a) Se debe considerar los números 0, 1, 2, 3 y 4 colocando con un «*» b) Otro grupo de números que se debe tomar en cuenta es: 5,6,7,8 y 9, para lo cual se debe colocar con diferente símbolo ⊗ .
EJEMPLO: Con la información que corresponde a 20 calificaciones de exámenes de los estudiantes. Construir el diagrama doble de tallos-hojas.
Estadística Básica Aplicada a la Ganadería
- 47 -
TABLA 3.16: DIAGRAMA DE DOBLE TALLO Y HOJAS DE LOS 20 CALIFICACIONES DE EXAMENES DE LOS ESTUDIANTES. Tallo 5* 5⊗ 6* 6⊗ 7* 7⊗ 8* 8⊗ 9* 9*
Ho ja 2 8 2 68 442 86668 242 86 2 6
Frecuencia 1 1 1 2 3 5 3 2 1 1 n = 20
VENTAJAS DE LOS DIAGRAMAS DE HOJAS Y TALLOS. - Es flexible en cuanto a poder incluir datos extremos sin perder el grado de detalle en el resto de los datos. - Permiten percibir características de los datos que a veces los intervalos cubren. - Los diagramas de tallos y hojas conservan los datos originales, por lo que es fácil identificar algún dato particular si lo quisiéramos. - No necesita algún gráfico adicional para percibir la forma de la distribución.
DESVENTAJAS: - No es una representación práctica para cantidades volúmenes de información que se pueda disponer.
- 48 -
V. Ibañez Q.
Etapa de Elaboración de Datos
3.3. MÉTODOS AUTOMATIZADOS (Statgraphics). En este parte vamos a analizar con el software estadístico más usual que permite realizar los cálculos y representaciones con las distribuciones y análisis de variabilidad. Como en todo texto, se tendrán en cuenta los paquetes STATGRAPHICS v4.0, MINITAB v12.0 y SPSS v9.0, dado que son los más apropiados en el mercado para el trabajo en las estadísticas descriptivas.
STATGRAPHICS, LA DISTRIBUCIÓN DE FRECUENCIAS. Los paquetes de estadística bajo entorno Windows ofrecen gráficos desde ventanas desplegables, pero en el caso de STATGRAPHICS, se pueden presentar gráficos interactivos asociados a todos los procedimientos estadísticos, a los que se puede acceder con una sola tecla de ratón. El hecho de que los gráficos sean interactivos significa que realmente se pueden consultar los datos y personalizar los gráficos eligiendo a medida las fuentes, colores y tamaño. Los gráficos pasan a ser una herramienta analítica en lugar de un medio de presentación. Se puede identificar un punto sobre un gráfico y preguntar por su localización en el fichero de datos correspondiente. Se pueden presentar sobre los gráficos los diferentes puntos obtenidos cuando se añade una variable adicional al análisis. Se pueden rotar los gráficos para poder explorar sus datos desde varias perspectivas. También se pueden explorar los datos implicados en un análisis rápida y fácilmente, descubriendo nuevas relaciones entre ellos mientras sus gráficos son mostrados sucesivamente en la pantalla a la vez que se realizan los respectivos cambios en la edición de los datos. STATGRAPHICS, presenta un valor añadido esencial en un paquete de software estadísticos, que consiste en un intérprete (StatAdvisor) que analiza las salidas obtenidas determinando si los resultados son estadísticamente significativos o no y subrayando cualquier tipo de anomalías en el análisis. Estamos ante una ayuda para la interpretación de las salidas de los análisis que resulta vital en el campo de la estadística y que añade credibilidad a los estudios estadísticos mediante la impresión de los juicios de un intérprete experto al lado de los resultados. Al igual que otros software estadísticos, STATGRAPHICS, se distribuye en módulos. El módulo básico incluye toda la estadística descriptiva, regresión, análisis de varianza, análisis exploratorio de datos, ajuste de distribuciones, tabulaciones cruzadas, gráficos, etc. El módulo básico es necesario para la instalación de cualquier otro módulo, pero la ampliación dependerá de las necesidades y posibilidades del usuario. Los módulos actuales de ampliación comprenden control de calidad,
Estadística Básica Aplicada a la Ganadería
- 49 -
diseño de experimentos, series temporales, técnicas especiales de regresión y métodos multivariantes avanzados. La instalación de software estadístico Statgraphics es fácil en los entornos Windows, tal como se presenta la presentación en la siguiente figura:
Supongamos que comenzamos una nueva sesión con STATGRAPHICS, en ese momento estamos situados en la ventana de aplicación de programa, y no tenemos ningún fichero en memoria de trabajo, por lo que el icono relativo al nombre del fichero activo (icono de la barra de trareas situado en la parte inferior de la ventana de aplicación que presenta una rejilla a su izquierda) está etiquetado con el texto , tal como se presenta a continuación:
- 50 -
V. Ibañez Q.
Etapa de Elaboración de Datos
A partir de este momento ya podemos introducir los datos del fichero. Cada columna de la hoja de cálculo es una variable, cuyo nombre se introduce en la primera celda de dicha columna (las variables por defecto son Col_1, Col_2, Col_3 , ...). Desde este momento se trabaja sobre el fichero de la misma forma en que se trabaja sobre cualquier hoja de cálculo en el entorno Windows. Se asumirá que los usuarios están familiarizados con el ingreso de datos y manejo de archivos A continuación, se procederá a recuperar a la memoria del computador el archivo llamado vellón, con las siguientes opciones File Open Open Data File (buscar el archivo: vellón), para una mejor ilustración de éstas opciones, se presentan a continuación:
Estadística Básica Aplicada a la Ganadería
- 51 -
El archivo Vellón, tiene dos variables (lome y lofi), que ya están ingresados dentro de la hoja de trabajo del Statgraphics, tal como se presenta en la figura siguiente:
- 52 -
V. Ibañez Q.
Etapa de Elaboración de Datos
STATGRAPHCIS, mediante la opción Describe de la barra de menú principal, permite analizar y resumir una distribución de frecuencias, posibilitando tabular los datos adecuadamente, hallar medidas de posición, dispersión y asimetría para los mismos, calcular intervalos de confianza y realizar contrastes de hipótesis. Así mismo permite realizar gráficos de barras, sectores, histogramas de frecuencias, etc., en forma de paso a paso (Describe Numeric Data One-Variable Analysis) se presenta en la siguiente Figura.
Resumen estadístico para variables numéricas unidimensionales. La subopción One-variable Analysis de la opción Numeric Data del menú Describe va a permitir el cálculo de medias, varianzas, desviaciones típicas, errores estándar, medianas, modas, medias geométricas, mínimos, máximos, rangos, cuartiles inferiores, cuartiles superiores, rangos intercuartílicos, coeficiente de asimetría y curtosis, coeficientes de asimetría y curtosis estandarizados, coeficiente de variación y suma de valores para una o más variables.
Estadística Básica Aplicada a la Ganadería
- 53 -
La pantalla de entrada de la subopción se presenta en la siguiente figura. En el campo DATA de esta pantalla se introduce el nombre de las variable que contiene los datos para aplicarles el cálculo de los estadísticos descriptivos. En nuestro caso utilizaremos como ejemplo la variable LOME del fichero Vellón, que previamente ha de ser cargado en memoria con la subopción Open Data File de la opción Open del Menú File. En el campo Select se puede introducir un operador de selección de STATGRAPHICS que acote el conjunto de valores de la variable introducida en el campo Data.
Al pulsar el botón OK, se obtiene el resumen de los datos con el número de valores de la variable, su dominio de definición y un mensaje del intérprete de resultados StatAdvisor, que se presenta a continuación:
- 54 -
V. Ibañez Q.
Etapa de Elaboración de Datos
Para obtener más información de las diferentes estadísticas de medidas de tendencia central, dispersión, medidas de asimetría, apuntamiento ó kurtosis y otras estadísticas, presione con el botón izquierda del mouse a uno de los siguiente iconos (de preferencia los tres iconos: Ingreso de diálogo, Opción tabular y Opciones de Gráficos) que se presenta a continuación:
TABLAS DE FRECUENCIAS. Una vez modificada en la opción tabular a Frecuency Tabulation que se presenta en seguida, permite resumir la distribución de los datos en una tabla de frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.
Estadística Básica Aplicada a la Ganadería
- 55 -
Una vez presionada con el botón a la opción OK, se presenta a continuación la tabla de distribución de frecuencias para la variable LOME:
- 56 -
V. Ibañez Q.
Etapa de Elaboración de Datos
En la figura anterior, se puede observar que el límite inferior del primer intervalo de clase es cero (0), y el límite superiro del último intervalo de clase es 20, pero esto no es cierto, ya que en la variable LOME el dato mínimo es 2.3 y el dato máximo es 17.3, entonces necesitamos modificar los límites de clase inferior del primer intervalo y superior del último intervalo, además el número de intervalos. Si estando situados sobre la salida anterior pulsamos el botón derecho del mouse y elegimos la opción Pane Options del menú emergente resultante, tal como se presenta a continuación:
Una vez pulsado el botón del mouse en la opción Pane Options, obtenemos la caja de diálogo Frequency Tabulation Options, en cuyo campo Number of Classes se puede introducir el número de intervalos de clase para agrupar los datos de la distribución. En el campo Lower Limit se introduce el límite inferior de la primera clase, en el campo Upper Limit se introduce el límite superior de la última clase, y el campo
Estadística Básica Aplicada a la Ganadería
- 57 -
Hold se señala cuándo se quiere mantener la definición actual de clase para la siguiente tabla de frecuencias que se realice, éstas opciones se presenta a continuación:
Si en el campo Lower Limit se introduce el límite inferior de la primera clase el valor mímino (2.2) y en el campo Upper Limit se introduce el límite superior de la última clase el valor máximo (17.4) y pulsamos el botón OK, la tabla de frecuencias para LOME queda como sigue.
- 58 -
V. Ibañez Q.
Etapa de Elaboración de Datos
DIAGRAMA DE TALLO Y HOJAS (Stem-and-Leaf) La opción tabular Stem-and-Leaf Display, permite mostrar el diagrama de tallo y hojas para una variable. Para la variable LOME tenemos en seguida:
Estadística Básica Aplicada a la Ganadería
- 59 -
Si estando situados sobre la salida anterior pulsamos el botón derecho del mouse y elegimos la opción Pane Options del menú emergente, obtenemos la caja de diálogo Stem-and-Leaf Display Options , cuyo campo Flag Outliers permite marcar valores atípicos en el diagrama.
OPCIONES GRÁFICAS: Gráfico de dispersión, histogramas y gráficos de normalidad. Como en todo análisis con STATGRAPHICS, en la barra de herramientas de análisis, se pueden elegir dos iconos esenciales, el icono Tabular Options (segundo icono por la izquierda) y el icono Graphical Options (tercer icono por la izquierda), que permiten manejar todas las subopciones tabulares y gráficas respectivamente para el análisis. En nuestro caso el icono Graphical Options nos lleva a las opciones reflejadas en la pantalla de la siguiente manera:
Las opciones Scatterplot, Box-and-Wisker Plot, Frequency Histogram y Normal Probability Plot permiten realizar para la variable dada el diagrama de dispersión, el gráfico exploratorio de caja y bigotes, los histogramas de frecuencias y el gráfico normal de probabilidad respectivamente.
- 60 -
V. Ibañez Q.
Etapa de Elaboración de Datos
Histograma de Frecuencias. La opción gráfica Frequency Histogram de la figura anterior, permite realizar histograma de frecuencias apra la variable seleccionada. Para la variable LOME tenemos el histograma de frecuencias que se muestra en seguida. Si situados en el histograma, se pulsa el botón derecho del mouse (ratón) y se elige la opción Pane Options en el menú emergente resultante, se obtiene la caja de diálogo Frequency Plot Options que permite cambiar límites y número de clases y elegir frecuencia relativa, frecuencia acumulada ó polígono. Tal como se presenta a continuación:
Estadística Básica Aplicada a la Ganadería
- 61 -
Gráfico normal de probabilidad La opción gráfica Normal Probability Plot, permite realizar el gráfico de normalidad para la variable seleccionada (valores de la variable en el eje X y frecuencias relativas acumuladas en el eje Y). Si la normalidad fuese perfecta la gráfica resultante sería la diagonal. Mientras más se aproxime la gráfica a la diagonal más normalidad existirá en la distribución de la variable. Para la variable LOME tenemos el gráfico de normalidad que se presenta a continuación:
- 62 -
V. Ibañez Q.
Etapa de Elaboración de Datos
Realizando con Sistema de Análisis Estadístico (SAS), se tiene el procedimiento CAPABILITY de SAS/QC en su forma más sencilla, de la forma siguiente: DATA VELLON; OPTIONS NODATE NOCENTER NONUMBER; LABEL LOME = ‘Longitud de Mecha (cm)’; INPUT LOME @@; CARDS; 6.4 8.8 16.9 12.0 8.3 13.4 2.3 13.1 5.0 11.8
3.7 7.1 8.5 8.6 6.9 11.0 13.0 13.9 13.4 11.3 13.4 10.3 11.6 11.6 14.0 9.1 7.4 7.6 6.5 7.1 10.0 10.3 9.5 15.1 5.4 4.0 11.3 12.1 10.4 10.3 5.3 9.8 7.5 9.4 6.5 11.8 9.4 14.6 14.3 15.1
7.4 12.3 12.9 15.6 7.5 10.8 6.3 7.9 12.8 16.0
7.5 8.1 7.1 11.4 14.5 12.0 8.0 8.9 6.4 14.6 12.8 17.3 6.3 10.8 9.8 8.5 11.5 9.5 6.4 9.0 11.9 12.3 8.0 6.0 8.3 9.4 11.3 11.3 14.4 14.6
8.3 11.4 12.3 14.9 13.0 5.0 11.1 13.1 9.5 13.0
; PROC PRINT; RUN; PROC CAPABILITY DATA = VELLON NORMALTEST FREQ; VAR LOME; RUN; /* Presione F3 para ejecutar el Programa */ Una vez ejecutado el programa obtenemos la salida que se presenta a continuación en la que se expresan los estadísticos más importantes:
Estadística Básica Aplicada a la Ganadería
- 63 -
The SAS System CAPABILITY Variable=LOME
Longitud de mecha (cm) Moments
N Mean Std Dev Skewness USS CV T:Mean=0 Sgn Rank Num ^= 0 W:Normal
Quantiles(Def=5)
100 Sum Wgts 10.251 Sum 3.180575 Variance -0.05824 Kurtosis 11509.79 CSS 31.02698 Std Mean 32.23002 Pr>|T| 2525 Pr>=|S| 100 0.978305 Pr
100 100% Max 17.3 1025.1 75% Q3 12.8 10.11606 50% Med 10.3 -0.57913 25% Q1 7.75 1001.49 0% Min 2.3 0.318058 0.0000 Range 15 0.0000 Q3-Q1 5.05 Mode 11.3 0.4403
99% 17.1 95% 15.1 90% 14.55 10% 6.35 5% 5.15 1% 3
Extremes Lowest 2.3( 3.7( 4( 5( 5(
Obs 61) 2) 63) 81) 60)
CAPABILITY Variable=LOM E
Highest 15.1( 15.6( 16( 16.9( 17.3(
Obs 95) 36) 96) 21) 39)
Longitud de mecha (cm)
Frequency Table Value Count 2.3 1 3.7 1 4 1 5 2 5.3 1 5.4 1 6 1 6.3 2 6.4 3 6.5 2 6.9 1 7.1 3 7.4 2 7.5 3 7.6 1 7.9 1 8 2 8.1 1 8.3 3 8.5
2
Percents Cell Cum 1.0 1.0 1.0 2.0 1.0 3.0 2.0 5.0 1.0 6.0 1.0 7.0 1.0 8.0 2.0 10.0 3.0 13.0 2.0 15.0 1.0 16.0 3.0 19.0 2.0 21.0 3.0 24.0 1.0 25.0 1.0 26.0 2.0 28.0 1.0 29.0 3.0 32.0 2.0
34.0
Value Count 8.6 1 8.8 1 8.9 1 9 1 9.1 1 9.4 3 9.5 3 9.8 2 10 1 10.3 3 10.4 1 10.8 2 11 1 11.1 1 11.3 4 11.4 2 11.5 1 11.6 2 11.8 2 11.9
1
Percents Cell Cum 1.0 35.0 1.0 36.0 1.0 37.0 1.0 38.0 1.0 39.0 3.0 42.0 3.0 45.0 2.0 47.0 1.0 48.0 3.0 51.0 1.0 52.0 2.0 54.0 1.0 55.0 1.0 56.0 4.0 60.0 2.0 62.0 1.0 63.0 2.0 65.0 2.0 67.0 1.0
68.0
Value Count 12 2 12.1 1 12.3 3 12.8 2 12.9 1 13 3 13.1 2 13.4 3 13.9 1 14 1 14.3 1 14.4 1 14.5 1 14.6 3 14.9 1 15.1 2 15.6 1 16 1 16.9 1 17.3
1
Percents Cell Cum 2.0 70.0 1.0 71.0 3.0 74.0 2.0 76.0 1.0 77.0 3.0 80.0 2.0 82.0 3.0 85.0 1.0 86.0 1.0 87.0 1.0 88.0 1.0 89.0 1.0 90.0 3.0 93.0 1.0 94.0 2.0 96.0 1.0 97.0 1.0 98.0 1.0 99.0 1.0 100.0
- 64 -
V. Ibañez Q.
Etapa de Elaboración de Datos
EJERCICIOS PROPUESTOS 3.1 1. Los siguientes datos corresponden al peso vivo (kg) de las borregas criollas de 4 años de edad en el Centro de Investigación y Producción Chuquibambilla de la UNA-Puno, (1998). 37 43 28 40 37 33 35 32 32 34
42 34 39 35 32 32 28 31 32 42
35 34 35 36 31 37 36 30 35 36
37 38 32 37 31 31 43 27 32 32
35 36 38 40 39 30 30 34 33 36
35 33 34 36 31 30 32 28 31 31
29 34 36 32 29 38 38 30 36 36
34 34 42 26 32 34 40 33 39
29 41 33 38 42 33 42 37 38
38 28 41 34 31 33 30 31 37
n = 97
Se pide: a) Elaborar una tabla completa de distribución de frecuencias. b) Interpretar algunos valores de las frecuencias encontradas. 2. Los siguientes datos corresponden a las vicuñas hembras adultas que han sido esquilados en el criadero de vicuñas del Comité Comunal de Manejo de Vicuñas de Cala - Cala, (1998), y las variables registradas son: Peso vivo (kg), Peso vellón (kg) y diámetro de fibra (micras). Pes o vivo (kg)
26.0 40.0 33.7 36.0
34.2 31.2 41.8 23.5
26.5 35.8 39.6 24.3
38.1 30.4 42.5 33.1
38.2 33.6 36.4 32.2
Pes o velló n (kg).
0.27 0.25 0.24 0.24
0.18 0.15 0.15 0.21
0.11 0.13 0.13 0.21
0.18 0.20 0.20 0.20
0.16 0.13 0.12 0.11
Diámetro de fibra (micras )
18.06 14.11 19.46 11.53
14.49 15.07 13.16 16.00
16.34 14.14 15.37 14.92
14.90 14.98 15.74 14.59
15.07 14.84 12.47 14.13
Estadística Básica Aplicada a la Ganadería
- 65 -
Se pide realizar para las variables: Peso vivo (kg), Peso vellón (kg) y diámetro de fibra (micras). a) Elaborar una tabla completa de distribución de frecuencias. b) Construir los histogramas de frecuencias, polígono de frecuencias, ojivas c) Comprobar con el software estadístico STATGRAPHICS. d) Interpretar algunos valores de las frecuencias encontradas. 3. Los siguientes datos corresponden a las vicuñas hembras adultas que han sido esquilados en el criadero de vicuñas de la Reserva Nacional de Pampa Galeras (Ayacucho) (1998). Peso vivo (kg)
33 35 35 34
38 35 35 38
32 34 35 37
36 37 37 36
35 33 35 37
Peso vellón (kg).
0.25 0.35 0.23 0.24
0.20 0.23 0.20 0.30
0.19 0.26 0.21 0.27
0.19 0.29 0.21 0.20
0.24 0.24 0.28 0.23
Diámetro de fibra (micras)
14.18 14.33 14.33 13.11
12.76 13.01 14.01 15.19
13.67 13.08 13.16 16.19
14.51 14.18 13.53 14.09
14.38 13.61 13.64 14.07
Se pide realizar para las variables: Peso vivo (kg), Peso vellón (kg) y diámetro de fibra (micras). a) Elaborar una tabla completa de distribución de frecuencias. b) Graficar los histogramas de frecuencias, polígono de frecuencias y ojivas c) Comprobar con el software estadístico STATGRAPHICS. d) Interpretar algunos valores de las frecuencias encontradas. 4. Se realizó el análisis de sangre para las variables HEMATOCRITO, ERITROCITOS y HEMOGLOBINA en el Laboratorio de Bio-química de la F.M.V.Z.-UNA - Puno, las muestras fueron procedentes de las alpacas de la raza Huacaya y Suri del Centro de Investigación y Producción La Raya de las clases (crías, tuis y adultos) y de ambos sexos (2000), obteniéndose los siguientes resultados:
- 66 -
V. Ibañez Q.
Etapa de Elaboración de Datos RAZA HUACAYA: HEMATOCRITO
33.0 28.0 32.0
31.0 31.0 33.0
31.0 28.0 34.0
33.0 29.0 32.0
34.0 29.0 33.0
33.0 34.0 29.0
30.0 30.0 30.0
33.0 30.0 29.0
31.0 30.0 29.0
32.0 31.0 29.0
38.0 30.0 27.0
35.0 31.0 30.0
RAZA SURI: HEMATOCRITO
33.0 31.0 30.0
36.0 32.0 35.0
36.0 31.0 35.0
34.0 27.0 31.0
34.0 28.0 32.0
37.0 30.0 30.0
36.0 30.0 28.0
35.0 29.0 30.0
RAZA HUACAYA: ERITROCITOS
14.50 15.00 13.50 14.00 14.80 14.00 14.50 15.00 12.50 13.25 18.35 17.40 17.15 19.10 17.20 18.55 19.00 17.00 17.55 16.10 19.25 18.20 18.35 20.10 18.15 14.00 13.55 11.45 12.15 12.15 RAZA SURI: ERITROCITOS
22.10 24.70 25.05 27.00 25.75 22.10 22.05 25.00 24.00 23.00 15.50 15.35 16.10 14.80 14.20 22.10 21.80 22.20 20.20 21.80 21.50 20.00 20.55 21.30 23.00 22.85 20.30 21.00 20.90 19.00 RAZA HUACAYA: HEMOGLOBINA
13.09 13.83 12.38 14.21 13.83 13.45 12.04 13.83 13.83 12. 13.45 13.45 13.27 13.45 13.27 14.21 13.27 12.73 13.45 12. 14.60 15.42 14.21 13.83 14.60 12.38 13.83 12.04 13.09 13. RAZA SURI: HEMOGLOBINA
13.09 14.60 14.60 13.83 13.09 13.09 12.73 13.45 14.60 13. 12.91 12.56 13.27 10.60 12.21 14.60 14.21 13.09 13.27 13. 12.91 15.01 15.63 14.02 14.60 13.45 11.88 13.27 11.22 13.
a) Elaborar una tabla completa de distribución de frecuencias. b) Graficar los histogramas, polígono de frecuencias y relativas y ojivas. c) Comparar para cada una de las variables, entre razas de alpacas (H y S). d) Interpretar valores de las frecuencias relativas.
Estadística Básica Aplicada a la Ganadería
- 67 -
5. Los datos corresponden a las variables de: Frecuencia Respiratoria, Frecuencia cardíaca, Frecuencia de Pulso y Temperatura Corporal de las llamas de tipo: Chacu y Kára de ambos sexos y de las clases crías, jóvenes y adultos. Las muestras fueron tomadas de las llamas de Quimsachata INIA-Puno (2000), obteniéndose los siguientes resultados:
34 26 20 34 26 16 34 26 16 34 26 16
77 72 60 77 72 60 77 72 60 77 72 60
30 28 16 30 29 16 35 28 16 32 26 24
FRECUENCIA RESPIRATORIA (minutos) 36 34 32 31 32 35 30 25 26 29 30 24 19 20 24 19 21 23 36 34 33 32 34 35 27 28 24 28 25 26 15 19 20 17 16 20 38 33 30 36 36 34 25 26 26 28 24 22 20 19 16 20 16 19 35 37 34 33 30 36 29 30 24 27 28 24 19 21 23 20 17 16
37 22 18 31 26 19 32 27 20 36 28 20
34 27 18 34 28 16 37 26 24 34 25 19
78 70 57 75 76 58 76 72 62 76 70 59
FRECUENCIA CARDÍACA (minutos) 75 72 79 73 76 77 69 79 70 74 71 71 60 61 59 60 63 60 80 79 77 76 77 80 74 70 76 72 78 74 64 60 62 58 62 63 77 80 75 75 79 76 78 74 76 72 71 75 63 58 61 60 57 60 77 74 76 80 75 75 74 71 71 74 70 76 60 63 60 62 58 62
74 75 59 74 76 58 78 73 61 79 72 63
76 73 62 75 72 61 77 72 59 76 78 58
- 68 -
78 73 61 78 73 61 78 73 61 78 73 61
38.14 38.28 38.50 38.14 38.28 38.50 38.14 38.28 38.50 38.14 38.28 38.50
V. Ibañez Q.
Etapa de Elaboración de Datos
80 72 60 76 78 60 78 75 64 77 73 63
FRECUENCIA DE PULSO (minutos). 81 75 82 79 77 76 70 81 73 78 76 74 65 65 63 63 67 62 83 82 79 78 77 81 79 74 78 75 79 76 68 63 65 62 64 67 80 82 78 74 80 76 79 76 78 75 74 76 67 63 62 61 60 65 76 78 80 82 78 74 78 76 74 79 74 78 63 67 62 65 62 64
78 76 60 76 78 63 81 76 65 80 75 67
80 76 65 78 75 62 79 73 63 76 79 63
38.15 38.30 38.55 38.05 38.35 38.63 38.12 38.25 38.60 38.20 38.35 38.65
TEMPERATURA CORPORAL (minutos) 38.48 38.50 38.40 38.45 38.20 38.10 38.30 38.20 38.35 38.25 38.42 38.15 38.40 38.60 38.65 38.60 38.50 38.50 38.00 38.10 38.20 38.30 38.15 38.30 38.40 38.46 38.30 38.25 38.29 38.30 38.52 38.56 38.57 38.49 38.60 38.65 38.10 38.20 38.18 38.25 38.16 38.14 38.29 38.30 38.35 38.15 38.15 38.20 38.65 38.57 38.39 38.50 38.55 38.40 38.10 38.15 38.20 38.20 38.18 38.25 38.25 38.42 38.15 38.40 38.46 38.30 38.60 38.50 38.50 38.57 38.49 38.60
38.15 38.20 38.45 38.15 38.35 38.57 38.22 38.30 38.60 38.16 38.25 38.65
38.20 38.30 38.50 38.13 38.15 38.39 38.15 38.28 38.65 38.14 38.29 38.57
a) Construir la tabla completa de distribución de frecuencias. b) Graficar los histogramas, polígono de frecuencias y relativas y ojivas. c) Realizar el diagrama de tallos y hojas para la variable frecuencia de pulso. d) Realizar el diagrama de tallos y hojas para la variable temperatura corporal. e) Interpretar valores de las frecuencias relativas.
Estadística Básica Aplicada a la Ganadería
- 69 -
6. La siguiente tabla de frecuencias presenta el consumo mensual de carne de pollo en una muestra de 92 familias Consumo de pollo (kg) Cantidad de familias 2 4 15 5 7 26 8 10 21 11 13 18 14 16 12 Total = 92
a) Calcule: límite reales, marcas de clase, frecuencia acumuladas, frecuencias relativas. b) Encuentre los siguientes datos: 1. ¿Cuántas familias consumen menos de 7.5 kg. al mes?. 2. ¿Qué porcentaje de familias consume por lo menos 5 kg.? 3. ¿Cuántos kg al mes consume el mayor número de familias? 4. ¿Cuántos kg consume la 5ta. familia de mayor consumo? 5. ¿Cuántos kg consume el 50% de las familias?. 7. Se tomaron los pesos de 576 cerdos de la Granja «X», obteniéndose como marcas de clase (pesos en kg): 1.85; 2.10; 2.35; 2.60; 2.85; 3.10; 3.35; 3.60; 3.85; 4.10; y 4.35, las frecuencias absolutas correspondientes a las marcas de clases anteriores, fueron: 3; 60; 20; 40; 140; 150; 120; 70; 20; 5 y 2. Realice el cuadro de distribución de frecuencias y trace el histograma y polígono de distribución de frecuencias absolutas y diga que significado tiene: n 3, N7, h5, H6 y H4%. 8. Hallar las frecuencias que faltan en el siguiente cuadro de frecuencias: Intervalos - 24 - 44 45 Total
ni
hi 0.15 0.25
Hi
0.90 60
- 70 -
V. Ibañez Q.
Etapa de Elaboración de Datos
9. Se tiene una distribución de frecuencias con cuatro intervalos de amplitud constante para 50 datos: Intervalos - 3 - 5 - 9 Total
ni
hi 0.08
Hi 0.40
12 0.36
Completar el cuadro de distribución de frecuencias. 10. Los siguientes datos corresponden a las lecturas de la presión sanguínea sistólica que se hicieron a 58 adultos que se presentaron para un examen físico: 104 126 116 105 114 124 124
112 126 114 120 122 111 122
128 115 129 146 116 121 134
139 118 117 121 108 111 131
118 117 106 120 122 114
132 116 124 102 112 123
132 113 115 138 112 107
112 122 118 106 123 120
106 123 123 113 116 120
a) Construir un cuadro de distribución de frecuencias. b) Analizar algunos valores de las frecuencias halladas. c) Graficar el histograma de frecuencias, polígono de frec. absolutas y relativas y, ojivas. 11. A continuación se presentan las edades (en años) de un grupo de pacientes con Carcinoma Cervical, registradas en el Hospital Manuel Nuñez Butrón de Puno, en Enero de 1999. 25 36 79 62
21 24 76 55
31 39 80 61
24 43 75 43
26 38 39 42
27 39 42 38
42 36 41 27
43 37 51 35
22 44 56 53
48 51 44 50
a) Construir un cuadro de distribución de frecuencias. b) Analizar algunos valores de las frecuencias halladas. c) Graficar el histograma de frecuencias, polígono de frec. absolutas y relativas y, ojivas.
Estadística Básica Aplicada a la Ganadería
- 71 -
12. En el Centro de Investigación y Producción de Chuquibambilla de la UNA, se llevó a cabo un experimento de engorde con alimentación a base de pastos naturales y la adición del nutriente biomolecular, para determinar la ganancia de peso vivo en toretes de diente de leche de la raza Aberdeen Angus (cada 30 días se inyectó por vía intramuscular en dosis de 1.5 ml por cada 100 kpv/animal) en el sistema extensivo. La duración del experimento fue de 90 días (octubre, noviembre y diciembre de 1998). 302 314 308 272 366 312 284 238 192 408 368 258 306 298 332 289 350 355 285 301 262 325 358 282 345 359 259 289 385 350
a) Construya la tabla de distribución de frecuencias. b) Graficar el histograma de frecuencias y el polígono correspondiente. c) Graficar ojivas «menor que» y «mayor que». d) Interpretar los resultados.
- 72 -
V. Ibañez Q.
Etapa de Elaboración de Datos
4 ETAPA DE PRESENTACIÓN DE DATOS 4.1. REPRESENTACIÓN TABULAR. 4.1.1. CUADROS ESTADÍSTICOS. En general un cuadro estadístico es un arreglo ordenado, de filas y columnas de los datos o series estadísticas, por tanto tien dos entradas ( o más de dos). En ellas pueden representarse características cualitativas, cuantitativas o una combinación de ambas. Se puede también considerar variables discretas, contínuas o de ambos tipos. La finalidad es ofrecer información resumida de fácil lectura, comparación e interpretación. Según su objetivo, las líneas (horizontales) y columnas (verticales) de un cuadro se deben organizar de modo que pongan en evidencia los aspectos que interesa mostrar y resaltar las comparaciones que se desean hacer notar. La tabla de distribución de frecuencias es un caso especial de un cuadro estadístico.
- 74 -
V. Ibañez Q.
Etapa de Presentación de Datos
4.1.2. PARTES DE UN CUADRO ESTADÍSTICO Consiste en la presentación ordenada de los datos en filas y columnas con el objeto de facilitar su lectura y posterior análisis e interpretación. Las partes esenciales de un cuadro estadístico son:
1. Número.- Es el código de identificación del cuadro. Este número se escribe a continuación de la palabra CUADRO. Ejemplo: Cuadro N° 2.3, indica el tercer cuadro del capítulo 2.
2. Título.- Es la indicación que preside a la tabla y es colocada en la parte superior de la misma. El título debe reunir las condiciones siguientes: a) Ser completo, b) ser conciso. a. Ser Completo.- Un título completo debe indicar claramente cuál es el contenido del cuadro estadístico. Debe responder a las preguntas: Qué, Cómo, Dónde y Cuándo . Qué.- A que se refiere la tabla que se estudia. Cuál es el
universo
que se investiga. Cómo.-
Cómo se estudia, de acuerdo a cuáles características se clasifican los individuos u objetos estudiados. Las variables ubicadas en las filas se identifican con la proposición POR y las de la columna con la proposición «SEGÚN». Cuándo .- Momento o período de tiempo a que se refiere el estu-
dio. Dónde.-
Lugar a que se refiere la información.
b. Ser conciso.- El título debe ser breve, lo más conciso posible, aunque no debe sacrificarse la claridad a la concisión.
3. Cuadro propiamente dicho .- Es la parte del cuadro que contiene la información y consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. Sus elementos esenciales son: Encabezamiento de las columnas, columna principal o matriz y cuerpo.
Estadística Básica Aplicada a la Ganadería - 75 -
Encabezamiento.- Es la primera fila del cuadro, en el se explica las categorías y el objeto de cada una de las columnas, indica la naturaleza de los datos inscritos en cada celda que se hallan debajo. Deben ser breves y explícitos. Columna principal o Matriz .- Es aquella en que se anotan las categorías o las diferentes clases de la escala de clasificación utilizada. Cuerpo.- Es el conjunto de celdas o casillas que son las intersecciones de filas y columnas, donde están anotados los datos numéricos. 4. Notas explícitas o Clase .- Contiene habitualmente la FUENTE de los datos representados y cualquier NOTA ACLARATORIA sobre el contenido del cuadro. FUENTE.- Es la indicación al pie del cuadro que sirve para nombrar la entidad responsable de donde se obtuvieron los datos. EJEMPLO: Se tiene la siguiente información de población de alpacas por departamentos en el Perú, 1994.
- 76 -
V. Ibañez Q.
Etapa de Presentación de Datos
CUADRO 4.1 DISTRIBUCIÓN DE LA POBLACIÓN DE ALPACAS POR DEPARTAMENTOS: PERÚ - 1994. Departamento N° de cabezas % Puno 1,723,110 56.94 Cuzco 400,877 13.25 Arequipa 262,000 8.66 Huancavelica 203,550 6.73 Ayacucho 162,225 5.36 Apurimac 96,810 3.20 Moquegua 42,100 1.39 Tacna 33,768 1.12 Cerro de Pasco 28,190 0.93 Junín 27,700 0.92 Lima 20,132 0.67 Ancash 12,511 0.41 Cajamarca 5,097 0.17 La Libertad 4,782 0.16 Huanuco 3,235 0.11 Total 3,026,087 100.00 FUENTE: MINAG-OIA, 1999 y Compilación de CISA, 1994.
Qué Cómo Cuándo Dónde
: : : :
Distribución de la población de alpacas. Por Departamentos. En 1994. En el Perú.
Estadística Básica Aplicada a la Ganadería - 77 -
4.1.3. TIPOS DE TABLAS ESTADÍSTICAS. A. De acuerdo al Uso. 1. Tabla General o de Referencia. Como su nombre mismo lo indica son tablas referenciales que se utilizan generalmente como fuente de información, ya que contiene datos en detalle sobre diversas variables de un fenómeno. Ejemplo: Cuadro N° 4.2.
2. Tabla de Texto o Resumen. Son tablas que se elaboran en base a la tabla general o de referencia, de donde se seleccionan una o más variables de interés o que presentan cierta relación entre sí, con el fin de explicar una determinada situación. En relación al ejemplo anterior, de todas las variables que contiene la tabla general, se puede elaborar una tabla resumen, seleccionando dos variables. Ejemplo: Cuadro N° 4.3. CUADRO N° 4.2 UNIVERSIDAD FEMENINA DEL SAGRADO CORAZÓN ALUMNASMATRICULADASPOR DEPARTAMENTOSDE PROCEDENCIA, SEGÚNDATOS PERSONALES1992
Dpto. de EDAD ESTADO CIVIL COLEGIODE PROCEDENCIA PROG. Procedencia 16 - 19 20 - 23 24 - 27 28 y + Soltera Casada Estatal Particular P. Religioso ACADEMICA Arequipa Cajamarca Cuzco Ica Junín La Libertad Lambayeque Lima - Callao Piura Tacna FUENTE: UNIFE, Secretaría General.
- 78 -
V. Ibañez Q.
Etapa de Presentación de Datos
CUADRO N° 4.3 UNIVERSIDAD FEMENINA DEL SAGRADO CORAZ N LUMNAS MATRICULADAS POR DEPARTAMENTOS DE PROCEDENCI SEG N EDAD 1992.
Dpto. de EDAD Procedencia 16 - 19 20 - 23 24 - 27 Arequipa Cajamarca Cuzco Ica Junín La Libertad Lambayeque Lima - Callao Piura Tacna FUENTE: UNIFE, Secretaría General.
28 y +
TOTAL
B. Desde el Punto de Vista de su disposición. 1. Tablas de una entrada o entrada simple. Son tablas en cuyo orden presentan una sola variable, análisis o característica y su clasificación va definida en columna matriz. Ejemplo: Cuadro N° 4.4 y 4.5.
Estadística Básica Aplicada a la Ganadería - 79 -
CUADRO N° 4.4 HOSPITAL MANUEL NUÑEZ BUTRON PACIENTES ATENDIDOS DE TUBERCULOSIS PULMONAR, POR NIVEL DE INSTRUCCIÓN - PUNO: MARZO 1998.
NIVEL DE INSTRUCCI N N MERO % Analfabeto 38 31.67 Primaria 63 52.50 Secundaria 16 13.33 Superior 3 2.50 TOTAL 120 100.00 FUENTE: Hospital Manuel Nuñez Butrón, Oficina de Estadística
CUADRO N° 4.5 HOSPITAL MANUEL NUÑEZ BUTRON PACIENTES ATENDIDOS DE TUBERCULOSIS PULMONAR, POR EDAD. PUNO: MARZO 1998.
EDAD NÚMERO (Años cumplidos) 0 - 9 9 10 - 19 15 20 - 29 26 30 - 39 30 40 - 49 34 50 - 59 5 60 - 69 1 TOTAL 120 FUENTE: Hos pital Manuel Nuñez Butrón, Oficina de Estadística
Como se puede observar en éstos dos ejemplos, cada tabla presenta una variable que se distribuye en columna matriz: nivel de instrucción (Cuadro N°
- 80 -
V. Ibañez Q.
Etapa de Presentación de Datos
4.4), edad (Cuadro N° 4.5). Asimismo, en el título se puede apreciar que después de mencionar la naturaleza del problema (pacientes atendidos de tuberculosis pulmonar) se les da el criterio de la clasificación (POR nivel de instrucción, POR edad), donde la variable está precedida de la palabra POR.
2. Tablas de dos entradas o entrada doble. Son tablas que presentan simultáneamente simultáneamen te dos variables, análisis o características relacionados, donde una va definida en columna matriz (vertical) y la otra en encabezado encabezado (horizontal). (horizontal). Ejemplo: Cuadro Cuadro 4.6 y 4.7. C U A D R O 4 .6 .6 H O S P IT IT A L M A N U E L N U Ñ EZ B U T R Ó N P A C I EN EN T E S A T E N D I D O S D E T U B E R C U L O S IS P U L M O N A R , P O R N I V E L D E IN IN S T R U C C I Ó N , SE G Ú N SE X O . M A R Z O 1 9 9 8
S E X O NIVEL D E IN S T R U C C IÓ N M a s c u lin o F e m e n in o TOTA L A n a lf a b e t o 28 10 38 P r i m a r ia 32 31 63 S e c u n d a r ia 9 7 16 S u p e r io r 1 2 3 TOTA L 70 50 120 F U E N T E : H o s p it a l M a n u e l N u ñ e z B u t ro r o n . O fi f ic . D e E s t a d ís í s t ic ic a .
CUA DRO 4.7 4.7 HOSPITA HOSPITA L M A NUEL NUÑEZ BUTRÓ BUTR Ó N P A C I EN EN T E S A T E N D I D O S D E T U B E RC R C U L O SI SIS P U L M O N A R , P O R ED E D A D , S E G N T I P O D E R ES E SI D E N C IA IA - M A R Z O 1 9 98 98
EDAD TIPO DE RESIDENCIA RESIDENCIA ( A ñ o s c u m p lid o s ) U RBA N A RU RA L TOTA L 00 - 09 1 8 9 10 - 19 4 11 15 20 - 29 8 18 26 30 - 39 10 20 30 40 - 49 7 27 34 50 - 59 5 5 60 - 69 1 1 TOTA L 30 90 120 FUENTE: Ho s pital M an ue l Nu ñe z Butron . Ofic. Ofic. De Estad ís ti tica. ca.
Estadística Básica Aplicada a la Ganadería - 81 -
Podemos observar en los dos ejemplos que cada tabla presenta dos variables: Nivel de Instrucción y Sexo (Cuadro N° 4.6); edad y tipo de residencia (Cuadro N° 4.7). En el título podemos apreciar que luego de la naturaleza del problema (pacientes atendidos de tuberculosis pulmonar) se lee el criterio de clasificación (POR Nivel de Instrucción, SEGÚN Sexo; POR edad, SEGÚN Tipo de Residencia); las variables están precedidas de las palabras POR, SEGÚN, las mismas que ayudan a conectar dos variables relacionadas.
3. Tablas Complejas. Son tablas que presentan en forma simultánea tres o más variables, análisis o características relacionadas que van definidas unas en columna matriz (vertical) y otras en encabezado (horizontal). Es necesario tener en cuenta que el objetivo de elaborar tablas o cuadros estadísticos, es presentar ordenadamente los datos de tal manera que faciliten su análisis e interpretación para la toma de decisiones. Por lo tanto, los cuadros estadísticos no deben ser complicados, ni presentar muchas variables. CUADRO N° 4.8 HOSPITAL MANUEL NUÑEZ BUTRÓN PACIENTES ATENDIDOS DE TUBERCULOSIS PULMONAR, POR NIVEL DE INSTRUCCIÓN, SEGÚN TIPO DE RESIDENCIA Y SEXO - MARZO 1998.
TIPO DE RESIDENCIA NIVEL DE Zona Urbano Zona Rural TOTAL INSTRUCCIÓN Mascul sculiino Femenino nino Mascul sculiino Femenino nino Analfabeto 6 4 22 6 38 Primaria 9 6 23 25 63 Secundaria 3 2 6 5 16 Superior 1 2 3 TOTAL 18 12 52 38 120 FUE FUENTE NTE: Hos Hospital pital Manuel Man uel Nuñez Nuñez But Butrón, rón, Oficina ficina de d e Estadís Est adística. tica.
- 82 -
V. Ibañez Q.
Etapa de Presentación de Datos
CUADRO N° 4.9 HOSPITAL MANUEL NUÑEZ BUTRÓN PACIENTES PACIENTES ATENDIDOS ATENDIDOS DE TUBERCULOSIS TUBERCULOSIS PULMONAR PULMONAR POR EDAD, SEGÚN TIPO DE RESIDENCIA Y SEXO - MARZO 1998.
TIPO DE RESIDENCIA EDAD TOTAL Zona Urbano Zona Rural Mascul sculiino Femenino nino Mascul sculiino Femenino nino 00 - 09 1 3 5 9 10 - 19 3 1 6 5 15 20 - 29 4 4 11 7 26 30 - 39 7 3 12 8 30 40 - 49 3 4 16 11 34 50 - 59 3 2 5 60 - 69 1 1 TOTAL 18 12 52 38 120 FUE FUENTE: TE: Hos Hospita pitall Manuel Manuel Nuñ Nuñez ez But Butron. ron. Oficina Oficina de Estadís tadística. tica.
Se puede apreciar en los ejemplos que cada tabla presenta tres variables: Nivel de Instrucción, Tipo de Residencia y Sexo (Cuadro N° 4.8); Edad, Tipo de Residencia y Sexo (Cuadro N° 4.9). En el título títu lo observamos que en el criterio crite rio de clasificación, las variables están precedidas de las palabras: POR, SEGÚN, (POR nivel de instrucción, SEGÚN tipo de residencia, y Sexo; POR edad, SEGÚN tipo de residencia y sexo), las mismas que ayudan a conectar las variables.
4.2. REPRESENTACIÓN GRÁFICA. Un gráfico es la representación representación de un fenómeno estadístico estadístico por medio de figuras geométricas (puntos, líneas, rectángulos, paralelepipedo, etc.) cuyas dimensiones son proporcionales a la magnitud de los datos representados. El gráfico es un auxiliar del cuadro estadístico, no lo sustituye sino que lo complementa. Los gráficos constituyen un complemento del análisis descriptivo y en su presentación pueden ir acompañados de la tabla o cuadro que le dio origen, ya que ésta presenta detalles que no aparecen en el gráfico.
Estadística Básica Aplicada a la Ganadería - 83 -
Importancia. Los gráficos son importantes por lo siguiente: - Son esenciales en el estudio y presentación de trabajos estadísticos. Los datos transformados en dibujo permite un examen visual que constituye, muchas veces, la primera etapa de un análisis e interpretación de datos. - Permiten observar en forma instantánea el comportamiento de la variable o variables materia de estudio. - Permiten formar una idea bastante aproximada sobre la tendencia de las variables en el futuro.
Ventajas y Desventajas del gráfico. El gráfico tiene la ventaja sobre el cuadro de permitir observar de un solo golpe de vista apreciar más rápidamente los datos y darse cuenta de todo conjunto de elementos. Limitaciones en la construcción del gráfico: - El gráfico no puede presentar tantos grupos de datos como una tabla. Un cuadro puede tener 4 o más columnas de datos, sin embargo representado esto es un gráfico que dificulta su comprensión. - En los cuadros pueden darse valores exactos, en los gráficos muchas veces solo valores aproximados.
4.2.1. PARTES DE UN GRÁFICO. Las partes de un gráfico a considerarse son:
A. El Título.- Expresa el contenido del gráfico y por lo general, es igual o parecido parecido al título del cuadro estadístico que sirvió de refereferencia. B. Escalas.- Para graficar, se utiliza el sistema cartesiano, compuesto por dos ejes: uno horizontal llamado abcisa; y otro vertical llamado ordenada. Ambos ejes se cortan en un punto llamado origen. Las escalas vienen a ser la graduación de ambos ejes, según la naturaleza de las variables y frecuencias correspondientes.
- 84 -
V. Ibañez Q.
Etapa de Presentación de Datos
C. Cuerpo.- Es el gráfico en sí, y constituye la representación en dibu jo de los datos. D. Fuente.- Indica el origen de los datos estadísticos que se está representando en el gráfico. 4.2.2. TIPOS DE GRÁFICOS ESTADÍSTICOS. ESTADÍSTICOS. Existen diversidad diversidad de gráficos estadísticos; estadísticos; éstos se eligen de acuerdo al tipo de variable y al propósito para el cual se construyen. Los gráficos más importantes y de mayor uso son:
A. Cuando los Datos son Medidos a Nivel Nominal u Ordinal. 1. Gráfico de Barras. Es usado generalmente para representar hechos o fenómenos sin continuidad, sin movimiento, de tal forma que permita visualizar la magnitud y comparar los elementos en que se clasifican las variables. Los gráficos de barras, pueden ser de los siguientes tipos:
a. Gráfico de Barras Simple. Para su elaboración se debe contar con una tabla o cuadro de entrada simple. Recomendaciones Recomendaciones para su construcción: construcción: No existen reglas definidas estrictas para la construcción de gráficos de barras, se darán algunas recomendaciones que pueden ser tomadas en cuenta: 1. Todas las barras, rectángulos o paralelepípedos deben tener el mismo grosor. 2. El espacio entre las barras deben ser de la misma magnitud. No debe ser inferior que la mitad de una barra, ni mayor que el ancho de la misma. 3. Las barras, por estética deben ordenarse de mayor a menor cuando se pueda.
Estadística Básica Aplicada a la Ganadería - 85 -
4. La escala de la frecuencia debe empezar por cero. 5. Deben dibujarse a buen criterio, líneas de fondo en la gráfica; ellas facilitan la lectura de los valores. 6. No se debe recargar las barras tratando de expresar muchos productos en cada una de ellas. 7. Si el gráfico tiene muchas barras es preferible reemplazar por un diagrama lineal. EJEMPLO: Se considera el el número de alpacas alpacas de diferentes diferentes colores en el Centro de Investigación y Producción La Raya de la UNA - Puno (1998). CUADRO N° 4.10 CENTRO DE INVESTIGACIÓN INVESTIGACIÓN Y PRODUCCIÓN LA RAYA NÚM ERO DE ALPACAS DE LA RAZA HUACAYA, POR COLORES 1998
Colores d e las A lpacas NÚM ERO Blan co 390 LF 170 Café 250 Negro 50 To t a l 860 FUENTE: CIP - La Raya, Oficina de Registros.
% 45.35 19.77 29.07 5.81 100.00
(1) Representar gráficamente el número de pacientes por grado de instrucción. SOLUCIÓN:
- 86 -
V. Ibañez Q.
Etapa de Presentación de Datos
GRÁFICO N° 4.1 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN - LA RAYA NÚMERO DE ALPACAS DE LA RAZA HUACAYA, POR COLORES, 1998
400 350 300 a c a 250 p l a 200 e d 150 ° N 100 50 0
Blanco
LF
Café
Negro
Colores de las alpacas FUENTE: Del Cuadro N° 4.10
(2) Representar gráficamente el porcentaje de pacientes por grado de instrucción. SOLUCIÓN:
Estadística Básica Aplicada a la Ganadería - 87 -
GRÁFICO N° 4.2 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN - LA RAYA PORCENTAJES DE ALPACAS DE LA RAZA HUACAYA, POR COLORES, 1998
50 45 40 ) 35 % ( s 30 e j a 25 t n 20 e c r 15 o P 10 5 0
Blanco
LF
Café
Negro
Colores de las alpacas
b. Gráfico de Barras Compuestas. Para la elaboración se debe contar con una tabla o cuadro de entrada doble. EJEMPLO: Se considera el número de alpacas de diferentes colores en el Centro de Investigación y Producción - La Raya de la UNA - Puno.
- 88 -
V. Ibañez Q.
Etapa de Presentación de Datos
CUADRO N° 4.11 Centro de Investigación y Producción La Raya Número de alpacas por Color y Según Sexo, 1998 Sexo Colores Machos Hembras Blanco 185 205 LF 100 70 Café 95 155 Negro 10 40 Total 390 470 FUENTE: CIP-La Raya - UNA - Puno.
Total 390 170 250 50 860
GRÁFICO N° 4.3 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA NÚMERO DE ALPACAS POR COLOR Y SEGÚN SEXO, 1998 220 200 180 s 160 a c 140 a p 120 l a e 100 d 80 ° N 60 40 20 0
Machos Hembras
Blanco
LF
Café
Negro
Colores de las alpacas
FUENTE: Del Cuadro N° 4.11 NOTA: Los gráficos compuestos deben contener una leyenda que identifiquen los componentes de cada clasificación.
Estadística Básica Aplicada a la Ganadería - 89 -
c. Gráfico de Barras Superpuestas. La información representada a través de barras compuestas, también puede representarse en barras superpuestas. EJEMPLO: Tomar la información del Cuadro N° 4.11 (1) Representar gráficamente el número de alpacas por colores y sexo. (2) Representar gráficamente el porcentaje de alpacas de color y sexo. SOLUCIÓN: Solución para la pregunta (1) GRÁFICO N° 4.4 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA NÚMERO DE ALPACAS POR COLOR Y SEGÚN SEXO, 1998 400 380 360 340 320 300 s 280 a c 260 a 240 p 220 l a 200 e 180 d 160 ° 140 N120 100 80 60 40 20 0
Hembra Machos
Blanco
LF
Café
Colores de las alpacas FUENTE: Del Cuadro N° 4.11
Negro
- 90 -
V. Ibañez Q.
Etapa de Presentación de Datos
Solución para la pregunta (2). En este caso, se necesita traducir los valores absolutos del Cuadro en porcentajes. Sexo Total (%) Colores Machos (%) Hembras (%) Blanco 47.44 52.56 100 LF 58.82 41.18 100 Café 38.00 62.00 100 Negro 20.00 80.00 100 FUENTE: CIP-La Raya - UNA - Puno.
GRÁFICO N° 4.5 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA PORCENTAJE DE ALPACAS POR COLOR Y SEGÚN SEXO, 1998
100 95 90 85 80 75 70 E 65 J A 60 T 55 N 50 E 45 C 40 R O 35 P 30 25 20 15 10 5 0
He Ma
Blanco
LF
Café
Colores de las alpacas FUENTE: Del Cuadro N° 4.11
Negro
Estadística Básica Aplicada a la Ganadería - 91 -
2. Gráfico de Sectores o Pastel (circulares). Es una representación gráfica de un conjunto de datos estadísticos, en un círculo, por medio de sectores circulares. Se utiliza para representar datos cualitativos o cuantitativos discretos. Es utilizado principalmente cuando se pretende comparar cada valor de la variable con el total. Para construir el gráfico de sector, se utiliza una circunferencia, cuyo círculo se divide en sectores tales que sus medidas angualres centrales y, por tanto la superficie del sector circular sean proporcionales a las magnitudes de los valores de la variable que representan. Al total le corresponde el círculo completo, es decir los 360° de la circunferencia y por una regla de tres simple se encontrará el número de grados que le corresponde a cada parte. m
Total (n)
360° con
n = ∑ ni i =1
parte (ni)
X°
Entonces, el número de grados que corresponde a una parte será en general: X° = Número de grado =
Parte(ni ) x360° n i x360° = Total( n) n
Observe que: parte( ni ) = n i , es la frecuencia relativa del suceso que le cototal( n) n rresponde la frecuencia absoluta n i. EJEMPLO: Construya un gráfico de sector para los datos del CIP - La Raya que corresponde a las alpacas de la raza Huacaya de diferentes colores.
Colores Blanco LF Café Negro Total
Frec. Absoluta ni 390 170 250 50 860
- 92 -
V. Ibañez Q.
Etapa de Presentación de Datos
SOLUCIÓN: Para el color Blanco:860
360°
390
⇒
X° =
391x360° = 163° 860
X°
Para el color LF:
X° =
170x360° = 71° 860
Para el color Café:
X° =
250x360° = 105° 860
Para el color Negro:
X° =
50 x 360° 860
=
21°
GRÁFICO N° 4.6 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA NÚMERO DE ALPACAS POR COLOR Y SEGÚN SEXO, 1998
21 Negro
105
Café
Blanco
LF 71
FUENTE: Del cuadro N° 4.11
163
Blanco LF Café Negro
Estadística Básica Aplicada a la Ganadería - 93 -
Los gráficos de sectores, se utilizan muy frecuentemente para representaciones gráficas de distribuciones porcentuales. En este caso al total representado por el 100% le corresponde los 360° del círculo. La regla general es: 100%
360°
Parte %
X°, entonces
X° = número de grados =
(parte%)x360° 100%
= (parte %)x(3.6) EJEMPLO: Colores de alpacas del CIP. La Raya. Colo res Blan co LF Café Negro To tal
Frec. A bs oluta ni 390 170 250 50 860
h i x100% 45.3 19.8 29.1 5.8 100.0
SOLUCIÓN: Para el color Blanco: LF: Café: Negro:
X° = (45.3)x(3.6) = 163° X° = (19.8)x(3.6) = 71° X° = (29.1)x(3.6) = 105° X° = (5.8)x(3.6) = 21° 360°
- 94 -
V. Ibañez Q.
Etapa de Presentación de Datos
GRÁFICO N° 4.7 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA PORCENTAJE DE ALPACAS POR COLOR Y SEGÚN SEXO, 1998
Café 29.1%
Negro 5.8% Blanco 45.3% LF 19.8%
FUENTE: Del cuadro N° 4.11
3. Gráfico lineal o de tendencia. Se usa para representar una distribución de frecuencias dada en el tiempo (días, semanas, meses, años, etc.), llamada también serie cronológica. Pueden incluir hasta tres hechos o situaciones, razón por la cual pueden ser simples o compuestos. TRAZADO DE GRÁFICAS LINEALES. 1. La frecuencia se coloca en el eje vertical y el método de clasificación en el eje horizontal. 2. Las dos escalas deben guardar proporción de tal forma que el gráfico no dé impresión de fluctuaciones muy lentas o muy exageradas. Se acepta una proporción de 1 a 1 o de 1 a 2. 3. La escala que representa la frecuencia debe empezar por cero. Cuando no puede aparecer de forma normal se parte de escala con una línea en zigzag ( ).
Estadística Básica Aplicada a la Ganadería - 95 -
4. El título se coloca generalmente en la parte superior del gráfico, fuera del mismo y explicará lo más claro y preciso posible el contenido. 5. Debe indicar destacando con claridad la unidad de medida utilizada. 6. Cada escala debe ser rotulada de tal forma que se comprenda fácilmente qué representa: Edad en años o en meses, kilos o libras de peso, etc. 7. Las escalas no deben tener demasiadas subdivisiones. 8. El gráfico progresa generalmente de izquierda a derecha y de abajo hacia arriba. 9. Las líneas del propio gráfico deben dibujarse más gruesas que las escalas. 10. No deben trazarse más líneas coordenadas que las necesarias para la fácil lectura, procurando que el cero aparezca en el diagrama. 11. El gráfico generalmente debe ir acompañado de la tabla que le dió origen. 12. Para alcanzar su objetivo con sencillez no debe contener más líneas o símbolos que los que el ojo pueda cómodamente seguir. EJEMPLO: Se tiene la siguiente información del CIP - La Raya, para la característica rendimiento del vellón en alpacas de la raza Huacaya y Suri.
- 96 -
V. Ibañez Q.
Etapa de Presentación de Datos
CUADRO N° 4.12 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA RENDIMIENTO DEL VELLÓN DE ALPACA HUACAYA Y SURI, POR EDAD.
Edad Rendimiento (%) 1 año 86.70 2 años 88.60 3 años 90.00 4 años 90.80 5 años 91.50 6 años 92.00 Fuente: CIP - La Raya, Oficina de Registros. GRÁFICO N° 4.8 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA RENDIMIENTO (%) DE VELLÓN DE ALPACAS HUACAYA Y SURI, POR EDADES. 96 94 ) 92 % ( o 90 t n e 88 i m i d 86 n e R84 82 80 1
2
3
4
EDADES (años)
FUENTE: De Cuadro N° 4.12.
5
6
Estadística Básica Aplicada a la Ganadería - 97 -
EJEMPLO: Dada la siguiente tabla, construir el gráfico lineal compuesto: CUADRO N° 4.13 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA LONGITUD DE MECHA (cm) DE ALPACAS POR EDAD Y SEGÚN RAZA (Varios años de Estudio)
Edad 1 año 2 años 3 años 4 años 5 años 6 años 7 años 8 años 9 años 10 años
RAZA Wacaya Sury 12.30 16.80 12.10 16.20 11.30 15.50 10.90 13.40 10.50 12.90 10.60 12.10 9.60 11.60 9.20 11.20 8.70 11.00 8.50 10.50
TOTAL
Fuen te: CIP-La Raya, Oficina de Registros .
29.10 28.30 26.80 24.30 23.40 22.70 21.20 20.40 19.70 19.00
- 98 -
V. Ibañez Q.
Etapa de Presentación de Datos
GRÁFICO N° 4.9 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA LONGITUD DE MECHA (cm) DE ALPACAS POR EDAD Y SEGÚN RAZA. 20.0 16.0 c ( D 12.0 U T I G 8.0 N O L
4.0 0.0
1
2
3
4
5
6
7
8
9
10
EDAD (años)
FUENTE: Del Cuadro N° 4.13. CUADRO N° 4.14 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA NÚMERO DE ALPACAS DE RAZA HUACAYA POR AÑOS (1 año de Edad) 1982 - 1991 N° de Alpacas 1982 570 1983 546 1984 507 1985 636 1986 780 1987 715 1988 963 1989 991 1990 991 1991 937 Total 7636 Fuente: CIP - La Raya, Oficina de Registros. AÑO
Estadística Básica Aplicada a la Ganadería - 99 -
GRÁFICO N° 4.10 CENTRO DE INVESTIGACIÓN Y PRODUCCIÓN LA RAYA N° DE ALPACAS DE RAZA HUACAYA POR AÑOS (1 año de Edad) 1982 - 1991 1200 1000 s a c 800 a p l A 600 e d ° 400 N 200
0 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991
AÑOS
FUENTE: Del Cuadro N° 4.14.
4. Gráficos de PICTOGRAMA O PICTÓGRAFOS. Un pictograma es la representación de las series estadísticas por medio de símbolos que por su forma sugieren la naturaleza de los datos. Consiste en tomar como unidad un símbolo arbitrario para el que debemos fijar previamente el valor que le asignamos como tal unidad. La magnitud de los datos dados por los pictogramas son aproximaciones burdas y no sirven para análisis serios de estadística. Una representación que puede resultar útil es la obtenida al combinar los diagramas de barras con los pictogramas.
- 100 -
V. Ibañez Q.
Etapa de Presentación de Datos
EJEMPLO: La población Bovino de Brown Swiss en las 3 provincias del Departamento de Puno. La provincia de Megar : 300 bovinos La provincia de Azángaro : 200 bovinos La provincia de San Román: 100 bovinos Tomando como unidad = 100 bovinos se tiene: La población de bovino para la Prov. de Melgar
:
La población de bovino para la Prov. de Azángaro
:
La población de bovino para la Prov. de San Román :
GRÁFICO N° 4.11 EVOLUCIÓN DE UNA POBLACIÓN POR ESPECIES ANIMALES 1998 - 1999
Equinos
Vacunos
Porcinos
Ovinos
Aves
Pictograma Combinado con diagrama de barras
Estadística Básica Aplicada a la Ganadería - 101 -
B. Cuando los datos son medidos a Nivel de Intervalo o razón. 1. Histograma de Frecuencias. Se usa para representar gráficamente las distribuciones de frecuencias absolutas o relativas de datos cuantitativos contínuos agrupados en clases y queda representado por una serie de rectángulos semejantes a los diagramas de barra. Las barras del histograma se colocan sólo verticalmente y deben ir uno al lado de las otras sin que haya un espacio que las separe. La base de cada rectángulo es la amplitud de la clase de la variable correspondiente. Estos gráficos reciben el nombre de Histograma de frecuencias Absolutas ó histogramas de frecuencias relativas . Se traza en el plano cartesiano en el eje de las «X» se coloca las variables y en el eje de las «Y» cualesquiera de las frecuencias formándose rectángulos unidos entre si, conservando la misma amplitud interválica. EJEMPLO: Graficar la siguiente información: CUADRO N° 4.15 LONGITUD DE MECHA (cm.) EN ALPACAS DE LA ZONA DE MELGAR [Y'i-1 - Y'i > Frec. Absoluta (ni ) 2.2 - 4.1 3 4.1 - 6.0 4 6.0 - 7.9 18 7.9 - 9.8 20 9.8 - 11.7 20 11.7 - 13.6 20 13.6 - 15.5 11 15.5 - 17.4 4 Totales n = 100
FUENTE: Oficina de Registros.
- 102 -
V. Ibañez Q.
Etapa de Presentación de Datos
GRÁFICO N° 4.12
GRÁFICO N° 4.13
Histograma de Frecuencia absoluta de la longitud de mecha (cm) 24 22 20 ) i n ( 18 a 16 t u 14 l o s b 12 a 10 . c 8 e r 6 F 4 2 0
18
20
20
Histograma de Frecuencia relativa de la longitud de mecha (cm).
20
11
3
4
4
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
0.24 0.20 0.20 0.20 0.22 0.20 0.18 ) i 0.18 h ( a 0.16 v i t 0.14 0.11 a 0.12 l e r 0.10 . c 0.08 e r 0.06 0.04 0.04 F 0.04 0.03 0.02 0.00
Longitud de mecha (cm)
3.15 5.05 6.95 8.85 10.8 12.7 14.6 16.5
Longitud de mecha (cm)
2. Polígono de Frecuencias. Se utiliza para variables cuantitativas contínuas procediéndose de dos formas diferentes: a. Teniendo como base un histograma, se obtienen uniendo los puntos medios de las bases superiores de los rectángulos en el histograma de frecuencias absolutas o relativas, uniendo con segmentos de recta hasta llegar a tocar el eje de «X» conservando la misma amplitud interválica. EJEMPLO: En el siguiente cuadro, se presentan los intervalos de clase para la variable longitud de mecha (cm) de las alpacas de diferentes edades y de color blanco, procedentes de la Zona de Melgar.
Estadística Básica Aplicada a la Ganadería - 103 -
Lo n g it ud d e P un to s me dio s Fre c. A b s o lu ta mech a (cm). Yi ni 2.2 - 4.1 3.15 3 4.1 - 6.0 5.05 4 6.0 - 7.9 6.95 18 7.9 - 9.8 8.85 20 9.8 - 11.7 10.75 20 11.7 - 13.6 12.65 20 13.6 - 15.5 14.55 11 15.5 - 17.4 16.45 4 Totales 100
GRÁFICO N° 4.14 Longitud de mecha (cm) en alpacas de la Zona de Melgar Polígono de Frecuencia
22 20 18 ) i n 16 ( a 14 t u l o s 12 b 10 a . 8 c e r 6 F 4 2 0
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
Longitud de mecha (cm)
a)
Polígono de Frecuencias
22 20 ) i 18 n ( 16 a 14 t u 12 l o s b 10 a . 8 c e r 6 F 4 2 0 3.15
5.05
6.95
8.85 10.75 12.65 14.55 16.45
Puntos medios (Yi)
b)
b. La otra forma de representar gráfico de un polígono es utilizando las marcas de clase ó puntos medios, ubicándolo en el eje de las «X».
- 104 -
V. Ibañez Q.
Etapa de Presentación de Datos
3. Polígono de frecuencia acumulada u ojivas. Esta representación gráfica es válida para variables estadísticas contínuas que están agrupadas en intervalos de clase. Una ojiva es la representación gráfica de una distribución de frecuencias absolutas acumuladas o las frecuencias relativas acumuladas. Para graficar se debe representar en el eje de las abscisas los distintos intervalos de clase que deben estar naturalmente traslapados. En el extremo superior de cada intervalo se levanta una vertical con altura igual a la frecuencia (absoluta o relativa) acumulada, luego se unen los extremos superiores de las verticales con segmentos rectilíneos, así el polígono de frecuencia acumuladas absolutas alcanzará su máxima altura en el último intervalo.
OJIVA «MENOR QUE».- Es la representación gráfica de una distribución de frecuencias absolutas acumuladas «menor que» o las frecuencias relativas acumuladas «menor que». Se construye de la siguiente forma: 1. Se llevan sobre un eje horizontal los límites de los intervalos de clase Y’ 0, Y’ 1, .... , Y’m. 2. Se levanta sobre el extremo superior de cada clase un segmento cuya longitud coincida con la frecuencia absoluta acumulada o con frecuencia relativa acumulada de dicha clase, según sea el caso de frecuencia absoluta acumuladas o una ojiva de frecuencia relativas acumuladas. 3. Luego se unen con segmentos de rectas los extremos superiores de dichos segmentos verticales. EJEMPLO: Construir la ojiva «menor que» de frecuencias absolutas acumuladas y de frecuencias relativas acumuladas para la distribución de la longitud de mecha (cm) en alpacas de la zona de Melgar. SOLUCIÓN: Escribimos las tablas de distribución de frecuencias absolutas acumuladas y frecuencias relativas acumuladas de la siguiente manera:
Estadística Básica Aplicada a la Ganadería - 105 -
CUADRO N° 4.16 LONGITUD DE MECHA (cm.) «MENOR QUE» EN ALPACAS DE LA ZONA DE MELGAR Longitud de Frec. Absol. Acum. Frec. Relat. Acumul. mecha (cm). Ni Hi menor que 2.2 0 0.00 menor que 4.1 3 0.03 menor que 6.0 7 0.07 menor que 7.9 25 0.25 menor que 9.8 45 0.45 menor que 11.7 65 0.65 menor que 13.6 85 0.85 menor que 15.5 96 0.96 menor que 17.4 100 1
GRÁFICO N° 4.15
GRÁFICO N° 4.16
Distribución acumulada «menor que» de la Longitud de mecha (cm) en alpacas de la Zona de Melgar
Ni
100 90 80 70 60 50 40 30 20 10 0
Hi
Ojiva menor que
Distribución relativa acumulada de la Longitud de mecha (cm) de la Zona de Melgar
1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00
Ojiva menor que
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
Longitud de mecha (cm).
Longitud de mecha (cm)
FUENTE: Del Cuadro N° 4.16
- 106 -
V. Ibañez Q.
Etapa de Presentación de Datos
OJIVA «MAYOR O IGUAL QUE».- Es la representación gráfica de una distribución de frecuencias absolutas acumuladas «mayor o igual que» o las frecuencias relativas acumuladas «mayor o igual que». Se construye completamente similar a la ojiva menor que. EJEMPLO: Construir la ojiva mayor o igual que, de las frecuencias absolutas acumuladas y frecuencias relativas acumuladas para la distribución de la longitud de mecha (cm) del ejemplo anterior. CUADRO N° 4.17 LONGITUD DE MECHA (cm.) «MAYOR O IGUAL QUE» EN ALPACAS DE LA ZONA DE MELGAR
Longitud de mecha (cm). mayor o igual que 2.2 mayor o igual que 4.1 mayor o igual que 6.0 mayor o igual que 7.9 mayor o igual que 9.8 mayor o igual que 11.7 mayor o igual que 13.6 mayor o igual que 15.5 mayor o igual que 17.4
N*i 100 97 93 75 55 35 15 4 0
H*i 1.00 0.97 0.93 0.75 0.55 0.35 0.15 0.04 0.00
Estadística Básica Aplicada a la Ganadería - 107 -
GRÁFICO N° 4.17 Distribución acumulada «menor que» de la Longitud de mecha (cm) en alpacas de la Zona de Melgar 100
GRÁFICO N° 4.18 Distribución relativa acumulada de la Longitud de mecha (cm) de la Zona de Melgar H*i 1.0
N*i 90
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
Ojiva mayor o igual que (N*i)
80 70 60 50 40 30 20 10 0
Ojiva mayor o igual que (H*i)
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
Longitud de mecha (cm)
Longitud de mecha (cm)
FUENTE: Del Cuadro N° 4.17 GRÁFICO N° 4.19 OJIVAS «MAYOR O IGUAL QUE» Y OJIVA «MENOR O IGUAL QUE» DE LA LONGITUD DE MECHA (cm.)
hi
1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0
H* i
Hi
ojiva m ayor o igual que
ojiva m enor o igual que
Mediana
2.2
4.1
6.0
7.9
9.8
11.7 13.6 15.5 17.4
10.28
Longitud de mec ha (cm)
FUENTE: Del Cuadro N° 4.16 y 4.17
- 108 -
V. Ibañez Q.
Etapa de Presentación de Datos
4. Diagrama de frecuencias (BASTONES). Se usa para representar los diferentes tipos de distribuciones de frecuencias de datos discretos. Si se desea representar gráficamente las distribuciones de frecuencias absolutas o frecuencias relativas, se llevará sobre un eje horizontal los valores X1,X2,X3,...,Xm, y levantar sobre cada uno de ellos un segmento vertical de longitud igual a la frecuencia absoluta ó frecuencia relativa correspondiente al valor. CUADRO N° 4.18 OVINOS MUERTOS POR REBAÑO EN EL PERÍODO DE INVIERNO DE 1999. N° de ovinos (Yi) 0 1 2 3 4 5 6 7 8 9
ni 2 4 7 6 6 2 4 4 3 4 10
Total
∑ ni = 42 i =1
Ni 2 6 13 19 25 27 31 35 38 42
hi 0.05 0.10 0.17 0.14 0.14 0.05 0.10 0.10 0.07 0.10
Hi hix100 Hix100 0.05 5 5 0.14 10 14 0.31 17 31 0.45 14 45 0.60 14 60 0.64 5 64 0.74 10 74 0.83 10 83 0.90 7 90 1.00 10 100
10
∑hi =1 i=1
FUENTE: Ejemplo de la Tabla 3.11.
100
*
Ni 42 40 36 29 23 17 15 11 7 4
*
Hi 1.0000 0.9524 0.8571 0.6905 0.5476 0.4048 0.3571 0.2619 0.1667 0.0952
*
100xH i 100.00 95.24 85.71 69.05 54.76 40.48 35.71 26.19 16.67 9.52
Estadística Básica Aplicada a la Ganadería - 109 -
GRÁFICO N° 4.20
GRÁFICO N° 4.21
Frecuencias absolutas del número de ovinos muertos por rebaño. ni
Frecuencias relativas del número de ovinos muertos por rebaño. hi 0.20
7 6 5 4 3 2 1 0 0
1
2
3
4
5
6
7
8
9
0.18 0.16 0.14 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0
1
2
N° de ovinos
FUENTE: Del Cuadro N° 4.18
3
4
5
N° de ovinos
6
7
8
9
- 110 -
V. Ibañez Q.
Etapa de Presentación de Datos
5 ESTADÍGRAFOS DE POSICIÓN 5.1. INTRODUCCIÓN. Los datos organizados en una distribución de frecuencias, cuyas características más esenciales se destacan, es necesario calcular un conjunto de indicadores que caractericen algo más precisa y puntual la distribución que se esta estudiando. Las cifras descriptivas que se obtienen como función de una muestra (X 1,X2,....,X n) , como función de un conjunto de datos (representa un subconjunto de la población), se llama Estadígrafo o Estadístico. Existen cuatro tipos de estadígrafos: De posición, dispersión, concentración y de forma (kurtosis). Los estadígrafos de posición, son aquellos que describen la posición que ocupa la distribución de frecuencias respecto a un valor de la variable, y se distinguen
- 112 -
V. Ibañez Q.
Estadígrafos de Posición
dos tipos: Los estadígrafos de Tendencia Central y los de localización. Los estadígrafos de tendencia central tienden a ocupar posiciones centrales o intermedios entre el menor y mayor valor del conjunto de datos y brindan de alguna forma información sobre el centro de la distribución. Los más importantes son: La media aritmética o media, la media geométrica, la media armónica, la media cuadrática y la mediana. Los estadígrafos de localización, señalan la localización de los valores más frecuentes o de valores extremos, los más usados son: la moda, los cuartiles, etc.
5.2. MEDIDAS O ESTADÍGRAFOS DE TENDENCIA CENTRAL. 5.2.1. MEDIA ARTIMÉTICA O MEDIA. La media aritmética es la medida de tendencia central, es decir es la suma de los valores observados de la variable, dividido por el número de observaciones, y se puede calcular con datos no agrupados y datos agrupados (tabulados). Ejemplo: Número medio de accidentes, rendimiento promedio de notas, etc.
A. MEDIA ARITMÉTICA CON DATOS NO AGRUPADOS. La media aritmética o media (o promedio) de una muestra x 1,x2,...,xn de tamaño «n» de una variable o caracteríestica «X», se denota por «M(x)» o x es dado por: Parámetro (Población). N
µ = M (µ ) =
X 1 + X 2 ++ X N N
∑X =
i =1
N
∑X
i
o µ=
N
i
i=1
N
Estadístico (muestra): n
x = M ( x) =
x 1 + x 2 + + x n n
∑x =
i =1
n
n
∑x
i
o x=
i=1
n
i
Estadística Básica Aplicada a la Ganadería
- 113 -
donde «n» es el tamaño de la muestra ó número de elementos del con junto de datos u observaciones. EJEMPLO: Encuentre la media aritmética de las 100 medidas para la variable longitud de mecha (cm) de las alpacas de la Provincia de Melgar. 6.4, 16.9, 8.3, 2.3, 5.0, 3.7, 13.4, 7.4, 5.4, 7.5, ......, 13.1, 13.0 SOLUCIÓN: Sustituyendo las observaciones en la fórmula se tiene: 100
∑x x=
i
i =1
=
100
6.4 + 16.9 + 8.3 + 2.3++ 131 . + 13.0 100
=
10251 . 100
. = 10251
x = 10.25
El promedio de la longitud de mecha (cm) de las 100 alpacas es 10.25 cm. Ejemplo: Con los datos discretos que corresponde a los ovinos muertos en invierno de 1999. Calcular el promedio. 42
∑x x=
i =1
42
i
=
9 + 6 + 4 + 8++ 1 + 6 + 4 42
= 4.33
B. MEDIA ARITMÉTICA CON DATOS AGRUPADOS. Si los datos han sido clasificados en «m» clases en una tabla de frecuencias con marcas de clase Y i y frecuencias absolutas n i = 1,2,....,m, la media aritmética esta dado por: m
Y1n1 + Y2 n 2 ++ Yi ni
Y = M ( Y) =
n
∑Yn i
=
i =1
n
m
∑Y n
i
i
=
i =1 m
∑n i =1
i
i
- 114 -
V. Ibañez Q.
Estadígrafos de Posición m
ó con frecuencia relativa Y = ∑ h i Yi i =1
EJEMPLO: Calcular la media aritmética de los datos agrupados en la distribución de frecuencias para la longitud de mecha (cm) en alpacas de la Zona de Melgar. Long. De mecha
ni
Yi
niYi
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5
3 4 18 20 20 20 11 4
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
9.45 20.20 125.10 177.00 215.00 253.00 160.05 65.80
-
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
8
8
Totales
∑n
i
∑nY
= 100
i
i
= 1025.60
i =1
i =1
Luego, la media aritmética de éstos datos es: 8
n1 Y1 +n2Y2 + n3Y3 + n4Y4 + n5Y5 +n6Y6 + n7Y7 + n8Y8
Y=
n1 + n2 + n3 + n4 + n5 + n6 + n7 + n8
∑Yn
i i
=
i=1 8
∑
ni
i=1
8
∑ Yn i
Y=
i =1
100
i
=
10256 . 100
. = 10256
=
10256 . 100
Estadística Básica Aplicada a la Ganadería
- 115 -
5.2.2. Media Aritmética para datos tabulados de variable DISCRETA. Cuando los datos tabulados son discretos, se puede comprobar que la media aritmética del conjunto original x 1,x2,...,xn, coincide con la media de los datos agrupados, en este caso no hay pérdida de información. m
∑n Y i
Y=
X = M ( x ) = Y = M ( Y) ,
i
i =1
n
EJEMPLO: Calcular la media aritmética de los datos agrupados que corresponden al número de ovinos muertos en invierno de 1999 por rebaño de la distribución de frecuencias. N° de o vinos
(Y i)
ni
Yini
0 1 2 3 4 5 6 7 8 9
2 4 7 6 6 2 4 4 3 4
0 4 14 18 24 10 24 28 24 36
10
To tal
∑n i =1
10
i
=
42
∑Yn i
i
= 182
i =1
Aplicando la fórmula se tiene: 10
Y=X=
n1Y1 + n2 Y2 ++ n10 Y10 n
∑n Y i
=
i =1
n
i
- 116 -
V. Ibañez Q.
Y=X=
Estadígrafos de Posición
182 42
= 4.33 ovinos muertos por rebaño.
Este número representa que en promedio, el número de ovinos muertos por rebaño es aproximadamente 4, es decir el número de ovinos muertos que se espera que tenga por rebaño es 4.
NOTA: El promedio encontrado (4.33) coincide con los datos no agrupados, es exactamente igual. OBSERVACIÓN: Cuando los datos tabulados son contínuos hay pérdida de información en relación con el conjunto original de datos y esto afecta a los estadígrafos calculados a partir de los datos agrupados: y =M(y) es una aproximación a la media aritmética del conjunto original x 1,x2,...,xn, x =M(x), porque se considera en el cálculo de y , las marcas de clase Y i como representante de la clase i, i = 1,2,..,m. Es decir estamos suponiendo que las frecuencias de cada clase están condensadas en la marca de clase ó puntos medios. m
∑Yn i
X = M ( x ) ≈ Y = M ( y) =
i
i =1
n
EJEMPLO: Realizamos una comparación con datos no agrupados y datos que están tabulados en una distribución de frecuencias. 100
Datos no agrupados: X =
∑X i =1
i
=
n
10251 . 100
= 10.251
8
∑n Y i
Datos agrupados:
Y=
i =1
n
i
=
10256 . 100
= 10256 .
Estadística Básica Aplicada a la Ganadería
La diferencia es en:
- 117 -
Y − X = 10.256 − 10.251 = 0.005
Es decir, se pierde información con datos originales cuando se calcula con datos agrupados en 0.005, esto es: X ≈ Y ⇒ 10.251 ≈ 10.256
PROPIEDADES DE LA MEDIA ARITMÉTICA. P-1. Si todos los valores observados X 1, X2, ... , Xn son iguales a «k» (donde k es una constante), entonces: M(X) = M(k) = k La media aritmética de una constante es la misma constante: n
∑ k M( x) = Xk =
i =1
=
n
nk / n/
= k
EJEMPLO: Se tiene los siguientes datos: 5, 5, 5, 5, 5, 5, 5, entonces k = 5 7
∑5 X5 =
i =1
=
7
7x5 7
=5
P-2. Si a cada valor de las observaciones X 1, X2, ... , Xn se le suma o resta una constante, la media aritmética del nuevo conjunto transformado Y i = Xi ± k, i = 1,2,..,n, es la media aritmética del conjunto original más o menos la constante. y = M(y) = M(x)±k, donde Y i = X i ± k, k = constante, i = 1,2,..,n n
∑y Y=
i =1
n
i
=
1
n
X ∑ n i =1
i
± k =
1
n
X ∑ n i =1
i
±
1
n
k ∑ n i =1
- 118 -
V. Ibañez Q.
Estadígrafos de Posición
nk /
Y = X±
n/
= X ± k
EJEMPLO: 6, 8, 4, 2, 4, 6 y k = 4 Y=
6
1
X ∑ 6
i
6
6
1
6 ∑ X ± 6 ∑4
±4 =
i =1
=
1
i
i =1
i =1
6 + 8+ 4 + 2 + 4 + 6 6
±
6/ x4 6/
=
9 ± 4 = 5 ± 4 6 1
30
P-3. Si cada valor de un conjunto X 1, X 2, ... , Xn se multiplica por una constante diferente de cero, la media aritmética del conjunto transformado Yi = kX i, i = 1,2,..,n, es la media aritmética del conjunto original multiplicado por la constante: y = M(y) = kM(x)
Prueba:
Y = M(y) =
1
n
1
n
k
n
y = ∑ kX = ∑ X =kM( x) = kX ∑ n n n i
i =1
i
i =1
i
i=1
EJEMPLO: Sean 3, 4, 8, 2, 3, k = 3
y ∑ 3 + 4 + 8 + 2 + 3 20 Y = M ( y) = 3 = 3 = 3x4 = 12 = 3 5 5 5 5
i
i =1
P-4. La suma algebraica de las desviaciones de cada valor observado X 1, X2,..., Xn con respecto a su media es cero: n
∑X − X = 0 i
i =1
(para datos no agrupados)
Estadística Básica Aplicada a la Ganadería m
∑n Y − Y = 0 i
- 119 -
(para datos agrupados).
i
i=1
Donde: m = Es el número de clases. ni = Frecuencia absoluta de la clase «i». Yi = Punto medio ó marcas de clase del intervalo «i». P-5. La suma de los cuadrados de las desviaciones de cada una de las observaciones X1, X2, ... , Xn con respecto a su media es mínima. Si «k» es cualquier valor, entonces: n
∑
Xi − X
2
i =1 m
∑
n
2
i =1 m
∑ 2
2
ni Yi − k (para datos agrupados o clasificados).
ni Yi − Y ≤
i =1
≤ ∑ X i − k (para datos no agrupados).
i=1
P-6. Si X1, X2, ... , Xn y Y1, Y2, ... , Y n son dos conjuntos de observaciones de «n» valores cada uno de dos variables X e Y, expresados en las mismas unidades: M(X±Y)=M(x)±M(Y)
M ∑ X = ∑ M( X ) m
m
i
i =1
i
i =1
P-7. La media aritmética se puede utilizar para estimar la cantidad total de una población. TOTAL = N
x
5.2.3. MÉTODOS DE CÁLCULO DE LA MEDIA ARITMÉTICA Se presentará dos métodos de cálculo de la media aritmética para los datos tabulados en distribución de frecuencias. Pero, dado que en algunos casos el cálculo puede resultar tedioso o con cifras muy grandes, conviene aplicar algún procedimiento abreviado. Éstos métodos se basan en restar una constante, multiplicar por una constante ó en ambas operaciones a la vez.
- 120 -
V. Ibañez Q.
Estadígrafos de Posición
A. MÉTODO ABREVIADO. Se trata de reducir la magnitud de la variable, transformando las marcas de clase ó punto medios Y 1, Y2, ... , Yn en desviaciones d i, i = 1,2,3,...,m respecto de un origen de trabajo arbitrariamente elegido.
di = Yi - Ot,
i = 1,2,...,m
Luego, se halla la media aritmética de la nueva variable desviación «d». Criterios para elegir el origen de trabajo. 1. Si «m» es impar, Ot debe ser el valor central de las Y i 2. Si «m» es par, Ot puede ser uno de los valores centrales, el de mayor frecuencia. Entonces el procedimiento consiste en: a. Elegir un origen de trabajo Ot b. Se determina las desviaciones de las Y i, i = 1,2,...,m, respecto a Ot; di = Yi - Ot c. Se determina la media aritmética de la variable desviación «d». m
∑n d i
M(d ) =
i =1
n
i
=
1
m
1
m
m
1
n (Y − O ) = ∑ n Y − O ∑ n ∑ n n n i
i =1
i
t
i
i =1
i
t
i
i =1
= M(Y) - O t de donde M(Y) = M(d) + O t EJEMPLO: Hallar la media aritmética por el método abreviado para los datos agrupados en una distribución de frecuencias de la variable longitud de mecha (cm) de las alpacas de la Zona de Melgar. SOLUCIÓN: 1. Puesto m = 8, se elige O t = 10.75, uno de los valores centrales de los Y i
Estadística Básica Aplicada a la Ganadería
- 121 -
2. Se calculan desviaciones di = Yi - Ot, 3. Se efectuan los productos: nidi 4. Se determina la media aritmética de la variable «d».
Ot
Yi
ni
d i = Y i - O t
nid i
3.15 5.05 6.95 8.85
3 4 18 20
-7.6 -5.7 -3.8 -1.9
-22.80 -22.80 -68.40 -38.00
10.75
20
0
12.65 14.55 16.45
20 11 4
1.9 3.8 5.7
-152
102.6 38.00 41.80 22.80
8
∑nd
100
i
i
= -49.40
i=1
8
∑n d i
M (d ) =
i =1
n
i
=
n1d 1 + n 2 d 2 ++ n 8d 8 100
=
−49.4 100
= −0494 .
M(Y) = M(d) + Ot = -0.494 + 10.75 = 10.256
B. MÉTODO CODIFICADO). Si la amplitud de clase es constante, es: Y2' − Y1' = Y3' − Y2' == Ym' − Ym' −1 = C , en el caso discreto cuando
las Yi, están espaciadas a una distancia constante. Entonces: a. Se elige el origen de trabajo O t, siguiendo los criterios mencionados. b. Se toma la amplitud constante (común) de los intervalos como unidad para medir las desviaciones, respecto al origen O t, es decir.
- 122 -
V. Ibañez Q.
Estadígrafos de Posición
ui =
Yi − O t
, i = 1,2,...., m
c
c. Se calcula la media aritmética de la variable «u». Cuando todos los intervalos son iguales, entonces puede simplificarse más el trabajo, similar al anterior se elige un origen de trabajo O t que coincida con el valor central de la variable o con el de mayor frecuencia, es decir:
M ( u) =
1
m
nu ∑ n i
Y − O = 1 ∑ n (Y − O ) = ∑n c nc n 1
i
i =1
m
m
i
t
i
i
i =1
i
t
i =1
n ∑ 1 1 1 1 = ∑ n Y − ∑ n O = M( Y) − O c n n n c m
m
i
m
i =1
i
i
i =1
M ( u) =
1 c
M ( Y) − O t ,
i
t
t
i =1
cM(u) = M(Y) - O t
De donde: M(Y) = cM(u) + O t EJEMPLO: Determinar la media aritmética, usando el método codificado para los datos que están tabulados en distribución frecuencias de la variable longitud de mecha (cm) de las alpacas de la Zona de Melgar.
Estadística Básica Aplicada a la Ganadería
Ot
Yi
ni
ui = (Yi - 8.85)/1.9
niui
3.15 5.05 6.95 8.85
3 4 18 20
-3 -2 -1 0
-9 -8 -18
10.75 12.65 14.55 16.45
20 20 11 4
1 2 3 4
-35
- 123 -
109 20 40 33 16
8
∑n u
100
i
i
= 74
i =1
1. Elegimos Ot = 8.85 2. Calcular la diferencia entre las Y i es constante e igual a 1.9, entonces: ui =
Yi − 8.85 1.9
3. Cálculo de la media de la variable «u»: 8
∑u n i
M ( u) =
i =1
n
i
=
74 100
= 0.74
Luego: M(Y) = cM(u) + Ot = 1.9x0.74 + 8.85 = 10.256
5.2.4. MEDIA ARITMÉTICA PONDERADA ( X P ) El promedio ponderado permite calcular un promedio que toma en cuenta la importancia o el peso que tiene cada valor sobre el total. La media aritmética de los valores X 1, X2, ... , Xk ponderada por los pesos w 1, w2, ... ,wk es igual a:
- 124 -
V. Ibañez Q.
Estadígrafos de Posición k
XP =
w 1x1 + w 2 x2 ++ w k x k w 1 + w 2 ++ w k
∑w x i
=
i
i =1 k
∑w
i
i =1
Otra forma de definir, es igual a la sumatoria del producto de cada uno de los valores u observaciones (X i) por sus respectivos pesos o ponderaciones (w i) dividida entre la suma de las ponderaciones. EJEMPLO: Un ganadero compra toros de 2-4 dientes para el engorde en diferentes plazas de 5 provincias del departamento de Puno, de acuerdo al siguiente cuadro: Lugares de Provincia
compra (plazas)
Huancané San Román Puno El Collao Yunguyo Putina
3 5 6 4 3 7
Precio pagado S/. Por toro (Xi) 380 330 320 422 414 340
410 350 370 430 435 355
401 370 340 490 420 380
340 360 350 380 400 410 335 370 374
380
¿Cuál es el promedio general ponderado de compra por toro?. SOLUCION:
Estadística Básica Aplicada a la Ganadería
- 125 -
k
∑X
Provincia
i
Wi
Xi
Xi Wi
3 5 6 4 3 7
397 350 360 438 423 362
1191 1750 2160 1752 1269 2534
i=1
Huancané San Román Puno El Collao Yunguyo Putina
1191 1750 2160 1752 1269 2534
6
6
∑X W = 10656
∑ W = 28
Total
i
i
i
i =1
i =1
6
∑X W i
XP =
i
i =1 6
=
∑W
10656 28
= 381 soles.
i
i =1
Respuesta: El promedio ponderado de compra de toro en las diferentres plazas de las distintas Provincias es S/. 381 soles. EJEMPLO: En el siguiente ejemplo, se trata de las notas de un alumno X i y se desea calcular el promedio ponderado final. k
Tipo de exámenes
Wi
Notas
Tipo de exámenes
∑X
Wi
i
i =1
Exámenes Escritos Trabajos Encargados Prácticas calificadas
3 1 2
12 10 11 12 13 11 10 13 12
Exámenes Escritos Trabajos Encargados Prácticas calificadas
3
Total
∑W = 6 i
i=1
33 25 46
3 1 2
∑W = 6 i
i=1
11.0 12.5 11.5
33.0 12.5 23.0 3
3
Total
Xi
Xi
∑XW i
i=1
i
- 126 -
V. Ibañez Q.
Estadígrafos de Posición 3
∑X W i
XP =
i =1 3
∑
i
= Wi
6850 . 6
= 11.4 ≈ 11,
i =1
Entonces el promedio ponderado final de un estudiante es 11 puntos.
5.2.5. LA MEDIA GEOMÉTRICA ( X g ) La media geométrica, se usa especialmente en los casos en que existe una tasa de crecimiento relativamente constante (población, montos medios de capitales sujetos a interes compuesto, etc.). O simplemente, cuando se desea un porcenta je medio de crecimiento o de baja, según corresponda. También se utiliza de preferencia cuando es conveniente dar importancia a los valores pequeños.
A. MEDIA GEOMÉTRICA PARA DATOS NO AGRUPADOS. La media geométrica simple ( X g ) ó «Mg» de «n» observaciones X1, X2, ... , Xn positivas, es igual a la raiz enésima del producto de los «n» valores observados. n
Xg = M g = n X1X2 X n = n
∏X
i
i =1
EJEMPLO: Se registró a 10 alpacas machos de dos años de edad de la Raza Suri las medidas biométricas del cuerpo de la alpaca, la variable perímetro toráxico (cm) en el CIP. - La Raya, manejadas bajo condiciones de pastos naturales (1995). Las medidas son las siguientes: 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80, ¿Calcular la Media Geométrica ( X g )
n = 10
Estadística Básica Aplicada a la Ganadería
- 127 -
SOLUCIÓN: 70x73 73x83x80 = 76.41671885 , entonces X g = 76. i) Xg = Mg = 10 74x70
El promedio geométrico de las medidas del perímetro de toráx es 76 cm. ii) Otra forma de calcular la Media geométrica, es utilizando Logaritmos: 10
Xi
74
70
73
77
78
83
70
77.5
83
80
∑Log(X ) = i
i=1
Log(Xi) 1.869 1.86923 23 1.845 1.84510 10 1.86332 1.86332 1.886 1.88649 49 1.89209 1.89209 1.919 1.91908 08 1.84510 1.84510 1.88930 1.88930 1.919 1.91908 08 1.90309 1.90309
18.83 18.8318 188 8
10
∑ Log( X ) i
i =1
Xg =
n
=
18.8318838 83188386 6 10
= 1883188386 .
Log(X ) ∑ = Anti log = Anti log(18831 188 . 3188 8838 386 6) = 76.4167 416718 188 8 n 10
i
Pero: X g
i =1
X g = 76 cm., es igual al i).
B. MEDIA GEOMÉTRICA PARA DATOS AGRUPADOS. Si los datos están agrupados en intervalos de clase, la media geométrica ponderada, es igual a la raíz enésima del producto de las marcas de clase o puntos medios elevados a sus respectivas frecuencias, frecuencias, cuyo índice radical es igual al número de observaciones. m
n1 1
n2 2
n3 3
Yg = Y . Y . Y n
nm m
Y
=
n
∏Y
ni i
i =1
m
, donde n = ∑ n i
Yi = Marcas de clase, i = 1,2,...,m, m = Número de clases.
i =1
- 128 -
V. Ibañez Q.
Estadígrafos Estadígraf os de Posición
Aplicando logaritmos a ambos miembros de la ecuación anterior es: 1
LogYg = Logn Y1n .Y2n .Y3n Ymn = n1LogY1 + n2LogY2 ++nmLogYm 1
2
3
m
n
=
m
1
n LogY ∑ n i
i
i =1
n LogY ∑ = Anti log n m
i
Yg
i
i =1
EJEMPLO: Hallar la media geométrica Yg para los datos agrupados de la variable longitud de mecha (cm) de los vellones de alpacas de la Zona de Melgar. Marcas de clase Yi 3. 3.15 Frecuencia (ni)
5.05
6.95
8.85
4
18
20
3
10.75 12.65 14.55 16.4 20
20
11
4
SOLUCIÓN: [Y' [Y'i-1 - Y'i > 2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5
-
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
Yi
ni
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
3 4 18 20 20 20 11 4
Totales
LogYg =
100
1 n
8
∑ n iLogYi = i =1
LogYi
ni LogYi
0.4983106 0.7032914 0.8419848 0.9469433 1.0314085 1.1020905 1.1628630 1.2161659
1.4949317 2.8131655 15.1557265 18.9388654 20.6281693 22.0418105 12.7914929 4.8646636
∑ n LogY i
98.7288254 100
i
= 98.728825
= 0.9872882 987288253 53
Estadística Básica Aplicada a la Ganadería
Luego:
- 129 -
Yg = Anti log(0.9872 987288 8825 253 3) = 9.7115 711543 4336 368 8 Yg ≈ 9 .71 71
Es el promedio geométrico para la variable longitud de mecha (cm) en vellones de alpacas.
DESVENTAJAS: - Su cálculo es engorroso. - Esta limitado para valores positivos para que pueda ser interpretado. - Si algún valor de la variable es cero, la X g será cero. - Si aparece algún valor negativo, la media geométrica toma un valor imaginario.
PROPIEDADES DE LA X g P-1. La X g de «n» observaciones es tal que si es sustituida por cada una de las observaciones, deja inmutado el producto de los términos. n X1 . X 2 X n = Xg
P-2. La X g de una serie de relaciones es igual a la relación entre la X g de los numeradores y la Yg de los denominadores. n
X1 X 2
⋅
Y1 Y2
Xn Yn
n
=
n
X1 ⋅ X 2 X n Y1 ⋅ Y2 Yn
P-3. La X g de términos positivos es siempre menor o igual que la X (media aritmética). Es igual a la media aritmética, solo en el caso en que todos los términos sean iguales entre si X ≥ Xg . P-4. El promedio geométrico es menor que el promedio aritmético, pero mayor que el promedio armónico: X ≥ Xg ≥ X H .
- 130 -
V. Ibañez Q.
Estadígrafos Estadígraf os de Posición
5.2.6. L A MEDIA ARMÓNICA ( XH ) La media armónica, se emplea para obtener un valor representativo de un conjunto de datos expresados en forma de tasas.
A. MEDIA ARMÓNICA CON DATOS NO AGRUPADOS. La media armónica XH o MH de «n» términos no nulos X 1, X2, ... , Xn, es el recíproco de la media aritmética de los recíprocos de esos términos: 1
XH = M H =
n
1
∑X i =1
i
n
=
n
1
∑X i =1
i
n
Donde: n = Número de observaciones Xi = Observaciones de la muestra. EJEMPLO: Se registró a 10 alpacas machos de dos años de edad de la Raza Suri las medidas biométricas del cuerpo de la alpaca, la variable perímetro toráxico (cm) en el CIP. - La Raya, manejadas bajo condiciones de pastos naturales (1995). La información se presenta a continuación: 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80,
n = 10
¿Calcular el promedio XH de la variable perímetro toráxico (cm)? SOLUCIÓN: 10
Xi
74
70
73
77
78
83
70
77.5
83
80
∑
1 Xi
=
i=1
1/Xi 0.0135 0.0143 0.0137 0.0130 0.0128 0.0120 0.0143 0.0129 0.0120 0.0125 0.1310907
Estadística Básica Aplicada a la Ganadería
XH =
n 10
1
i =1
i
∑X
=
10 0131090709 .
- 131 -
= 76.283 ⇒ XH = 76.28 cm.
Respuesta: El promedio armónico de la variable perímetro toráxico en alpacas de la CIP. La Raya es 76.28 cm. Calculamos: X = M ( x) =
74 + 70 70 + 73 73++83 + 80 10
. cm. = 7655
Xg = Mg = 10 74x70 70x73 73x83x80 = 76.41671885
Entonces: X ≥ Xg ≥ XH entonces 76.55 55 ≥ 76.42 4 2 ≥ 76.28 28
B. MEDIA ARMÓNICA CON DATOS AGRUPADOS. Sean Y1, Y2, ... ,Ym (marcas de clase), clase), valores de la variable variable «Y», asociados a las frecuencias absolutas n 1, n2, ... ,nm, respectivamente. respectivamente. YH =
n n1 Y1
+
n2 Y2
++
nm Ym
n = m , ni
∑Y i =1
m
n = ∑ ni i =1
i
También se puede usar con frecuencias relativas: YH =
1 m hi
∑Y i =1
i
USOS: - Determinar la velocidad promedio de recorrido de reacciones químicas, de precios, de rendimientos, etc. - Para estimar el número de repeticiones por tratamiento, cuando se trata de estimar el error estándar en un análisis de varianza (datos desbalanceados).
- 132 -
V. Ibañez Q.
Estadígrafos Estadígraf os de Posición
EJEMPLO: Encontrar la Media Armónica YH para los datos agrupados en intervalos de la variable longitud de mecha (cm) de las muestras de vellón de las alpacas de la Zona de Melgar. [Y' [Y'i-1 - Y'i > 2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5
-
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
Yi
ni
1/Yi
n /Y i /Yi
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
3 4 18 20 20 20 11 4
0.3174603 0.1980198 0.1438849 0.1129944 0.0930233 0.0790514 0.0687285 0.0607903
0.9523810 0.7920792 2.5899281 2.2598870 1.8604651 1.5810277 0.7560137 0.2431611
Totales
YH =
100
n 8
ni
∑Y i=1
=
100 1103494285 .
∑
n i Y i = 11.034943
8
= 9.06212215,
n=
∑n = 100 i
i=1
i
YH =9.06
Respuesta: El promedio armónico es 9.06 cm. para la variable longitud de mecha (cm) en alpacas de la Zona de Melgar. Entonces podemos comprobar que: Y ≥ Yg ≥ YH entonces 10.256 ≥ 9.711 ≥ 9.062
Estadística Básica Aplicada a la Ganadería
- 133 -
PROPIEDADES DE LA MEDIA ARMÓNICA. - La suma algebraica de las desviaciones de los recíprocos de las observaciones del recíproco de la media armónica es nula.
1 − 1 = 0 ∑ Y X 8
i =1
i
H
- La media armónica es menor o igual que la X g ( XH ≤ Xg ) - XH ≤ Xg ≤ X
5.2.7. LA MEDIA CUADRÁTICA ( Xq ) A. LA MEDIA CUADRÁTICA CON DATOS NO AGRUPADOS. La media cuadrática ( Xq ) de las observaciones X 1, X 2, ... , X n es igual a la raíz cuadrada del cociente que resulta de dividir la sumatoria de los cuadrados de las observaciones entre el número de observacion. n
∑ Xq = Mq ( x) =
X2i
i =1
n
Donde: Xq = Media cuadrática. Xi = Valores de las observaciones. n = Tamaño de la muestra. EJEMPLO: Encontrar la media cuadrática de los 10 alpacas machos de dos años de edad de la Raza Suri del CIP. La Raya, para la variable perímetro toráxico (cm). 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80,
n = 10
- 134 -
V. Ibañez Q.
Estadígrafos de Posición
SOLUCIÓN: 10
Xi
74
70
73
77
78
83
70
77.5
83
∑X = 2 i
80
i=1
2 Xi
5476
4900 5329 5929 6084 6889 4900 6006.25 6889 6400
58802.25
10
∑X Xq =
i =1
n
2 i
=
58802.25 10
= 766826 .
Xq = 76.68 cm.
Respuesta: El promedio cuártico de la variable perímetro toráxico en alpacas de la CIP. La Raya es 76.68 cm.
B. LA MEDIA CUADRÁTICA CON DATOS AGRUPADOS ( Yq ). Es igual a la raíz cuadrada del cociente que resulta de dividir la sumatoria del producto de las frecuencias absolutas (n i) por los cuadrados de las marcas de clase ó puntos medios entre el número de observaciones «n». m
∑n Y i
Yq = M q (Y) =
i =1
n
2 i
m
,
Donde: n =
∑n
i
i=1
Yi = Marca de clase EJEMPLO: Encontrar la Media Cuadrática Yq para los datos agrupados en intervalos de frecuencia para la variable longitud de mecha (cm) de las muestras de vellón de las alpacas de la Zona de Melgar.
Estadística Básica Aplicada a la Ganadería
[Y'i-1 - Y' i> 2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5
-
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
Yi
ni
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
3 4 18 20 20 20 11 4
Totales
100
Yq =
1149051 . 100
2
Y
niY
i
9.9225 25.5025 48.3025 78.3225 115.5625 160.0225 211.7025 270.6025
2 i
29.77 102.01 869.45 1566.45 2311.25 3200.45 2328.73 1082.41
∑n Y i
- 135 -
2 i
= 11490.51
= 10.7194
Yq = 10.72 cm.
Rpta: El promedio cuártico de la Longitud de mecha (cm) es 10.72 cm.
PROPIEDADES: 1. La media cuártica es mayor o igual que la media aritmética:
X ≤ Xq = Mq(X)
2. X H ≤ X g ≤ X ≤ X q , la media cuadrática es mayor o igual a la media aritmética, y la media aritmética es mayor o igual a la media geométrica y éste último es mayor o igual al promedio armónico. ~) 5.2.8. LA MEDIANA (Me ó Me(X), X
Es el valor central de un conjunto de «n» observaciones X 1, X2, ... , Xn de la variable o característica X, los mismos que son ordenados de menor a mayor, es decir el valor divide a una serie de observaciones en dos partes, de modo que el 50% de las observaciones son menores o iguales al valor de la mediana y los otros 50% de las observaciones son mayores o iguales a la mediana.
- 136 -
V. Ibañez Q.
Estadígrafos de Posición
50%
50%
X1
Me
Xn
A. MEDIANA CON DATOS NO AGRUPADOS. En este caso no es fácil localizar la mediana cuando se trata de un número considerable de observaciones, a menos que la muestra tenga pocas observaciones, para lo cual es necesario ordenar los datos. Hay que distinguir dos situaciones: Número de observaciones IMPAR y número de observaciones es PAR.
1. Si el número de observaciones «n» es impar, se ordenan los datos en orden creciente X (1), X(2), X(3), ...., X(n), denotado a X (1) como la observación más pequeña, X (2) la segunda observación menor, ....., X (n), denota la observación mayor, es decir X (1) ≤ X( 2 ) ≤≤ X( n ) , y tomar como valor de la mediana el valor de la observación que ocupa la posición central.
Me = X n+1 2
~ X = Me(x) = Me = X n+1 2
EJEMPLO: Encontrar la mediana de las 9 alpacas machos de dos años de edad de la Raza Suri, para la variable perímetro toráxico (cm). 74, 70, 73, 77, 78, 83, 70, 83, 80 SOLUCIÓN: i) Se ordenan los datos: X 1= 70, X2= 70, X3= 73, X4= 74, X5= 77, X6= 78, X7= 80, X8= 83, X9= 83
Estadística Básica Aplicada a la Ganadería
- 137 -
70
70
73
74
77
78
80
83
83
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
ii) Existen n = 9, un número impar de observaciones, entonces la mediana es el valor de la observación que ocupa la posición central. ~ X = Me = X ( n +1) = X ( 9 +1) = X ( 5) = 77 2
2
2. Si el número de observaciones «n» es par, una vez ordenado el conjunto de observaciones, existen dos valores centrales X n2 y X( 2n ) +1 , pudiéndose tomar como mediana cualquiera de ellos, o cualquier valor entre éstos dos, para esto se toma como mediana la semisuma de ambos valores. ~ X = Me =
X n + X n
2 +1
2
2
EJEMPLO: Encontrar la mediana con los datos de alpacas de dos años de edad en el CIP. La Raya, de la Raza Suri. 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80
n = 10
SOLUCIÓN: i) Se ordenan los datos: X 1= 70, X2= 70, X3= 73, X4= 74, X 5= 77, X 6= 77.5, X7= 78, X8= 80, X9= 83, X10= 83 ii) Existen n = 10, un número par de observaciones, entonces la mediana es el promedio de las observaciones centrales:
- 138 -
V. Ibañez Q.
Estadígrafos de Posición
X10 = X(5) = 77
y X10 = X6 = 775 .
2
2
~ X = Me =
X10 + X10 2
2
+1
2
=
+1
X(5) + X( 6) 2
=
77 + 775 . 2
. = 7725
70
70
73
74
77
77.5
78
80
83
83
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
Respuesta: La mediana del perímetro toráxico (cm) en alapcas de la raza Suri es 77.25 cm, o el perímetro toráxico mediano es 77.25 cm.
X ~ Me = X = X
n +1
, si "n" es un número entero impar.
2 n
+ X n+2
2
2
2
, si " n" es número entero par.
B. MEDIANA CON DATOS AGRUPADOS. Cuando los datos están agrupados en intervalos de clases o en una distribución de frecuencias no es posible individualizar la observación mediana y sólo es factible determinar el intervalo en que se encuentra. Para determinar la mediana se presentan dos casos: variable discreta y variable contínua.
a) VARIABLE DISCRETA. El procedimiento para calcular la mediana es: 1. Construir la tabla de distribución de frecuencias absolutas acumuladas (N i) «menor que».
Estadística Básica Aplicada a la Ganadería
- 139 -
2. Se determina la menor frecuencia absoluta acumulada N j que supera
n, 2
entonces se puede tener que: N j−1 ≤
i) Cuando
n >N
2
, entonces la mediana es: Me(Y) = Y j
ni
Ni
Y1
n1
N1
Y2
n2
N2
. .
. .
. .
Y j-1
n j-1
N j-1
n
Y j
n j
N j
2
. .
. .
. .
Ym
nm
n
Total
n
n 2
2
< Nj.
j-1
Yi
ii) Cuando
n
> N j−1
= N j-1, entonces Y j-1 Y j y cualquier valor
entre éstos dos se puede considerar como la mediana, y se calcula como:
Me =
Y j−1 + Yj 2
- 140 -
V. Ibañez Q.
Estadígrafos de Posición
Yi
ni
Ni
Y1
n1
N1
Y2
n2
N2
.
.
.
.
.
N j- 2
n
Y j- 1
n j-1
N j- 1
2
Y j
n j
N j
. .
. .
. .
Ym
nm
n
Total
n
= N j−1
EJEMPLO: Encontrar la mediana para los datos que corresponde al número de ovinos muertos por rebaño durante el período de invierno de 1999 en el CIP - Chuquibambilla. SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias absolutas acumuladas «menor que». N° de ovinos
(Yi)
ni
Ni
0 1 2 3 44 5 6 7 8 9
2 4 7 6 6 2 4 4 3 4
2 6 13 19 25 27 31 35 38 42
10
Total
∑n i =1
i
=
42
n 2
= 21 > N4 = 19
Estadística Básica Aplicada a la Ganadería
2) Ubicar la posición de la mediana: n = 42,
n
= 2
4 2 2
- 141 -
=21, entonces la menor
frecuencia absoluta que supera a 21 es N 5 = 25 >21, luego j = 5 y j-1=51=4. 3)
n
= 2
4 2 2
=21>N j-1 = N 4 = 19. Entonces la mediana es
Me = Y5 = 4
EJEMPLO: Se recolectó muestras para la evaluación de tres acaricidas para el control de la sarna sarcóptica ( Sarcoptes scabie var. aucheniae) en alpacas jóvenes y adultos del CIP - La Raya, para esto se ha tomado en cuenta la duración del período: larval, ninfas y adultos hasta el 10mo. día del primer tratamiento, usándose los siguientes productos veterinarios: A1: Diazinón 15% + Cypermetrina 5%, A2: Diazinón 60%, A3: Lindano 16% + Cypermetrina 4% y A4: grupo control. La información se presenta a continuación: SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias absolutas acumuladas «menor que». Sarna Sarcóptica (Yi)
ni
Ni
0 1 2 3 4
10 3 4 5 7
10 13 17 22 29
5
12
41
N6
n 90
66 7 8 9 10
10
51
N7
2
13 8 10 8
64 72 82 90
11
Total
∑n
i
i =1
= 90
=
2
= 45 >41= N6
- 142 -
V. Ibañez Q.
Estadígrafos de Posición
2) Ubicar la posición de la Me, esto es n = 90, entonces
n
= 2
9 0 2
=45, entonces
N7 = 51 >45, luego j = 7 y j-1=7-1=6. 3)
n
= 2
9 0 2
=45>N j-1 = 41 = N 6. Entonces la mediana es
Me = Y7 = 6
b) VARIABLE CONTÍNUA. Cuando la variable es contínua, entonces el problema consiste en determinar un punto dentro del intervalo en que está comprendido la mediana, esto se puede lograr con el procedimiento que consiste en: 1. Construir la tabla de distribución de frecuencias absolutas acumuladas (Ni) «menor que». 2. Se determina la menor frecuencia absoluta acumulada N j que supera
n, 2
entonces se puede tener que: N j−1 ≤
i) Si ocurre que
n 2
n 2
< Nj.
=N j-1, la mediana es: Me(Y) = Y ’ j-1, donde
Y’ j-1= Límite inferior de la clase mediana.
Estadística Básica Aplicada a la Ganadería
Y'i-1 - Y'i
Yi
ni
Ni
Y'0 - Y'1
Y1
n1
N1
Y'1- Y'2
Y2
n2
N2
Y'2 - Y'3
Y3
n3
N3
. . .
. . .
. . .
. . .
Y' j-2 - Y' j-1
Y j-1
n j-1
N j-1
Y' j-1 - Y' j
Y j
n j
N j
. .
. .
. .
. .
Y'm-1 - Y'm
Ym
nm
n
Totales
n 2
- 143 -
= N j−1
n
ii) Si
n 2
>N j-1, la mediana se debe encontrar dentro de la clase
«j», es decir, en el intervalo [Y’ j-1,Y’ j>, llamada clase mediana. La fórmula de la mediana es:
' j−1
Me = Y
n −N +c 2 N − N
j−1
j
j
j−1
Donde: c j = Amplitud de la clase mediana. N j = Frecuencia absoluta acumulada de la clase mediana. n = Número de observaciones en la muestra. Y’ j-1 = Límite inferior de la clase mediana.
- 144 -
V. Ibañez Q.
Estadígrafos de Posición
Y'i-1 - Y'i
Yi
ni
Ni
Y'0 - Y'1
Y1
n1
N1
Y'1- Y'2
Y2
n2
N2
Y'2 - Y'3
Y3
n3
N3
. . .
. . .
. . .
. . .
Y' j-2 - Y' j-1
Y j-1
n j-1
N j-1
n
Y' j-1 - Y' j
Y j
n j
N j
2
. .
. .
. .
. .
Y'm-1 - Y'm
Ym
nm
n
Totales
> N j−1
n
También se puede calcular con frecuencias relativas acumuladas:
' j − 1
Me = Y
1−H +c 2 H − H
j − 1
j
j
Donde:
j− 1
c j = Amplitud de la clase mediana. H j = Frecuencia relativa acumulada de la clase mediana. Y’ j-1 = Límite inferior de la clase mediana.
Con la distribución de frecuencias relativas acumuladas menor que, es similar a las frecuencias absolutas acumuladas. En este caso 1 2
, N j por H j y N j-1 por H j-1.
n 2
es reemplazado por
Estadística Básica Aplicada a la Ganadería
Y'i-1 - Y'i
hi
Hi
Y'0 - Y'1
h1
H1
Y'1- Y'2
h2
H2
Y'2 - Y'3
h3
H3
. . .
. . .
. . .
Y' j-2 - Y' j-1
h j-1
H j-1
1
Y' j-1 - Y' j
h j
H j
2
. .
. .
. .
- 145 -
> H j−1
EJEMPLO: Calcular la Mediana (Me) para los datos de longitud de mecha (cm) de alpacas machos de la Zona de Melgar. SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias. [Y'i-1 - Y'i>
ni
Ni
2.2 - 4.1 4.1 - 6.0 6.0 - 7.9 7.9 - 9.8 9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
3 4 18 20 20 20 11 4 100
3 7 25 45 65 85 96 100
n 2
=
100 2
= 50 > N 4 = 45
- 146 -
V. Ibañez Q.
Estadígrafos de Posición
2) Ubicar la posición de la mediana: n = 100, entonces
n
= 2
100 2
=50, entonces
la menor frecuencia absoluta acumulada que supera es N 5 = 65 >50, luego j = 5 y j-1=5-1=4, La clase mediana es Y’ 4 - Y’ 5 = 9.8 - 11.7 3) Como
n
=
2
100 2
' j−1
Me = Y
=50>45 = N 4 , la mediana esta dada por:
n −N +c 2 N − N
j−1
j
j
Me = 9.8 +1.9
j−1
100 − N = Y + 19. 2 = 9.8 +1.950 − 45 N −N 65 45 − 4
' 4
5
4
5 = 10.275 cm. 20
Respuesta: La mediana de la longitud de mecha (cm) de los vellones de alpacas de 100 muestras es 10.28 cm. en la Zona de Melgar. EJEMPLO: Se dispone de 40 datos sobre el número de alpacas que posee un comunero del sector aymara que corresponde a 40 familias. SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias: Int. De clase Límites Reales de Clase 39 - 54 55 - 70 71 - 86 87 - 102 103 - 118 119 - 134 Totales
38.5 - 54.5 54.5 - 70.5 70.5 86.5 86.5 - 102.5 102.5 - 118.5 118.5 - 134.5 Totales
ni
Ni
3 5 13 9 7 3 n = 40
3 8 21 30 37 40
n 2
=20>8
Estadística Básica Aplicada a la Ganadería
2) Ubicar la posición de la mediana: n = 40, entonces
n
= 2
4 0 2
- 147 -
=20, entonces
N3 = 21 >20, luego j = 3 y j-1=3-1=2, la clase mediana es Y’ 2 - Y’3 = 70.5 - 86.5 3) Como
n 2
=
4 0 2
=20>8 = N2, la mediana esta dada por:
n −N +c 2 N − N
j−1
' j−1
Me = Y
j
j
Me = 705 . + 16
j−1
40 − N = Y + 16 2 = 705. + 1620 − 8 N − N 21 8 − 2
' 2
3
2
12 = 8527 13 . cm.
Respuesta: La mitad de los comuneros poseen menos de 85 alpacas y la otra mitad poseen mayores a esa suma.
PROPIEDADES DE LA MEDIANA. P-1. La suma de las desviaciones absolutas de las observaciones con relación a la mediana es mínimo. n
∑X
i
− Me = mínimo , para datos no agrupados.
i =1 m
∑ n Y − Me = mínimo , para datos agrupados. i
i
i =1
P--2. Si «a» es cualquier valor, entonces la propiedad se escribe: n
∑X i =1
n
i
− Me ≤ ∑ Xi − a , para datos no agrupados. i =1
- 148 -
V. Ibañez Q.
Estadígrafos de Posición
m
∑n
m
i
Yi − Me ≤
i =1
∑n
i
Yi − a , para datos agrupados.
i =1
P-3. En una distribución simétrica se cumple: Me = Ym+1 , si «m» es impar 2
Me = Ym' , si «m» es par. 2
Donde: Yi = Marca de clase ó puntos medios. m = Número de clases. Y’i = Límite de clase.
VENTAJAS DE LA MEDIANA. - La mediana es un estadígrafo que no está afectada por valores extremos, y por lo tanto es más representativa que la media aritmética cuando alguno de los valores de la variable se aleja mucho de los demás o cuando las series son poco simétricas. - Es útil cuando los datos agrupados tienen clases abiertas en los extremos. - Se aplica también a variables que pertenecen a la escala ordinal.
DESVENTAJAS DE LA MEDIANA. - Se deben organizar los datos antes de realizar cualquier tipo de cálculo para determinar la mediana. - Ciertos procedimientos estadísticos que usan la mediana son mucho más complejos que aquellos que usan la media. - La mediana no es adecuado a manipulaciones algebraicas posteriores.
Estadística Básica Aplicada a la Ganadería
- 149 -
5.2.9. LA MODA (Md = Mo = Xmo) Es un estadígrafo de posición que puede definirse como el valor más frecuente, es decir, el que se presenta una frecuencia mayor que las de los valores inmediatamente anterior y posterior. En varios campos es de importancia, por ejemplo, en un estudio de mercados, el intervalo modal de los ingresos puede representar el principal grupo de consumidores potenciales.
A. MODA CON DATOS SIMPLES NO AGRUPADAS. La moda de una muestra x 1,x2,....,xn, es aquel valor de la variable que se presenta con mayor frecuencia, es decir es el valor que más se repite, y lo denotamos por (Md). La moda no siempre existe y no siempre es única. El conjunto de datos puede tener lo siguiente: - La distribución que tiene una sola moda, se llama unimodal . - La distribución que tiene dos modas, se llama bimodal . - La distribución que tiene más de dos modas, se llama multimodal . EJEMPLO: Se registró a las alpacas machos de dos años de edad de la raza Suri, la variable largo de cuelo (cm) en el CIP - La Raya, manejadas bajo condiciones de pastos naturales (1995). La información se presenta a continuación: Largo de cuello (cm): 39, 42, 40, 40, 41, 41, 42, 42, 45, 42 Ordenado : 39, 40, 40, 41, 41, 42, 42, 42, 42, 45 Determine, y presente gráficamente la moda de las observaciones dadas anteriormente: SOLUCIÓN: 39
1
40
40
2
41
41
42
42
42
42
2 4
45
1
El valor 42 ocurre 4 veces, el valor 40 se repite 2 veces y el 45 y 39 ocurre una sola vez. Luego la moda de éstas observaciones es: Md = 40, Md = 41 y Md = 42 con la variable largo de cuello (cm).
- 150 -
V. Ibañez Q.
Estadígrafos de Posición
ni 5
Valor de la Frec. Absolut.
var. Xi
ni
39 40 41 42 45 Total
1 2 2 4 1 10
4 3 2 1 0 39
Luego la Md = 42.
40
41
42
45 Xi
Polígono de frecuencia de la distribución unimodal
EJEMPLO: Se ha considerado la variable: Altura a la cruz (cm) : 72, 78, 75, 80, 79, 81, 71, 82, 83, 77 Ordenado : 71, 72, 75, 77, 78, 79, 80, 81, 82, 83 Valor de la Frec. Abs oluta
variable Xi
ni
71 72 75 77 78 79 80 81 82 83 Total
1 1 1 1 1 1 1 1 1 1 10
ni 2 No t iene moda, y este t ipo de distribución se llama Uniforme
1
0 71
72
75
77
78
79
80
81
82
83 X
i
Polígono de frecuencia de la distribución Uniforme. EJEMPLO: Se consideró la variable: Altura a la cruz (cm): 70, 78, 75, 78, 71, 71, 71, 78, 81, 80 Ordenando se tiene : 70, 71, 71, 71, 75, 78, 78, 78, 80, 81
Estadística Básica Aplicada a la Ganadería
- 151 -
SOLUCIÓN: Valor de la Frec. Absolut.
var. Xi
ni
70 71 75 78 80 81 Total
1 3 1 3 1 1 10
Md = 71 y M’d = 78 Son dos valores modales
ni 4
3 2 1 0 70
71
75
78
80
81
Xi
Es una distribución Bimodal
B. MODA CON DATOS AGRUPADOS. Se usa cuando los datos están tabulados en distribución de frecuencias, y en esta se observa a la clase que contiene mayor frecuencia, será la que contiene a la moda.
a) VARIABLE DISCRETA. Cuando la variable es discreta, la moda se determina simplemente fijándose en el valor de la variable que más se repite. EJEMPLO: Se recolectó muestras para la evaluación de tres acaricidas para el control de la sarna sarcóptica en alpacas jóvenes y adultas del CIP. La Raya, tomando encuenta la duración del período: larval, ninfas y adultos al 10m. día del primer tratamiento. Los datos tabulados en frecuencias se presenta a continuación:
- 152 -
V. Ibañez Q.
Estadígrafos de Posición
SOLUCIÓN: 0
1
2
3
4
5
6
77
8
9
10 Total
ni 10
3
4
5
7
12
10
13
8
10
8
(Yi)
90
n8
1. La frecuencia absoluta máxima es n 8 = 13. 2. Luego la moda es el valor de la variable que corresponde a la frecuencia n8 = 13, Md = 7. En este caso, se cumple que Md(x) = Md(Y).
b) VARIABLE CONTÍNUA. Se pueden presentarse los siguientes casos: i) Si las densidades de frecuencias de la clase inmediatamente antes de la clase modal (la clase PREMODAL) e inmediatamente después de la clase modal (la clase POSMODAL) son aproximadamente iguales, como se verá en el gráfico de histograma, la moda se aproxima satisfactoriamente por el punto medio de la clase modal, es decir las marcas de clase Yi. n
i
Md = Yi =
0
Y' i-1 M d
Y' i
Yi'−1 + Yi' 2
Marcas de clase
Estadística Básica Aplicada a la Ganadería
- 153 -
ii) Cuando no se cumple la condición anterior, como sugiere en el histograma de la figura siguiente, para un conjunto de datos tabulados con intervalos de clase de igual amplitud (ci = c), la estimación de la moda se calcula por la fórmula obtenida gráficamente como sigue:
ni
M
Q
c P
n j+1
T
c
n j−1
l a d o M s o P e s a l C
R
c
l a d o M e r P e s a l C '
Y j−1
Md
Y j'
La fórmula de la Moda (Md) es:
' j−1
Md = Y
n −n + c n − n + n − n j
j
j−1
j−1
j
j+1
' j−1
ó Md = Y
∆ + c ∆ + ∆ 1
1
2
Donde: Y j'−1
: Límite inferior de la clase modal.
n j-n j-1= ∆ 1 : Diferencia entre la frecuencia de la clase inmediatamente anterior a la clase modal. n j-n j+1= ∆ 2 : Diferencia entre la frecuencia de la clase inmediatamente posterior a la clase modal.
- 154 -
V. Ibañez Q.
c n j-1 n j n j+1
Estadígrafos de Posición
: Amplitud de la clase modal. : Frecuencia absoluta de la clase premodal. : Frecuencia absoluta de la clase modal : Frecuencia absoluta de la clase posmodal. EJEMPLO: Determinar la moda (Md) de la siguiente distribución de frecuencias. [Y'i-1 - Y'i >
ni
2.2 - 4.1 4.1 - 6.0 6.0 - 7.9 7.9 - 9.8 9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
3 4 18 20 20 20 11 4 100
A) B) C)
SOLUCIÓN: 1) Se identifica el intervalo de la clase modal, observando la tabla de frecuencias absolutas, en este caso es 20 que está en el cuarto intervalo. Entonces: Y’ j-1 - Y’ j = 7.9 - 9.8, luego j = 4, j -1 = 3 Y’3 - Y’ 4 = 7.9 - 9.8 n j = n4 = 20 n j-1 = n3 = 18 c = 1.9 n j+1 = n5 = 20 2) Reemplazando los valores identificado en la fórmula de la moda, se tiene: Para A)
= 7.9 + 19. = 9.8 cm. n −n 20 − 18 n − n + n − n (20 − 18) + (20 − 20) = 9.8 +1.9 = 9.8 cm. n −n 20 − 20 Md = Y + c (20 − 20) + (20 − 20) n − n + n − n '
4
Md = Y3 + c
4
Para B)
3
' 4
5
5
3
4
4
5
4
5
6
Estadística Básica Aplicada a la Ganadería
Para C)
'
Md = Y5 + c
n
- 155 -
= 11.7 + 1.9 = 11.7 cm. 20 − 18 − n + n − n (20 − 20) + (20 − 11) n 6 − n5
6
5
6
7
EJEMPLO: Determinar la moda de la siguiente distribución de frecuencias: Int. De clase
ni
[0 - 1 > [1 - 2 > [2 - 3 > [3 - 4 > [4 - 5 > Total
3 10 17 8 5 43
Frec. Más alta.
SOLUCIÓN: 1) Se identifica el intervalo de la clase modal observado en la frecuencia absoluta n3 = 17, entonces: Y’ j-1 - Y’ j = Y’2 - Y’3 =2 - 3, luego j = 3, j -1 = 2 n j = n3 = 17 n j-1 = n2 = 10 c=1 n j+1 = n4 = 8 2) Reemplazando a la fórmula de moda se tiene:
n −n 17 − 10 = + = 2.44 Md = Y + c 2 1 n − n + n − n (17 − 10) + (17 − 8) ' 2
3
3
2
2
3
4
Entonces la Md = 2.44 ~ 2. EJERCICIO: En una granja avícola, se registra la siguiente tabla de distribución de pollos con respecto a sus pesos:
- 156 -
V. Ibañez Q.
Estadígrafos de Posición
Peso en gramos n i (N° de p ollos ) 960 980 1000 1020 1040 1060
980 - 1000 - 1020 - 1040 - 1060 - 1080 Total
60 160 280 260 160 80 1000
VENTAJAS DE LA MODA 1. La moda, se puede usar como una localización, tanto para datos cualitativos y cuantitativos. 2. La moda no está indebidamente afectada por valores extremos. Aún si los valores altos son muy altos y los valores pequeños muy pequeños, se escoge el valor más frecuente del conjunto de datos como el valor modal. 3. La moda se puede calcular aún cuando una más de las clases sean abiertas en los extremos. 4. La moda al igual que la mediana, es de fácil comprensión, y no queda influenciada por los valores extremos.
DESVENTAJAS DE LA MODA 1. Muy a menudo, no hay un valor modal, porque el conjunto de datos no contiene valores que se repitan más de una vez. Otras veces, cada valor es la moda, porque cada una aparece el mismo número de veces. Por consiguiente, la moda no es una medida útil en estos casos. 2. Cuando el conjunto de observaciones contiene dos, tres o más modas, éstas son difíciles de interpretar y comparar. 3. Al igual que la mediana, presenta una gran inestabilidad en el muestreo y tampoco permite un tratamiento algebraico. 4. La moda es aún menos importante que la mediana, debido a su ambigüedad.
Estadística Básica Aplicada a la Ganadería
- 157 -
5.2.10. RELACIÓN ENTRE MODA, MEDIA y MEDIANA. A. DISTRIBUCIONES SIMÉTRICAS. Es cuando los valores de la variable, cuya representación gráfica es acampanada y además unimodal; en este caso coinciden exactamente en el mismo los estadígrafos como: Media, Mediana y Moda. Tal como se puede apreciar en el siguiente gráfico.
X = Me = Md X = Me = Md
B. DISTRIBUCIONES ASIMÉTRICAS. Si la distribución tiene la forma acampanada, es unimodal, pero no tiene simetría, las 3 medidas estadísticas toman valores diferentes y la mediana queda comprendida generalmente entre la Moda (Md) y la Media Artimética ( x ). i) Si la distribución es más alargada o sesgada para valores grandes de la variable (asimetría a la derecha o positiva), entonces debe cumplir que: Sesgada a la derecha
X > Me > Md Md
Me
X
ii) Si la distribución es más alargada o sesgada para valores pequeños de la variable (Asimetría a izquierda o negativa), entonces:
- 158 -
V. Ibañez Q.
Estadígrafos de Posición
Sesgada a la izquierda
X < Me < Md X
Me
Md
De i) y ii) vemos que la mediana es el mejor medida de tendencia central en la ubicación, ya que se encuentra entre la Md y x . Entonces, si la distribución es moderamente asimétrica y unimodal, se cumple aproximadamente la siguiente relación: X − Md ≅ 3( X − Me) Md = X − 3( X − Me) Md = 10.256 - 3(10.256-10.275) = 10.313
5.3. MEDIDAS DE CUANTILES. Estas medidas se llaman cuantiles o cuantilas; es decir son aquellos valores de la variable que dividen una distribución de frecuencias o el total de observaciones debidamente ordenadas en 4, 6, 8, 10 o cien partes iguales, y estos cuantiles son más usados en el análisis estadístico y son: cuartiles, deciles y percentiles, los valores se dan a menudo en tanto por ciento.
5.3.1. CUARTILES. Los cuartiles son estadígrafos de posición que dividen a un conjunto de datos o distribución de frecuencias ordenados en forma ascendente o descendente en CUATRO PARTES de igual tamaño, esto significa que entre dos cuartiles consecutivos se encuentran no más de 25% del total de «n» observaciones, y se denota por Qi, i = 1,2,3. En forma esquemática se puede observar que:
Estadística Básica Aplicada a la Ganadería
- 159 -
X máx.
X mín.
Q1
0%
25%
Q3
Q2 = Me
n
25%
2n n 4
4
=
25%
2
3n
100%
25%
4
50%
50% 75%
A. PRIMER CUARTIL (Q1). Es un valor que supera a no más del 25% de las «n» observaciones y que es superado por no más del 75% de las «n» observaciones. En otras palabras, el 25% de las observaciones tienen valores inferiores o iguales a Q 1, en tanto que el 75% restante tienen valores superiores a Q 1. 25% de «n»
Q1
75% de «n»
a) Q1 CON DATOS NO AGRUPADOS. o característica X.
Sea x1,x2,x3,....,xn un conjunto de observaciones de una variable
1. Se ordenan los datos en forma ascendente o descendente: X(1),X(2),X(3),....,X(n) ó X(n),X(n-1),.....,X(2),X(1). 2. Se localiza el punto de posición del valor correspondiente a la
n +1 4
observaciones ordenada. i) Si ii) Si
n +1 4
es un entero, entonces Q 1 = al punto de posición de
n +1 4
n +1 4
= Xn+1 4
no es un entero, realizar una interpolación lineal entre los
dos valores de las dos observaciones entre las cuales se encuentra la fracción.
- 160 -
V. Ibañez Q.
Estadígrafos de Posición
EJEMPLO: Determinar el primer cuartil Q 1 de los datos de perímetro toráxico (cm), de los siguientes datos: 74, 71, 73, 77, 78, 83, 70, 77.5, 83, 80 SOLUCIÓN: 1. Se ordena los datos: Q1
70
70
73
74
77
77.5
78
80
83
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
2. Como n = 10, entonces
n +1 4
=
10 + 1 4
=
11 4
= 2.75,
el valor de Q 1 es el segundo
dato más 75% de la diferencia entre los valores de las observaciones segundo y tercero. Esto es:
= 73
X( 2) = 70 X( 3)
⇒ Q1 = 70 + (73 − 70)(0.75) = 72.25
Q1 = 72.25 cm. EJEMPLO (cuando el número de datos es impar). 1. Ordenar los datos: 70
70
73
74
77
77.5
78
80
83
83
84
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
X(11)
Estadística Básica Aplicada a la Ganadería
2. Como n = 11, entonces
n + 1 4
=
11 + 1 4
=
12 4
- 161 -
= 3 , es un entero, entonces Q 1 es la
tercera observación ordenada: Q1 = X n+1 = X 3 = 73 . 4
b) Q1 CON DATOS AGRUPADOS ó TABULADOS. Si los datos están agrupados en distribución de frecuencias entonces Q1, se determina con los siguientes pasos: 1. Se toman las frecuencias absolutas acumuladas «menor que» N i o frecuencias relativa acumuladas «menor que» H i. 2. Se identifica la clase que contiene a Q 1, determinando la menor de las frecuencias absolutas acumuladas N j que supera a
n 4
o la menor H j que
supeara a 1 . 4
N j−1 ≤
n 4
< Nj
ó
H j−1 ≤
1 4
< Hj
por lo tanto, la clase que contiene a Q 1 es
" Y j'−1 − Yj' " .
i. Si
N j−1 =
n 4
ó H j−1 =
1 4
, el primer cuartil es Q 1, = Y’ j-1 donde Y’ j-1=Límite
inferior de la clase que contiene a Q 1. ii. Si
N j−1 <
n 4
ó H j−1 <
1 4
, entonces, el primer cuartil debe encontrarse dentro
del intervalo [Y’ j-1- Y’ j>, entonces Q1 debe localizar a una distancia «d» de Y’ j-1, expresado de la siguiente manera: Q 1, = Y’ j-1 +d.
- 162 -
V. Ibañez Q.
Estadígrafos de Posición
Y'i-1 - Y'i
ni
Ni
Y'i-1 - Y'i
hi
Hi
Y'0 - Y'1
n1
N1
Y'0 - Y'1
h1
H1
Y'1- Y'2
n2
N2
Y'1- Y'2
h2
H2
. . .
. . .
. . .
. . .
. . .
. . .
Y' j-2 - Y' j-1 n j-1
N j-1
Y' j-1 - Y 'j
n j
N j
. .
. .
. .
n 4
> N j−1
Y' j-2 - Y 'j-1 h j-1
H j-1
1 4
Y' j-1 - Y 'j
h j
H j
. .
. .
. .
> H j−1
El «d» se puede calcular mediante dos métodos: el método de interpolación algebraica y el gráfico, usaremos el método de interpolación algebraica, se hace mediante una regla de tres simple: Si en una amplitud c j
N j - N j-1 observaciones n
en qué amplitud «d»
4
Esto es: c i → N j − N j−1 d →
n 4
− N j−1
− N j−1 observaciones
⇒ de donde:
n−N d= 4 N − N
j−1
j
j−1
c
j
Luego:
' j-1
Q1 = Y
n −N +c 4 N − N
j−1
j
j
j−1
Donde: Y’ j-1 = Límite inferior de la clase que contiene a Q 1. c j = Amplitud de la clase que contiene a Q 1. N j = Frecuencia absoluta acumulada de la clase que contiene a Q 1. N j-1 = Frecuencia absoluta acumulada inmediatamente anterior a la clase de Q 1.
Estadística Básica Aplicada a la Ganadería
- 163 -
Para frecuencia Relativa Acumulada H i
' j-1
Q1 = Y
1−H +c 4 H − H
j−1
j
j−1
j
Donde: Y’ j-1 = Límite inferior de la clase que contiene a Q 1. c j = Amplitud de la clase que contiene a Q 1. H j = Frecuencia relativa acumulada de la clase que contiene a Q 1. H j-1 = Frec. relativa acumul. inmediatamente anterior a la clase de Q 1. EJEMPLO: Calcular el primer cuartil (Q 1) con los datos de la longitud de mecha (cm) en alpacas de la Zona de Melgar que corresponde al ejemplo anterior: SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias. [Y'i-1 - Y'i>
ni
Ni
2.2 - 4.1 4.1 - 6.0 6.0 - 7.9 7.9 - 9.8 9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
3 4 18 20 20 20 11 4 100
3 7 25 45 65 85 96 100
n 4
=
100 4
2. Ubicar la posición de Q 1: n = 100, entonces
= 25 ⇒ N 3 = 25
n
= 4
100 4
frecuencia absoluta acumulada (N i) que supera a
=25, entonces la menor n 4
=25 es N4 =45 >50,
- 164 -
V. Ibañez Q.
Estadígrafos de Posición n
luego j = 4 y j-1=4-1=3, Pero N 3 = 25 = 4 =25, entonces el intervalo que contiene a Q1 es:
Q1 = Y’ j-1 = Y’3 = 7.9 Se debe comprobar que:
N j−1 ≤
n 4
< N j esto es igual a: 25 ≤ 25 < 45
Respuesta: Significa que el 25% del total de vellones, es decir 25 vellones miden inferiores o iguales a 7.9 cm. y los 75 vellones restantes (75%) de los vellones miden superiores a 7.9 cm. de longitud de mecha.
B. SEGUNDO CUARTIL (Q2) o CUARTIL MEDIANA Q2 = Me. Es un valor que está en el centro, y por lo tanto coincide con la mediana Q2=Me. ' j−1
Q 2 = Me = Y
2/ n − N + c 4/ N − N
j−1
j
j
j −1
= Y
' j−1
n−N +c 2 N − N
j−1
j
j
j −1
C. TERCER CUARTIL (Q3). Es un valor que supera a no más del 75% de las «n» observaciones y que es superado por no más del 25% de las «n» observaciones. Es decir, que el 75% de las observaciones tienen valores inferiores o iguales a Q 3 y el 25% restante tienen valores superiores a Q 3. 75% de «n»
Q3
25% de «n»
a) Q 3 CON DATOS NO AGRUPADOS. Sea x1,x2,x3,....,xn un conjunto de observaciones de una variable o características X. Entonces Q 3 se determina:
Estadística Básica Aplicada a la Ganadería
- 165 -
1. Se ordena los datos en forma ascendente o descendente: X(1),X(2),X(3),....,X(n) ó X(n),X(n-1),.....,X(2),X(1). 2. Se localiza el punto de posición del valor correspondiente a la
3( n + 1) 4
observaciones ordenada. i) Si
es un entero, entonces Q 3 = al punto de posición de
3( n + 1) 4
3( n + 1) 4
ii) Si
= X 3( n+1) 4
3( n + 1) 4
no es un entero, es decir es fraccionario, realizar una
interpolación lineal entre los dos valores correspondientes a las dos observaciones entre las cuales se encuentra la fracción. EJEMPLO: Determinar el tercer cuartil Q 3 para los datos del ejemplo anterior que corresponde al perímetro toráxico (cm) en alpacas de la Raza Suri (1995). 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80, 84
n = 11
SOLUCIÓN: 1. Se ordena los datos en forma ascendente: Q3 70
70
73
74
77
77.5
78
80
83
83
84
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
X(11)
2. Como n = 11, entonces
3(11 + 1) 4
=
36 4
= 9 , el valor de Q 3 es la
novena obser-
vación ordenada. Entonces: Q 3 = X 3(11+1) = X ( 9 ) = 83 cm. 4
- 166 -
V. Ibañez Q.
Estadígrafos de Posición
EJEMPLO (cuando el número de datos es par, es decir n = 10). 1. Ordenar los datos: 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80
n = 10 Q3
70
70
73
74
77
77.5
78
80
83
83
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
33
= 8.25 ,
2. Como n = 10, entonces
3( n + 1) 4
=
4
es un número fraccionario, en-
tonces se realiza la interpolación lineal, es el octavo dato más 25% de la diferencia entre los valores de las observaciones octava y novena. La octava observación es 80 y la novena es 83, entonces: Q3 = 80 + (83 - 80)x(0.25) = 80.75
b) Q 3 CON DATOS AGRUPADOS ó TABULADOS. Si los datos están agrupados en distribución de frecuencias o clases, entonces Q 3, se determina: 1. Se construye la tabla de frecuencias absolutas acumuladas «menor que» Ni o frecuencias relativa acumuladas «menor que» H i. 2. Se identifica la clase que contiene a Q 3, determinando la menor de las frecuencias absolutas acumuladas N j que supera a
3n 4
o la menor H j
que supeara a 3 . 4
N j−1 ≤
3n 4
< Nj
ó
H j−1 ≤
3 4
< Hj
por lo tanto, la clase que contiene a Q 3
Estadística Básica Aplicada a la Ganadería
- 167 -
es " Y j'−1 − Yj' " . i. Si
N j−1 =
ii. Si
N j−1 <
3n 4
3
ó H j−1 =
3n
ó H j−1 <
4
, el tercer cuartil es Q 3, = Y’ j-1.
4
3 4
, entonces, el tercer cuartil debe encontrarse den-
tro del intervalo [Y’ j-1- Y’ j>. Es decir Q 3 debe localizarse a una distancia «d» de Y’ j-1, expresado como: Q 3 = Y’ j-1 +d.
Y'i-1 - Y'i
ni
Ni
Y'i-1 - Y'i
hi
Hi
Y'0 - Y'1
n1
N1
Y'0 - Y'1
h1
H1
Y'1- Y'2
n2
N2
Y'1- Y'2
h2
H2
. . .
. . .
. . .
. . .
. . .
. . .
Y' j-2 - Y' j-1 n j-1
N j-1
3n 4
Y' j-1 - Y' j
n j
N j
. .
. .
. .
> N j−1
Y' j-2 - Y' j-1 h j-1
H j-1
3 4
Y' j-1 - Y' j
h j
H j
. .
. .
. .
> H j−1
El cálculo de «d» se hacen en forma similar al Q 1. Si en una amplitud c j
N j - N j-1 observaciones 3n
en qué amplitud «d» Esto es: c i → N j − N j−1 d →
3n 4
− N j−1
4
− N j−1 observaciones
⇒ de donde:
3n − N d=c 4 N − N
j−1
j
j
j−1
- 168 -
V. Ibañez Q.
Estadígrafos de Posición
Luego:
' j-1
Q3 = Y
3n − N +c 4 N − N
j−1
j
j−1
j
Donde: Y’ j-1 = Límite inferior de la clase que contiene a Q 3. c j = Amplitud de la clase que contiene a Q 3. N j = Frecuencia absoluta acumulada de la clase que contiene a Q 3. N j-1 = Frecuencia absoluta acumulada inmediatamente anterior a la clase de Q 3. Cuando se usa las frecuencias acumulada relativa, la fórmula es la siguiente:
' j-1
Q3 = Y
3−H +c 4 H − H
j−1
j
j
j−1
Donde: Y’ j-1 = Límite inferior de la clase que contiene a Q 3. c j = Amplitud de la clase que contiene a Q 3. H j = Frecuencia relativa acumulada de la clase que contiene a Q 3. H j-1 = Frecuencia relativa acumulada inmediatamente anterior a la clase de Q 3. EJEMPLO: Calcular el tercer cuartil (Q 3) con los datos de la longitud de mecha (cm) en alpacas de la Zona Melgar, y que corresponde al ejemplo anterior: SOLUCIÓN: 1) Construir la tabla de distribución de frecuencias.
Estadística Básica Aplicada a la Ganadería
Long. Mecha (cm)
ni
Ni
2.2 - 4.1 4.1 - 6.0 6.0 - 7.9 7.9 - 9.8 9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
3 4 18 20 20 20 11 4 100
3 7 25 45 65 85 96 100
3n 3100 ( ) 4
=
2) Ubicar la posición de Q 3: n = 100, entonces
4
= 75> N5 = 65
3n 4
- 169 -
=
3(100) 4
=75, entonces N 6,
luego j = 6, j-1 = 5, por lo tanto, la clase que contiene a Q 3 es Y’5 - Y’ 6 = 11.7 - 13.6. 3) Como
3n 4
=75>N 5 = 65, el tercer cuartil es:
Se debe comprobar que:
3n −N Q =Y +c 4 N −N 3
' j-1
j−1
j
j
j−1
N j−1 ≤
n 4
< N j esto es igual a: 65 ≤ 75 < 85
3(100) −N = Y +c 4 =117. +19. 75−65 =1265 . N −N 85-65 ' 5
5
j
6
5
Q3 = 12.65 cm. Respuesta: Significa que del total de vellones de alpacas, el 75%, es decir 75 vellones, tienen medidas de longitud de mecha (cm) inferiores o iguales a 12.65 cm., y el 25% restante tienen longitudes de mecha superiores a los 12.65 cm.
- 170 -
V. Ibañez Q.
Estadígrafos de Posición
5.3.2. DECILES (D i) Los DECILES son estadígrafos de tendencia central o de posición que dividen al total de las observaciones de una muestra o distribución de frecuencias en 10 partes iguales, tal que entre dos deciles consecutivas, se encuentre no más del 10% del total de las observaciones (cada parte incluye el 10% de las observaciones). Los deciles, se representan por la letra D i, donde D, indica Decil y «i» el orden del decil buscado. En total hay nueve decilas denotados por: D 1, D2, D3, ...,D9. Esquemáticamente se puede observar: 0%
10 %
X min
D1
10%
D2
10%
D3
D4
10%
10%
D 5
10%
D6
10%
D7
10%
D8
10%
D9
n
2n
3n
4n
5n
6n
7n
8n
9n
10
10
10
10
10
10
10
10
10
10%
100%
X máx
5n n = % 50% 50 10 2
a) DECILES CON DATOS NO AGRUPADOS. característica X .
Sea x1,x2,x3,....,xn un conjunto de observaciones de una variable ó
1. Se ordenan los datos en forma ascendente o descendente: X(1),X(2),X(3),....,X(n) ó X(n),X(n-1),.....,X(2),X(1). 2. Se localiza el punto de posición del valor correspondiente a la
i(n) +5 10
observaciones ordenada. Entonces: i) Si i( n) + 5 es un entero, entonces D i = X i ( n ) 5 10 10 10 + 10 ii) Si
i( n) 10
+
5 10
no es un entero exacto, D i se obtiene por interpolación
lineal entre los dos valores correspondientes a las dos observacio-
Estadística Básica Aplicada a la Ganadería
- 171 -
nes entre las cuales se encuentra la fracción. EJEMPLO: Determinar el primer decil (D i ) para los datos del ejemplo anterior que corresponde al perímetro toráxico (cm) en alpacas de la Raza Suri (1995). 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80, 84
n = 11
SOLUCIÓN: 1. Se ordena los datos en forma ascendente: D1 70
70
73
74
77
77.5
78
80
83
83
84
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
X(11)
2. Ubicación de la posición, como n = 11, entonces
1(11) 10
+
5 10
=
16 10
= 16 . ,
el valor
de D1, se realiza mediante la interpolación lineal: D 1 = 70+(70-70)x0 = 70. D5 = ? i) ubicar la posición de D 5:
5(11) 10
+
5 10
=
60 10
= 6, ⇒ D5 = X 5(11) 10
+
5
= X ( 6) = 77.5 cm.
10
Si n = 10, calcular D 5: 1. Ordenar los datos: 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80
n = 10
- 172 -
V. Ibañez Q.
Estadígrafos de Posición D5
70
70
73
74
77
77.5
78
80
83
83
X(1)
X(2)
X(3)
X(4)
X(5)
X(6)
X(7)
X(8)
X(9)
X(10)
2) ubicar la posición de D 5: 5(10) + 10
5 10
=
55 10
. , ⇒ D 5 = 77 + (77.5 − 77 ) x0.5 = 77 .25 cm. = 55
Si n = 11, calcular D 9: i) ubicar la posición de D 9:
9 (11) 10
+
5 10
=
104 10
= 10.4 , ⇒ D 9 = 83 + (84 − 83) x1 = 84 cm.
Respuesta: D9= 84 cm., nos indica que el 90% de los medidas del perímetro toráxico en alpacas, tienen medidas inferiores o igual a 84 cm. y el resto de medidas (10%), tienen medidas de perímetro toráxico superiores a 84 cm.
b) DECILES CON DATOS AGRUPADOS ó TABULADOS ( Di). Si los datos están agrupados o tabulados en una distribución de frecuencias o clases, entonces D i, se determina: 1. Se construye la tabla de frecuencias absolutas acumuladas «menor que» Ni o frecuencias relativa acumuladas «menor que» H i. 2. Se determina la posición
i( n ) 10
o i si se considera la tabla de H j, i = 1,2,3, 10
..., 9. 3. Se identifica la clase que contiene a D i, identificando a la frecuencia acumulada N j ó H j inmediatamente a
i( n ) 10
(o a i ). En estas condicio10
nes, se tiene que Y’ i-1 - Y’i es la clase que contiene a D i. N j−1 ≤
i(n) 10
< N j ó H j−1 ≤
es " Y j'−1 − Yj' " .
i 10
< Hj
por lo tanto, la clase que contiene a D i
Estadística Básica Aplicada a la Ganadería
i. Si
N j−1 =
ii. Si
i(n) 10
i(n) 10
ó H j−1 = i
> N j−1 ó
i 10
, entonces D i, = Y’ j-1.
> H j−1 ,
10
entonces D i = Y’ j-1 +d.
Y'i-1 - Y'i
ni
Ni
Y'i-1 - Y'i
hi
Hi
Y'0 - Y'1
n1
N1
Y'0 - Y'1
h1
H1
Y'1- Y'2
n2
N2
Y'1- Y'2
h2
H2
. . .
. . .
. . .
. . .
. . .
. . .
Y 'j-2 - Y 'j-1 n j-1
N j-1
i(n) 10
Y 'j-1 - Y 'j
n j
N j
. .
. .
. .
>N j−1
- 173 -
Y 'j-2 - Y 'j-1 h j-1
H j-1
i 10
Y 'j-1 - Y 'j
h j
H j
. .
. .
. .
> H j−1
El cálculo de «d» se hacen en forma similar al D i. Si en una amplitud c j
N j - N j-1 observaciones i(n)
en qué amplitud «d»
10
Esto es: ci → N j − N j−1 d →
in 10
− N j−1
− N j−1 observaciones
⇒ de donde:
i(n) − N d = c 10 N − N
j−1
j
j
j−1
Luego:
' j-1
Di = Y
i(n) − N + c 10 N − N
j−1
j
j
j−1
,
i = 1,2,...,9
Donde: Y’ j-1 = Límite inferior de la clase que contiene a D i. c j = Amplitud de la clase que contiene a D i. N j = Frecuencia absoluta acumulada de la clase que contiene a D i.
- 174 -
V. Ibañez Q.
Estadígrafos de Posición
N j-1 = Frec. absoluta acumulada inmediatamente anterior a la clase de D i. Cuando se usa las frecuencias acumulada relativa, la fórmula es la siguiente:
' j-1
Di = Y
i −H + c 10 H − H
j−1
j
j
j−1
,
i = 1,2,....,9
Donde: Y’ j-1 = Límite inferior de la clase que contiene a D i. c j = Amplitud de la clase que contiene a D i. H j = Frecuencia relativa acumulada de la clase que contiene a D i. H j-1 = Frec. relativa acumulada inmediatamente anterior a la clase de D i. EJEMPLO: Calcular los siguientes deciles: D 1, D2,D3, ... , D9 para los datos de longitud de mecha (cm) en alpacas de la Zona Melgar, y que corresponde al ejemplo anterior: SOLUCIÓN: PRIMER DECIL (D 1) 1) Construir la tabla de distribución de frecuencias. Long. Mecha (cm)
ni
Ni
2.2 4.1 6.0
-
4.1 6.0 7.9
3 4 18
3 7 25
7.9
-
9.8
20
45
9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
20 20 11 4 100
65 85 96 100
in 10
= 10 > N2 = 7 = D1, D2
D 3 , D4
D5 , D6 D7 , D8 D9
Estadística Básica Aplicada a la Ganadería
2) Ubicar la posición de D 1: n = 100, entonces
i(n) 10
=
1(100) 10
- 175 -
=10, entonces N 3,
luego j =3, j-1 = 2, por lo tanto la clase que contiene a D 1 es Y’ 2 - Y’ 3 = 6.0 - 7.9. i(n)
3) Como
10
=10>N2 = 7, entonces: Y’ 2 - Y’ 3 = 6.0 - 7.9.
Se debe comprobar que:
N j−1 ≤
i(n) 10
< Nj esto es igual a: 7 ≤ 10 < 25 . Re-
emplazando en la fórmula se tiene:
' j-1
D1 =Y
i(n) − N + c 10 N − N
j−1
j
j
j−1
1(100) − N = Y + c 10 = 60. +19. 10−7 = 632 . N −N 25-7 ' 2
2
j
3
2
D1 = 6.32 cm. Respuesta: El 10% de los vellones de longitud de mecha (cm), tienen un número de longitudes inferiores o iguales a 6.32 cm. y el resto (90%) de vellones son superiores a 6.32 cm. SEGUNDO DECIL (D 1) 1) Ubicar la posición de D 2: n = 100, entonces
2(n) 10
=
2(100) 10
=20, éste número
esta localizado entre 7 y 25, entonces j =3, j-1 = 2. Se debe comprobar que: 2) Como
2 (100) 10
N 2 ≤ 20 < N 3
=20>N2 = 7, entonces: Y’ 2 - Y’ 3 = 6.0 - 7.9.
Reemplazando en la fórmula se tiene:
- 176 -
V. Ibañez Q.
D2
Estadígrafos de Posición
2(100) − N 20 − 7 10 = + = 7.37 =Y +c 6 . 0 1 . 9 25- 7 N − N ' 2
2
j
3
2
D2 = 7.37cm. Respuesta: Significa que el 20% de los vellones de longitud de mecha (cm), tienen medidas iguales o inferiores a 7.37 cm. o el 20% de los vellones poseen 7.37 cm de longitud de mecha como máximo y el 80% de los vellones tienen medidas mayores a 7.37 cm. TERCER DECIL (D 3) 1) Ubicar la posición de D 3: n = 100, entonces
3(n) 10
=
3(100) 10
=30, éste número
esta localizado entre 25 y 45, entonces j =4, j-1 = 3, entonces: Y’ 3 - Y’4 = 7.9 - 9.8, además: 25 ≤ 30 < N4 = 45 2) Como
3(100)
D3
10
=30>N 3 = 25, reemplazando en la fórmula se tiene:
3(100) − N = 7.9 +1.9 30 − 25 = 8375 = Y + c 10 . 45- 25 N − N ' 3
3
j
4
3
D3 = 8.375 cm. Respuesta: El 30% de los vellones de longitud de mecha (cm), tienen medidas iguales o inferiores a 8.38 cm. y el 70% de los vellones tienen medidas superiores de longitud de mecha a 8.38 cm.
Estadística Básica Aplicada a la Ganadería
- 177 -
CUARTO DECIL (D 4) 1) Ubicar la posición de D 4: n = 100, entonces
4(n) 10
=
4(100) 10
=40, éste número
esta comprendido entre 25 y 45, entonces j =4, j-1 = 3, con: Y’ 3 - Y’4 = 7.9 - 9.8. 2) Como
4(100) 10
D4
=40>N3 = 25, entonces reemplazando en la fórmula se tiene:
4(100) − N 40 − 25 10 =Y +c = 7 . 9 + 1 . 9 = 9325 . N − N 4525 ' 3
3
j
4
3
D4 = 9.325 cm. Respuesta: El 40% de los vellones de alpaca miden igual o inferior a 9.33 cm., y el resto 60% de vellones de alpacas, la longitud de mecha (cm) tienen mayores a 9.33 cm. QUINTO DECIL (D 5) 1) Ubicar la posición de D 5: n = 100, entonces
5(n) 10
=
5(100) 10
=50, éste número
esta comprendido entre 45 y 65, entonces j =5, j-1 = 4, se encuentra en el intervalo de clase: Y’ 4 - Y’ 5 = 9.8 - 11.7. 2) Como
5(100)
D5
10
=50>N4 = 45, entonces reemplazando en la fórmula se tiene:
4(100) − N = Y + c 10 N − N ' 4
j
5
4
4
= 9.8 +1.950 − 45 = 10275 . 65- 45
- 178 -
V. Ibañez Q.
Estadígrafos de Posición
D5 = 10.28 cm. (este valor coincide con la Me). Respuesta: El 50% de los vellones de alpaca miden como máximo 10.28 cm. y el otro 50% tienen medidas de longitud de mecha mayores a 10.28 cm. SEXTO DECIL (D 6) 1) Ubicar la posición de D 6: n = 100, entonces
6(n) 10
=
6(100) 10
=60, entonces éste
número esta comprendido entre 45 y 65, entonces j =5, j-1 = 4, se encuentra en el intervalo de clase: Y’ 4 - Y’ 5 = 9.8 - 11.7. 2) Como
6(100) 10
D6
=60>N 4 = 45, entonces reemplazando en la fórmula se tiene:
6(100) − N = Y + c 10 N − N ' 4
j
5
4
4
= 9.8 +1.9 60 − 45 = 11225 . 65- 45
D6 = 11.23 cm. Respuesta: El 60% de los vellones de alpacas poseen como máximo 11.23 cm. de longitud de mecha y el 40% de las longitudes de mecha son superiores a 11.23 cm. SÉTIMO DECIL (D 7) 1) Ubicar la posición de D 7: n = 100, entonces
7(n) 10
=
7(100) 10
=60, entonces éste
número esta comprendido entre 65 y 85, entonces j =6, j-1 = 5, se encuentra en el intervalo de clase: Y’ 5 - Y’ 6 = 11.7 - 13.6. 2) Como
7(100) 10
=70>N5 = 65, entonces reemplazando en la fórmula se tiene:
Estadística Básica Aplicada a la Ganadería
D7
- 179 -
7(100) − N = 117. + 19. 70 − 65 = 12175 = Y + c 10 . 85- 65 N − N ' 5
5
j
6
5
D7 = 12.18 cm. Respuesta: El 70% de los vellones de alpacas miden inferiores a 12.18 cm. y el resto 30% de las longitudes de mecha son superiores a 12.18 cm. OCTAVO DECIL (D 8) 1) Ubicar la posición de D 8: n = 100, entonces
8(n) 10
=
8(100) 10
=80, entonces éste
número esta comprendido entre 65 y 85, entonces j =6, j-1 = 5, se encuentra en el intervalo de clase: Y’ 5 - Y’6 = 11.7 - 13.6. 2) Como
8(100)
D8
10
=80>N5 = 80, entonces reemplazando en la fórmula se tiene:
8(100) − N 80 − 65 10 =Y +c 11 . 7 1 . 9 . = + = 13125 85- 65 N − N ' 5
5
j
6
5
D8 = 13.13 cm.
NOVENO DECIL (D 9) 1) Ubicar la posición de D 9: n = 100, entonces
9(n) 10
=
9(100) 10
=90, entonces éste
número esta comprendido entre 85 y 96, entonces j =7, j-1 = 6, se encuentra en el intervalo de clase: Y’ 6 - Y’7 = 13.6 - 15.5.
- 180 -
V. Ibañez Q.
Estadígrafos de Posición
9(100)
=90>N6 = 85, entonces reemplazando en la fórmula se tiene:
2) Como
10
D9
9(100) − N 90 − 85 10 = Y +c = 13.6 + 1.9 96 -85 = 14.46 N N − ' 5
6
j
7
6
D9 = 14.46 cm. 5.3.3. PERCENTILES Ó CENTILAS (P i). Los percentiles son estadígrafos de posición que dividen a la totalidad de observaciones de la muestra en 100 partes iguales; es un estadígrafo que da una idea porcentual de la distribución de los datos. Los percentiles, se aplican cuando existen numerosos valores de la variable con una alta frecuencia total. Existen 99 percentiles, y se denota por P i, i = 1,2,3, ..., 99. Para visualizar mejor, se presenta el esquema siguiente: X mín. 0%
P1
1%
P2
1%
P 50
P3
1%
......
1%
P 50
......
......
2%
......
......
P 97
P 98
1%
P 99
1%
X máx. 100%
1%
98% 98% 99%
2% 1%
PRIMER PERCENTIL (P1). Es el valor que supera a no más de un céntimos de las observaciones y es superado por no más de 99 céntimos de ellas. P 1 es el valor que deja 1% de las observaciones menores o iguales a él y el 99% superiores a él. SEGUNDO PERCENTIL (P2). Es el valor que supera a no más de dos centécimos de las observaciones y es superado por no más de 98 centécimos de ellas. P2, es el valor que deja 2% de las observaciones menores o iguales a él y el 98% superiores a él.
Estadística Básica Aplicada a la Ganadería
- 181 -
Así sucesivamente, puede definir cada uno de los percentiles.
NOVENTA Y NUEVE AVO PERCENTIL (P99). Es el valor que supera a no más de 99 centécimos de las observaciones y es superado por no más de 1 centécimo de ellas. P 99, es el valor que deja 99% de las observaciones menores o iguales a él y el 1% superiores a él. CÁLCULO DE LOS PERCENTILES (Pi). Los percentiles, se determinan de la misma forma que los cuartiles y deciles. Para datos agrupados se sigue los siguientes pasos: 1) Se construye la tabla de frecuencias absolutas acumuladas «menor que» N i o frecuencias relativa acumuladas «menor que» H i. i ( n)
2. Se determina la posición mulada Ni o
i 100
100
, si se trabaja con la frecuencia absoluta acu-
con la frecuencia relativa acumulada H i, i = 1,2,3, ..., 99.
3. Se identifica la clase que contiene a P i, identificando a la frecuencia acumulada N j ó H j inmediatamente a
i( n) 100
(o a
i 100
). Para esto, se debe cumplir las
siguientes condiciones. N j−1 ≤
i(n) 100
< N j ó H j−1 ≤
i 100
< Hj
luego el intervalo de clase que contiene a
Pi es " Y j'−1 − Yj' " . 4. Ubicación de los percentiles: i. Si
N j−1 =
ii. Si
N j−1 <
i(n) 100 i(n) 100
ó H j−1 =
ó H j−1 <
i 100
i 100
, entonces P i, = Y’ j-1.
, entonces Pi = Y’ j-1 +d.
Donde «d» se determina por interpolación algebraica o por el método gráfico. Si en una amplitud c j
N j - N j-1 observaciones
- 182 -
V. Ibañez Q.
Estadígrafos de Posición
i(n)
en qué amplitud «d»
100
Esto es: c i → N j − N j−1 d →
in 100
− N j−1
− N j−1 observaciones
⇒ de donde:
i(n) − N d = c 100 N − N
j−1
j
j
j−1
Luego:
' j-1
Pi = Y
i(n) − N + c 100 N − N
j−1
j
j−1
j
,
i = 1,2,...,99
Donde: Y’ j-1 = Límite inferior de la clase que contiene a P i. c j = Amplitud de la clase que contiene a P i. N j = Frecuencia absoluta acumulada de la clase que contiene a P i. N j-1 = Frec. absoluta acumulada inmediatamente anterior a la clase de P i. n = Tamaño de muestra. Cuando se usa las frecuencias acumulada relativa, la fórmula es la siguiente:
' j-1
Pi = Y
i −H + c 100 H − H
j−1
j
j
j−1
,
i = 1,2,....,99
Donde: Y’ j-1 = Límite inferior de la clase que contiene a P i. c j = Amplitud de la clase que contiene a P i. H j = Frecuencia relativa acumulada de la clase que contiene a P i. H j-1 = Frec. relativa acumulada inmediatamente anterior a la clase de P i.
Estadística Básica Aplicada a la Ganadería
- 183 -
EJEMPLO: Calcular los percentiles: P 10, P17, P20, P30, P 25, P 50, P75, P 90 para la longitud de mecha (cm) de los vellones de alpacas de la Zona Melgar. PERCENTIL (P 10) 1. Se construye la tabla de distribución de frecuencias: Long. Mecha (cm)
ni
Ni
2.2 4.1 6.0
-
4.1 6.0 7.9
3 4 18
3 7 25
7.9
-
9.8
20
45
9.8 - 11.7 11.7 - 13.6 13.6 - 15.5 15.5 - 17.4 Totales
20 20 11 4 100
65 85 96 100
P25 P50 P75 P90
2) Ubicar la posición de P 10: n = 100, entonces
i(n)
= 100
10(100) 100
=10, entonces éste
valor está comprendido entre 7 y 25, luego j =3, j-1 = 2, por lo tanto, la clase que contiene a P 10 es Y’2 - Y’3 = 6.0 - 7.9. 3) Como
10(100) 100
=10>N2 = 7, entonces: Y’ 2 - Y’ 3 = 6.0 - 7.9.
Reemplazando en la fórmula de Percentil, se tiene:
P10
10(100) − N = Y + c 100 N − N ' 2
j
3
P10 = D1 = 6.32 cm.
2
2
= 6.0 +1.910 − 7 = 6.32 257
- 184 -
V. Ibañez Q.
Estadígrafos de Posición
Respuesta: El 10% de los vellones de longitud de mecha (cm), son inferiores o iguales a 6.32 cm. y el resto de vellones 90% de sus longitudes de mecha son superiores a 6.32 cm. PERCENTIL (P 17) 1) Ubicar la posición de P17: n = 100, entonces
i(n)
= 100
17(100) 100
=17, entonces éste
valor está comprendido entre 7 y 25, luego j =3, j-1 = 2. por lo tanto, la clase que contiene a P 17 es Y’ 2 - Y’ 3 = 6.0 - 7.9. 17(100)
2) Como
100
=17>N2 = 7, entonces: Y’ 2 - Y’ 3 = 6.0 - 7.9.
Reemplazando en la fórmula de Percentil, se tiene:
17(100) − N P = Y + c 100 N − N ' 2
1
j
3
2
2
= 6.0 +1.917 − 7 = 7.06 25 7
P17 = 7.06 cm. Respuesta: El 17% de los vellones de longitud de mecha (cm), son inferiores o iguales a 7.06 cm. y el resto de vellones 83% de sus longitudes de mecha son superiores a 7.06 cm. Otra forma de interpretar es que el 17% de los vellones de alpacas miden como máximo 7.06 cm. PERCENTIL (P 20) 1) Ubicar la posición de P20: n = 100, entonces
i(n)
= 100
20(100) 100
=20, entonces éste
valor está comprendido entre 7 y 25, luego j =3, j-1 = 2, por lo tanto, la clase que contiene a P 20 es Y’ 2 - Y’ 3 = 6.0 - 7.9. 2) Como
20(100) 100
=20>N2 = 7, entonces: Y’ 2 - Y’ 3 = 6.0 - 7.9.
Reemplazando en la fórmula de Percentil, se tiene:
Estadística Básica Aplicada a la Ganadería
P20
20(100) − N = Y + c 100 N − N ' 2
j
3
2
2
- 185 -
= 6.0 +1.9 20 − 7 = 7.37 257
P20 = D2 = 7.37 cm. Respuesta: El 10% de los vellones de longitud de mecha (cm), son inferiores o iguales a 6.32 cm. y el resto de vellones 90% de sus longitudes de mecha son superiores a 6.32 cm. PERCENTIL (P 25) 1) Ubicar la posición de P 25: n = 100, entonces
i(n)
= 100
25(100) 100
=25, en este caso
coincide con la N 3 = 25, entonces j = 4, j-1=3, el percentil P 25 = Y’3 = 7.9.
P25 = Q1 = 7.9 cm. PERCENTIL (P 30) 1) Ubicar la posición de P 30: n = 100, entonces
i( n)
= 100
30(100) 100
=30, entonces éste
valor está comprendido entre 25 y 45, luego j =4, j-1 = 3, por lo tanto, la clase que contiene a P 30 es Y’3 - Y’4 = 7.9 - 9.8. 2) Como
30(100) 100
=30>N3 =25, entonces: Y’ 3 - Y’ 4 = 7.9 - 9.8.
Reemplazando en la fórmula de Percentil, se tiene:
P30
30(100) − N 30 − 25 100 = Y +c = 7 . 9 + 1 . 9 = 8375 . 45- 25 N − N ' 3
3
j
4
P30 = D3 = 8.375 cm.
3
- 186 -
V. Ibañez Q.
Estadígrafos de Posición
Respuesta: El 30% de los vellones de alpacas, las medidas de longitud de mecha (cm), son iguales o inferiores a 8.38 cm. y el resto de 70% de las longitudes de mecha son superiores a 6.32 cm. PERCENTIL (P 50) 1) Ubicar la posición de P50: n = 100, entonces
i(n)
= 100
50(100) 100
=50, entonces éste
valor está comprendido entre 45 y 65, luego j =5, j-1 = 4, por lo tanto, la clase que contiene a P 50 es Y’4 - Y’5 = 9.8 - 11.7. 2) Como
50(100) 100
=50>N4 =45, entonces: Y’ 4 - Y’ 5 = 9.8 - 11.7.
Reemplazando en la fórmula de Percentil, se tiene:
P50
50(100) − N = 9.8 +1.950 − 45 = 10275 = Y + c 100 . 65- 45 N − N 4
' 4
j
5
4
P50 = Q2 = Me =10.275 cm. Respuesta: El 50% de los vellones de alpacas, para la longitud de mecha (cm), son inferiores o iguales a 10.28 cm. y el resto de vellones 50% tienen longitudes de mecha superiores a 10.28 cm. PERCENTIL (P 75) 1) Ubicar la posición de P75: n = 100, entonces
i(n)
= 100
75(100) 100
=75, entonces éste
valor está comprendido entre 65 y 85, luego j =6, j-1 = 5, por lo tanto, la clase que contiene a P 75 es Y’5 - Y’6 = 11.7 - 13.6. 2) Como
75(100) 100
=75>N5 =65, Y’5 - Y’ 6 = 11.7 - 13.6.
Reemplazando en la fórmula de Percentil, se tiene:
Estadística Básica Aplicada a la Ganadería
P75
- 187 -
75(100) − N = 117. + 19. 75 − 65 = 1265 = Y + c 100 . 85- 65 N − N ' 5
5
j
6
5
P75 = Q3 = 12.65 cm. Respuesta: El 75% de los vellones de alpacas miden como máximo 12.65 cm. y el resto 25% de vellones son superiores a 12.65 cm. para la variable longitud de mecha (cm).
FÓRMULA GENERAL:
Cuartil Qu int il =Y C= Decil Percentil
' j−1
?n − N +c ? N − N
j−1
j
j
j−1
- 188 -
V. Ibañez Q.
Estadígrafos de Posición
5.4. MÉTODOS AUTOMATIZADOS (Statgraphics). Opciones Tabulares: MEDIDAS DE POSICIÓN Como en todo análisis con STATGRAPHICS, en la barra de herramientas de análisis se pueden elegir dos iconos esenciales, el icono Tabular options (segundo icono por la izquierda) y el icono Graphical Options (tercer icono por la izquierda), que permiten manejar todas las subopciones tabulares y gráficas respectivamente para el análisis. En nuestro caso el icono Tabular Options nos lleva a las opciones siguientes: Analysis Summary Data variable: lome 100 values ranging from 2.3 to 17.3
The StatAdvisor --------------This procedure is designed to summarize a single sample of data. It will calculate various statistics and graphs. Also included in the procedure are confidence intervals and hypothesis tests. Use the Tabular Options and Graphical Options buttons on the analysis toolbar to access these different procedures.
Estadística Básica Aplicada a la Ganadería
- 189 -
La opción tabular Analysis Summary es la opción por defecto y presenta un primer resumen de los datos tal como ya hemos visto. La opción Summary Statistics nos lleva a la salida que se presenta a continuación, que incluye por defecto varias medidas de posición, dispersión, asimetría y curtosis (número de valores de la variable, media cuasivarianza, cuasidesviación típica, máximo, mínimo, coeficientes de asimetría y curtosis estandarizados y suma de los valores de la variable, así como el mensaje del intérpretee de resultados). Summary Statistics for lome Count = Average = Variance = Standard deviation= Minimum = Maximum = Range = Stnd. skewness = Stnd. kurtosis =
100 10.251 10.1161 3.18058 2.3 17.3 15.0 -0.237766 -1.18215
The StatAdvisor --------------This table shows summary statistics for lome. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality, which would tend to invalidate any statistical test regarding the standard deviation. In this case, the standardized skewness value is within the range expected for data from a normal distribution. The standardized kurtosis value is within the range expected for data from a normal distribution.
Si estando situados sobre la salida anterior pulsamos el botón derecho del mouse y elegimos la opción Pane Options del menú emergenete resultante, obtenemos la caja de diálogo Summary Statistics Options, que presenta todas las medidas posibles a calcular para la variable, y que son: Average = Media Mode = Moda Variance = Varianza Std. Error = Error estándar Max. = Máximo Lower Quartile = Cuartil Inferior
Median = Mediana Geo. Mean = Media geométrica Std. Deviation = Desviación típica Min. = Mínimo Range = Rango Upper Quartile = Cuartil Superior
- 190 -
V. Ibañez Q.
Interquartile Range = Rango intercuartílico Std. Skewness = Asimetría estandarizada Kurtosis = Curtosis Std. Kurtosis = Curtosis estandarizada Coeff. Of Var. = Coeficiente de variación Sum = Suma
Estadígrafos de Posición
Skewness = Asimetría
Éstas opciones se pueden marcar con una cruz todas aquellas medidas que se deseen calcular. Se observa que por defecto ya están marcadas las medidas anteriormente calculadas, tal como se presenta a continuación:
Se marcarán las opciones que corresponden a éste capítulo, es decir las medidas de tendencia central o medidas de posición, más no así las medidas de dispersión o variabilidad, tal como se presenta en seguida:
Estadística Básica Aplicada a la Ganadería
- 191 -
La salida de las opciones marcadas son los siguientes: Summary Statistics for lome Count Average Median Mode Geometric mean Lower quartile Upper quartile
= = = = = = =
100 10.251 10.3 11.3 9.69152 7.75 12.8
The StatAdvisor --------------This table shows summary statistics for lome. It includes measures of central tendency, measures of variability, and measures of shape. Of particular interest here are the standardized skewness and standardized kurtosis, which can be used to determine whether the sample comes from a normal distribution. Values of these statistics outside the range of -2 to +2 indicate significant departures from normality, which would tend to invalidate any statistical test regarding the standard deviation. To calculate the standardized skewness, press the alternate mouse button and select Pane Options. To calculate the standardized kurtosis, press the alternate mouse button and select Pane Options.
- 192 -
V. Ibañez Q.
Estadígrafos de Posición
Percentiles . La opción tabular Percentiles, permite el cálculo simultáneo de hasta 10 percentiles a voluntad del usuario. Al elegir la opción Percentiles y pulsar OK, se obtienen por defecto los percentiles 1, 5, 10, 25, 50, 75, 90, 95 y 99. El resultado para la variable LOME se presenta a continuación:
El resultado de la opción seleccionada Percentiles, se presenta a continuación y por defecto: Percentiles for LOME 1.0% = 3.0 5.0% = 5.15 10.0% = 6.35 25.0% = 7.75 50.0% = 10.3 75.0% = 12.8 90.0% = 14.55 95.0% = 15.1 99.0% = 17.1
Estadística Básica Aplicada a la Ganadería
- 193 -
The StatAdvisor --------------This pane shows sample percentiles for lome. The percentiles are values below which specific percentages of the data are found. You can see the percentiles graphically by selecting Quantile Plot from
the list of Graphical Options. Si estando situados sobre la salida anterior pulsamos el botón derecho del ratón y elegimos la opción Pane Options del menú emergente resultante, obtenemos la caja de diálogo Percentiles Options (siguiente figura), en cuyo campo Percentiles se puede introducir los percentiles que se deseen calcular:
- 194 -
V. Ibañez Q.
Estadígrafos de Posición
EJERCICIOS 5.1 1. En el ILLPA-INIA, se ensayó un experimento en el consumo y utilización de Avena ( Avena sativa) con ensilaje de avena y sin aditivos (urea-sal) en el engorde de ovinos criollos, el objetivo fue evaluar la ganancia de peso final kg (Y). La tabla de distribución de frecuencias se presenta a continuación: Intervalo de pes os (kg) Frec. Absoluta (ni ) 15.0 17.6 20.2 22.8 25.4
- 17.6 - 20.2 - 22.8 - 25.4 - 28.0 Total
7 11 6 3 1 28
a) Calcule: Media aritmética por los dos métodos (abreviado y codificado), Mediana, Moda, Media Geométrica, Media Armónica, Media cuadrática, distribuciones asimétricas o simétricas e interprete los resultados. b) Calcular: Q1, Q2, Q3, D1, D2, D3, D 4, D5, D6, D 7, D8, D9 y P5, P10, P15, P20, P25, P30, P35, P40, P45, P50, P55, P60, P65, P70, P75, P80, P85, P90, P95, e interprete los resultados. 2. La siguiente distribución de las edades de las personas hospitalizadas en una sala de cirugía, se presenta a continuación: Intervalo (Edad en año s ) Frecuen cia (n i ) 27 32 37 42
-
32 37 42 47
2 5 6 3
a) Dibuje el histograma de frecuencias y polígono de frecuencias, b) Graficar la Ojiva menor y mayor, c) Calcule: Media, Mediana, Moda, Media Geométrica, Media Armónica, Media cuadrática, Q 1, Q2, Q3, D1, D5, D9 y P20, P30, P50, P75,P90, e interprete los resultados. 3. Se tiene el siguiente cuadro de frecuencias correspondientes al número de casos de cancer en un grupo de hospitales. Casos de cáncer 1 - 4 4 - 7 7 - 10 10 -13 13 -16 ni 4 10 12 3 1
Estadística Básica Aplicada a la Ganadería
- 195 -
a) Calcular: Media aritmética por los dos métodos (abreviado y codificado), Mediana, Moda, Media Geométrica, Media Armónica, Media cuadrática, distribuciones asimétricas o simétricas e interprete los resultados. b) Calcular: Q 1, Q2, Q3, D1, D2, D3, D4, D5, D6, D7, D8, D9 y P5, P10, P15, P20, P25, P30, P35, P40, P45, P50, P55, P60, P65, P70, P75, P80, P85, P90, P95, e interprete los resultados. 4. La siguiente distribución de frecuencias corresponde a los pesos finales (gr.) de 32 conejos que han sido experimentado en la Granja de Animales Menores de la Facultad de Medicina Veterinaria y Zootecnia de la UNA - Puno. Intervalo de pes os (gr) Frec. Absoluta (ni ) 665.3 683.3 701.3 719.3 737.3
- 683.3 - 701.3 - 719.3 - 737.3 - 755.3 Total
4 7 9 5 7 32
a) Dibuje el histograma de frecuencias y polígono de frecuencias. b) Graficar la Ojiva menor y mayor, c) Calcular: Q 1, Q2, Q3, D1, D 2, D3, D 4, D5, D6, D7, D 8, D9 y P5, P 10, P15, P20, P 25, P30, P35, P40, P45, P50, P55, P60, P65, P70, P75, P80, P85, P90, P95, e interprete los resultados. 5. La información corresponde a los parásitos del intestino ( Lamanema chavezi ) de un animal, encontrados en alpacas de la Raza Huacaya de 1-6 años de edad necropsiadas en épocas de seca y lluvia en las comunidades campesinas del distrito de Pichacani-Puno. Parásitos del intestino en Alpacas Huacaya (Epoca Lluvia) 10 33 850 48 300 18 172 33 172 0 48 100 0 850 850 15 18 5 0 15 0 0 33 15 300 0 2 100 5 2 2 100 5 300 10 300 3 5 3 3 10 172 3 5 48 0 850 0 850 5 4 4 300 4
100 18 2 5 3 300
- 196 -
V. Ibañez Q.
Estadígrafos de Posición
Parásitos del intestino en Alpacas Huacaya (Epoca Seca) 20
18
27
45
262
8
15
40
11
104
262
262
4
104
17
0
45
19
20
104
45
40
40
5
45
104
27
104
6
262
8
45
15
0
262
262
13
15
31
9
5
0
13
10
40
31
0
17
20
18
2
20
18
27
262
17
31
2
104
31
a) Identificar que tipo de variable (discreta o contínua) corresponde a la información presentada. b) Será factible realizar, la tabla de distribución de frecuencias: Si ó No; en caso de ser afirmativo. Construya la tabla de distribución de frecuencias. c) Realizar una comparación o diferencia entre las alpacas necropsiadas en época lluvia y seca. d) Realizar diagramas de frecuencias (bastones). e) Interpretar los resultados para ambas épocas (lluvia y seca) con porcentajes (hix100).
6 ESTADÍGRAFOS DE DISPERSIÓN 6.1. INTRODUCCIÓN. Las medidas de dispersión son los que cuantifican el grado de concentración o de dispersión de los datos de la muestra en torno de un promedio o valor central de la distribución. La idea de dispersión, se relaciona con la mayor o menor concentración de los datos a un valor central, generalmente la media aritmética, mediana y moda, pero ¿Cuál es la distancia, diferencia o dispersión de los valores de una característica o variable respecto a un punto de referencia?. Este problema será abordado definiendo un conjunto de indicadores, llamados los estadígrafos de dispersión. El recorrido como estadígrafo de dispersión es muy limitado, pues solo considera los valores extremos de la distribución, y no indica nada de cómo se dispersan o comparten los valores intermedios.
- 198 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.2. RECORRIDO O RANGO. El caso más simple para conocer la dispersión entre valores, es determinar la diferencia o distancia entre el mayor y menor valor de una distribución. Denotado por «R» y se define por:
6.2.1. RECORRIDO CON DATOS NO AGRUPADOS. R = Xmáx - Xmín. EJEMPLO: Se registró información en la faena de esquila de Setiembre a Noviembre de 1998, en el criadero de vicuñas del Comité Comunal de manejo de vicuñas de CalaCala (Puno) y la Reserva Nacional de Pampa Galeras (Ayacucho), el peso vivo (kg) y otras características de vicuñas machos adultos; con el objeto de determinar el efecto de los lugares en términos de peso vivo. La información se presenta a continuación: N° de animal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Cala - Cala 47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25 Pampa Galeras 35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
i) Determinar el recorrido o rango para las vicuñas de Cala - Cala (V c)?. ii) Determinar el recorrido o rango para las vicuñas de Pampa Galeras (V pg)?. SOLUCIÓN: i) Rango Rc = Xmáx - X mín= 47 - 25 = 22 kg. ii) Rango Rpg = Xmáx - Xmín= 42 - 32 = 10 kg. Comparando la diferencia entre éstos dos localidades: Rdif = Rc - Rpg = 22 - 10 = 12 kg de diferencia entre éstos dos criaderos de vicuñas.
6.2.2. RECORRIDO PARA DATOS AGRUPADOS. Para datos agrupados en tablas con intervalos de frecuencias, se tiene que: R = Y’m - Y’0
Estadística Básica Aplicada a la Ganadería - 199 -
Donde: Y’ m = Límite superior del último intervalo. Y’0 = Límite o extremo inferior del primer intervalo. EJEMPLO: Para los ejemplos anteriores que corresponden a las vicuñas machos adultos de los centros de Reserva de Crianza de Vicuñas, se tiene tabulados o agrupados en tablas de distribución de frecuencias: Tabla de Distribución para Cala - Cala
Tabla de Distribución para Pampa Galeras
[Y'i-1 - Y'i>
ni
Ni
hix100
Peso Vivo kg.
25.0 25 29.4 33.8 38.2
29.4 33.8 38.2 42.6
10 2 6 1
10 12 18 19
50 10 30 5
32 34 36 38
47 42.6 - 47.0 Totales
1 20
20
5 100
-
R= Y'5 - Y'0 =47.0- 25=22 kg.
ni
Ni
hix100
34 36 38 40
4 5 8 1
4 9 17 18
20 25 40 5
40 - 42 42 Totales
2 20
20
10 100
-
R=Y'5 - Y'0 =42-32=10kg. DePV.
6.3. RECORRIDO INTERCUARTÍLICO. Esta definido como la diferencia entre el tercer y primer cuartil ó también la diferencia entre los percentiles 75 avo y 25 avo. Denotado por: RI = Q 3 - Q 1 ó RI = P75 - P25 El diagrama siguiente muestra el recorrido intercuartil: RECORRIDO INTERCUARTÍLICO
X (1 )
X (n ) 1/4 elemento
Dato menor
Primer cuartil
Q 1 = P 25
1/4 elemento Segundo cuartil
Q 2 = P 50
Tercer cuartil
Q 3 = P 75
Dato mayor
- 200 -
V. Ibañez Q.
Estadígrafos de Dispersión
Esta medida es más exacta que el recorrido de la variable (Rango), ya que evita el inconveniente de valores extremos o sospechozos, tratando de que los valores separen entre si el 50% de los valores, los más centrales de la variable. EJEMPLO: Calcular el RI para los datos de las vicuñas del ejemplo anterior para ambos (Cala - Cala y Pampa Galeras). SOLUCIÓN: Cálculo de Q1 = ? n = 20 1. Se ordenan los datos en forma ascendente o descendente. Q1 Xi
Q3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Cala - Cala 25 25 26 26 27 27 27 28 28 29 30 30 34 35 37 38 38 38 42 47
2. Ubicar la posición del Q 1, entonces
n +1 4
=
21 4
= 5.25 ,
el valor Q 1, es el 5to.
dato más el 25% de la diferencia entre los valores de las observaciones 5to. y 6to., es decir: X(5) = 27
X(6) = 27
⇒
Q1 = X(5) + X( 6) − X(5) (0.25) Q1 = 27 + (27 − 27)(0.25) = 27 kg
Cálculo de Q3. 1. Ubicar la posición del Q 3, entonces X(15) = 37
X(16) = 38
⇒
3 ( n + 1) 4
=
3 ( 2 1) 4
= 15 . 75
Q1 = X(15) + X(16) − X(15) (075 . ) Q1 = 37 + (38 − 37)(075 . ) = 3775 . kg
Estadística Básica Aplicada a la Ganadería - 201 -
Cálculo para el Criadero de Pampa Galeras: SOLUCIÓN: 1. Se ordenan los datos en forma ascendente: Q1 X(i)
Q3
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Pampa Galeras 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 38 40 42
2. Ubicar la posición del Q 1, entonces
n +1 4
=
21 4
= 5.25 ,
el valor Q 1, es el 5to.
dato más el 25% de la diferencia entre los valores de las observaciones 5to. y 6to., es decir: X(5) = 34
X( 6) = 34
⇒
Q1 = X(5) + X(6) − X(5) (0.25) Q1 = 34 + (34 − 34)(0.25) = 34 kg
Cálculo de Q 3. 1. Ubicar la posición del Q 3, entonces X(15) = 37
X(16) = 37
⇒
3 ( n + 1) 4
=
3 ( 2 1) 4
= 15 . 75
Q1 = X(15) + X(16) − X(15) (075 . ) Q1 = 37 + (37 − 37)(0.75) = 37 kg
Es decir: X(i)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Cala - Cala 25 25 26 26 27 27 27 28 28 29 30 30 34 35 37 38 38 38 42 47 Pampa Galeras 32 32 33 33 34 34 35 35 35 36 36 36 36 36 37 37 37 38 40 42 Q1
Q3
Calculando: RI RIc = Q 3 - Q 1 = 37.75 - 27 = 10.75 RIpg = Q3 - Q1 = 37 - 34 = 3.0, esto nos indica que existe mayor variabilidad o
- 202 -
V. Ibañez Q.
Estadígrafos de Dispersión
dispersión en el primer caso (Criadero de vicuñas Cala - Cala).
6.4. RECORRIDO INTERDECIL (RID). Es la diferencia entre los percentiles 90avo. y décimo, y está definido por: Para Pampa Galeras: RID = P90 - P 10 = 40 - 33 = 7.0 kg.
6.5. EL RANGO SEMI-INTERCUARTIL (Q). Llamada también desviación del cuartil, es el recorrido semi-intercuartil, está definido por la diferencia entre el tercer cuartil (Q 3) y el primer cuartil (Q 1) dividido entre 2. Q=
Q 3 − Q1 2
Esta expresión da una idea de la dispersión del 50% de los datos centrales, es decir mide el recorrido promedio de un cuarto de los datos. El Q es representativo de la dispersión de los datos, calculándose el promedio de la mitad de los elementos del medio en lugar de escoger uno de los cuartos. EJEMPLO: Para el criadero de Cala - Cala: QCala−Cala =
Q3 − Q1
Para el criadero de Pampa Galeras: QPGaleras =
2
=
37.75 − 27
Q3 − Q1 2
2
=
= 5375 .
37 − 34 2
= 15 .
Es decir existe una mayor dispersión marcada para los datos de vicuñas que están en el Centro de Reserva de Cala - Cala. El rango semi-intercuartílico (Q), es mucho más estable que el rango y se usa por lo general para comparar dos o más distribuciones y para determinar el coefi-
Estadística Básica Aplicada a la Ganadería - 203 -
ciente de curtosis percentílico. NOTA: También se puede considerar X = 1 (Q1 + Q 3 ) como una medida de 2
tendencia central, que permitirá obtener un valor aproximado de la media. EJEMPLO: XCala−Cala = X PGalera =
Q1 + Q3 2
=
Q1 + Q 3 2
37.75 + 27 2
=
= 32.375 kg. de peso vivo.
37 + 34 2
= 35.5 kg. de peso vivo aproximado.
6.6. LA DESVIACIÓN MEDIA (DM). La desviación media o desviación promedio de las diferencias absolutas, es simplemente la media aritmética de los valores absolutos de las desviaciones de todos los valores en relación con algún punto central, como la media o la mediana.
6.6.1. DESVIACIÓN MEDIA CON DATOS NO AGRUPADOS. Sean x1, x2,...,xn, una muestra de tamaño «n». La desviación media absoluta o desviación media «DM» es la media aritmética de los valores absolutos de las desviaciones de los valores observados respecto de la media aritmética. n
∑X DM =
i
−X
i =1
n
Donde: x = Promedio aritmético de la muestra. xi = Son las observaciones individuales de la muestra. n = Es el número total de observaciones ó tamaño de la muestra. = Indica valor absoluto de una observación dado.
- 204 -
V. Ibañez Q.
Estadígrafos de Dispersión
EJEMPLO: Se registró información en la faena de esquila de Setiembre a Noviembre de 1998 en el criadero de vicuñas de Cala - Cala y la Reserva Nacional de Pampa Galeras, el peso vivo (kg) de las vicuñas machos adultos para determinar el efecto de los lugares en términos de peso vivo.
Vicuñas machos adultos de Cala - Cala. Cala - Cala N° animal
Xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25
Xi − X Xi − X 15.15 6.15 6.15 -2.85 6.15 -1.85 2.15 -4.85 -4.85 -6.85 -5.85 -3.85 -4.85 -3.85 10.15 -1.85 5.15 3.15 -5.85 -6.85
20
∑X
15.15 6.15 6.15 2.85 6.15 1.85 2.15 4.85 4.85 6.85 5.85 3.85 4.85 3.85 10.15 1.85 5.15 3.15 5.85 6.85
20
i
= 637
i =1
∑
Vicuñas machos adultos de Pampa Galeras Pampa Galeras Xi
Xi − X
Xi − X
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
-0.70 2.30 0.30 -2.70 -3.70 1.30 -1.70 -2.70 -3.70 -1.70 -0.70 6.30 0.30 0.30 4.30 -0.70 1.30 0.30 0.30 1.30
0.70 2.30 0.30 2.70 3.70 1.30 1.70 2.70 3.70 1.70 0.70 6.30 0.30 0.30 4.30 0.70 1.30 0.30 0.30 1.30
20
X i − X = 108.4
∑X
20
i
= 714
i =1
i=1
X = 31.85
∑
X = 35.70
n
∑X DM =
X i − X = 36.60
i =1
n
i
−X
i =1
20
=
1084 . 20
∑X = 5.42
Entonces la DM = 5.42 kg de peso vivo.
DM =
i
−X
i =1
20
=
36.60 20
= 183 .
Estadística Básica Aplicada a la Ganadería - 205 -
Este resultado quiere decir que la dispersión promedio de los valores con respecto a la media es de 5.42 kg.
6.6.2. DESVIACIÓN MEDIA CON DATOS AGRUPADOS. Si las Y1,Y2,Y3,....,Ym, ocurren con frecuencias n 1,n2,n3,....,nm, respectivamente, la desviación media se obtiene: m
∑n DM =
i
Yi − Y
i =1
n
Donde: m = Número de clases. ni = Frecuencia absoluta de la clase «i». Yi = Marcas de clase o puntos medios de la clase «i». También se puede calcular con frecuencia relativas, usando la siguiente fórmula: m
DM =
ni
∑n
m
Yi − Y =
i =1
∑h
i
Yi − Y
i =1
EJEMPLO: Con los datos agrupados del Centro Nacional de Reserva del criadero de vicuñas de Pampa Galeras. Calcular la desviación media (DM). [Y'i-1 - Y'i> 32 34 36 38 40
-
34 36 38 40 42
ni
Yi
n i Yi
Yi − Y
n i Yi − Y
4 5 8 1 2
33 35 37 39 41
132 175 296 39 82
3.20 1.20 0.80 2.80 4.80
12.80 6.00 6.40 2.80 9.60
5
Totales
20
5
∑ n Y = 724 ∑ n i
i =1
i
i =1
i
Yi − Y =
37.60
- 206 -
V. Ibañez Q.
Estadígrafos de Dispersión
5
∑n Y i
Y=
i
i =1
=
n
724 20
= 36.2 kg.
5
∑n Y − Y i
DM =
i
i=1
n
=
376 . 20
= 188 . kg. de peso vivo, esto quiere decir que el pro-
medio de las desviaciones de peso vivo (kg), respecto al peso vivo promedio es de 1.88 kg.
VENTAJAS: - Es fácil de definir y calcular e incluye todas las observaciones adecuadamente ponderados. - La desviación media absoluta es una mejor medida de dispersión que el recorrido, porque toma en cuenta todas las observaciones.
DESVENTAJAS: - No es susceptible de tratamiento algebraico, lo que no permite obtener fórmulas abreviadas de cálculo, como ocurre con la media aritmética y desviaciones medias de dos o más muestras. - El empleo de la desviación media como medida de dispersión están en desventaja, dado que es difícil de operar.
6.7. DESVIACIÓN MEDIANA ABSOLUTA (DMe). La desviación mediana «DMe» es el promedio de los valores absolutos de las diferencias entre cada observación y la mediana de éstas.
6.7.1. DESVIACIÓN MEDIANA ABSOLUTA PARA DATOS NO AGRUPADOS. Es la diferencia absoluta entre los valores de cada observación y la mediana dividido entre el número total de observaciones, y esta definido por:
Estadística Básica Aplicada a la Ganadería - 207 n
∑X DMe =
− Me
i
i =1
n
EJEMPLO: Encontrar la desviación mediana absoluta de los datos de alpacas Suri para la característica perímetro toráxico (cm). 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80
n = 10
SOLUCIÓN: 1. Ordenar en forma ascendente de menor a mayor los datos: 70 X(1)
70 X(2)
73 X(3)
74 X(4)
77 X(5)
77.5 78 X(6) X(7)
80 X(8)
2. Existen n = 10, un número par de observaciones: X 10 = X( 5) = 77
y
X 10
2
2
X10 + X10 Me =
2
2
2
+1
=
X(5) + X(6)
3. Se calculan las desviaciones:
2
+1
=
= X ( 6 ) = 77.5 77 + 77.5 2
= 77.25 cm.
83 X(9)
83 X(10)
- 208 -
V. Ibañez Q.
Observación
Desviación Desviación Absoluta
Xi
Xi - Me
Xi − Me
70 70 73 74 77 77.5 78 80 83 83
-7.25 -7.25 -4.25 -3.25 -0.25 0.25 0.75 2.75 5.75 5.75
7.25 7.25 4.25 3.25 0.25 0.25 0.75 2.75 5.75 5.75
10
∑
Estadígrafos de Dispersión
X i = 765.5
i =1
10
∑ X − Me i
DMe =
i =1
n
=
375 . 10
. = 375
Dme = 3.75 cm.
10
∑X
i
− Me = 37.50
i =1
6.7.2. DESVIACIÓN MEDIANA ABSOLUTA CON DATOS AGRUPADOS. La desviación mediana absoluta es la diferencia absoluta de cada uno de las marcas de clase o puntos medios con respecto a la mediana y multiplicado por las frecuencias absolutas, dividido entre el número total de datos. Esta definido por: m
∑n Y − Me i
DMe =
i
i=1
n
m
,
n=
∑n
i
i =1
EJEMPLO: Con los datos agrupados del Centro Nacional de Reserva de vicuñas de Pampa Galeras. Calcular la desviación mediana absoluta (DMe).
Estadística Básica Aplicada a la Ganadería - 209 -
[Y'i-1 - Y'i> 32 34 36 38 40
-
34 36 38 40 42
ni
Yi
Ni
4 5 8 1 2
33 35 37 39 41
4 9 17 18 20
Yi −Me ni Yi −Me n 2
3.25 1.25 0.75 2.75 4.75
= 10 > N2 = 9
13.00 6.25 6.00 2.75 9.50
5
Totales
∑n
20
i
Yi − Me = 37.50
i =1
SOLUCIÓN: 1. Ubicar la posición de la Me:
n 2
=
20 2
= 10 ,
éste valor esta localizado entre los
valores 9 y 17, entonces j = 3, j-1 = 2, entonces Y’ 2 - Y’3 = 36 - 39. 2. Como
n 2
=
20 2
= 10 > N 2 = 9 ,
entonces reemplazando en la fórmula, se tiene:
20 − N 2 2 10 − 9 = 36.25 ' Me = Y2 + c 3 36 2 = + 17 − 9 N N − 2 3 Me = 36.25 kg. Luego, se calcula la desviación media absoluta (DMe): 5
∑n DMe =
i
Yi − Me
i =1
20
=
37.5 20
. kg. = 1875
- 210 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.8. LA VARIANZA. La varianza, es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa con respecto a su media aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza será pequeña, en cambio si los valores tienden a distribuirse lejos de la media, la varianza será grande.
6.8.1. VARIANZA POBLACIONAL. La varianza o variancia de una población finita de N elementosX 1, X2, ... , XN, se define como la media aritmética del cuadrado de las desviaciones de las observaciones con respecto a su media µ , y está denotado por σ2 . N
2
σ =
∑
( X i − µ)
2
= M ( X − µ) 2
i =1
N
6.8.2. VARIANZA MUESTRAL. La varianza de una muestra x 1, x2, ... , xn, de una variable o característica X ó en forma abreviada V(X), se define como la media del cuadrado de las desviaciones de las observaciones con respecto de la media aritmética, y se denota por « S2x ». n
2 V( x) = S x =
∑ (X
i
− X) 2
i =1
n
Si se conoce la media aritmética poblacional µ , la mejor estimación de la varianza poblacional σ2 a partir de una muestra esta definido por: n
∑ (X V( x) =
i
i =1
n
− µ) 2 ,
n = Número de elementos de la muest
Estadística Básica Aplicada a la Ganadería - 211 -
Pero en la práctica rara vez se conoce µ , por esta razón se realiza la estimación de la muestra x , que lo sustituye a µ , lo cual nos permite que la suma de cuadrados debe ser mínimo, es decir: n
∑
2
( x i − x ) = mínimo
i =1
Si el x no es exactamente igual a µ , entonces debe cumplirse la siguiente desigualdad: n
∑
n
2
( x i − x) <
i =1
∑
( x i − µ)
2
i =1
dividiendo ambos miembros de la desigualdad por «n» tendriamos: n
∑ (xi − x)
n
2 ( x ) − µ ∑ i
2
i =1
i =1
<
n
n
≈ σ2
n
Esta estimación de
∑ (x
− x)2
i
i =1
será una estimación demasiada peque-
n
ño de σ2 , lo cual nos sugiere una corrección apropiada mediante la utilización en el denominador de «n - 1» en vez de «n». n
∑ (x
n
i
∑ (x
− x) 2
i =1
≤
n
n
i
i =1
La diferncia entre
∑ (x
i
i =1
n
− x)
2
i
≈
n −1
n
∑ ( x − µ)
− x) 2
i =1
n
≈ σ2
n
2
y
∑ (x
i
− x) 2
i =1
, es grande para muestras
n −1
pequeñas, y es mínima para muestras grandes, es decir son iguales.
- 212 -
V. Ibañez Q.
Estadígrafos de Dispersión
A. VARIANZA PARA DATOS NO AGRUPADOS. 1. Para n>30 (varianza de la población). Existen varias fórmulas para efectuar los cálculos para datos no agrupados. N
N
2
i) σ =
∑ X
i
− X
N
2
∑X
2 i
2
i =1
ii) σ =
N
iii) σ =
∑
∑
X 2i − NX 2
i =1
N
i =1
N
N
iv) σ 2 =
Xi )2
i =1
−
N
N
2
(
∑X
N
− (∑ X i ) 2
2 i
i =1
i =1
N2
N
2. Para n ≤ 30 (Varianza de la muestra). n
n
i) S2 =
∑ xi − x
2
i =1
ii) S2 =
n −1 n
n
iii) S2 =
n
∑x i =1
2 x ∑ i−
− (∑ xi ) i =1
n2 − n
i =1
i =1
n
2 i
(∑ xi ) 2 n
n −1 n
2
∑ x i − nx 2
iv)
S2 =
2
i =1
n −1
EJEMPLO: Los datos corresponden a la variable perímetro toráxico (cm) de las alpacas de la raza Suri del CIP. La Raya. 74, 70, 73, 77, 78, 83, 70, 77.5, 83, 80 ¿Calcular la varianza?.
Estadística Básica Aplicada a la Ganadería - 213 -
N° de
Variable
animal
Xi
1 2 3 4 5 6 7 8 9 10
74 70 73 77 78 83 70 77.5 83 80 10
Total
5476 4900 5329 5929 6084 6889 4900 6006.25 6889 6400
-2.55 -6.55 -3.55 0.45 1.45 6.45 -6.55 0.95 6.45 3.45
10
∑X = 765.5 ∑ X i
i=1
2 i
(Xi −X)2
(Xi − X)
2
Xi
6.5025 42.9025 12.6025 0.2025 2.1025 41.6025 42.9025 0.9025 41.6025 11.9025 10
2
∑x − x
= 58802.25
i
i =1
10
2
∑x − x i
S2 = i=1
=
n−1
203225 . 9
. cm. = 2258
10
10
∑x − 2 i
S2 = i=1
∑
( xi )2 i=1
n
n−1
(7655 . )2 5880225 . − 10 =2258 . c = 9
= 203.225
i =1
10
∑X X=
i
i =1
=
10
7655 . 10
= 7655 . cm.
EJEMPLO: Calcular la varianza para los datos de vicuñas: Cala-Cala y Pampa Galeras.
B. VARIANZA PARA LOS DATOS AGRUPADOS. Cuando los datos están tabulados en distribuciones de frecuencias, se puede calcular la varianza con los datos discretos y contínuos.
1. Varianza con variable Discreta. La varianza de «n» valores de una variable estadística discreta Y que se clasifican en «m» valores distintos de Y 1, Y2,..,Ym con frecuencias absolutas respectivas n 1, n2,..,nm y cuya media aritmética es Y , se calcula con la siguiente fórmula:
- 214 -
V. Ibañez Q.
Estadígrafos de Dispersión
m
2
∑n Y − Y i
2
i
i=1
S =
n −1 m
2
ni Yi − Y
∑
2 S =
, para (n ≤ 30)
, para (n>30)
i=1
n
Fórmulas equivalentes m
n 2
∑
m
2 i
niY − (
i =1
S =
∑
m
n i Yi )
i =1
n
2
2
(
m
2
S =
,
∑n Y
2 i
i
−
i =1
∑n Y ) i
2
i
i =1
n
m
2 S =
∑n Y i
2 i
− nY 2
i =1
EJEMPLO: Encontrar la varianza para los datos que corresponde al número de ovinos muertos/rebaño, durante el período de invierno de 1999 en el CIP. Chuquibambilla. N° de ovinos
(Yi)
ni
(Yi − Y)
0 1 2 3 4 5 6 7 8 9
2 4 7 6 6 2 4 4 3 4
-4.5 -3.5 -2.5 -1.5 -0.5 0.5 1.5 2.5 3.5 4.5
10
∑ Yi = 45 i =1
10
∑n i =1
i
=
2
(Yi − Y) 2 ni (Yi − Y) 20.25 12.25 6.25 2.25 0.25 0.25 2.25 6.25 12.25 20.25
40.50 49.00 43.75 13.50 1.50 0.50 9.00 25.00 36.75 81.00
10
42
∑ i =1
ni (Yi − Y)2 =
300.50
Estadística Básica Aplicada a la Ganadería - 215 -
Reemplazando a la fórmula tenemos: 10
∑
2
S =
n i Yi − Y
i =1
2
3005 .
=
n
= 7.5125
40
Usando la fórmula recomendada: 10
∑
n 2
S =
10
∑
2 i
niY − (
i=1
niYi )2
i =1
=
2
n
42(108) − (182)2 2
42
=
12572 1764
= 712698 .
2. Varianza con datos tabulados por intervalos. La varianza de «n» valores de alguna variable X, discreta o contínua, que están clasificado en una distribución de frecuencias de m-intervalos, con marcas de clases Y 1, Y2,..,Ym, frecuencias absolutas respectivas n 1, n2,..,nm, se calcula utilizando la siguiente fórmula: 1. Para n>30. m
m
i) S 2 =
∑
n i Yi − Y
2
∑nY i
ii) S 2 =
i =1
n
2 i
∑n Y i
i =1
− nY
iv) S =
2
i
n n
n
2
2
i
i =1
−
m
2 i
∑nY)
i =1
m
iii) S 2 =
(
m
∑n Y i
i =1
n
2.Para n ≤ 30 (Varianza de la muestra).
2 i
m
− ( ∑ n i Yi ) 2 i =1
n2
- 216 -
V. Ibañez Q.
Estadígrafos de Dispersión m
m
∑ n Y − Y i
2
i) S =
m
2
∑nY
2
i =1
iii) S =
−
n
iv) S 2 =
i =1
i =1
n
n −1 m
n i Yi2 − nY 2
∑
n i Yi ) 2
i =1
ii) S =
n −1
∑
2 i
i
i
m
2
(
∑n Y
2 i
i
i =1
m
− ( ∑ n i Yi ) 2 i =1
n2 − n
n −1
NOTA: para n>30, se dividirá solo entre «n». m
n
Para frecuencias relativas: S = 2
∑
h i ( Yi − Y ) 2
i =1
,
n −1
n , factor de con -1
rrección de Bessel. EJEMPLO: Calcular la varianza para los datos de la variable longitud de mecha (cm) de los vellones de alpacas de la zona de Melgar. 2
Y'i-1 - Y'i
ni
Yi
niYi
(Yi − Y)
(Yi − Y)
2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5 -
3 4 18 20 20 20 11 4
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
9.45 20.20 125.10 177.00 215.00 253.00 160.05 65.80
-7.106 -5.206 -3.306 -1.406 0.494 2.394 4.294 6.194
50.495236 27.102436 10.929636 1.976836 0.244036 5.731236 18.438436 38.365636
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4 8
Total
∑n = 100 i
i=1
151.485708 108.409744 196.733448 39.536720 4.880720 114.624720 202.822796 153.462544
8
8
∑n Y = 1025.6 i
i =1
ni (Yi −Y)2
i
∑n (Y − Y)
2
i
i =1
i
= 971.9564
Estadística Básica Aplicada a la Ganadería - 217 10
∑n Y i
Y=
i =1
n
i
=
10256 . 100
= 10.256 cm.
Reemplazando a la fórmula: 8
S2 =
∑
n i Yi − Y
i =1
=
n 8
S2 =
2
∑ ni Yi − Y i =1
n −1
9719564 . 100
= 9.719564 cm.
2
=
9719564 . 99
= 9.81774 cm.
Entonces: S2 = 9.72 cm. De igual forma se puede calcular la varianza con frecuencias relativas: m
S2 =
∑h Y i
2 i
− Y2
i =1
También se puede calcular, usando las otras fórmulas de varianzas dadas anteriormente.
PROPIEDADES DE LA VARIANZA. P-1. La varianza de un conjunto de observaciones x 1, x2,..,xn, siempre es un número no negativo V(x) ≥ 0. P-2. La varianza de una constante es cero, es decir, si x 1=x2=....=xn=c, V(c)=0. P-3. Si a cada observación x 1, x2,..,xn se adiciona o se resta una constante c>0, la varianza del nuevo conjunto de valores Y 1, Y2,..,Yn, donde Yi = xi±c, i = 1,2,..,n, coincide con la varianza del conjunto original. V(Y) = V(X±c) = V(X) P-4. La varianza del producto de una constante por una variable, es igual al cuadrado de la constante por la varianza de la variable: V(cX) = C 2V(X), c = constante.
- 218 -
V. Ibañez Q.
Estadígrafos de Dispersión
P-5. V(cX+b) = C 2V(X), c y b son constantes. P-6. La varianza de la suma de una variable más una constante, es igual a la varianza de la variable: V(X+c) = V(X).
6.9. COMPONENTES DE VARIANZA (Varianza calculada a partir de Submuestreo). Si un conjunto de datos se divide en subconjuntos, categorías o estratos, es posible descomponer la varianza en dos componentes; así cada grupo de datos (estratos o sub-conjuntos) tendrá un tamaño de «n» elementos, con su respectivo promedio ( x ) y varianza (S 2), valores que expresan la importancia de cada uno de los estratos en el total del conjunto. En este caso la dispersión o variabilidad total puede estar afectada por: - Las variaciones dentro de cada grupo o categoría; esta variación interna en cada estrato, se llama INTRAVARIANZA, y es denotado por S 2A. - Las variaciones entre los diferentes estratos o grupos o subconjunto, se llama INTERVARIANZA, denotado por S 2B. De este modo la varianza total se expresa como: S 2 = S2A+ S2B.
6.9.1. INTRAVARIANZA (S2A). Es el estadígrafo que expresa las variaciones que existe dentro de cada grupo o estratos, categoría, y se define como el promedio de las varianzas de los estratos. n
2
2
S A = M (Se ) =
∑
2
Se n e
e =1
ne
, donde: S2e = Varianza del estrato S 2i. ne= Tamaño de cada estrato.
Estadística Básica Aplicada a la Ganadería - 219 -
6.9.2. INTERVARIANZA (S2B). Es el estadígrafo que expresa la variación o dispersión entre los grupos, estratos, categorías o subconjuntos y se define como «el promedio de varianza entre las medias de los estratos». n
S2B = V( x ) =
2 − ( x x ) ne ∑ e e =1
n Donde: x e = Media aritmética del estrato «e». x = Media aritmética total. ne= Tamaño del estrato «e». n
Pero: V ( x e ) =
∑
x e2 n e
e =1
ne
n x n e e ∑ e=1 − n e
2
= S 2B
El caso más simple, es cuando se tiene dos grupos o estratos, subconjuntos, o submuestras. Para dos estratos de tamaño n 1, n2 con medias x1 , x 2 , con varianzas S 21 y S22, respectivamente. n = n1+ n 2 x=
(tamaño total).
x1n1 + x2 n2
(promedio general).
n
S2 = S2A+ S2B
(Varianza total)
Entonces: 2
∑ Se ne 2
S
2 A
=
e =1
n
=
2 2 S1 n 1 + S 2 n 2
n
- 220 -
V. Ibañez Q.
Estadígrafos de Dispersión 2
S 2B =
∑ (x
e
− x)ne
e =1
=
n
( x1 − x ) 2 n 1 + ( x 2 − x ) 2 n 2 n
Luego, la varianza total es:
2
S =
S12 n1 + S 22 n 2 n1 + n 2
+
( x1 − x) 2 n1 + ( x 2 − x ) 2 n 2 n1 + n 2
Donde: x = Promedio general. Para dos estratos de tamaño n 1 y n2 que tienen promedios iguales y varianzas S21+ S22, respectivamente, la varianza total se define como: 2
2
S =
2
S1 n 1 + S 2 n 2 n
EJEMPLO: En el Centro de Investigación y Producción de Chuquibambilla, se registró los pesos vivos (kg) de las borregas criollas de las edades de 2, 4, 6 y 8 años de edad, para determinar las diferencias entre edades. La información se presenta en el Apéndice 1 y los valores estadísticos en el siguiente cuadro.
Promedios de peso vivo (kg) de las borregas criollas por edades en el CIP - Chuquibambilla. Grupo de N° de bgas. PV. Promedio Varianza Edades 2 2 2 2 años 4 años 6 años 8 años
ne
Xe
Se
160 107 62 130
34.734 34.599 34.379 36.550
8.600 17.219 15.151 19.511
n
Total
∑
ne =459
e=1
Xe
1206.450 1197.090 1181.920 1335.900 n
∑ e=1
neSe
ne Xe
1376.000 1842.433 939.362 2536.430
5557.440 3702.093 2131.498 4751.500 n
neS2e = 6694.225 ∑neXe 16142.531 = e=1
e
E s t a d í s t i c a B á s i c a A p l i c a d a a l a G a n a d e r í a 2 2 1 -
- 222 -
V. Ibañez Q.
Estadígrafos de Dispersión
La varianza total: S 2 = S 2A+ S2B Entonces: 2
∑n S e
S2A =
e =1
ne
2 e
=
6694.225 459 2
n 2 x n x n ∑ ∑ e e e e 2 e=1 e=1 SB = V( xe ) = − ne n e n
= 14.584 kg.
=
56806667 . 459
2
. 16142531 − 459
= 0.7
Luego la varianza total es: S 2 = S2A+ S2B = 14.584 + 0.7656 = 15.3496 kg. Se observa que S2A> S2B, esto nos indica que existe variabilidad o dispersión de los pesos vivos (kg) dentro de las edades de las borregas, y no así entre las edades, parece ser similares.
6.10. MÉTODOS ABREVIADOS DE CÁLCULO DE LA VARIANZA. Se presentarán dos métodos abreviados para facilitar las operaciones de cálculo de la varianza para los datos agrupados en clases o distribuciones de frecuencias:
6.10.1 PRIMER MÉTODO ABREVIADO. Se debe tomar los siguientes procedimientos: 1. Se elige un origen de trabajo O t, que generalmente es el valor central Yi de mayor frecuencia. 2. Se determina las desviaciones de las variables Y i (puntos medios ó marcas de clase) respecto al origen de trabajo: d i = Yi - Ot, i = 1,2,...,m
Estadística Básica Aplicada a la Ganadería - 223 -
3. Se determina la varianza de «d». Es decir V(Y) = V(d), entonces: 2
d n ∑ i i i =1 m
m
2 d ∑ i ni −
2
S y = V( Y ) =
i =1
n
n −1
EJEMPLO: Para la distribución de frecuencias que corresponde a los datos de vicuñas machos adultos manejados en el Centro de Reserva Naciona de Pampa Galeras. Intervalo Frecuencia
32 - 34 4
34 - 36 5
36 - 38 8
38 - 40 1
¿Calcular la varianza por el método abreviado?. SOLUCIÓN: 1. Calcular las marcas de clase o puntos medios. 2. Se elige como origen de trabajo O t = 37. 3. Se determina la varianza. [Y'i-1 - Y'i>
2
ni
Yi di = Yi - 37
dini
d ini
-16 -10
64 20
32 34 -
34 36
4 5
33 35
-4 -2
36 38 40 -
38 40 42
8 1 2
37 39 41
0 2 4
-26
10 2 8
5
Totales
n = 20
0 4 32
∑d n i
i =1
Reemplazando a la fórmula, se tiene:
5
i
= -16
∑d n 2 i
i =1
i
= 120.0
40 - 42 2
- 224 -
V. Ibañez Q.
Estadígrafos de Dispersión 2
5
S2 =
∑d
2 i
ni
5 d n ∑ i i − i =1
120 −
n
i =1
=
n −1
( −16) 2 20
=
19
107.2 19
= 5642 .
S2= 5.64 kg. S = 2.38 kg. (desviación estándar). Ejemplo para las vicuñas de Cala - Cala. ¿Calcular la varianza por el método abreviado?. SOLUCIÓN: 1. Calcular las marcas de clase o puntos medios. 2. Se elige como origen de trabajo O t = 36. 3. Se determina la varianza. 2
[Y'i-1 - Y'i>
ni
Yi di = Yi - 36
dini
d ini
25.0 - 29.4 29.4 - 33.8
10 2
27.2 31.6
-8.8 -4.4
-88 -8.8
774.40 38.72
33.8 - 38.2 38.2 - 42.6 42.6 - 47.0
6 1 1
36 40.4 44.8
0 4.4 8.8
-96.8
13.2
0.00 19.36 77.44
4.4 8.8 5
Totales
5
∑d n = -83.6 ∑d n = 909.92
n = 20
i
2 i
i
i
i =1
i=1
Reemplazando a la fórmula, se tiene: 2
5
2
S =
∑
5 d n ∑ i i i =1 d2 n − i
i
n
i=1
n −1
S2 = 29.50 kg.
909.92 −
=
(−836 . )2
19
20
=
560.472 19
. kg. = 29499
Estadística Básica Aplicada a la Ganadería - 225 -
S = 5.43 kg. (desviación estándar). Comparando las dos varianzas: S 2PGaleras=5.64 kg. y S2Cala-Cala= 29.50 kg, es decir existe bastante variabilidad o dispersión para las vicuñas de Cala - Cala, frente a las vicuñas de Pampa Galeras, con una diferencia de 23.86 kg. de peso vivo.
6.10.2 SEGUNDO MÉTODO (Método Codificado o tipificado). Es otro de los métodos que se usa solo para datos agrupados en intervalos de clase de amplitud constante, con el siguiente procedimiento: 1. Se elige un origen de trabajo O t. 2. Se transforma las observaciones mediante la siguiente fórmula: ui =
Yi − O t
,
c Donde: Yi = Marcas de clase o valor central de la clase «i». c = Amplitud de clase constante.
3. Se usa la siguiente fórmula: 2 m n u m ∑ i i c2 ∑ni u2i − i=1 i=1 n S2 = V(Y) =
n −1
EJEMPLO: Para la distribución de frecuencias que corresponde a los datos de vicuñas machos adultos del Centro Nacional de Reserva de Pampa Galeras. Intervalo Frecuencia
32 - 34 4
34 - 36 5
36 - 38 8
38 - 40 1
40 - 42 2
¿Calcular la varianza por el método codificado o tipificado?.
- 226 -
V. Ibañez Q.
Estadígrafos de Dispersión
SOLUCIÓN: 1. Se elige como origen de trabajo O t = 37. 2. Se transforma las observaciones:
ui =
Yi − Ot c
3. Se calcula de la forma siguiente la varianza. [Y'i-1 - Y'i>
ni
Yi ui = (Yi - 37)/2
32 34 -
34 36
4 5
33 35
-2 -1
36 38 40 -
38 40 42
8 1 2
37 39 41
0 1 2
2
uini
u ini
-8 -5
16 5
-13
5
0 1 8
1 4 5
Totales
∑u n
n = 20
i
5
∑u n 2 i
= -8
i
i
= 30.0
i =1
i =1
Reemplazando a la fórmula, se tiene:
2
S =
2 5 5 2 2 c ∑ ni ui − ∑ ni ui i=1 i=1
n −1
n
2
=
4 30 − (−8) 20 19
= 5.64 kg.
S2= 5.64 kg. S = 2.38 kg. (desviación estándar). Ejemplo para las vicuñas de Cala - Cala. ¿Calcular la varianza por el método codificado ó tipificado?. SOLUCIÓN: 1. Se elige como origen de trabajo O t = 36. 2. Se transforma las observaciones:
ui =
Yi − Ot c
3. Se calcula de la forma siguiente la varianza.
Estadística Básica Aplicada a la Ganadería - 227 -
2
[Y'i-1 - Y'i>
ni
Yi ui = (Yi - 36)/4.4
uini
u ini
25.0 - 29.4 29.4 - 33.8
10 2
27.2 31.6
-2 -1
-20 -2.0
40 2
33.8 - 38.2 38.2 - 42.6 42.6 - 47.0
6 1 1
36 36 40.4 44.8
0 1 2
-22
3 1.0 2.0
5
Totales
0 1 4 5
∑u n = -19.0 ∑u n = 47.00
n = 20
i
2 i
i
i
i =1
i =1
Reemplazando a la fórmula, se tiene:
2 S =
2 5 5 2 2 c ∑ui ni − ∑ui ni i=1 i=1
n −1
n
=
(4.4)2 47 − (−19) 2 20 19
=
560472 . 19
= 29499 . kg.
S = 29.50 kg. S = 5.43 kg.
6.11. DESVIACIÓN ESTÁNDAR ó DESVIACIÓN TÍPICA ( σ ó S). Es uno de los estadígrafos de dispersión de mayor uso, en el cual las unidades de la variable ya no están elevadas al cuadrado. La desviación estándar, al igual que la varianza, es no negativa, puesto que es la raíz cuadrada positiva de la varianza. A mayor dispersión le corresponderá una mayor desviación estándar. En general, los estadígrafos de dispersión, se usa para comparar dos o más distribuciones o poblaciones con variables de la misma característica. A mayor dispersión o heterogeneidad entre los valores o elementos de una población, corresponderá un valor mayor para el estadígrafo de dispersión. Su valor indica el valor absoluto que en promedio se desvian los datos individuales de una población, más o menos de la media µ de dicha población. La desviación estándar o desviación típica «S» de las observaciones x 1, x2, x3 ...,xn de una característica X, está definido como la raíz cuadrada positiva de la
- 228 -
V. Ibañez Q.
Estadígrafos de Dispersión
varianza. S=
V( x) = + S
2
6.11.1 DESVIACIÓN ESTÁNDAR PARA DATOS NO AGRUPADOS. En forma similar a las fórmulas de varianza tenemos las siguientes fórmulas de desviación estándar, tomando la raíz cuadrada de las fórmulas de la varianza: 1. Desviación estándar, para n>30 poblaciones. N
N
∑ X i − X i) σ =
N
2
i =1
N
∑X ii) σ =
2 i
∑
2
i =1
2
i
N
i =1
N
N
2
Xi − NX
∑X ) i =1
−
N
N
iii) σ =
(
∑X
N
− (∑ X i ) 2
2 i
i =1
iv) σ =
i =1
N2
N
2. Para n ≤ 30 (desviación estándar para la muestra). n
n
i) S =
∑ x
i
− x
i =1
n
iii) S =
∑
∑x
2 i
ii) S =
n −1 n
n
2
i =1
∑ i =1
2
n −n
−
xi )2
i =1
n
i =1
n −1 n
n
x i2 − (
∑
(
xi )2
iv) S =
Donde: n = tamaño de la muestra. Xi = Variable observado. x = Promedio aritmético.
∑
2 2 x i − nx
i =1
n −1
Estadística Básica Aplicada a la Ganadería - 229 -
EJEMPLO: Con los datos que corresponde a vicuñas machos de Cala-Cala y Pampa Galeras, calcular la desviación estándar (S).
2
N° Obs. Cala - Cala (Yi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25 20
Total
Xi
∑X i =1
2209 1444 1444 841 1444 900 1156 729 729 625 676 784 729 784 1764 900 1369 1225 676 625
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
i
= 637 ∑ X = 21053 i =1
Total
Yi
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
1225 1444 1296 1089 1024 1369 1156 1089 1024 1156 1225 1764 1296 1296 1600 1225 1369 1296 1296 1369
20
20
2 i
2
N° Obs. Pampa Galeras (Xi)
∑Y = i
i=1
20
714
∑Y
2 i
= 25608
i =1
Desviación estándar (S) para las vicuñas machos de Cala - Cala.
- 230 -
V. Ibañez Q.
Estadígrafos de Dispersión
20
(
20
∑x
2 i
S=
∑
xi )2
i =1
−
21053 −
n
i =1
=
n −1
(637)2 20
19
=
76455 . 19
= 6343 . kg.
Es decir que los pesos vivos de las vicuñas machos de Cala - Cala, es 6.34 kg mayores o menores que el peso vivo promedio 31.85 kg. Para ver si esta correctamente la desviación estándar, los valores deben estar entre 2 ni mayor 6, ésta condición comprobamos con la siguiente razón: R S
=
47 − 25 6.34
= 3468 .
Desviación estándar (S) para las vicuñas machos de Pampa Galeras. 20
∑Y
2 i
S=
∑Y )
2
(
20
−
i
i=1
i=1
n −1
n
25608 −
=
(714)2
19
20
=
1182 . 19
= 2494 . kg.
Este resultado indica que la desviación estándar es 2.49 kg., es decir que los pesos de las vicuñas machos de Pampa Galeras es 2.49 kg mayores o menores que el peso vivo promedio de 35.7 kg. La desviación estándar estará bien calculado?.
R S
=
42 − 32 2.4942
= 4.009
Comparando los dos desviaciones estandares, encontramos que para las vicuñas machos de Cala - Cala (S=6.34) existe mayor variabilidad o dispersión que las vicuñas machos de Pampa Galeras (S=2.49), con una diferencia de 3.85 kg. de peso vivo.
Estadística Básica Aplicada a la Ganadería - 231 -
6.11.2 DESVIACIÓN ESTÁNDAR CON DATOS AGRUPADOS. Para estimar la desviación estándar, es fácil calcular primero la varianza y luego sacando la raíz cuadrado, se obtiene la desviación estándar; para datos agrupados también provienen de las fórmulas para estimar varianza. m
m
i) S =
∑
n i Yi − Y
2
∑
n −1
∑
n i Yi2 −
∑nY) i
i =1
n
n −1 m
n i Yi2 − nY 2
2
i
i =1
i =1
ii) S =
i =1
m
iii) S =
(
m
m
n ∑ n i Y − ( ∑ n i Yi ) 2 2 i
iv) S =
i =1
i =1
2
n −n
n −1
EJEMPLO: Calcular la desviación estándar (S) para los datos de la variable longitud de mecha (cm) de los vellones de alpacas de la zona de Melgar. Y'i-1 - Y'i 2.2 4.1 6.0 7.9 9.8 11.7 13.6 15.5
-
4.1 6.0 7.9 9.8 11.7 13.6 15.5 17.4
ni
Yi
niYi
(Yi − Y)
(Yi − Y)2
3 4 18 20 20 20 11 4
3.15 5.05 6.95 8.85 10.75 12.65 14.55 16.45
9.45 20.20 125.10 177.00 215.00 253.00 160.05 65.80
-7.106 -5.206 -3.306 -1.406 0.494 2.394 4.294 6.194
50.495236 27.102436 10.929636 1.976836 0.244036 5.731236 18.438436 38.365636
8
Total
∑ n Y = 1025.6
i
i
i=1
i
i=1
10
∑n Y i
Y=
i =1
n
151.485708 108.409744 196.733448 39.536720 4.880720 114.624720 202.822796 153.462544
8
8
∑n = 100
ni (Yi −Y)2
i
=
10256 . 100
. cm. = 10256
∑n (Y − Y) i
i =1
i
2
= 971.9564
- 232 -
V. Ibañez Q.
Estadígrafos de Dispersión
Reemplazando a la fórmula: 8
2
∑ n Y − Y i
S=
i
i=1
n 8
∑ n Y − Y i
S=
9719564 .
=
100 2
i
i =1
n −1
= 31176 ≈ 312 . . cm.
=
9719564 . 99
. cm. = 313
Para los dos métodos abreviados, la desviación estándar, se obtiene simplemente sacando la raíz cuadrada de la varianza, es decir: S =
S2 .
PROPIEDADES DE LA DESVIACIÓN ESTÁNDAR (S). Las propiedades de este estadígrafo de dispersión son triviales y similares a la varianza: P-1. La desviación estándar o típica de un conjunto de observaciones x 1, x2,..,xn, siempre es un número no negativo S ≥ 0. P-2. La varianza de una constante es cero, es decir S(c)=0. P-3. Si a cada valor de las observación x 1, x2,..,xn se le agrega o se resta una constante «b», la desviación estándar del nuevo conjunto de valores Y 1, Y2,..,Yn, donde Yi = xi±b, i = 1,2,..,n, coincide con la desviación típica del conjunto original. SY = SX±b = SX P-4. Si cada valor de las observaciones x 1, x2,..,xn, se multiplica por una constante «a», la desviación estándar del nuevo conjunto de valores Y 1, Y2,..,Yn, donde Yi = axi, i = 1,2,..,n, es igual a la desviación estándar del conjunto original multiplicado por el valor positivo (valor absoluto) de dicha constante. SY = SaX = a S X
Estadística Básica Aplicada a la Ganadería - 233 -
P-5. La desviación estándar para el total, se puede estimar con: STotal = NS, Donde: N = Número de elementos de la población.
VENTAJAS DE LA DESVIACIÓN ESTÁNDAR (S). - La desviación estándar es sin duda, la medida de dispersión que posee una mayor estabilidad frente a las fluctuaciones de la muestra tomada. - Se basa en todos los valores de la variable, atendiendo a su magnitud como a su signo. - Es indispensable cuando se trata de interpretar datos en relación con la distribución normal.
6.12. ERROR ESTÁNDAR (E.S.) Este estadístico de dispersión ó desviación estándar de promedios, está dado por el cociente que resulta de dividir la desviación estándar entre la raíz cuadrada del tamaño de la muestra «n». SX =
S n
,
Donde: S = Desviación estándar. n = Tamaño muestral.
S X , se le conoce E.S. de la media de una muestra tomada al azar de una
población N(µ, σ ) , su valor indica la desviación promedio de las medias (en una población de muestras) con respecto al valor µ de la población original muestreada. La desviación estándar de los promedios o error estándar ( S X ), puede deducirse de la desviación estándar de la población original con la fórmula siguiente: SX =
S
n mente pequeñas.
N−n N −1
, ésta fórmula, se usa para poblaciones finitas relativa-
- 234 -
V. Ibañez Q.
Estadígrafos de Dispersión
Si N → ∞ , es decir si N es muy grande entonces nN → 0 , es decir
n N
es una
cantidad que se acerca al valor cero, a medida que aumenta N. Entonces el factor de corrección quedando la fórmula
SX =
S n
(1) ,
N− n
, se convierte en uno, es decir N −1
N−n N
→ 1,
entonces la fórmula se convierte en:
S
SX =
n
EJEMPLO: Calcular el Error Estándar (E.S.) con los datos de vicuñas machos de los criaderos de Cala - Cala y Pampa Galeras. SOLUCIÓN: Para criadero de Cala - Cala: S = 6.34 kg, n = 20, entonces SX =
6.34 20
, . = 1418
S X =1.42 kg.
Para criadero de Pampa Galeras: S = 2.4942 kg, n = 20, entonces SX =
2.4942 20
= 05577 .
S X =0.56 kg.
USOS: - Debe omitirse fracción de muestreo, cuando el tamaño de muestra «n» es menor del 10% del tamaño de la población N finita. - Debe usarse la fracción de muestreo sólo cuando es mayor al 10% del tamaño de la población.
Estadística Básica Aplicada a la Ganadería - 235 -
Desigualdad de Chebyshev. La probabilidad de que una variable aleatoria X, asuma valores dentro de «k» desviaciones estándar a partir de su media, es por lo menos
1−
1 k 2
, entonces:
1
P( µ − kσ < x < µ + kσ ) ≥ 1 −
2
k
La desigualdad de Chebyshev es muy importante, ya que permite determinar límites sobre probabilidades de variables aleatorias discretas o contínuas, sin tener que especificar sus funciones (densidades) de probabilidad y sirve para hallar la probabilidad de que una variable aleatoria asuma valores dentro de «k» desviaciones estándar de la media. Esa probabilidad no puede ser menor que 1 − k 1 , pero no se sabe cuánto más puede ser, pues no se conoce la probabilidad exacta por el desconocimiento de la distribución de probabilidad de la variable aleatoria X. 2
Demostración:
σ 2 = Ε ( x − µ ) 2 , supóngase variable aleatoria contínua. +∞
2
σ = 2
σ =
−∞
µ − k σ
−∞
( x − µ )2 f ( x)dx 2
( x − µ ) f ( x) dx +
a
d
µ + k σ
µ − k σ
2
( x − µ) f ( x) dx +
+∞
µ + k σ
( x − µ) 2 f ( x) dx
b
c
Si b ≥ 0, entonces d ≥ a+c, por lo tanto: 2
σ ≥
µ − k σ
−∞
2
( x − µ ) f ( x) dx +
+∞
µ + k σ
2
( x − µ) f ( x) dx
Ahora bien: x ≥ µ + kσ y x ≤ µ − k σ , en consecuencia x − µ ≥ σk , entonces ( x − µ ) 2 ≥ k 2 σ 2 Reemplazamos: ( x − µ ) 2 por por k 2 σ 2 :
2
k σ
2
y dividiendo ambos lados de la ecuación
- 236 -
V. Ibañez Q.
Estadígrafos de Dispersión
σ2 ≥ 2 2 k σ 1 2
k 1
2
k
≥
µ − k σ
k σ
2
2
−∞
k σ
2
2
µ − k σ
−∞
f (x )dx +
f ( x) dx +
+∞
µ + k σ
+∞
k σ
2
2
µ + k σ
k σ
2
2
f (x )dx
f ( x) dx
≥ P( −∞ < x < µ − kσ) + P(µ + kσ < x < +∞)
Por propiedades de probabilidad complementaria, se puede obtener el siguiente resultado: 1 2
k
−
≥ 1 − P( µ − kσ < x < µ + kσ) 1 2
k
1−
1 k 2
≤ −1 + P( µ − kσ < x < µ + kσ ) ≤ P(µ − kσ < x < µ + kσ ) y por lo tanto,
P(µ − kσ < x < µ + kσ ) ≥ 1 −
1 2
k
, l.q.q.d.
6.13. CORRECCIÓN SHEPPARD. Ocurre que en el cálculo de la varianza y por tanto de la desviación estándar, se introduce cierto error al agrupar los datos en clases. Para corregir éste error se emplea la varianza corregida, con la siguiente fórmula: V( X) corregida = V( X) −
c
2
(varianza corrección Sheppard).
12 Donde: «c» = Es la amplitud del intervalo de clase.
EJEMPLO: Con los datos calculados para las vicuñas machos de Cala - Cala. Calcular la Varianza por la Corrección de Sheppard.
Estadística Básica Aplicada a la Ganadería - 237 -
V( X) corregida = 29.499 −
(4.4) 2 12
= 27.88566 ≈ 27.89 kg.
Con los datos calculados para las vicuñas machos de Pampa Galeras. Calcular la Varianza por la Corrección de Sheppard. V ( X ) corregida = 5.64 2 −
(2 ) 2 12
= 5.3 08 6 ≈ 5.3 1 k g.
6.14. MEDIDAS DE DISPERSIÓN RELATIVA. 6.14.1. COEFICIENTE DE APERTURA. Se define como el cociente entre el valor máximo y el valor mínimo del recorrido de la variable, es el número de veces que engloba el mayor valor al más pequeño: Denotado con la siguiente expresión: C. A . =
X máx. X mín.
EJEMPLO: Para los datos de vicuñas machos de los dos criaderos, encontrar el C.A. SOLUCIÓN: Para el criadero de vicuñas Cala - Cala. C.A . =
47.0 25.0
= 188 . kg ≈ 2.0 kg
Para el criadero de vicuñas Pampa Galera. C. A. =
42 32
= 1.31 kg ≈ 1.0 kg
El C.A. del criadero de vicuñas machos de Cala - Cala, fue superior al C.A. del criadero de vicuñas machos de Pampa Galera.
- 238 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.14.2. RECORRIDO RELATIVO (R.R.). Se define como el recorrido de la variable dividido por la media aritmética, otra forma de definir es el número de veces que el recorrido engloba a la media aritmética:
R . R. =
R X
=
X máx . − X mín . X
EJEMPLO: Para los datos de vicuñas machos de los dos criaderos, encontrar el C.A. SOLUCIÓN: Para el criadero de vicuñas Cala - Cala. R. R. =
47 − 25 3185 .
=
22 3185 .
= 0.69 kg
Para el criadero de vicuñas Pampa Galera. R. R. =
42 − 32 3570 .
=
10 3570 .
= 0.28 kg
Es decir existe variabilidad o podemos afirmar de alguna forma existe heterogeneidad en el criadero de vicuñas machos de Cala - Cala frente al criadero de vicuñas machos de Pampa Galeras, que presenta uniformidad en el peso vivo (kg) de las vicuñas.
6.14.3. DISPERSIÓN RELATIVA (RIR). Esta definido como la dispersión absoluta dividida por la media aritmética, es el número de veces que la dispersión absoluta que contiene a la media aritmética. Dispersión relativa =
Dispersión Absoluta Media Aritmética
=
Dispersión Absolu
RIR = Re corrido semi Intercuartílico Relativo =
X
(Q3 - Q1 ) 2 X
Estadística Básica Aplicada a la Ganadería - 239 -
EJEMPLO: Con la información de las vicuñas machos de los dos Centros de criaderos. Calcular RIR. SOLUCIÓN: Para el criadero de vicuñas machos de Cala - Cala. = 5.25 1) Ubicar la posición del cuartil Q 1: 204+ 1 = 21 4
2) Como no es un entero, entonces realizar por la interpolación lineal, y esta comprendido entre los valores de: X (5)= 27 y X(6) = 27, entonces: Q1 = 27 + (27 - 27)(0.25) = 27 Q3 = ? 1) Ubicar la posición del cuartil Q 3: Si
3( n + 1) 4
=
3(21) 4
. , = 1575
no es un número
entero, entonces realizar la interpolación lineal. Q3 = 37 + (38-37)(0.75) = 37.75 Una vez calculado los Q 1 y Q3, podemos calcular el RIR: RIR =
(Q 3 - Q1 ) 2 X
=
(37.75-27) 2 31.85
= 0169 .
Para el criadero de vicuñas machos de Pampa Galeras. Q1 = ? 1) Ubicar la posición del cuartil Q 1: 20 + 1 = 21 = 5.25 4
4
2) Como no es un entero, entonces realizar la interpolación lineal, y esta comprendido entre los valores de: X (5)= 34 y X(6) = 34, entonces: Q1 = 34 + (34 - 34)(0.25) = 34
- 240 -
V. Ibañez Q.
Estadígrafos de Dispersión
Q3 = ? 1) Ubicar la posición del cuartil Q 3: Si
3(n + 1) 4
=
3(21) 4
= 1575 . ,
no es un número
entero, entonces realizar la interpolación lineal. Q3 = 37 + (37-37)(0.75) = 37 Una vez calculado los Q 1 y Q3, podemos calcular el RIR: RIR =
(Q3 -Q1) 2 X
=
(37-34) 2 35.70
. = 0042
6.15. COEFICIENTE DE VARIACIÓN (CV). Es un estadígrafo de dispersión o dispersión relativa que está expresado en unidades independientes de la naturaleza de la variable y el valor se expresa generalmente en términos de porcentuales. Es un estadígrafo que se utiliza para comparar dos o más distribuciones cuando las unidades de medida de las variables están expresados en diferentes unidades o escalas de medida. Ejm. Comparar sueldos expresados en soles y en dólares; extensiones o superficies medida en metros cuadrados y otro en pies cuadrados, etc. Cuando se compara dos o más distribuciones, es más homogénea o presenta menos discrepancia, aquella distribución que tiene el menor coeficiente de variación, es decir los datos son más heterogéneos cuando tienen mayor coeficiente de variación. Para encontrar un coeficiente de variabilidad bajo, se debe tomar en cuenta en los diferentes experimentos en determinar tamaños de la unidad experimental, en el cual el CV, debe tender a estabilizarse, allí se define el tamaño óptimo de la parcela o unidad experimental. El CV, es una medida de variabilidad con respecto a la magnitud de las cantidades originales que se han estimado, en otras palabras el CV, se define como la razón entre la desviación estándar y la media aritmética multiplicado por 100, otra forma es que el CV expresa la desviación estándar por unidad experimental, como
Estadística Básica Aplicada a la Ganadería - 241 -
un porcentaje de la media general del experimento.
CV. =
S X
x100
Donde: CV. = Coeficiente de variabilidad. S = Desviación estándar. x = Promedio de la muestra. EJEMPLO: Calcular los CV. para las vicuñas machos de Cala - Cala y Pampa Galeras. Criadero de vicuñas Cala - Cala n = 20 6.34 x100 CV . = 3185 . X = 31.85 S = 6.34
CV. = 19.91%
Criadero de vicuñas Pampa Galeras n = 20 2.49 x100 CV . = 3570 . X = 35.7 S = 2.49
CV. = 6.97%
Interpretación: El CV. que encontramos para el criadero de vicuñas machos de Cala - Cala es de alguna forma alta (CV. = 19.91%), esto nos indica que existe bastante variabilidad entre unidades experimentales, es decir los pesos vivos (kg) entre vicuñas, en cambio se puede mostrar para las vicuñas machos de Pampa Galeras el CV. = 6.97% y es bajo, esto hecho nos indica que existe similaridad o podemos atribuir a la homogeneidad de pesos vivos (kg) entre cada animal. La razón de esta variabilidad posiblemente se debe al sistema de manejo que se practica en cada criadero de vicuñas y otros factores ajenos al criadero. Los resultados de todas éstas medidas de dispersión relativa para el ejemplo visto anteriormente, se resumen en el cuadro siguiente:
- 242 -
V. Ibañez Q.
Medidas de dispersión
Estadígrafos de Dispersión
Criadero Cala - Cala
Coeficiente de Apertura
C. A. =
Recorrido Relativo
R. R. =
Recorrido Semi Intercuartílico Relat. RIR.= Coeficiente de Variación
47 25
. = 188
22 3185 .
= 069 .
(3775 . −27) 2
Criadero Pampa Galeras C.A.=
42
= 131 . 32 10 = 028 R. R.= . 3570 . . RIR.= =0169
(37−34) 2
. = 0042 3185 . 3570 . . . 634 249 CV.= x100=1991 . % CV.= . x100=697% 3185 3570 . .
Del cuadro precedente podemos afirmar en forma general que existe dispersión o variabilidad en los pesos vivos (kg) de las vicuñas del criadero de Cala - Cala frente a las vicuñas machos de Pampa Galeras.
Características del Coeficiente de Variabilidad. - Cuando se comparan dos o más distribuciones, es más homogénea la distribución que tenga un menor CV. en caso inverso será alta el CV. - Cuando se incrementa el número de muestra o a mayor número de unidades experimentales por tratamiento, el CV. será menor. - Una desventaja del CV. es que no se debe utilizar ésta expresión, cuando las variables utilizadas no tengan un cero verdadero, por cuanto el CV. exige que la variable en estudio tenga cero verdadero, motivo por el cual el CV. no se puede utilizar en campos de Educación y psicología. En experimentos agrícolas el CV. varía generalmente hasta un 30 - 35%, valores superiores a éstos límites pueden considerarse como extremos; en cambio en trabajos de investigación en laboratorio (análisis en laboratorio) el CV. deben ser bastante bajos, debido a que el control lo realiza una persona o varios y no están afectos a los factores de variabilidad como en el campo experimental (medio ambiente, clima, lluvia, viento, temperatura, etc.). De igual manera debe ser bajo el CV. en los experimentos en que se analizan calidad (4 a 8%) como son fabricación de alimentos (galletas, concentrados, conservas, chocolate, máquinas, televisores, etc.). En los experimentos en ganadería, el CV. por lo general es alto, por los diferentes factores medio ambientales que se presentan en el lugar de la experimentación, es decir la variabilidad del experimento, se debe a los factores como: edad,
Estadística Básica Aplicada a la Ganadería - 243 -
talla, peso, raza del animal, lugar clima, droga utilizada, diseño, salud del animal, pérdida de unidad experimental, entre otros. Considerando estos factores la escala siguiente puede ser usado para calificar la precisión de los experimentos que se realizan en el campo (esto no es absoluto más bien es una pauta para sugerir la precisión). Entre 5 a 10% = Excelente Entre 11 a 20% = Muy buena Entre 21 a 25% = Buena Entre 26 a 35% = Deficiente. Entre 36 a 45% = Muy mala. Mayor a 45%. Sin embargo, podemos comparar con otros autores la precisión del CV. para juzgar y diferenciar en los lugares en que ellos han trabajado: Así Calzada, B.J. (1970), sugiere la siguiente escala para calificar la precisión de los experimentos de campo por el CV. cuando los datos analizados corresponden a rendimiento: Entre 5 a 10% = Excelente Entre 11 a 15% = Muy buena Entre 16 a 20% = Buena Entre 21 a 25% = Regular Entre 26 a 31% = Mala Más de 31% = Muy mala. Sin embargo, Reyes, C.P. (1980), en México indica que el CV, para tres poblaciones de igual µ , pero diferente de σ . CV. = 20% muy variable. CV. = 10% variable CV. = 5% relativamente uniforme.
- 244 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.16. MOMENTOS. Los momentos se utilizan para describir otros aspectos relevantes de la distribución de frecuencias, la teoría de los momentos se debe a Karl Pearson. Los momentos se definen como promedios de potencias de las desviaciones de los valores de una serie de observaciones con respecto a un valor arbitrario, esta puede ser la media aritmética. Se puede encontrar «n» momentos, sin embargo desde el punto de vista práctico, se utilizarán sólo los cuatro primeros momentos.
6.16.1. MOMENTO RESPECTO A UN VALOR CONSTANTE «a». Sea x1,x2,...,xn un conjunto de «n» observaciones de una característica X. El momento de orden «r» con respecto a un punto «a» de la muestra, es decir es la media aritmética de la potencia r-ésima de las desviaciones de las observaciones con respecto al valor «a», y se define como: M r,a.
A. MOMENTO PARA DATOS NO AGRUPADOS. Cuando los datos no se encuentran en intervalos de clase, entonces el momento se puede calcular con las siguientes fórmulas: n
M r ,a = M ( X − a ) r =
r ( x − a ) ∑ i i =1
n
Donde: r = 1,2,3,..... Xi = Son las observaciones. n = Número de muestras. Entonces; M1,a, M2,a, M3,a,....., Mr,a son momentos con respecto a un punto «a» cualquiera de órdenes 1,2,3,....,r, respectivamente. Entonces los cuatro primeros momentos son: M 1,a =
1
n
(x ∑ n i =1
i
− a )1 = x − a
Estadística Básica Aplicada a la Ganadería - 245 -
M 2 ,a =
M 3,a =
1 n
1
n
∑
( xi − a )2
i =1
n
(x ∑ n
i
− a) 3
i
− a) 4
i =1
M 4 ,a =
1
n
(x ∑ n i =1
Los momentos ayudan a detectar algunas fallas en la distribución de frecuencias, así mismo sirven para análisis estadístico aposterior y puede ayudar a crear los diseños experimentales. EJEMPLO: Calcular los cuatro primeros momentos para los datos de las vicuñas machos de los dos centros de crianza (Cala - Cala y Pampa Galeras), respecto al punto 27 y 36. SOLUCIÓN: Para calcular los 4 primeros momentos respecto al punto 27 y 36, calcularemos en un cuadro todos los valores que necesitamos sustituir en las fórmulas respectivas.
- 246 -
V. Ibañez Q.
Estadígrafos de Dispersión
Peso vivo (kg) de las vicuñas machos de Cala-Cala, 1998 2
3
4
N°
Xi
Xi - 27
(Xi - 27)
(Xi - 27)
(Xi - 27)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25
20 11 11 2 11 3 7 0 0 -2 -1 1 0 1 15 3 10 8 -1 -2
400 121 121 4 121 9 49 0 0 4 1 1 0 1 225 9 100 64 1 4
8000 1331 1331 8 1331 27 343 0 0 -8 -1 1 0 1 3375 27 1000 512 -1 -8
160000 14641 14641 16 14641 81 2401 0 0 16 1 1 0 1 50625 81 10000 4096 1 16
Total
20
20
20
20
i =1
i=1
i=1
i=1
2 ∑(Xi − 27) = 97 ∑(Xi −27) = 1235 ∑(Xi − 27) 3 = 17269 ∑(Xi −27) 4 =271259
M 1,27 =
1
20
∑ 20 i =1
M2,27 = M 3,27 =
1
( x i − 27 ) =
97 20
= 4.85
20
1235 ( xi − 27) 2 = . = 6175 20 i =1 20 1
∑ 20
17269 ( xi − 27)3 = = 86345 . 20 i =1 20
∑
Estadística Básica Aplicada a la Ganadería - 247 -
M 4 , 27 =
1 20
20
∑ (x
4
i
271259
− 27) =
20
i =1
= 13562.95
Para las vicuñas de la Reserva Nacional de Pampa Galeras, 1998.
Peso vivo (kg) de las vicuñas machos de Pampa Galeras, 1998. 2
3
4
N°
Xi
Xi - 36
(Xi - 36)
(Xi - 36)
(Xi - 36)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
-1 2 0 -3 -4 1 -2 -3 -4 -2 -1 6 0 0 4 -1 1 0 0 1
1 4 0 9 16 1 4 9 16 4 1 36 0 0 16 1 1 0 0 1
-1 8 0 -27 -64 1 -8 -27 -64 -8 -1 216 0 0 64 -1 1 0 0 1
1 16 0 81 256 1 16 81 256 16 1 1296 0 0 256 1 1 0 0 1
20
20
Total
∑(X − 36) = -6 ∑(X −36)
2
i
i
i=1
i =1
M 1,36 =
1
20
= 120 ∑(Xi − 36) = 90 ∑(Xi − 36) 4 = 2280 i=1
20
∑ 20 i =1
20
3
( x i − 36) =
i =1
−6 20
= −0.3
- 248 -
V. Ibañez Q.
Estadígrafos de Dispersión
M 2 , 36 = M 3 , 36 =
20
1 20 1
∑ (x
2
− 36 ) =
i
120 20
i =1 20
∑ 20
90
( x i − 36 ) 3 =
M 4 ,36 =
1
= 4 .5
20
i =1
= 6.0
20
2280 ( x i − 36) 4 = = 114 20 i =1 20
∑
B. MOMENTOS PARA DATOS AGRUPADOS. Cuando la información se encuentra en intervalos de clase, se usarán las siguientes fórmulas:
M r ,a = M ( Y − a )
r
=
1 n
m
∑
n i ( Yi − a ) r
i =1
Donde: r = 1,2,3,..... Yi = Son los puntos medios o marcas de clase. n = Número de muestras. Entonces; M1,a, M2,a, M3,a,....., Mr,a son momentos con respecto a un punto «a» cualquiera de órdenes 1,2,3,....,r, respectivamente. Entonces los cuatro primeros momentos son: M 1,a =
1 n
M 2 ,a =
m
∑
n i ( Yi − a)1 = Y − a
i =1
1
m
n ∑ n
i
( Yi − a ) 2
i =1
M 3, a = M 4 ,a =
1 n 1 n
m
∑
n i ( Yi − a )
3
n i ( Yi − a )
4
i =1 m
∑ i =1
Estadística Básica Aplicada a la Ganadería - 249 -
EJEMPLO: Calcular los 4 primeros momentos para las vicuñas del Comité Comunal de Manejo de vicuñas de Cala - Cala, tomando como constante a = 36. Y'i-1 - Y'i ni 25.029.433.838.2 42.6-
29.4 33.8 38.2 42.6 47.0
Total
10 2 6 1 1
2
3
4
Yi
(Yi -36)
ni(Yi -36)
ni(Yi -36)
ni(Yi - 36)
ni(Yi -36)
27.2 31.6 336.0 40.4 44.8
-8.80 -4.40 0.00 4.40 8.80
-88 -8.8 0 4.4 8.8
774.40 38.72 0.00 19.36 77.44
-6814.72 -170.37 0.00 85.18 681.47
59969.536 749.619 0.000 374.810 5996.954
5
5
5
i=1
i=1
i=1
5
∑
2 3 4 n(Y n(Y ∑n(Y i i −36) = -83.60 ∑ i i −36) = 909.92 ∑ i i −36) =-6218.432 n(Y i i −36) = 67090.918
20
M 1,36 = M 2 ,36 = M3, 36 = M4,36 =
1 20 1
i=1
5
∑ n (Y − 36) = i
i
i =1
−83.6
= −4.18
20
5
90692 . n i (Yi − 36) 2 = = 45346 . 20 i =1 20
∑
5
−6218432 . ni (Yi − 36)3 = . = −310922 20 i=1 20 1
1
∑ 5
670909184 . ni (Yi − 36)4 = . = 335454592 20 i=1 20
∑
Calcular los 4 primeros momentos para las vicuñas de la Reserva Nacional de Pampa Galeras, 1998. (a = 37). 2
3
4
Y'i-1 - Y'i
ni
Yi
(Yi - 37)
ni(Yi - 37)
ni(Yi - 37)
ni(Yi - 37)
ni(Yi - 37)
32 34 36 38 40
4 5 8 1 2
33 35 37 39 41
-4 -2 0 2 4
-16 -10 0 2 8
64 20 0 4 32
-256 -40 0 8 128
1024 80 0 16 512
-
34 36 38 40 42
Total
5
20
∑ni (Yi − 37) = -16 i=1
5
5
∑ni(Yi −37)2 = 120 ∑ni (Yi −37) 3 = -160 i=1
i=1
5
∑n (Y −37)
4
i
i=1
i
=1632
- 250 -
V. Ibañez Q.
M 1,3 7 =
Estadígrafos de Dispersión 5
1 20
∑ n (Y i
− 37 ) =
i =1
20
5
1
∑ 20
M 2 , 37 =
i
− 16
n i ( Yi − 3 7 ) 2 =
= − 0.8 120 20
i =1
M 3 , 37 =
5
1
∑ 20
n i ( Yi − 37 ) 3 =
i =1
1
M 4 , 37 =
20
5
− 160 20
= 6
= − 8.0
1632 n i ( Yi − 3 7 ) 4 = = 8 1.6 20
∑
i =1
6.16.2. MOMENTOS CON RESPECTO AL ORIGEN. Esta se refiere cuando las desviaciones son calculadas con respecto al punto a = 0, entonces, se llaman momentos orden «r» con respecto al origen, que esta denota por «Mr,0 = M’ r»
A. Momentos con respecto al ORIGEN con datos no agrupados. Es cuando los datos no se encuentran en intervalos de clase, y se calcula mediante la siguiente fórmula: M 'r = M( X r ) =
1
n
X ∑ n
r i
i =1
Donde: Xi = Son cada uno de las observaciones, i = 1,2,3,..,n n = Es el número de observaciones de la muestra. M’1, M’2, M’3,.....,M’4 son momentos con respecto al origen de ordenes 1,2,3,...,r, respectivamente. Los cuatro primeros momentos con respecto al origen son: ' 1
M =
1
n
X ∑ n
=X
i
' 2
M =
i =1
' 3
M =
1
i =1
n
X ∑ n
2 i
i =1
n
X ∑ n
1
3 i
' 4
M =
1
n
X ∑ n i =1
4 i
Estadística Básica Aplicada a la Ganadería - 251 -
EJEMPLO: Calcular los 4 momentos con respecto al origen para los datos de las vicuñas machos de Cala - Cala y Pampa Galeras. SOLUCIÓN: Los datos se deben colocarse en una tabla para determinar los 4 momentos, de la siguiente manera:
N°
Xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25
4
Xi
Xi
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25
2209 1444 1444 841 1444 900 1156 729 729 625 676 784 729 784 1764 900 1369 1225 676 625
103823 54872 54872 24389 54872 27000 39304 19683 19683 15625 17576 21952 19683 21952 74088 27000 50653 42875 17576 15625
4879681 2085136 2085136 707281 2085136 810000 1336336 531441 531441 390625 456976 614656 531441 614656 3111696 810000 1874161 1500625 456976 390625
20
20
∑X = 637 ∑X
2 i
i
i=1
3
Xi
20
Total
2
Xi - 0
i=1
= 21053 ∑ X = 723103 3 i
i =1
20
∑X i =1
4 i
= 25804025
- 252 ' 1
M = ' 3
M =
V. Ibañez Q.
1 n
1 n
20
∑ Xi =
637 20
i =1
20
∑X
3 i
=
Estadígrafos de Dispersión
723103 20
i =1
= 3185 . =X
' 2
M =
1
20
∑ n
2
Xi =
21053 20
i =1
' 4
= 3615515 .
M =
1
20
∑X = 4 i
n i=1
25804025 20
= 1052.65
=129020125 .
Calcular los 4 momentos con respecto al origen para los datos de las vicuñas machos de Pampa Galeras.
2
3
4
N°
Xi
Xi - 0
Xi
Xi
Xi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
1225 1444 1296 1089 1024 1369 1156 1089 1024 1156 1225 1764 1296 1296 1600 1225 1369 1296 1296 1369
42875 54872 46656 35937 32768 50653 39304 35937 32768 39304 42875 74088 46656 46656 64000 42875 50653 46656 46656 50653
1500625 2085136 1679616 1185921 1048576 1874161 1336336 1185921 1048576 1336336 1500625 3111696 1679616 1679616 2560000 1500625 1874161 1679616 1679616 1874161
20
Total
∑X
i
i =1
20
20
20
= 714 ∑X = 25608 ∑ X = 922842 ∑ X4i = 33420936 2 i
i=1
3 i
i =1
i =1
Estadística Básica Aplicada a la Ganadería - 253 ' 1
M = ' 3
M =
1 n 1 n
20
∑ Xi = i =1
20
∑X
3 i
=
714 20
= 35.7 = X
M =
20
1
∑ n
2
Xi =
2560 8
20
' 4
= 461421 .
M =
1
20
∑X = 4 i
n i=1
= 12804 .
20
i =1
922842
i =1
' 2
33420936 20
= 16710468 .
B. Momentos con respecto al ORIGEN para datos agrupados. Cuando los datos se encuentran tabulados en intervalos de clase, se encontrará con las siguientes fórmulas: ' r
r
M = M (Y ) =
1 n
m
∑
n i Yi
r
i =1
Donde: Yi = Marcas de clase o puntos medios. m = Número de clases. ni = Frecuencia absoluta. n = Número total de observaciones. observacion es. Los cuatro primeros momentos con respecto al origen son: ' 1
M =
' 3
M =
1 n
m
∑
niYi = Y
' 2
M =
i =1
1 n
m
∑ i =1
3 i
niY
' 4
M =
1 n 1 n
m
∑ n i Yi
2
i =1 m
∑
4
n iYi
i =1
EJEMPLO: Con los datos de las vicuñas machos de los dos centros de criadero. Calcular los 4 primeros momentos.
- 254 -
V. Ibañez Q.
[Y'i-1 i-1 - Y'i>
ni
25.0 29.4 33.8 38.2 42.6
-
29.4 10 33.8 2 38.2 6 42.6 1 47.0 1
Totales
Estadígrafos de Dispersión 2
3
4
Yi
niYi
niYi
niYi
niYi
27.2 31 31.6 36 40 40.4 44 44.8
272.0 63.2 216.0 40.4 44.8
7398.40 1997.12 7776.00 1632.16 2007.04
201236.480 63108.992 279936.000 65939.264 89915.392
5473632.256 1994244.147 10077696.000 2663946.266 4028209.562
5
5
5
5
i=1
i=1
i=1
i=1
2 3 4 ∑niYi =636.4 ∑nY i i = 20810.72 ∑niYi = 700136.13 ∑niYi = 24237728.23
n = 20
5
1
∑ 20
' 1
M =
636.4
n i Yi =
20
i =1
5
1
∑ 20
' 2
M =
20810 20810.72
n i Yi2 =
20
i =1 5
1
' 3
M =
∑ ni Yi3 =
20 1
' 4
M =
20
∑n Y i
4 i
=
= 1040536 .
700136128 .
272377 27237728 28.23
i =1
= 35006 35006.8064 8064
20
i =1 5
. = 3182
20
= 121188 1211886 6.412
Con los datos de las vicuñas machos de los dos centros de criadero. Calcular los 4 primeros momentos para Pampa Galeras. [Y'i-1 - Y'i 32 34 36 38 40
-
34 36 38 40 42
ni
Yi
4 5 8 1 2
33 35 37 39 41 5
Totales
5
i
i=1
M =
1
i
i
i=1
5
∑ 20 i=1
3
niYi 4356.00 6125.00 10952.00 1521.00 3362.00
∑n Y = 724 ∑n Y
n = 20
' 1
2
niYi 132.0 175.0 296.0 39.0 82.0
n i Yi =
2 i
4
niYi 143748.000 214375.000 405224.000 59319.000 137842.000 5
niYi 4743684.000 7503125.000 14993288.000 2313441.000 5651522.000 5
= 26316 ∑n Y = 960508 ∑niYi4 = 35205060
724 20
3 i i
i =1
= 3 6.2
i=1
Estadística Básica Aplicada a la Ganadería - 255 -
M
' 2
=
5
1
∑ 20
26316
n i Yi2 =
20
i =1
M
' 3
=
' 4
M =
5
1
∑nY i
20
3 i
=
960508
5
∑ 20
4 n i Yi =
= 480 25 .4
20
i =1
1
= 1 3 1 5.8
35205060 20
i =1
= 1760253
6.16.3. MOMENTOS CON RESPECTO A LA MEDIA ARITMÉTICA. Cuando las desviaciones son calculadas con respecto a la media a = x , entonces se llamará Momento de orden «r» con respecto a la media aritmética, denotado por " M r , x = M r " .
A. Momentos con respecto a la media aritmética para datos no agrupados. Cuando la información no se encuentra clasificada en tablas o intervalos de clase, se puede realizar los cálculos con las siguientes fórmulas: n
r
M r = M X − X =
∑ X
− X
i
r
i =1
n
Por tanto: M1, M2, M3,..., Mr, son momentos con respecto a la media de órdenes 1,2,3,...,r, respectivamente. Los cuatro primeros momentos con respecto a la media son: M1 =
n
1
X ∑ n
i
− X = 0
M2 =
i =1
M3 =
1
i =1
X ∑ n
2
i
− X = S'2 ≈ S 2
i =1
n
X ∑ n
n
1
i
− X
3
M4 =
1
n
X ∑ n i =1
i
− X
4
- 256 -
V. Ibañez Q.
Estadígrafos de Dispersión
EJEMPLO: Calcular los cuatro primeros momentos con respecto a la media para los datos de vicuñas machos de los dos centros criaderos (Cala-Cala y Pampa Galeras).
N°
Xi
Xi − X
(Xi − X)2
(Xi − X)3
(Xi − X)4
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
47 38 38 29 38 30 34 27 27 25 26 28 27 28 42 30 37 35 26 25
15 6 6 -3 6 -2 2 -5 -5 -7 -6 -4 -5 -4 10 -2 5 3 -6 -7
230 38 38 8 38 3 5 24 24 47 34 15 24 15 103 3 27 10 34 47
3477 233 233 -23 233 -6 10 -114 -114 -321 -200 -57 -114 -57 1046 -6 137 31 -200 -321
52681 1431 1431 66 1431 12 21 553 553 2202 1171 220 553 220 10614 12 703 98 1171 2202
20
20
Total ∑Xi = 637 i=1
M1 = M3 =
20 i
i=1
n
∑Xi − X n
= 3
∑X − X
20 i=1
i
3
i
20 i=1 1
20
∑(X −X) = 0 ∑(X −X) = 765 ∑(X −X) = 3863 ∑(X −X) = 77344 i=1
1
20 2
i
i=1
0 20
=
4
i
=0
3863 20
i=1
M2 =
= 19315 . M4 =
1
n
2
∑Xi − X
20 i=1 1
n
4
∑X − X
20 i=1
i
=
=
765 20
= 3825 .
77344 20
= 3867 867.2
Estadística Básica Aplicada a la Ganadería - 257 -
Para las vicuñas machos de PAMPA GALERAS:
N°
Xi
Xi − X
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
35 38 36 33 32 37 34 33 32 34 35 42 36 36 40 35 37 36 36 37
-1 2 0 -3 -4 1 -2 -3 -4 -2 -1 6 0 0 4 -1 1 0 0 1 20
20
Total ∑Xi = 714 i=1
M1 =
n
0 5 0 7 14 2 3 7 14 3 0 40 0 0 18 0 2 0 0 2
0 12 0 -20 -51 2 -5 -20 -51 -5 0 250 0 0 80 0 2 0 0 2
0 28 0 53 187 3 8 53 187 8 0 1575 0 0 342 0 3 0 0 3
20
20
∑(X −X) = 0 ∑(X −X) = 118 ∑(X −X) = 197 ∑(X −X) = 2452 i
Xi − X =
i=1
M3 =
(Xi − X)4
2
∑ 20 1
(Xi − X)3
20
n
∑ 20 i =1
3
i
i=1
1
(Xi − X)2
i=1
0 20
3
Xi − X =
4
i
i
i=1
=0
i=1
M2 =
1
n
2
∑ 20
Xi − X =
i =1
197 197 20
= 9.85 M4 =
1
n
∑ 20 i=1
4
Xi − X =
118 20
2452 20
= 5.9
= 122.6
- 258 -
V. Ibañez Q.
Estadígrafos de Dispersión
B. Momentos con respecto a la media aritmética para datos agrupados. Cuando la información se encuentra clasificada en intervalos de clase, entonces se usarán las siguientes fórmulas: r
M r = M Y − Y =
m
1
∑ ni Yi − Y
r
n i =1 Donde: Yi = Marcas de clase o puntos medios. ni = Frecuencia absoluta. m = Número de clases y n = Total de las frecuencias absolutas. Los cuatro primeros momentos con respecto a la media aritmética son: M1 =
1 n
M3 =
m
∑
ni Yi − Y = 0
M2 =
i =1
1
m
n Y ∑ n i
i
− Y
3
M4 =
i =1
1 n
m
∑
2
ni Yi − Y = S'2 ≈ S2
i =1
1
m
n Y ∑ n i
i
− Y
4
i =1
EJEMPLO: Calcular con los datos de las vicuñas machos de Cala-Cala y Pampa Galeras, los 4 primeros momentos (Los datos se encuentran en la siguiente página): SOLUCIÓN: Para el criadero de Cala - Cala: M1 =
5
1
∑ n
ni Yi − Y =
i=1
M2 =
5
1
2
0 20
ni Yi − Y =
∑ n
560.472 20
i=1
M3 =
1
5
∑ n
=0
3
ni Yi − Y =
2270.5795
i =1
M4 =
1
5
∑ n i =1
4
. = 280236 ≈ S2
ni Yi − Y =
20
= 113528976 .
40192.5669 20
= 2009 2009.62834 628345 5
Estadística Básica Aplicada a la Ganadería - 259 -
7 − 1 2 7 7 8 5 7
1 1 0 2 8 1 Y . 2 2 ( . 6 . . i . 8 6 0 1 6 n 8 0 3 8 - 3 9 4 6 1 2 i
i
Y ( i n
2 =
) Y
3
−
=
2 7 4 . 0 6 5 =
) Y
2
− i
Y ( i n
i
i ∑
Y ( i n
1 i ∑
0 0 ) 0 0 0 0 0 Y 0 0 0 4 0 4 4 8 4 4 0 − i 4 6 3 6 8 1 9 4 8 4 Y . 6 . . ( . 8 i 3 0 . 4 3 0 0 7 6 n 1 2 1 1
−
Y ( i n
1
5
i
5
2
9 9 1 . . 1 6 . 0 . . 1 3 8 2 - 4 1 2 1 2 -
5 = i ∑ . 8 0 9 . 9 ) 0 1 = , a Y 2 4 8 l 8 ) 8 . Y a − 0 9 i . 5 . 5 6 4 . . − C Y 4 0 8 2 i - ( 2 1 Y i ( a n l i a n 1 C 5 = i ∑ e d 2 8 8 8 s Y 2 9 6 2 a − . . . 1 . 5 . 2 i ñ Y 4 0 4 8 1 u c i v 0 s i 0 0 0 0 0 4 . 0 0 a Y . 2 . 4 8 6 l i 2 . 6 . . 3 3 0 4 a 1 r n 7 2 6 2 4 4 6 a = p i Y s i 2 6 0 4 8 a n i . . . . . i 1 1 6 0 4 5 c Y 7 = i 2 3 3 4 4 ∑ n e u c i e 0 r n 0 1 2 6 1 1 2 f e d 4 . 8 . 2 . 6 . 0 . i n ' 9 3 8 2 7 ó i Y 2 3 3 4 4 l c a u - - - - - t o b 1 i T - 0 4 8 2 6 r ' i t . . . . . s Y 5 9 3 8 2 i 2 2 3 3 4 D 1
) 0 0 0 0 0 Y 0 0 0 0 0 0 0 0 0 − 0 0 0 0 0 0 i 6 0 2 4 8 0 Y 9 . 2 1 . ( . 8 . 6 i 0 . 7 5 7 n 4 4
=
0 2 . 7 0 1
2
=
) Y
2
− i
Y ( i n
i ∑
5
1
=
0 . . 8 0 9 ) = 9 ) 1 Y , Y 8 . s − 4 8 6 − 6 . . . i a - 6 i r Y 2 2 9 1 Y e ( l ( i i a n n G 1 5 = i a ∑ p m a P Y 2 2 . 8 e − . 1 . 8 . 8 . d i 3 - - 0 2 4 s Y a ñ 4 u 2 c i 0 0 0 0 7 v i 0 0 = . 0 . 0 . 0 s Y . 0 . i i 2 5 6 9 a n Y l 3 7 9 3 2 i 8 1 1 2 n a r 1 5 = a i ∑ p s a i 0 i . 0 . 0 . 0 . 0 . c Y 3 5 7 9 1 n 3 3 3 3 4 e u c e i r n 4 5 8 1 2 0 f 2 e d 0 . 0 . 0 . 0 . 0 . n ' i 4 6 8 0 ó i Y 3 3 3 4 2 4 l c a - - - - - t u b o i 1 r ' - 0 0 0 0 0 T i t . . . . . s Y 2 4 6 8 0 i 3 3 3 3 4 D
- 260 -
V. Ibañez Q.
Estadígrafos de Dispersión
Para el criadero de vicuñas machos de Pampa Galeras: M1 =
1
5
0
∑ni Yi − Y =
n i=1
M2 =
1
5
20
=0
2
∑ni Yi − Y =
10720 .
n i=1
M3 =
5
1
∑ n
20 3
n i Yi − Y =
2 = 536 . ≈S
107 .52 20
i =1
M4 =
1
5
∑ n
4
n i Yi − Y =
i =1
1556.224 20
= 5.3 7 6 = 77.8112
6.16.4. RELACIONES ENTRE MOMENTOS. En este apartado, se verá algunas relaciones que permite calcular los momentos con respecto a la media en función de los momentos con respecto a un punto arbitrario (se elige en forma arbitrario). Estas relaciones son las siguientes: 2 M 2 = M 2 ,a − M1,a
M 3 = M 3,a − 3M1,a ⋅ M 2 ,a + 2 M13,a M 4 = M 4 ,a − 4 M 1,a ⋅ M 3,a + 6 M 12,a ⋅ M 2 ,a − 3M 14,a
Los cálculos se efectuará por el método codificado:
Mr,a
r
m m Yi − a 2 r r r n c n ( Y − a ) n ( u c ) c n u ∑ i ∑ ∑ i i i i i i c ∑ i=1 i=1 i=1 i=1 = = = = m
m
n
n
n
n
m
c
Es decir: M r ,a =
r
∑
n i u ir
i =1
n
, con ui =
Yi −a c
, c = Amplitud de clase.
Estadística Básica Aplicada a la Ganadería - 261 m
∑
Con frecuencia al término
r
niu i
i =1
n
, se denota por u r (medias de las poten-
cias r-ésimas de las desviaciones). m
∑ ni u i
r
ur =
,
i =1
n
r r entonces los momentos con respecto al punto «a», se expresa así M r ,a = c u .
EJEMPLO: Con los datos de las vicuñas machos del criadero de la Reserva Nacional de Pampa Galeras. En este caso a = 37, c = 2. Y'i-1 - Y'i
ni
Yi ui =(Yi - 37)/2
32 - 34 34 - 36
4 5
33 35
-2 -1
36 - 38 38 - 40 40 - 42
8 1 2
337 39 41
0 1 2
2
3
4
uini
u ini
u ini
u ini
-8 -5
16 5
-32 -5
64 5
0 1 8
0 1 16
0 1 32
-13
5 1 4
5
5
5
5
∑u n = -8 ∑u n = 30 ∑u n = -20 ∑u n =102
Totales n = 20
2 i i
i i
3 i i
i=1
i=1
i=1
4 i i
i=1
a) Cálculo de M 2 = M2,a - M21,a, calcularemos cada término: 5
c
r
∑n u i
r i
i =1
M 2 ,a =
=
n
22 (30) 20
= 6.0
5
c∑ n i u i M1,a =
i =1
n
=
2( −8) 20
= − 0.8
Luego: M2 = M 2,a - M 21,a = 6.0 - (-0.8) 2 = 5.36
- 262 -
V. Ibañez Q.
Estadígrafos de Dispersión
b) Cálculo de M 3 = M 3,a - 3M 1,a.M2,a +2M31,a 5
c
3
∑n u i
3 i
i =1
M 3 ,a =
3
=
n
2 ( −20) 20
= −8.0
M3 = (-8.0)-3(-0.8)(6.0)+2(-0.8) 3 =5.376 c) Cálculo de M 4 = M4,a -4M1,a.M3,a +6M21,a.M2,a -3M41,a. 5
c M 4 ,a =
4
∑
4
ni u i
i =1
n
4
=
2 (102) 20
= 81.6
M3,a = -8.0 M2,a = 6.0 M1,a = -0.8, entonces reemplazando éstos valores se tiene: M4 = 81.6 - 4(-0.8)(-8.0)+(6.0)(-0.8) 3(6.0)-3(-0.8)4 = 81.6 - 25.6 + 23.04 - 1.2288 = 77.8112
6.17. ESTADÍGRAFOS DE DEFORMACIÓN Medidas de forma de la distribución. En diferentes trabajos es necesario calcular una medida que muestre las direcciones de la dispersión de los datos con respecto a su centro y que completan la descripción de las distribuciones de frecuencias. Estas características se llaman ASIMETRÍA (no tener simetría) y curtosis o apuntamiento, es decir las medidas de dispersión solo indican la magnitud de las variaciones, pero no dan información acerca de la dirección de las variaciones.
6.17.1 MEDIDA DE ASIMETRÍA (AS). Es la deformación horizontal de la curvas de una distribución de frecuencias. La curva se observará si está bien formada o no en relación a una curva
Estadística Básica Aplicada a la Ganadería - 263 -
normal. La deformación consiste en analizar la SIMETRÍA ó ASIMETRÍA de las distribuciones. a) Cuando la curva está inclinada o alargada hacia la derecha (Fig. A), se le denomina ASIMETRÍA POSITIVA o hacia la derecha, en esta curva el promedio aritmético es mayor que la mediana (Me) y ésta mayor que la moda (Md) X > Me > Md . ni
+
Sesgada a la derecha Fig. A
X > Me > M d
Y' i
b) Cuando la curva está inclinada o alargada hacia la izquierda (Fig. B), se llama ASIMETRÍA NEGATIVA o hacia la izquierda, en esta curva el X < Me < Md . ni
-
Sesgada a la izquierda
Fig. B
X < Me < M d
Y 'i
c) En la curva (Fig. C), podemos ver que la inclinación es igual a ambos lados, es decir la curva es SIMÉTRICA de ambos lados. En esta curva el promedio aritmético, la mediana y la moda coinciden en un mismo punto en el eje horizontal, es decir X = Me = Md .
- 264 -
V. Ibañez Q.
Estadígrafos de Dispersión
=
ni
Fig. C
X = Me = Md
Y 'i
La deformación o asimetría, se deduce comparando la distribución con la forma de la curva normal que corresponde a una distribución SIMÉTRICA, en general toda la distribución que cumpla con X = Me = Md , es simétrica y si no coinciden es asimétrica.
6.17.2 COEFICIENTE DE ASIMETRÍA. Una medida absoluta de la asimetría está dado por la diferencia entre la media aritmética y la moda: AS = X − Mo . Interpretación: AS, será negativa (AS<0), si la distribución tiene asimetría negativa. AS, nulo (AS = 0), si la distribución es simétrica. AS, será positiva (AS>0), si la distribución tiene asimetría positiva. Pero está medida tiene el inconveniente de expresar en unidades originales de la variable, y así cambia al cambiar la unidad de medición.
6.17.3 COEFICIENTE DE ASIMETRÍA DE PEARSON. Teniendo en cuenta que la media aritmética y la moda coinciden en una distribución simétrica, Karl Pearson propuso un coeficiente relativo de asimetría para curvas de frecuencias unimodales: Primer coeficiente: CAs =
Y − Mo S
=
Pr omedio − Moda Desviación estándar
Estadística Básica Aplicada a la Ganadería - 265 -
3( Y − Me)
Segundo coeficiente: CAs =
S
=
3(Pr omedio − Mediana ) Desviación estándar
Interpretación: Si CAs < 0, la distribuc. es asimétrica negativa (o sesgada hacia la izquierda). Si CAs = 0, la distribución es simétrica. Si CAs > 0, la distribuc. es asimétrica positiva (o sesgada hacia la derecha).
6.17.4 COEFICIENTE DE ASIMETRÍA EN FUNCIÓN DE LOS MOMENTOS. En una distribución de frecuencias simétrica respecto a su media aritmética, la suma algebraica de los cubos de las desviaciones respecto a la media es: n
∑
3
( X i − X) , para datos no agrupados.
i =1 m
∑
3
n i ( Yi − Y ) , para datos agrupados.
i =1
Es decir será nulas, en cambio para distribuciones asimétricas, esta suma será positiva si existe asimetría positiva y será negativa en el caso de la asimetría negativa. El tercer momento respecto a la media es: n
∑ (X M3 =
i
− X)3
i =1
, para datos no agrupados.
n m
∑ n (Y − Y ) i
M3 =
i
i =1
3
, para datos agrupados.
n
La unidad de medida de M 3, no es la misma que la unidad de las observaciones, es decir tiene dimensión 3 respecto a la magnitud del fenómeno. Por ello para tener un coeficiente de asimetría, no sólo un número puro, sino también
- 266 -
V. Ibañez Q.
Estadígrafos de Dispersión
invariante, dividimos por el cubo de la desviación estándar (S 3>0). n
∑ (X CAs =
i
− X) 3 n
i =1
S
=
3
M 3 , para datos no agrupados. 3 S
m
∑ n (Y − Y ) i
CAs =
3
i
n
i =1
=
S3
M 3 , para datos agrupados. S3
3
Pero: S3 =
m n (Y − Y)2 i i ∑ i =1 n
3
= M32
3 y S =
n (X − X)2 i ∑ i =1 n
= M32
Luego, el coeficiente de asimetría en función de los momentos es: CAs =
M3 3
M2
Interpretación: Si CAs < 0, se tiene una distribución asimétrica negativa X < Me < Md Si CAs = 0, se tiene una distribución simétrica X = M e = M d Si CAs > 0, se tiene una distribución asimétrica positiva X > Me > Md
6.17.5 COEFICIENTE DE ASIMETRÍA EN FUNCIÓN DE LOS CUARTILES. Los más importantes son:
A. El coeficiente de asimetría CUARTÍLICO o de Bowley, esta dado en función de los cuartiles: CAs =
Q 3 − 2 Q 2 + Q1 Q 3 − Q1
Estadística Básica Aplicada a la Ganadería - 267 -
B. El coeficiente de asimetría en función de los percentiles (10 - 90), está dado por: CAs =
( P90 − P50 ) − ( P50 − P10 ) P90 − P10
=
P90 − 2 P50 + P10 P90 − P10
La interpretación es la misma que los otros coeficientes de asimetría. EJEMPLO: Con los datos de vicuñas machos de la Reserva Nacional de Pampa Galeras (1998). Calcular CAs. Intervalo Frecuencia
32 - 34 4
34 - 36 5
36 - 38 8
38 - 40 1
40 - 42 2
a) Calcular los coeficientes de Asimetría de Pearson. b) Calcular el coeficiente de Asimetría por la fórmula de los momentos. c) Calcular los coeficientes por el método de los cuantiles. SOLUCIÓN: [Y'i-1 - Y'i>
ni
Ni
Yi
niYi
ui =(Yi - 37)/2
uini
u ini
2
u ini
3
u ini
32 - 34 34 - 36
4 5
4 9
33 35
132 175
-2 -1
-8 -5
16 5
-32 -5
64 5
36 - 38 38 - 40 40 - 42
8 1 2
17 18 20
337 39 41
296 39 82
0 1 2
0 1 8
0 1 16
0 1 32
Totales
n = 20
5
∑niYi =724 i=1
-13
5 1 4
5
∑uini = -8 i=1
5
∑u2i ni = 30 i=1
5
∑u3i ni = -20 i=1
4
5
∑u n =102 4 i i
i=1
a) Calcularemos primero las tres medidas de tendencia central y la desviación típica. 1. Cálculo de la media aritmética:
−8 = 36.2 20
Y = O t + cM( u) = 37 + 2
2. Cálculo de la mediana (Me): i) Ubicar la posición de la Me:
n 2
=
20 2
= 10 , éste valor está
comprendido
- 268 -
V. Ibañez Q.
Estadígrafos de Dispersión
entre los valores de 9 y 17, entonces j = 3, j-1 = 2, entonces Y’ 2 - Y’ 3 = 36 - 38 ii) Como
n 2
=
20 2
= 10 >N
=9, es cierto, entonces calcular la Mediana:
2
10 − N 2 10 − 9 = 3625 = + 36 2 . kg. 17 − 9 N3 − N2
Me = Y2' + c j
3. Cálculo de la moda (Md) de la distribución: i) La frecuencia absoluta alta es n 3 = 8, entonces Y’2 - Y’ 3 = 36 - 38, n 2 = 5, n3 = 8, n4 = 1.
j=3, j-1=2, entonces
ii) Reemplazando a la fórmula se obtiene:
n3 − n2 8−5 = 36+2 3 = 366. kg. Md = Y2' +c 36 2 = + (8−5) +(8−1) 10 ( n n ) ( n n ) − + − 3 2 3 4 4. Cálculo de la desviación típica de la distribución:
S2 =
2 5 5 c 2 ∑ n i u 2i − ∑ n i u i i=1 i =1
n
n −1
=
4 30 − ( −8) 2 20 19
= 5.64 kg.
Luego: S = S2 = 5.642 = 2.375 Por lo tanto, los coeficientes de Asimetría de Pearson son: CAs =
CAs =
Y − Mo S
=
36.2 − 36.6
3( Y − Me) S
2.375
=
= −0168 .
3( 36.2 − 36.25) 2.375
= −0063 .
Interpretación: Como CAs < 0, entonces la distribución es asimétrica negativa (o sesgada hacia la izquierda).
Estadística Básica Aplicada a la Ganadería - 269 -
b) Primero encontraremos M 3 por la relación: M3 = M 3,a - 3M 1,a.M2,a +2M31,a con a = 37. 5
c
∑n u i
i
i =1
M 1, a =
=
n
2 ( − 8) 20
= − 0.8
5
c
2
∑n u i
2 i
i =1
M 2 ,a =
=
n
22 (30) 20
= 6.0
5
c M 3 ,a =
3
∑n u i
3 i
i =1
3
=
n
2 ( −20) 20
= −8.0
M3 = (-8.0)-3(-0.8)(6.0)+2(-0.8) 3 =5.376 Luego reemplazando a la fórmula, se tiene: CAs =
M3 S3
=
5376 . (2.375) 3
. = 0401
Interpretación: La distribución es asimétrica positiva, ya que CAs>0, es decir es contrario al anterior. c) Calcularemos primero los tres cuartiles: n−N j− 1 1. Q 1 = Y j'−1 + c j 4 − N N − j j 1 n
20
i) Ubicar la posición del Q 1: 4 = 4 = 5 , éste valor está comprendido entre los valores de 4 y 9, entonces j = 2, j-1 = 1, entonces Y’ 1 - Y’2 = 34 - 36. ii) Como
n 4
=
20 4
= 5 >N
=4, es cierto, entonces reemplazamos a la Q 1:
1
5 − 4 = 34 + 2 1 = 34 .4 kg. 5 9 − 4
Q1 = 34 + 2
2. Q2 = 36.25 kg. (coincide con la mediana).
- 270 -
V. Ibañez Q.
Estadígrafos de Dispersión
3n − N j− 1 3. Calcular el Q 3 = Y j'−1 + c j 4 N j − N j−1 3n
3(20)
i) Ubicar la posición del Q 3: 4 = 4 = 15, éste valor está comprendido entre los valores de 9 y 17, entonces j = 3, j-1 = 2, entonces Y’ 2 - Y’ 3 = 36 - 38. ii) Como
3n 4
=
3(20) 4
= 15>N
=9, es cierto, entonces reemplazamos a la Q 3:
2
15 − 9 = 36 + 2 6 = 37 .5 kg. − 17 9 8
Q 3 = 36 + 2
Por tanto el coeficiente de Asimetría cuartílico de Bowley es: CAs =
Q 3 − 2 Q 2 + Q1 Q 3 − Q1
=
37.5 − 2( 36.25) + 34.4 37.5 − 34.4
=
−0.6 31 .
= − 01935 .
Interpretación: La conclusión sería de que la asimetría de CAs<0, es decir es sesgada a la izquierda. d) Calcularemos ahora los Percentiles:
i) P10
10 n − N j − 1 1 00 ' = Y j− 1 + c j N − N j− 1 j 10n
10(20)
- Ubicar la posición del P 10: 100 = 100 = 2 , éste valor está comprendido entre los valores de 0 y 4, entonces j = 1, j-1 = 0, entonces Y’ 0 - Y’1 = 32 - 34. - Como
10n 100
=
10(20) 100
= 2 >N
=0, es cierto, entonces reemplazamos a la P 10:
0
2 − 0 = 33 kg. 4 − 0
P10 = 32 + 2
Estadística Básica Aplicada a la Ganadería - 271 -
ii) P5 0 =
50n − N j − 1 1 00 ' Y j − 1 + c j N − N j−1 j 50 n
50(20)
- Ubicar la posición del P 10: 100 = 100 = 10 , éste valor está comprendido entre los valores de 9 y 17, entonces j = 3, j-1 = 2, entonces Y’ 2 - Y’ 3 = 36 - 38. - Como
50 n 100
=
50(20)
= 10 >N
=9, es cierto, entonces reemplazamos a la P 50:
2
100
10 − 9 = 36 + 2 1 = 3625 . kg. , coincide con Q y mediana. 2 8 17 − 9
P50 = 36 + 2
iii) P90
90n − N j − 1 100 ' = Y j − 1 + c j − N N − j 1 j 90 n
90(20)
- Ubicar la posición del P 90: 100 = 100 = 18 , éste valor está comprendido entre los valores de 18 y 20, entonces j = 5, j-1 = 4, y es Y’ 4 - Y’5 = 40 - 42. 90 n
90(20)
- Como 100 = 100 = 18 =N4=18, son iguales entonces el P 90 = Y’ j-1 =Y’4 =40. Por tanto, el coeficiente de Asimetría Percentílico es: CAs =
P90 − 2 P50 + P10 P90 − P10
=
40 − 2(36.25) + 33 40 − 33
= 00714 . kg.
En conclusión podemos indicar que existe asimetría, lo que da CAs>0, es decir es alargada o sesgada hacia la derecha.
- 272 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.18. ESTADÍGRAFOS DE APUNTAMIENTO ó KURTOSIS. (Medidas de deformación ó Kurtosis). El apuntamiento de una distribución de frecuencias indica la mayor o menor altura del máximo central, con respecto a la altura de la curva normal con media y desviación estándar igual que la distribución que se estudia.
6.18.1 KURTOSIS. Es el grado de apuntamiento de una curva de distribución; es decir es la deformación vertical de una curva de frecuencias. La curtosis se determina comparando la curva resultante de frecuencias con la forma de una curva normal o SIMÉTRICA, ésta curva tiene la media aritmética y la desviación estándar igual a la distribución que se estudia. La kurtosis puede ser: Leptokúrtica, Platikúrtica y Mesokúrtica.
A. LEPTOKÚRTICA. Es cuando la curva presenta una elevación de forma pico o apuntamiento relativamente alta. Esta forma de distribución muestra una gran concentración de las observaciones o datos en el centro, tal como se observa en la siguiente figura: Leptokúrtica
B. MESOKÚRTICA. Es cuando la curva no es muy alta o apuntada ni achatada, esta forma de curva es intermedia entre una leptokúrtica y Platikúrtica, a este curva se le considera como una distribución normal. La kurtosis de una curva normal debe cumplir que: K = 0.263.
Estadística Básica Aplicada a la Ganadería - 273 -
Mesokúrtica
C. PLATIKÚRTICA. Es cuando la curva tiene muy poco altura o apuntamiento ó pico, es decir la curva es achatada, esta curva representa a una distribución de frecuencias opuesto a la leptokúrtica, y está representada en la siguiente figura: Platikúrtica
Cuando:
K1 = 3, entonces la curva es Mesokúrtica (curva normal). K1 > 3, entonces la curva es Leptokúrtica (curva apuntada). K1 < 3, entonces la curva es Platikúrtica (curva achatada).
6.18.2. MEDIDAS DE LA KURTOSIS. El grado de kurtosis o apuntamiento puede medirse en función de momentos o de cuantiles.
A. KURTOSIS EN FUNCIÓN DE MOMENTOS. El grado de apuntamiento o de kurtosis, está dado por: m
∑ K1 =
n i (Yi − Y )
i =1
S
4
4
n
=
M4 2
M2
Donde: K 1 = Coeficiente de Kurtosis. M4 = Cuarto momento respecto a la media.
- 274 -
V. Ibañez Q.
Estadígrafos de Dispersión m
∑ n (Y − Y ) i
M4 =
4
i
i =1
n
S4 = Varianza al cuadrado: S 4 = (S2)2 , donde S2 = Varianza. Si K1>0, es positivo; porque en una distribución normal, éste coeficiente toma el valor 3, es decir se tiene que: M 4 =3M22 . Otra forma de buscar el apuntamiento o exceso de una distribución de frecuencia en la parte central de la distribución es mediante el coeficiente:
K2 =
M4 S
4
−3
Interpretación: Si K 2=0, la distribución es Mesokúrtica (apuntamiento normal). Si K 2>0, la distribución es Leptokúrtica o puntuáguda (más apuntada que la curva normal). Si K2<0, la distribución es Platikúrtica o achatada (más aplastada que la curva normal).
B. KURTOSIS EN FUNCIÓN DE CUANTILES. El coeficiente está dado por: K 3 =
Q 3 − Q1 2( P90 − P10 )
Donde: K3 = Coeficiente de Kurtosis percentílico. Q1= Es el primer cuartil. Q3 = Es el tercer cuartil. P90 y P10 = son los percentiles de 90avo y 10mo. Interpretación: Si K3=0.263, la distribución es Mesokúrtica (apuntamiento de la curva normal). Si K3>0.263, la distribución es Leptokúrtica o puntuáguda (más apuntada que la curva normal). Si K3<0.263, la distribución es Platikúrtica o achatada (más aplastada que la curva normal).
Estadística Básica Aplicada a la Ganadería - 275 -
EJEMPLO: Con la información que corresponde a las vicuñas machos de la Reserva Nacional de Pampa Galeras (1998). Calcular el coeficiente de kurtosis por momentos y percentílico?. 2
3
4
[Y'i-1 - Y'i>
ni
Ni
Yi
niYi
ui = (Yi - 37)/2
uini
u ini
u ini
u ini
32 - 34 34 - 36
4 5
4 9
33 35
132 175
-2 -1
-8 -5
16 5
-32 -5
64 5
36 - 38 38 - 40 40 - 42
8 1 2
17 18 20
37 37 39 41
296 39 82
0 1 2
0 1 8
0 1 16
0 1 32
Totales
n = 20
-13
5 1 4
5
5
∑niYi = 724
∑uini = -8
i=1
i=1
5
∑u2i ni = 30 i=1
5
∑u3i ni = -20 i=1
5
∑u n = 102 4 i i
i=1
SOLUCIÓN: a) Cálculo del M 4: M4 = M 4,a -4M1,a.M3,a +6M21,a.M2,a -3M41,a
con a = 37.
5
∑n u
c
i
i
i =1
M 1, a =
=
n
2 ( − 8) 20
= − 0.8
5
c2 ∑ ni ui2 i =1
M 2 ,a =
22 (30)
=
n
20
= 6.0
5
c
3
∑
3
niu i
i =1
M 3 ,a =
3
=
n
2 ( −20) 20
= −8.0
5
c M 4 ,a =
4
∑n u i
i =1
n
4 i
4
=
2 (102 ) 20
= 81.6
M4 = 81.6+4(-0.8)(-8.0)+6(-0.8) 2(6.0)-3(-0.8)4 = 77.8112
- 276 -
V. Ibañez Q.
Estadígrafos de Dispersión
Por tanto: K1 =
M4 S
4
=
77.8112 ( 2.375)
4
= 2.4456
Como K1 = 2.45 < 3, entonces la distribución es más achatada que la normal o platikúrtica. Otra forma de buscar el apuntamiento o exceso de una distribución de frecuencia es: K2 =
M4 S
4
77.8112
−3=
(2.375) 4
− 3 = −0.55
K2<0, entonces la distribución es platikúrtica. b) Calcular el coeficiente de Kurtosis Percentílico. En el ejemplo anterior, ya se ha calculado los cuartiles y percentiles: Q1= 34.4, Q2= 36.25 y Q3= 37.50; P10=33 y P90= 40 Reemplazando al:
K3 =
Q 3 − Q1 2( P90 − P10 )
=
37.50 − 34.4 2( 40 − 33)
=
310 . 14
= 0.2214
Comparando K 3 = 0.2214 < 0.263, entonces tiene la forma aplastada que la curva normal, es decir la distribución es platikúrtica. EJEMPLO: La información corresponde a la longitud de mecha (cm) de los vellones de alpacas de color blanco de la raza Huacaya, procedentes de la Zona de Melgar de ambos sexos de las edades 1,2,3,4 y 5 años. a) Calcular los coeficientes de asimetría de Pearson. b) Calcular el coeficiente de asimetría por la fórmula de momentos. c) Calcular los coeficientes por el método de los cuantiles. d) Calcular el coeficiente de kurtosis por el método de momentos. e) Calcular el coeficiente percentílico.
Estadística Básica Aplicada a la Ganadería - 277 -
i
7 6 ni 1 2 8 0 0 0 9 5 8 3 1 2 6 3 1 2 2 u - - -
i
n u
3 i
1
i ∑
5
=
4 2 3 =
i
ni 7 6 8 0 0 0 9 4 2 1 1 2 8 9 6 u
2
i
n 2 i u
1
i ∑
5
=
4 7 =
i
0 3 6 n 9 8 8 0 0 i 2 4 3 1 u - - 1
i
n i u
1
i ∑
5
0 5 1 8 . 8 9 . − 1 3 i 1 2 3 4 - 2 - 1 Y
= i
u i
6 -
0 6 . 5 2 0 1 =
0 0 5 0 0 0 0 0 . 0 . 0 . 0 . 8 . 7 5 3 0 5 7 1 5 6 6 1 2 2 1
5 2 1 . 4 Y . . 5 i n 9 0 2 2 1
i
Y i n
5 5 5 5 5 5 7 8 . 6 . 5 . 4 . 8 . 0 . 4 6 8 1 2 8 1 1 1
i 5 5 5 5 6 0 N 3 7 2 4 6 8 9 0 1 i
n i ' Y 1
i ' Y [
0 0 0 1 3 4 8 1 2 2 2 1 4 1 . 0 . 9 . 4 6 7 - - 1 0 2 . . . 2 4 6
7 6 8 . 5 . 4 . . . 3 5 7 9 1 1 1 1 1 - - - - 9 . 8 . 7 . 6 . 5 . 7 9 1 3 5 1 1 1
1
i ∑
5
5 5 5 i . 0 . 9 . Y 1 3 5 6
=
=
0 0 1 = n s e l a t o T
- 278 -
V. Ibañez Q.
Estadígrafos de Dispersión
SOLUCIÓN: a) Calculamos las 3 medidas de tendencia central y la desviación típica: 1. Cálculo de la media aritmética:
74 = 10256 . 100
Y = Ot + cM(u) = 885 . +19 .
2. Cálculo de la mediana (Me): n
100
i) Ubicar la posición de la Me: 2 = 2 = 50 , éste valor está comprendido entre los valores de 45 y 65, entonces j = 5, j-1 = 4, y Y’ 4 - Y’5 = 9.8 11.7. n
ii) Como
2
=
100 2
= 50 >N
=45, es cierto, entonces calcular la Mediana:
4
50 − N 4 5 = 10.275 = + 9 . 8 1 . 9 20 N5 − N 4
Me = Y4' + c j
3. Cálculo de la moda (Md) de la distribución: i) La frecuencia absoluta alta es n 4 =20, entonces j=4, j-1=3, entonces Y’3 - Y’ 4 = 7.9 - 9.8 ii) Reemplazando a la fórmula se obtiene:
n4 − n3 2 = 9.8 cm. 7 . 9 19 . = + 2 ( n 4 − n 3 ) + ( n4 − n5 )
'
Md = Y3 + c
4. Cálculo de la desviación típica de la distribución:
∑ n u − ∑ n u = = 5
c 2
S =
2
i
i 1
2
5
2 i
i
i 1
n −1
i
n
=
(19 . ) 2 324 − (74)2 100
Luego: S = S2 = 9.8177 = 3.13
99
= 98177 . cm.
Estadística Básica Aplicada a la Ganadería - 279 -
Por lo tanto, los coeficientes de Asimetría de Pearson son: CAs =
CAs =
Y − Mo
=
S
3(Y − Me) S
10.256 − 9.8 31333 .
= 01455 .
3(10256 . . ) − 10275
=
31333 .
= −001819 .
Interpretación: Como CAs > 0, entonces la distribución es asimétrica positiva o sesgada a la derecha, en cambio CAs = -0.01819 < 0, esta se comporta en forma contrario. b) Calcularemos M 3 por la relación: M3 = M 3,a - 3M 1,a.M2,a +2M31,a con a = 1.9. 5
c M 1,a
∑nu i
i
i =1
=
=
n
19 . (74) 100
= 1406 .
5
2
c
∑n u
2 i i
i=1
M2,a =
=
n
19 . 2 (324) 100
. = 116964
5
c M3,a =
3
∑n u i
i =1
n
3 i
3
=
19 . (602) 100
= 4129118 .
M3 = 41.29 - 3(1.406)(11.696)+2(1.406) 3 = -2.48486 Luego reemplazando a la fórmula: CAs =
M3 −2.48486 S3
=
(31333 . )3
. = −00808
Interpretación: La distribución es asimétrica negativa, ya que CAs<0, es decir sesgada a la izquierda. c) Calcularemos los 3 primeros cuartiles:
- 280 -
V. Ibañez Q.
Estadígrafos de Dispersión
n −N j−1 ' 4 1. Q 1 = Y j−1 + c j − N N j j−1 n
100
i) Ubicar la posición del Q 1: 4 = 4 = 25, éste valor está comprendido entre los valores de 25 y 45, entonces j = 4, j-1 = 3, y Y’ 3 - Y’4 = 7.9 - 9.8. ii) Como
n 4
=
100
= 25 =N
=25, entonces Q 1 = Y’ 3 = 7.9
3
4
2. Q2 = 10.275 = Me 3n − N j− 1 3. Calcular el Q 3 = Y j'−1 + c j 4 N j − N j−1 3n
3(100)
i) Ubicar la posición del Q 3: 4 = 4 = 75, éste valor está comprendido entre los valores de 65 y 85, entonces j = 6, j-1 = 5, y es Y’ 5 - Y’6 = 11.7 - 13.6. ii) Como
3n 3(100) 4
=
4
= 75>N
=65, es cierto, entonces reemplazamos a la Q 3:
5
75 − 65 = 12.65 cm. 85 − 65
Q 3 = 11.7 + 1.9
Por tanto el coeficiente de Asimetría cuartílico de Bowley es: CAs =
Q 3 − 2Q 2 + Q 1 Q 3 − Q1
=
12.65 − 2(10.275) + 7.9 12.65 − 7.9
=
0 4.75
=0
Interpretación: La conclusión es de que CAs=0, es decir tiene una distribución simétrica ó se puede interpretar que tiene una distribución normal. d) Calcularemos ahora los Percentiles:
Estadística Básica Aplicada a la Ganadería - 281 -
1. P10
10n − N j − 1 100 ' = Y j − 1 + c j N − N j− 1 j 10 n
10(100)
i) Ubicar la posición del P 10: 100 = 100 = 10 , éste valor está comprendido entre los valores de 7 y 25, entonces j = 3, j-1 = 2, entonces Y’ 2 - Y’3 = 6.0 - 7.9. ii) Como P10:
10n 100
=
10(100) 100
= 10 >N
=7, es cierto, entonces reemplazamos a la
2
10 − 7 = 632 P10 = 60 . +19 . . = D1 25− 7 2. P5 0 =
50n − N j − 1 100 ' Y j − 1 + c j − N N j− 1 j 50 n
50(100)
i) Ubicar la posición del P 50: 100 = 100 = 50 , éste valor está comprendido entre los valores de 45 y 65, entonces j = 5, j-1 = 4, y Y’ 4 - Y’5 = 9.8 11.7. ii) Como
50 n 100
=
50(100) 100
= 50 >N
=45, entonces calculamos P 50:
4
50 − 45 = 10275 = Q2 = Me . 65 − 45
P50 = 9.8 + 1.9
3. P9 0
90n − N j − 1 100 ' = Y j − 1 + c j − N N j− 1 j 90n
90(100)
i) Ubicar la posición del P 90: 100 = 100 = 90, éste valor está comprendido entre los valores de 85 y 96, entonces j = 7, j-1 = 6, y con Y’ 6 - Y’7
- 282 -
V. Ibañez Q.
Estadígrafos de Dispersión
= 13.6 - 15.5. ii) Como
90n
90(100)
=
100
= 90 =N
6
100
=85, entonces calcular el P 90
90 − 85 = 14.4636 96 − 85
P90 = 136 . + 19 .
: Por tanto, el coeficiente de Asimetría Percentílico es: CAs =
P90 −2P50 + P10 144636 . . ) +632 . 02336 . −2(10275
=
P90 − P10
144636 . −632 .
=
81436 .
. = 00286
En conclusión podemos indicar que existe asimetría, es decir CAs>0, entonces la curva es alargada o sesgada hacia la derecha. d) Calcular el coeficiente de Kurtosis por el método de momentos. Cálculo del M4: M4 = M 4,a -4M1,a.M3,a +6M21,a.M2,a -3M41,a con a = 1.9 5
∑n u
c
i
i
i =1
M 1,a =
=
n
19 . (74) 100
= 1406 .
5
2
c
∑niui
2 2
i=1
M2,a =
=
n
19 . (324) 100
= 11696 .
5
c
3
∑
3
n i ui
i =1
M3,a =
3
=
n
19 . (602) 100
= 4129 .
5
4
c M4,a =
∑n u i
i =1
n
4 i
4
=
19 . (2580) 100
= 336228 .
Estadística Básica Aplicada a la Ganadería - 283 -
M4 = 336.228+4(1.406)(41.29)+6(1.406) 2(11.696)-3(1.406) 4 = 231.0158 Por tanto: K1 =
M4 4
S
2310158 .
=
(31333 . )
4
= 2.3968
Como K1 = 2.3968 < 3, entonces la distribución es platikúrtica, es decir es más aplastada o achatada que la curva normal. Calculando con la fórmula de corrección, se tiene: K2 =
M4 4
S
2310158 .
−3=
(31333 . )
4
− 3 = −0.603
Como K2=-0.603<0, entonces la distribución es platikúrtica. e) Calcular el coeficiente de Kurtosis Percentílico. Los estadígrafos de posición, se han calculado anteriormente y se tiene: Q1= 7.9, Q2= 10.275 = Me y Q 3= 12.65; P10= 6.32 y P90= 14.4636 Con éstos estadígrafos, podemos calcular K 3, entonces reemplazando: K3 =
Q3 − Q1 2( P90 − P10 )
=
12.65 − 79 . 2(14.4636 − 6.32)
=
4.75 162872 .
= 02916 .
Comparando K 3 = 0.2916 > 0.263, entonces tiene la forma más apuntada que la curva normal, es decir es Leptokúrtica.
- 284 -
V. Ibañez Q.
Estadígrafos de Dispersión
6.19. MÉTODOS AUTOMATIZADOS (Medidas de dispersión). En esta parte se realizarán los procedimientos de ejecución de las opciones del menús de STATGRAPHICS, referente a las medidas de dispersión, estadígrafos de deformación y apuntamiento o kurtosis, seleccionando las estadísticas más usuales como se presenta:
Al pulsar el botón OK se obtienen los estadísticos que Statgraphics por defecto ha seleccionado, pero la idea es seleccionar o modificar las opciones al interés del usuario, y esto se logra presionando el botón derecho del ratón, y escogiendo Pane Options aparece la siguientes opciones:
Estadística Básica Aplicada a la Ganadería - 285 -
A continuación se escogerán las opciones que corresponde a las medidas de dispersión, y son los siguientes:
Al pulsar el botón OK, se obtiene los resultados de las opciones seleccionadas referente a las medidas de dispersión y son las siguientes:
- 286 -
V. Ibañez Q.
Estadígrafos de Dispersión
Summary Statistics for lome Count Variance Standard deviation Standard error Minimum Maximum Range Interquartile range Skewness Stnd. skewness Kurtosis Stnd. kurtosis Coeff. of variation
= = = = = = = = = = = = =
100 10.1161 3.18058 0.318058 2.3 17.3 15.0 5.05 -0.0582406 -0.237766 -0.579132 -1.18215 31.027%
Estadística Básica Aplicada a la Ganadería - 287 -
EJERCICIOS 6.1. 1. Se registró la información que corresponde a los pesos destetados (gr) en conejos de ambos sexos en las diferentes estaciones del año (Invierno, Verano Primavera). Para la Estación de Invierno: a) Con los datos no agrupados que se presenta a continuación. Calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Desviación Media, Desviación Media Absoluta, Varianza, Desviación estándar, Error estándar, Medidas de dispersión relativa, Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética. Conejos des tetados (gr) en la Estación de Invierno. 305 280 310 260 320 280 320 270 250 310 220 310 280 350 320 340 290 320 350 330 310 320
300 300 290 270
b) Con los datos agrupados o tabulados en distribución de frecuencias. Pesos des tetados (gr) 220 - 246 246 - 272 272 - 298 298 - 324 324 - 350 Total
Frec. Abs ol. (ni ) 1 4 5 12 4 26
Calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Rango Semi Intercuartil, Desviación Media, Desviación Media Absoluta, Varianza, Varianza por método (abreviado y codificado), Desviación estándar, Error estándar, Corrección Sheppard, Medidas de dispersión relativa: (CA, RR, RIR), Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética,
- 288 -
V. Ibañez Q.
Estadígrafos de Dispersión
Relaciones entre momentos, Coeficiente de asimetría en función de los: momentos y cuartiles, Kurtosis: Kurtosis en función de momentos y cuantiles. Para la Estación de Verano: c) Con los datos no agrupados, calcular los diferentes estadísticos de la pregunta 1), opción a). Conejos des tetados (gr) en la Estación de Verano. 360 380 350 300 360 380 410 420 340 330 320 340 400 320 380 360 320 350 370 400 350 400 420 350 420 380 350 380
400 350 340 320 380 380
d) Con los datos agrupados o tabulados, calcular los diferentes estadísticos de la pregunta 1), la opción b). Pesos des tetados (gr) 300 320 340 360 380 400
-
Frec. Abso l. (ni)
320 340 360 380 400 420
5 4 9 8 4 4
Para la Estación de Primavera: e) Con los datos no agrupados, calcular los diferentes estadísticos de la pregunta 1), opción a). Conejos des tetado s 250 280 290 270 310 330 300 350 300 300
(gr) en la Estación 300 310 320 300 300 310 300 320 300 320
de Primavera. 280 320 280 290 300 320 340 320 310 300
300 310 310 300 300
Estadística Básica Aplicada a la Ganadería - 289 -
f) Con los datos agrupados o tabulados, calcular los diferentes estadísticos de la pregunta 1), la opción b). Pesos des tetados (gr) 250 - 270 270 - 290 290 - 310 310 - 330 330 - 350 Total
Frec. Abs ol. (ni ) 2 5 19 7 2 35
g) Comparar estadísticos de las tres estaciones (Invierno, Verano y Primavera) y realice una exhaustiva discusión de los resultados. 2. Con la ingormación que corresponde a los pesos destetados (gr) en conejos de ambos sexos en las diferentes estaciones del año (Invierno, Verano Primavera), de la pregunta 1): a) Realizar el Análisis de componentes de varianza, considerando como grupos las estaciones de: Invierno, Verano y Primavera. b) Interprete los resultados. 3. Los datos corresponden a la evolución de peso vivo (kg) (12 meses) de ambos sexos en llamas Thampullis (1990 - 1991). a) Con los datos no agrupados, calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Desviación Media, Desviación Media Absoluta, Varianza, Desviación estándar, Error estándar, Medidas de dispersión relativa, Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética. Peso vivo (kg) en llamas de ambos sexos del tipo THAMPULLIS 8.1 14.2 15.3 18.7 25.4 28.0 31.9 33.7 37.4 40.0 42.9 46.0 49.5 8.7 14.4 16.5 20.9 26.2 28.1 32.1 33.3 35.3 36.9 39.6 44.7 46.0
- 290 -
V. Ibañez Q.
Estadígrafos de Dispersión
b) Con los datos agrupados: Intervalo (gr) 8.0 - 16.4 16.4 - 24.8 24.8 - 33.2 33.2 - 41.6 41.6 - 50.0 Total
Frec. Absol. (n i ) 5 3 6 7 5 26
Calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Rango Semi Intercuartil, Desviación Media, Desviación Media Absoluta, Varianza, Varianza por método (abreviado y codificado), Desviación estándar, Error estándar, Corrección Sheppard, Medidas de dispersión relativa: (CA, RR, RIR), Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética, Relaciones entre momentos, Coeficiente de asimetría en función de los: momentos y cuartiles, Kurtosis: Kurtosis en función de momentos y cuantiles. 4. Los datos corresponden a la evolución de peso vivo (kg) (12 meses) de ambos sexos en llamas K’aras (1990 - 1991). a) Con los datos no agrupados, calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Desviación Media, Desviación Media Absoluta, Varianza, Desviación estándar, Error estándar, Medidas de dispersión relativa, Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética. Peso vivo (kg) en llamas de ambos sexos del tipo K'ARAS 8.4 14.7 17.3 22.5 28.0 30.2 35.2 36.7 39.3 41.3 43.6 47.2 52.4 8.4 14.2 19.4 23.2 27.4 29.4 33.7 34.8 37.5 39.6 42.0 45.4 48.0
b) Con los datos agrupados:
Estadística Básica Aplicada a la Ganadería - 291 Intervalo (gr) 8.0 - 16.4 16.4 - 24.8 24.8 - 33.2 33.2 - 41.6 41.6 - 50.0 Total
Frec. Abs ol. (ni ) 5 3 6 7 5 26
Calcular: Recorrido o Rango, Recorrido Intercuartílico, Recorrido Interdecil, Rango Semi Intercuartil, Desviación Media, Desviación Media Absoluta, Varianza, Varianza por método (abreviado y codificado), Desviación estándar, Error estándar, Corrección Sheppard, Medidas de dispersión relativa: (CA, RR, RIR), Coeficiente de Variación, Momentos respecto a un valor constante «a», Momento con respecto al origen, Momentos con respecto a la media aritmética, Relaciones entre momentos, Coeficiente de asimetría en función de los: momentos y cuartiles, Kurtosis: Kurtosis en función de momentos y cuantiles. c) Comparar los estadísticos de la pregunta 3) y 4), que corresponde a las llamas de tipo Thampullis y K’ara. d) Interprete los resultados obtenidos y sugiera que conclusiones puntuales se puede encontrar con la información de las preguntas 3) y 4).
- 292 -
V. Ibañez Q.
Estadígrafos de Dispersión
AP NDICE 1 Peso vivo (kg) de las Borregas Criollas po r edad es , 1998. N° de EDADES Borrega
2 años
4 años
6 años
8 años
1
27.0
22.0
26.0
25.0
2
27.0
26.5
27.0
26.0
3
27.0
27.0
27.0
27.0
4
29.0
28.0
28.0
27.5
5
30.0
28.0
28.0
29.0
6
30.0
28.0
30.0
30.0
7
30.0
28.5
30.0
30.0
8
30.0
29.0
30.0
30.0
9
30.0
29.0
30.0
30.5
10
30.0
29.0
31.0
30.5
11
30.0
30.0
31.0
31.0
12
30.0
30.0
31.0
31.0
13
31.0
30.0
31.0
31.0
14
31.0
30.0
31.5
31.0
15
31.0
30.0
32.0
31.0
16
31.0
30.0
32.0
31.0
17
31.0
31.0
32.0
31.0
18
31.0
31.0
32.0
31.0
19
31.0
31.0
32.0
32.0
20
31.0
31.0
32.0
32.0
21
31.5
31.0
33.0
32.0
22
32.0
31.0
33.0
32.0
23
32.0
31.0
33.0
32.0
24
32.0
31.0
33.0
32.0
25
32.0
31.0
33.0
32.0
26
32.0
32.0
33.0
32.0
27
32.0
32.0
33.0
32.5
28
32.0
32.0
34.0
32.5
29
32.0
32.0
34.0
33.0
30
32.0
32.0
34.0
33.0
Estadística Básica Aplicada a la Ganadería - 293 -
continúa ..... Pes o v ivo (kg) de las Borrega s Criollas po r edad es , 1998. N° de EDADES Borrega
2 años
4 años
6 años
8 años
31
32.0
32.0
34.0
33.0
32
32.0
32.0
34.0
33.0
33
32.0
32.0
34.0
34.0
34
32.0
32.0
34.0
34.0
35
32.0
32.5
35.0
34.0
36
32.5
32.5
35.0
34.0
37
33.0
33.0
35.0
34.0
38
33.0
33.0
35.0
34.0
39
33.0
33.0
36.0
34.0
40
33.0
33.0
36.0
34.0
41
33.0
33.0
36.0
34.0
42
33.0
33.0
36.0
34.0
43
33.0
33.0
36.0
35.0
44
33.0
33.0
36.0
35.0
45
33.0
34.0
36.0
35.0
46
33.0
34.0
37.0
35.0
47
33.0
34.0
37.0
35.0
48
33.0
34.0
37.0
35.0
49
33.0
34.0
37.0
35.0
50
33.0
34.0
37.0
35.0
51
33.0
34.0
37.0
35.0
52
33.0
34.0
38.0
35.0
53
33.0
34.0
39.0
35.0
54
33.5
34.0
39.0
36.0
55
34.0
34.0
40.0
36.0
56
34.0
34.0
40.0
36.0
57
34.0
35.0
40.0
36.0
58
34.0
35.0
41.0
36.0
59
34.0
35.0
41.0
36.0
60
34.0
35.0
41.0
36.0
... Co nt in úa
- 294 -
V. Ibañez Q.
Estadígrafos de Dispersión
con tinú a ... Pes o v ivo (kg) de las Borrega s Criollas po r edad es , 1998. N° de EDADES Borrega
2 años
4 años
6 años
8 años
61
34.0
35.0
41.0
36.0
62
34.0
35.0
45.0
36.0
63
34.0
35.6
64
34.0
36.0
65
34.0
36.0
66
34.0
36.0
67
34.0
36.0
68
34.0
36.0
69
34.0
36.0
70
34.0
36.0
71
34.0
36.0
72
34.0
36.0
73
34.0
36.0
74
34.0
37.0
75
34.0
37.0
76
34.0
37.0
77
35.0
37.0
78
35.0
37.0
79
35.0
37.0
80
35.0
37.0
81
35.0
37.0
82
35.0
37.5
83
35.0
38.0
84
35.0
38.0
85
35.0
38.0
86
35.0
38.0
87
35.0
38.0
88
35.0
38.0
89
35.0
38.0
90
35.0
38.0
-----------------------------
...Continúa
36.0
37.0
37.0
37.0
37.0
37.0
37.0
37.0
37.0
37.5
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.0
38.5
38.5
39.0
Estadística Básica Aplicada a la Ganadería - 295 -
Continú a ... Pes o v ivo (kg) de las Borrega s Criollas po r edad es , 1998. N° de EDADES Borrega
2 años
4 años
6 años
91
35.0
39.0
92
35.0
39.0
93
35.0
39.0
94
35.0
39.0
95
35.0
40.0
96
35.0
40.0
97
36.0
40.0
98
36.0
41.0
99
36.0
41.0
100
36.0
42.0
101
36.0
42.0
102
36.0
42.0
103
36.0
42.0
104
36.0
42.0
105
36.0
43.0
106
36.0
43.0
107
36.0
46.0
108
36.0
109
36.0
110
36.0
111
36.0
112
36.0
113
36.0
114
36.0
115
36.0
116
36.5
117
36.5
118
37.0
119
37.0
120
37.0
--------------
-------------------------------
8 años
39.0
39.0
39.0
39.0
39.0
39.0
39.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.0
40.5
40.5
41.0
41.0
41.0
41.0
42.0
42.0
42.0
42.0
42.0
- 296 -
V. Ibañez Q.
Estadígrafos de Dispersión
Continúa.... Pes o v ivo (kg) de las Borrega s Criollas po r edad es , 1998. N° de EDADES Borrega
2 años
4 años
6 años
121
37.0
122
37.0
123
37.0
124
37.0
125
37.0
126
37.0
127
37.0
128
37.0
129
37.0
130
37.0
131
37.0
132
37.0
133
37.0
134
38.0
135
38.0
136
38.0
137
38.0
138
38.0
139
38.0
140
38.0
141
38.0
142
38.0
143
38.0
144
38.0
145
38.0
146
38.0
147
39.0
148
39.0
149
39.0
150
39.0
-------------------------------
-------------------------------
...Continúa.
8 años
43.0
43.5
44.0
44.0
45.0
46.0
46.0
47.0
47.0
47.0
---------------------
Estadística Básica Aplicada a la Ganadería - 297 -
Continúa ... Peso vivo (kg) de las Borregas Criollas por edades, 1998. N° de EDADES Borrega
2 años
4 años
6 años
8 años
151
39.0
152
40.0
153
40.0
154
40.0
155
40.0
156
40.0
157
41.0
158
41.0
159
42.0
160
43.0
-----------
-----------
-----------
5557.500
3702.100
2131.500
4751.500
PROMEDIO
34.734
34.599
34.379
36.550
D.E.
2.942
4.169
3.924
4.434
D.E.P.
2.933
4.150
3.892
4.417
VAR
8.654
17.381
15.399
19.662
VARP
8.600
17.219
15.151
19.511
C.V.
8.443
11.993
11.322
12.085
MIN
27.0
22.0
26.0
25.0
MAX
43.0
46.0
45.0
47.0
n
160
107
62
130
TOTAL
- 298 -
V. Ibañez Q.
Estadígrafos de Dispersión
BIBLIOGRAFÍA CITADA AVILA, A.R.B. (2000). "Estadística Elemental". Edición 2000. Estudios y Ediciones RA. Universidad Nacional Mayor de San Marcos. Lima - Perú. ALFONSO, L.P. (2000). "Probabilidad & Estadística: Conceptos, modelos y aplicaciones en Excel". Primera Edición. Pearson Educación de Colombia, Ltda. Santafé de Bogotá. D.C., Colombia. BUSTINZA, C.V. (2000). "La Alpaca". Primera Edición. Editorial Universitaria. Fac. de Medicina Veterinaria y Zootecnia. UNA - Puno. (En Prensa). Puno Perú. FERNANDEZ, C.J. y FERNANDEZ, C.J. (1993). "Estadística Aplicada: Técnicas para la investigación". Parte I. Segunda Edición. Editorial «San Marcos». Lima - Perú. CORDOVA, Z.M. (1999). "Estadística: Descriptiva e Inferencial". Tercera Edición. Editorial MOSHERA S.R.L. Pontificia Universidad Católica del Perú. Facultad de Ciencias e Ingeniería. Dpto. Ciencias. Lima - Perú. D’OTTONE, R.H. (1971). "Estadística Elemental". 12a. y 13a edición. Cooperativa de Cultura y Publicaciones, Ltda. Universidad de Chiel. Santiago de Chile. IBAÑEZ, Q.V. (1996). "Estimación de Indices de Herencia en Rumiantes". Primera Edición. Editorial Universitaria. UNA-Puno. IBAÑEZ, Q.V.; CANQUI, F.B. y GONZALES, A.A. (1997). "Diseños Estadísticos I y II". Dirección de Investigación de la UNA - Puno. IBAÑEZ, V., ZEA, W. y PAREDES, R. (1998). "Aplicaciones con el Sistema de Análisis Estadístico S.A.S.". Primera Edición. Facultad de Ingeniería Estadística e Informática. UNA - Puno, Perú.
- 300 -
V. Ibañez Q.
Bibliografía Citada
IBAÑEZ, V.Q. (2000). "Aplicaciones Estadísticas en Ganadería". Primera Edición. Editorial Universitaria. Facultad de Ingeniería Estadística e Informática. UNA - Puno. Puno -Perú. MANUAL DE STATGRAPHICS v4.0 para Windows. Primera Edición. MITACC, M.M. (19..). "Tópicos de Estadística Descriptiva y Probabilidad". Primera Edición. Editorial San Marcos. Lima - Perú. MOYA, C.R. (1991). "Estadística Descriptiva: Conceptos y Aplicaciones". Universidad Nacional del Callao. Facultad de Ciencias Económicas. Primera Edición. Editorial San Marcos. Lima - Perú. MUCHAYPIÑA, R.J. (2000). "Estadística y Probabilidades". Primera Edición. Editora Kano «LAFONTE». Lima - Perú. OSTLE, B. (1981). "Estadística Aplicada". Primera Edición. Editorial LIMUSA México. PEREZ, L.L.A. (19..). "Estadística Básica para Ciencias Sociales y Educación". Primera Edición. Editorial «San Marcos». Lima - Perú. RODRIGUEZ DEL ANGEL, J.M. (1991). "Métodos de Investigación PECUARIA". Primera Edición. Editorial TRILLAS S.A. de C.V. México. VENTURA, E.R. y ZAVALA, Z.A. (1994). "Métodos Estadísticos Básicos en la Investigación". Dpto. Académico de Estadística e Informática. UNA La Molina. Lima - Perú. VILLALTA, R.P. e IBAÑEZ, Q.V. (1998). "Estadística Pecuaria". Primera Edición. Editorial Universitaria. Fac. Medicina Veterinaria y Zootecnia. UNA - Puno. . (En prensa). Puno - Perú. ZEA, F.W. y IBAÑEZ, Q.V. (1996). "I Curso de Sistema de Análisis Estadístico SAS para la Investigación Experimental". Universidad Nacional Jorge Basadre Grohomann Tacna. Facultad de Ciencias Agrícolas.
Estadística Básica Aplicada a la Ganadería
Esta obra se terminó de imprimir en los talleres gráficos de la Editorial Universitaria de la UNA - Puno, Perú El 25 de Abril del 2001 Publicación de 500 ejemplares, más sobrantes para reposición
- 301 -