Diagrama de Tallos y Hojas El diagrama "tallo y hojas" (Stem-and-Leaf (Stem-and-Leaf Diagram) Diagram) permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja hoja)) del bloque de cifras restantes (que formará el tallo tallo). ). Esta representación de los datos es semejante a l a de un histograma pero p ero además de ser fáciles de elaborar, presentan más información que estos. Ejemplos
Horarios de trenes Edad de 20 personas Comparar dos distribuciones
Horarios de trenes Basándome en un articulo de Juan C. Dürsteler en en InfoVis.net InfoVis.net,, tomamos como ejemplo como ejemplo un un horario de trenes confeccionado trenes confeccionado a partir de un díptico de la línea Castelldefels-Barcelona/Sants recogido en la estación de Renfe. Originalmente el horario ocupa una tabla de 10 filas y 9 columnas más columnas más una columna "viuda" con el tren de las 22:38. Un total de 91 campos con campos con formato hh.mm cada uno, 455 455caracteres. caracteres. Díptico original Trayecto Castelldefels -> Barcelona-Sants 5.03
7.32
9.02
11.07
13.32
15.07
16.50
18.32
20.07
6.02
7.37
9.07
11.32
13.37
15.20
17.02
18.37
20.20
6.18
7.50
9.24
11.37
13.50
15.32
17.07
18.50
20.32
6.37
8.02
9.32
12.02
14.02
15.37
17.20
19.02
20.37
6.48
8.05
9.37
12.07
14.07
15.50
17.32
19.07
20.50
6.55
8.20
10.02
12.32
14.20
16.02
17.37
19.20
21.02
7.02
8.24
10.07
12.37
14.32
16.07
17.50
19.32
21.07
7.07
8.32
10.32
13.02
14.37
16.20
18.02
19.37
21.20
7.20
8.37
10.37
13.07
14.50
16.32
18.07
19.50
21.32
7.25
8.51
11.02
13.20
15.02
16.37
18.20
20.02
21.37
22.38
En el diagrama Stem & Leaf se se representa la hora hora a a la izquierda de la barra de separación | y losminutos los minutos de de la salida de cada tren a la derecha. La frecuencia frecuencia de de los trenes se deduce fácilmente de la longitud la longitud de las filas y filas y es, además, muy fácil ver en que minutos de cada hora pasan típicamente los mismos. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf
05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 | 02 07 32 37 11 | 02 07 32 37 12 | 02 07 32 37 13 | 02 07 20 32 37 50 14 | 02 07 20 32 37 50 15 | 02 07 20 32 37 50 16 | 02 07 20 32 37 50 17 | 02 07 20 32 37 50 18 | 02 07 20 32 37 50 19 | 02 07 20 32 37 50 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38
Por otra parte, dado que a algunas horas se repite exactamente el horario de horario de los trenes se puede reducir aún más el tamaño del gráfico, sin perder información y ganando en claridad. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 11 12 | 02 07 32 37 13 14 15 16 17 18 19 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38
Al final tenemos 59 59 campos campos de 2 dígitos, 118 118 caracteres caracteres más los separadores, es decir 4 veces menos dígitos que con el horario original, menos espacio y más claridad.
05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 | 02 07 32 37 11 | 02 07 32 37 12 | 02 07 32 37 13 | 02 07 20 32 37 50 14 | 02 07 20 32 37 50 15 | 02 07 20 32 37 50 16 | 02 07 20 32 37 50 17 | 02 07 20 32 37 50 18 | 02 07 20 32 37 50 19 | 02 07 20 32 37 50 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38
Por otra parte, dado que a algunas horas se repite exactamente el horario de horario de los trenes se puede reducir aún más el tamaño del gráfico, sin perder información y ganando en claridad. Castelldefels -> Barcelona-Sants Diagrama Stem & Leaf reducido 05 | 03 06 | 02 18 37 48 55 07 | 02 07 20 25 32 37 50 08 | 02 05 20 24 32 37 51 09 | 02 07 24 32 37 10 11 12 | 02 07 32 37 13 14 15 16 17 18 19 20 | 02 07 20 32 37 50 21 | 02 07 20 32 37 22 | 38
Al final tenemos 59 59 campos campos de 2 dígitos, 118 118 caracteres caracteres más los separadores, es decir 4 veces menos dígitos que con el horario original, menos espacio y más claridad.
Esto nos da idea de que una disposición apropiada de los datos puede ser doblemente informativa y informativa y que la representación gráfica puede contribuir enormemente a la percepción de patrones y patrones y a la comprensión de la naturaleza de los fenómenos.
Edad de 20 personas Supongamos la siguiente distribución de frecuencias 36
25
37
24
39
20
36
45
31
31
39
24
29
23
41
40
33
24
34
40
que representan la edad de un colectivo de N = 20 personas y que vamos a representar mediante un diagrama de Tallos y Hojas. Comenzamos seleccionando los tallos tallos que que en nuestro caso son las cifras de decenas, es decir 3, 2, 4, que reordenadas son 2, 3 y 4. A continuación efectuamos un recuento y vamos «añadiendo» cada hoja hoja a a su tallo
Por último reordenamos las hojas hojas y y hemos terminado el diagrama
Comparar dos distribuciones Podemos comparar, mediante estos diagramas, dos distribuciones. Supongamos una segunda distribución 35
38
32
28
30
29
27
19
48
40
39
24
24
34
26
41
29
48
28
22
De ella podemos elaborar sus diagrama de Tallos y Hojas y compararla con la anterior.
Diagrama de tallos y hojas
Horario ferroviario usando un formato de diagrama de t allos y hojas en la estación Minato Mirai en Yokohama, Japón. Este formato es muy usado en todo el país.
El diagrama de tallos y hojas (Stem-and-Leaf Diagram) es un formato para presentar datos cuantitativos en un formato gráfico, similar a un histograma. Permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Existen diversos tipos de diagramas tallos y hojas, que en inglés se llama "stem-and-leaf display".
Referencias [editar ] 1.
Ir a↑ Diagrama de Tallos y Hojas
1
Presentación de datos cuantitativos El diagrama de tallos y hojas Dado un conjunto de datos formado por
observaciones, las cuales pueden ser
representadas mediante y donde cada tiene por lo menos dos dígitos. Una forma rápida de obtener una representación visual del conjunto de datos es construir un diagrama de tallos y hojas. Este diagrama es usado cuando hay un número no muy pequeño de datos. Los siguientes son los pasos para construir un diagrama de tallos y hojas: 1. Seleccionar uno o más dígitos iniciales para los valores de tallo. El dígito(s) final(es) se convierte (n) en hojas. Para facilitar la determinación de la forma de la distribución de los datos se necesitan al menos 5 tallos. 2. Hacer una lista de valores de tallo en una columna vertical. 3. Registrar las hojas por cada observación junto al valor correspondiente del tallo. 4. Indicar las unidades para tallos y hojas en algún lugar del diagrama. Muchos de los procedimientos estadísticos que se desarrollarán en la siguientes unidades suponen que la variable aleatoria estudiada tiene al menos una distribución aproximadamente normal, para la cual el diagrama de tallos y hojas tiene forma de campana. Los diagramas de tallos y hojas nos dan una idea de la localización de los datos y de la forma de la distribución. Esta técnica funciona bien para los conjuntos de datos que no tienen una dispersión muy grande.
Ejemplo La siguiente tabla representa el porcentaje de algodón en un material utilizado para la fabricación de camisas para caballeros. Tabla 1. Datos del porcentaje de algodón 33.1 35.3 34.2 33.6 33.6 33.1 37.6 33.6 34.5 34.7 33.4 32.5 35.4 34.6 37.3 34.1 35.6 35.0 34.7 34.1 34.6 35.9 34.6 34.7
36.3 35.4 34.6 35.1 33.8 34.7 35.5 35.7 35.1 36.2 35.2 36.8 37.1 33.6 32.8 36.8 34.7 36.8 35.0 37.9 34.0 32.9 32.1 34.3 33.6 35.1 34.9 36.4 34.1 33.5 34.5 32.7 32.6 33.6 33.8 34.2 34.6 34.7 35.8 37.8
El diagrama de tallos y hojas para los anteriores datos aparece a continuación. Stem-and-leaf of PORCENTAJE DE ALGODON N = 64 Leaf Unit = 0.10 (el número 1 después del punto significa que se usa una sola cifra decimal). Tallo Hojas 6
32
156789
18
33
114566666688
(21) 34
011122355666667777779
25
35
00111234456789
11
36
234888
5
37
13689
Algunas veces, la utilización del primero o de los dos primeros dígitos de los datos puntuales como tallos no proporcionan suficientes tallos como para permitirnos detectar la forma de su distribución. Una manera de solucionar esto es utilizar tallos dobles. Es decir, utilizar cada tallos dos veces: una vez para trazar las hojas inferiores 0, 1, 2, 3, 4, y a continuación nuevamente para trazar las hojas superiores 5, 6, 7, 8, 9. El siguiente gráfico ilustra lo anterior
Presentación de datos cuantitativos Histogramas El histograma es una técnica gráfica utilizada para presentar gran cantidad de datos. Se le atribuye a Karl Pearson en 1895. El histograma puede ser: de frecuencias absolutas, de frecuencias relativas, de frecuencias absolutas acumuladas y de frecuencias relativas acumuladas. Para la construcción del histograma se requiere elaborar una tabla de distribución de frecuencias, lo cual se desarrollará a continuación. El gráfico de la distribución de frecuencias, se llama histograma. El histograma de frecuencias es una representación visual de los datos en donde se evidencian fundamentalmente tres características: forma, acumulación o tendencia posicional y dispersión o variabilidad. El histograma (de frecuencias) en si es una sucesión de rectángulos construidos sobre un sistema de coordenadas de la siguiente manera: 1. Las bases de los rectángulos se localizan en el eje horizontal. La longitud de la base es igual al ancho del intervalo. 2. Las alturas de los rectángulos se registran sobre el eje vertical y corresponden a las frecuencias de los intervalos. 3. Las áreas de los rectángulos son proporcionales a las frecuencias de las clases.
Polígono Otro recurso gráfico para ilustrar el comportamiento de los datos es el polígono de frecuencias. Este se construye sobre el sistema de coordenadas cartesianas, al colocar sobre cada marca de clase un punto a una altura igual a la frecuencia asociada a esa clase; luego se unen dichos puntos por segmentos de recta. Para elaborar el Polígono en Excel, haga click derecho sobre el histograma y elija Tipo de gráfico, lo cual despliega una ventana, donde usted debe elegir la opción Líneas (Elija como subtipo de gráfico el que aparece por defecto). Luego haga click en Aceptar. Otra forma de polígono es la Ojiva, la cual es el polígono que se obtiene de unir por segmentos de recta los puntos situados a una altura igual a la frecuencia acumulada a partir de la marca de clase como se hace con el polígono de frecuencia.
Ejemplo La siguiente tabla resume la demanda diaria de cierto producto durante 40 días seguidos Tabla 2. Distribución de frecuencias de la demanda diaria de un producto. Intervalo 4.5-9.5 4 9.5-14.5 11 14.5-19.5 13 19.5-24.5 10 24.5-29.5 2
La tabla anterior corresponde a una frecuencia para datos cuantitativos. Los distintos intervalos son: (4.5, 9.5], (9.5,14.5], (14.5, 19.5], (19.5, 24.5], (19.5, 24.5], (24.5, 29.5]. La longitud de los intervalos es 5; los números 4, 11, 13, 10 y 2, representan las respectivas frecuencias.
Diagrama de tallo y hoja Esta es una manera de poder visualizar la distribución de un conjunto de datos utilizando los valores originales.
Esta técnica consiste en separar el valor de un dato e n 2 dígitos.
El primer o los primeros dígitos de izquierda a derecha representan al tallo y el último dígito representa a la hoja, este tallo y esta hoja se separan mediante una línea vertical.
Para comprender mejor observe el siguiente ejemplo:
Se tienen datos referentes a temperaturas en grados Fahrenheit en un experimento de química de -42º, -12º,5º, 8º, 9º, 23º, 24º, 25º, 26º, 60º, 27º y 111º.
Se solicita sean presentados en un diagrama de ta llo-hoja.
Solución:
Los datos deben ser ordenados de menor a mayor, se realiza una línea vertical para separar el tallo de la hoja y por ultimo se procede a ingresar los datos iniciando con los negativos y
terminando con los positivos.
En este caso el tallos tiene las decenas y centenas y las hojas la unidad.
El siguiente histograma fue creado con los valores anteriores, observe la similitud en cuanto a la distribución del conjunto de datos donde la diferencia radica en la posición de los valores observados, en el histograma se observan en el eje de la Y las frecuencias (hojas) y en el eje de las X (los tallos).
Hay una pequeña diferencia ya que el histograma presenta 7 clases y en el diagrama tallo y hoja hay 6 clases pero esto lo define el usuario en el histograma por lo que no debería ser problema .
Una ventaja de realizar un diagrama de tallo y hoja es poder obtener los valores originales aplicando notación científica.
Lo anterior consiste en visualizar los datos como un diagrama de tallo.hoja multip licado por una base 10 y elevado a un exponente “a”. Note que ya no se utiliza una línea vertical para separar al diagrama tallo y hoja, sino utilizar un “punto”.
Después de visualizar al diagrama como tallo.hoja se procede a multiplicar por la base 10 al exponente a = 1 (el valor del exponente “a” dependerá de cómo el usuario establezca la separación del tallo.hoja), logrando con esto transformar el tallo.hoja al valor original del dato.
En el ejemplo anterior el tallo I hoja, -4 I 2 necesita ser visualizado como tallo.hoja -4.2 para luego ser multiplicado por 10 al exponente 1 y con esto obtener el valor original -42.
Realizando la multiplicación anterior se obliga a que le punto decimal se desplace una posición a la derecha, logrando con esto el valor -42.0.
Misma situación ocurre al tallo l hoja 11 1 que al ser visualizado como tallo.hoja 11.1, y ser multiplicado por 10 al exponente 1 este punto d ecimal se desplaza hacia la derecha generando esto el valor original 111.0.
Precaución: si al tallo.hoja se multiplicara por una base 10 y exponente -1 el punto decimal se desplaza hacia la izquierda dando como resultado un -0.42 y -1.11 respectivamente, siendo estos valores incorrectos a los valores buscados.
El programa Minitab con fin estadístico es de los pocos que generan un diagrama de tallo y hoja, este link lo describe si desean saber más.
Ejemplo
Para realizar un diagrama de tallo y hoja en Minitab se debe de realizar lo siguiente:
Con Microsoft Excel se tabulan datos obteniendo la siguiente base de datos descargarla.
O bien pueden descargar la base de datos ya en Minitab con extensión .MTV descargarla.
Utilizando la opción de Excel, será necesario copiar y pegar los datos de una ho ja de Excel hacia una hoja de trabajo de Minitab.
Luego en Minitab ubique la pestaña "gráfica" y la opción "tallo y hoja".
Al realizar lo anterior se abre la ventana tallo y hoja en ella es necesario seleccionar con un clic la variable que se desea analizar, el siguiente paso es hacer clic izquierdo en el botón “Seleccionar” y por ultimo hacer clic en el botón aceptar.
El resultado es el siguiente diagrama de ta llo y hoja:
En este se puede observar que la mayor cantidad de los datos se encuentran en la parte central del diagrama, también que la variable analizada fue No. de tomates por planta en la cosecha 1999-2000 y que el total de plantas que conte nían los tomates fue de 250.
El diagrama generado muestra del lado derecho a la hoja (un dígito por cada observación), en el centro al tallo y en al lado izquierdo los conteos con interval os de 5 unidades.
Lo anterior genera 12 grupos distanciados de la siguiente manera (120 -124), (125-129), (130-134), (135-139), (140-144), (145-149), (150-154), (155-159), (160-164), (165-169), (170-174) y (175179).
En el diagrama se muestra del lado izquierdo un conteo entre paréntesis este indica que es ahí donde se encuentra la mediana que divide al conjunto de datos en 2 grupos.
Los conteos son acumulativos de arriba hacia el medio y de abajo hacia el medio generando un conteo total de 250 (71+60+119).
El siguiente histograma fue creado para compararlo con el resultado del diagrama tallo y hoja d e la base de datos tallo-hoja (la que se dio para descargar). Para obtener este histograma se utilizó el software estadísti co Infostat, con las siguientes restricciones: 10 clases, intervalos de clase de 5 unidades, un rango de 57 tomates/plantas, límite inferior de clase de 123 tomates/planta y límite superior de 177 tomates/planta. En el eje “X” se encuentra un mínimo de 123 y máximo de 177, con 12 divisiones. El eje “Y” son las frecuencias absolutas con un mínimo de 0 y un máximo de 60 con 12 divisiones.
Al realizar la comparación del tallo y hoja con el histograma generado y las rest ricciones anteriormente descritas se observa la similitud entre a mbos en cuanto a la distribución del conjunto de datos.
Gráficos de Tallo y Hojas (Stem-and-Leaf Plot for batch= Standard)
UNIR, Universidad Virtual Máster Oficiales en Perú y Europa. ¡Hasta 65% de Descuento para Perú! www.unir.net Enlaces patrocinados
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor. Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil. Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística. Interpretación de la gráfica Tallos y Hojas
La columna izquierda registra las frecuencias de cada nivel de temperatura En total suman 240 valores, los que coinciden con el número que nos da el cuadro de Resumen del procesamiento de los casos Los datos de columna del medio, se llama S tem y los de la última columna, Leaf .
Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00 La columna de Stem registra 150 y la columna de Leaf los valores que completan el valor 150 de la columna Stem, empezando por 0. Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos 1500; hay tres ceros en la columna Leaf , habrá 3 casos que soportan temperaturas de 1500 grados Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54. Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se convertirá en 1510; como hay ocho ceros en la columna Leaf , entonces habrá 8 observaciones de 1510. Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf. El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces sabremos que habrá doce observaciones que representan soportes de 1511 grados centígrados. Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas temperaturas.
El valor de la primera columna a la izquierda, Frecuency, nos dice que en total hay 54 soportes que resisten emperaturas desde 1510 hasta 1514 grados centígrados. Los datos nos indican que los valores se concentran, principalmente, entre 1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de Standard soportan temperaturas entre 1505 y 1519 grados. Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para los soportes Premium. Gráficos de Tallo y Hojas (Stem-and-Leaf Plot for batch= Premium)
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor. Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos.
La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil. Ahora ingresamos a la segunda parte, relativa a la Inferencia Estadística.
iagrama de caja y bigote actividad 5.1 14:57:00 | Publicado por HUGO GARZON |
ACTIVIDAD 5.1
En esta sección se presenta los de gráficos conocidos como de
CAJA Y BIGOTE
OBJETIVO:
Identificar las características del diagrama de Caja y Bigote, lo que permitirá su futura aplicación.
ACTIVIDAD:
Leer, ver y resumir los documentos presentados
Socializar los hallazgos y las dudas con el grupo
Resolver los ejercicios asignados por el docente
PRODUCTO:
Elaborar una presentación en Power Point en la que se relacione la solución de los problemas asignados, desde su planteamiento, pasando por los procesos para solucionarlo y las principales conclusiones. Subirla al blog del grupo.
TIEMPO: El fijado por el profesor
Para ver la rúbrica de esta actividad siga el enlace: