Descripción: Sanmartí, Luis Salleras. Educación sanitaria: principios, métodos y aplicaciones. Madrid: Diaz de Santos; 1985. Uma publicação que fundamenta e aprofunda os aspectos técnicos relacionados com o tema.
Intro basica
Descripción completa
P3_MeNu_2017_II profesor Edwin Chavez UNMSM (METODOS NUMERICOS)Descripción completa
Descripción: estadistica
EJERCICIOS DE ESTADISTICA PARA INGENIERIA DE PRIMER SEMESTRE
Metodos Numericos Con Aplicaciones en MatlabDescripción completa
manual
EJERCICIOS DE ESTADISTICA PARA INGENIERIA DE PRIMER SEMESTREDescripción completa
Descripción: Informacion sobre los conceptos de la estadistica descriptiva
Full description
sdfghjklDescripción completa
?,
ESTAASVTCA
illétodos y Z\pficaciones
Iidütin Galinclo
I'¡3O CII:N CIA EDITOI3ES
20ll
Capítulo
1
Análisis Exploratorio de Datos Nuestra
fe en Dios. El resto debe produc'ir datos. Anónimo
En cualquier actividad de Ia ciencia, la técnica, Ios negocios o de la vida cotidiana, que dé como resultado una serie de mediciones, se obtiene más información que las simples cifras recolectadas. El cómo conseguir la información, su análisis e interpretación se puede realizar de muchas maneras, pero primero se debe tener una idea clara de las características más importantes de los datos obtenidos. Los datos pueden ordenarse en tablas; sin embargo, éstas no muestran su comportamiento global. Su representación gráfica ayuda a captar fácilmente tendencias y establecer modelos probabilísticos. Conjuntamente con el empleo de métodos numér'icos sencillos, se puede presentar datos, resumir información y dar una respuesta rápida del comportamiento global de Ias unidades de donde provienen dichos datos. En este capítulo examinaremos varios de estos métodos, que son aquellos que frecuentemente aparecen en los paquetes computacionales de estadística.
1.1.
Introducción
En primer lugar, demos una definición de la ciencia Estadística que recoge mucho de lo que ella realiza.
La Estadística es la ciencia cuyo objetivo es reunir una información cuantitativa concerniente a individuos, grupos, series de hechos, etc. y deducir de ello, gracias al análisis de estos datos. unos significados precisos o unas previsiones para el futuro.
1.1.1. División de la EstadÍstica Para su mejor estudio, a Ia EstadÍstica se Ia divide en dos grandes ramas: la Descriptiva y la Inferencial.
La Estadíst'ica Descriptiua -también conocida como Anó.lisis Erploratori,o de Datos- consiste, sobre :odo, en la presentación de datos en forma de tablas y gráficos. Está diseñada para resumir o describir los datos sin factores adicionales; esto es, sin intentar inferir nada que vaya más allá de los datos, como :ales.
Capitulo
7.
AnáIísis Exploratorio de Datos
se deriva de mur:stras, de observ¿rciones hechas sólo ¿rcerca de una parte de un conjunto numeroso de elementos y esto irnplica qrre su análisis requiere de generalizaciones que van más allá de Ios datos. Como consecnerrcia, la caracter'ística más importante del reciente crecimiento de la Estadística ha sido un cambio err el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. La Estadística Inferencial investiga o analiza una población partiendo de la información obtenida a través de muestras.
La Esto,dística I'nferencial
!.L.2. Algunos problemas que resuelve la Estadística Para aplicar los métodos estadísticos a la información disponible, es necesario tener presente los tipos de problemas que esta ciencia resuelve.
Descripción de datos. El primer problema que, históricamente, aborda la Estadística es la descripción de datos. Supongamos que se han tomado ciertas mediciones, que pueden ser los gastos de alimentación en las familias, la producción de las máquinas de un taller, o las preferencias en un grupo de votantes. Se trata de encontrar procedimientos para resumir Ia información contenida en los datos.
Análisis de muestras. Es frecuente que, por razones técnicas o económicas? no sea posible estudiar los elementos de una población. Por ejemplo, para determinar Ia opinión de la población ante las elecciones solo se investiga a un grupo pequeño, ya que es imposible consultar a todas las personas en capacidad de votar. Análogamente, se acude a una muestra para estudiar la rentabilidad de un proceso de fabricación o para de terminar el nivel de ocupación de la población.
La Estadística se utiliza para elegir una muestra representativa y para hacer inferencias respecto a la población a partir de lo observado en la muestra. Este es el procedimiento aplicado para, por ejemplo:
Decidir si un proceso industrial funciona o no adecuadamente, de acuerdo a las especificaciones.
Estudiar la relación entre consumo de tabaco y cáncer.
.
hzgar respecto a la demanda potencial de un producto, mediante un estudio de mercado. Orientar la estrategia electoral de un partido polltico. Interpretar una prueba de inteligencia.
Medición de relaciones. Los gastos en alimentación de una familia dependen de sus ingresos, pero, es imposible determinar con exactitud cuál será el ga.sto de una familia de ingresos dados. Entonces, no existe una relación exacta, sino estadística. Determinar y medir estas relaciones es importante porque, debido a los errores de medición, las relaciones que observamos entre variables fÍsicas, sociales o técnicas son, casi siempre, estadísticas. Preguntas como: ¿Depende la calidad de un producto de las condiciones de fabricación y transporte? ¿Cómo se relaciona el rendimiento escolar con variables familiares o sociológicas? ¿Cuál es la relación entre desocupación e inflación?, se responden en términos estadísticos. económicas y físicas tienen cierta inercia en su evolución y aunque sus valores futuros son desconocidos, el estudio de su historia es informativo p¿rra prever su comportamiento futuro. Este es el mecanismo que se emplea para prever la demanda de un producto, la temperatura en un horno industrial o las magnitudes macroeconómicas.
Predicción. Muchas variables
7.2. Definiciones básicas
1.1.3. Obtención de información Cuando se examina un proceso o un fenómeno podemos producil una variada información, entonces es preciso determinar cuál es la de interés para Ios fines que tengamos y cómo conseguirla; así mismo, se debe tener una idea del número de observaciones que son necesarias para disponer de informaciórr confiable.
Para la obtención de información estadÍstica se emplean dos formas bien diferenciadas: los métodos de muestreo y los experimentos diseñados. Una investigación por muestreo es un estudio cuya finalidad es la recolección de datos y en el que el investigador no tiene control sobre las condiciones o los individuos participantes. Ejemplos de muestreos son los censos, las encuestas electorales o de consumo de un producto. Un experimento es cualquier proceso o estudio en el que se realiza una recolección de datos donde el investigador, usualmente, tiene control sobre algunas de las condiciones bajo las cuales el experimento tiene lugar. Por ejemplo, en el desarrollo de un nuevo medicamento, en la preparación de una nueva aleación de acero para usar en los automóviles, es necesario realizar experimentos para comparar su efectividad con otros previamente existentes.
L.2.
Definiciones b:ísicas
Las que antes indicamos son las principales aplicaciones de la Estadística, cuando esta ciencia se utiliza para analizar procesos o fenómenos naturales a profundidad. Pero este no es nuestro caso, por el momento, nosotros podemos pensar que la EstadÍstica es la ciencia de <>. Aquí surgen varias ideas importantes en todo análisis estadístico: la unidad muestral,la población (o uniaerso) y la muestra.
Definición (de unidad muestral o experimental) Una unidad
es una persona,
animal, planta o
cosa que es examinada por un investigador; es el objeto básico sobre el cual el estudio o experimento se lleva a cabo.
Por ejemplo, una persona, un mono, un plato de semillas, un grupo de facturas.
Definición (de población o universo) Una población
es una colección completa de personas,
animales, plantas o cosas de las cuales se desea recolectar datos. Es el grupo entero al que queremos describir o del que deseamos sacar conclusiones.
Definición (de muestra)
Es un grupo de unidades seleccionadas de la población de acuerdo con un plan o regla, con el objetivo de obtener conclusiones sobre la población de la cual proviene.
EI núrmero de unidades que constituyen la muestra se denomina tamaño muestral. Generalmente, se selecciona una muestra porque la población es demasiado grande para estudiarla enteramente. La muestra debe ser representativa de la población general, lo que se logra mediante una selección al azar de las unidades. También, es importante que el investigador defina, completa y cuidadosamente, la población antes de recolectar una muestra, incluyendo una descripción de los miembros a ser seleccionados.
A continuación damos varios ejemplos:
4
Capítulo
7.
Análisis Exploratorio de Datos
7.
Se desea establecel
2.
En un estudio se quiere conocer el <> de sintonía de los canales de teievisión de una ciudad. La población está constituida por los hogares que poseen televisor y una muestra Ios hogares de 40 manzanas distribuidas en la ciudad.
3.
Una dueña de almacén desea estimar el gasto medio de compra de sus clientes en su almacén en el último año. La población es todas las facturas de compra en el indicado periodo. Una muestra de ciento veinte facturas seleccionadas aleatoriamente, serviría para tener una idea del gasto medio de los clientes.
la estructula demográfic4, pol edad, de lti población ecuatoriana. El universo Io forman los datos de nacimientos existentes en las ofi.cinas clel Registro Civil. Una mr-restra puede ser tomada considerando las persolas cuyo apellido comienza con ia letra A.
En los ejemplos anteriores solo se enunciaron posibles muestras para las distintas poblaciones, sin importar que tan buena pudiera ser ésta.1
I-.3. Datos y escalas de medición A
Ias mediciones o valores obtenidos en un estudio estadístico se los denomina datos provenientes de
una variable estadística.
1.3.1. Tipos de datos Los datos pueden ser:
1. Cualitativos (Descriptivos
o categóricos): Cuando ellos describen caracterÍsticas que no
son
medibles; por ejemplo, el sexo de un animal, el color de los zapatos, la profesión de una persona.
2. Cuantitativos
(Numéricos): Cuando ellos describen caracterÍsticas que son medibles; por ejemplo, la temperatura del ambiente, el número de hijos de un matrimonio, el salario de una persona.
A su vez, las variables cuantitativas se clasifican en discretas y en continuas.
Datos discretos. Un conjunto de datos se denomina discreto si los valores u observaciones que pertenecen a él son distintas y separadas; es decir, ellas pueden ser contadas (1, 2,3, ...). Ejemplos de datos discretos son: el número de clientes que ingresa a un almacén en un día, el número de años que vive una persona. Datos continuos. Un conjunto
de datos se denomina continuo si Ios valores u observaciones que pertenecen a él pueden tomar cualquier valor en un intervalo considerado. Ejemplos de datos continuos son: el tiempo que se demora en ejecutarse un programa en la computadora, el peso de una persona.
L.3.2.
Escalas de medición
Definición (de escala de medición) Una escala de medición
es un instrumento de medida con
el que se asignan valores a las unidades estadÍsticas. I
La elección apropiada de las muestras se explicará en profundidad en el CapÍtulo
13
7.4. Característ,icas de los datos Escala nominal' Un conjrrnto de clatos cstá mecliclo en esca,l,a nomin,al si a los vaiorcs que pertcnccen a é1 se lcs puedc asignar un código, en la forma cle nn nrimero, clonde los núrmeros sor simpleme¡te ula cticlueta' Los datos en escala nominal ptteclen ser contados, pcro no pueden ser orclen¿clos o medi¿os.
Por ejemplo) elr Lln registro de pclsonas, los hornbres pueden ser codificados como 0 y las mujeres como 1; el estado civil de un indirriduo puede codifi.carsc como "1" si es casado y como ,,2,' si no lo es. Escala ordinal. IJn conjunto de clatos cstá medido <:n esca,la ord.inal si a los valores qne per.tenecen a él se les puede asignar un orden o asociar una escala. Los datos en escala ordinal pueden ser contados y ordenados, pero no pueden ser medidos. Las categorías, para un conjunto ordinal, deben tener un orden natural; por ejemplo, suponga que a ur grupo de personas se les pide que clasifiquen la calidad de la señal de las emisiones de radio, en una escala de 5 a 1, que representan excelente, buena, regular, mala y pésima. Un puntaje de b indica mejor señal que un puntaje de 4. Así, los datos resultantes son ordinales.
Escala de intervalo. Un conjunto de datos está medid o en escala d,e interualo si los valores que pertenecen a él pueden tomar cualquier valor dentro de un intervalo finito o infinito, con la particularidad de que existe un <>. Los datos en escala de intervalo pueden ser contados, ordenados y son válidas las operaciones de adición y sustracción) pero no las de multiplicación y división. Ejemplos de datos en escala de intervalo son: la temperatura medida en grados centígrados (donde hay un cero elegido arbitrariamente), los puntajes obtenidos en una pruebalaonae un puntaje de cero no significa que quien lo obtuvo no sabe nada).
Escala de razón. Un conjunto de datos está medido en escala d,e razón si los valores que pertenecen a él pueden tomar cualqnier valol dentro dc un intcrvalo finito o infi.nito, con Ia particula'idad de que existe un <>. Los datos en escala de intervalo pueden ser coritados, ordenados y son válidas las operaciones de adición, sustracción, multiplicación y división. Ejemplos de datos en escala de lazón son: la temperatura medida en grados Kelvin (doncle hay un cero absoluto), la estatura de una persona, cl tiempo de vida úrtil de una máqnina.
1.3.3. Valoresatípicos
t
Un valor atípico -también denominado valor inusual o valor extremo- en un conjunto de datos, es una observación que es lejana, en valor, del resto de datos; es clecir, es un d.ato inusualmente grande o innsnalmente pequeño, cotriparado con Ios dern¿is.
Un valor atípico
S
)
¡>uede ser el rcsultado de un error en una medición, en cuyo caso distorsiona Ia interpretación de los datos al tetrer una influencia excesiva sobre los cálculos a partir de la muestra. Si el valor atípico cs un lesultado genuino es importante, porque podría indicar nn compoltamicnto extremo del proceso en estudio. Por esta razón, toclos los valores atípicos deben ser exarni¡ados cuidadosamente antes de rcalizar un análisis formal y no se los debería eliminar sin una.justificación
pre\¡1a.
L.4.
Características de los datos
Todo conjunto de datos presenta ciertas características que perrniten, en rlna pr.imera aproximación, deducir el comportirmiento dcl proceso del cr-ral fueron obteniclos. Las tres principales características son: la localización, la dispersión y la simetría.
Capítulo 7. AnáIisis Exploratorio de Datos o tr ocalización. La krcaliz¿tción En gc'rrcr:rl,
se rrricle
¿L
r,:rr la rnedicione qucl esta,turas rxayorcs no se prcsentar, y se pirede caracterizal a todos ellos con una estatura prornedio de 1.70 mctros.
Por cljernplo, localiza,cl¿¡.s
La iclea de localización
fr-ic introcluci
por R. A. Fisher er 7922.
Dispersión. Los
valores obtenidos en url¿ mnestra no son todos iguales. La valiación cntre sc estos valoles denomnzt dispe'rsión. Cu¿rndo sc mide la dispersión sc desea dctectar el grado de disemirración de los valores individuales alrededor del centro de ias observaciones.
En los procesos de manufactura o de medición) una alta precisión está asociada con una baja dispersión.
El concepto de dispersión fue introdr.rcido por F. Galton (en 1886) y por W. Lexis (en 1887)
e
identificado como aqrrel en el que se reflejan las cliferencias entre las mediciones) provenientes de una misma fuente o tomadas en condiciones semejantes.
Simetría y asimetría. Un conjunto de datos es sirnétrico cuando los valores de los datos están distribuidos en la misma forma por encima y por debajo de su punto medio. Los datos simétricos: 1.
Son fáciles de interpretar, pLles los dal;os c¡re están por encima y por debajo del pr.rnto medio
pueden sel considelaclos con un misrrio critcrio; 2.
Pelmitcn la fácii detección de valores atÍpicos;
d.
Adrniten la comparación con conjurrtos de datos similales, en tér'minos de la dispersión.
Figula 1.1: Forma csqucrnática
cle clatos simétricos
y asimétricos.
La asimctría cn un conjrtnto cie datos es el ¿lgrtrpaniiento que ellos Jrresentan a un lado de su centro Los valores situados a un lado de la rnitacl clc los datos ticnclen a estar rnás alejados qrre 1os \¡¿rlores clue se enclrerrtran cn ei otro l¿rdo.
1"5. Distribución La distribuci,ón
de f,recuenaias
de ,f'rec'u,en"cias cs Lrrre herrarnicnta que se emplea para resurnir', mediantc una tabla, nurnerosos d¿tos dc rnancra qlle sc ponga de maniliesto l¿ loc¿rlización y Ia clispersión de l¿rs ol¡serva-
cloLcs.
7.5. Distríbución de frecuencias Con ltna tabla de frccuencia,s se puedcn resurnir- da,tos ctrtegór'icos, nominales u ordiuales. Si los clatos son continrros se pr-rede lesumillos l.ln¿r \rez qlle se los ha dividido cn grupos serrsiltlcs. Si se dispone (le un núrrnelo alto dc obsclvacioues) r¿, se procede ¿r cstablccel cr,rántas vcccs se rcpite cada nrta de ellas, pala cletelrninar sn frecu,en,ci,u o,bsolutct, n". A par:til dc esta información bá,sic¿r se puede obtencl o1,la, que es converriente poncrla etl nna tabla. Par'¿r
la confección de ltna tabla, de distribución dc frecuencias es lecomcrrdablc segu.ir los sigrrientes
Pasos:
Procedirniento.
1.
Se
ordenan los datos tr7) :[2) . . ., rk en ur]a columna, de forma ascendentc, poniendo a continuación
sus frecuencias absolutas n1,
2.
TL2¡
...¡ n¡.
k
Nótese que
D rLi: i:r
n.
Luego se forma una tercera columna en la que se pone Ia frecuenc'ia relat'iua; que resulta de dividir la frecuencia absoluta n¿ para el núrmero total de observaciones: /¿ - 3. Xo es más que TL
la proporción de aparecimiento de cada observación.
3.
Pueden, también, calculalse dos columrlas correspondientes a las fi'ecuencias acumuladas, tanto absoluta como relativa, que resultan de sumar las frecuencias de todas las observaciones anteriores hasta la considerada inclusive. Muchas veces, a las frecuencias relativas se las pone como porcentajes, en lugar de números flaccionarios.
Una tabla de distribución de frecuencias tiene cl siguiente aspecto:
Valor de la variable (r¿)
Frecuencia absoluta (n¿)
rI
TL1
tr2
n2
rk Total
Fbec. absoluta acumulada (¡/,) l/r : nr Nz: Nt * nz
l/¡:l/¡-1
TLI,
Flec. relativa acumulada (8,)
FYecuencia
relativa (/')
Ft: ft Fz: Ft t
ft Jz
*n¡
fz
F*:Fn:I.fn
fr
n
1
Ejemplo. En nna fábrica de muebles de rnaclera, se contloló
e1 tiempo (en minutos) neccsario para completar un trabajo cle armado de ciertos anaqueles. Se obturrieron las siguientes mediciones del tiempo empleado por los obreros:
32.9
JJ.4
Dt ¡< .)r).J at o
33.6 33.6
JJ.r)
,ta JJ.
33.8 32.9
I
tto 33.8
.'),
-
JJ.J
32.8
J.).1
.1.). i )
J,]..)
33.5
33.6 34.4 33.0
óó.4
33.6
33.8
33.9
.)J. J
JJ.I)
33.6
,]to
t')
o
JÓ.4
ÓJ
-L
t)ú.!
JJ.
/
ot 1 r)r).1
,),).
t)
.1.).) r)r).,)
.lc r
r)
J¿i.-
,¡)
33.6
.\
,/ 1 J+.1
'?a
33.9
33.8
c.t o .ltr-L
tD t r).).r)
33.9
34.0
,1.).J
32.9 ,u q .),)-i
.)Á
'),) JJ.A
33.6
óJ. i)
JJ.
óó. i
1'),4
.)
/
a.)
^
.).).,)
1D Á JJ.t tt 1 JJ. l.)t Á !)().+
:'t3.0
tD ,),).4 ^
OD D JJ.J
JÓ.+
33.6
33.6
óó.
/
DD rlJ.+
33.0
'12
r)
,j.l JJ.1
1
33.6
JJ.U
33.6
33.1
,), JJ.
1
.),)..)
33.0
.).) ,.)
33.4
ÓJ.
1
34.0
,1,1.
/
to
.),). I
J.J.
')
J+.1
J.J.
Dt( r),).rl 2q7
tao
L)J.+
.),1.
33.1 .)t r r)r).J
33.9 1') n
il
33.6 ,-),1.,
)
Á
33.8
/
1
iJ
r',
33.8 33.0
Capitulo La sigr-riente taJrla rrnrestra
l¿i
7.
Análisis Exploratorio de Datos
clistril¡rrción cle flecrrerrci¿ts dc clatos illrliviclrt¿rlns (crr 17 r':rl,rres).
(rnin)
f,tecuencia absoluta (n¿)
,t:.1 32.8 32.9 33.0
e
,t 1I r)J. aD o
q
28
JJ.J
10
JJ.4
t2 I4
38 50
33.6
13
64 77
.)¿).
8
85
Tierrrpcr
F\'ec. ¿rbsoluta acurmrlada (;\)
Fl"ecuencia rela.tiva ( l¿ )
F!'cc. rel¿rtiva acurnulada (,F,)
I
t
0.01
0.01
I
2
0.01
5
003
0.02 0.05
5
10
9
19
33.8 33.9 34"0
6
9r
0.05 0.09 0.09 0.10 0.12 0.14 0.13 0.08 0.06
4
95
0.04
2
97
34.t
2
tÁ a
0
99 99
34.3 34.4
0
99
1
r00 r00
0.02 0.02 0.00 0.00 0.01
r
Total
0. 10
0.19 0.28 0.38 0.50 0.64
0.77 0.85 0.91 0.95 0.97 0.99 0.99 0.99 1.00 1.00
Sc ha presentado una distribución de frccuencias para 100 datos individuales, pero la tabla pr-rede Ilegar a scr exterlsa; y si bicn prescnta la, información resunicla, puede ser conveniente resumirla aúrr. rrrtis, c;r'eando cl¿rses. La agrr-rpac:ión cle clatos cn cl¿rscs sirnplificir Ia presentación y el estuclio cle la distribución) allnqlle se pierden algunos rleta,lles.
Calcule la iongitud de ia clase. La longitrrcl clc la cl¿lsc cs igual a Ia obsclrración rnayol menoil dividido por cl nLilrrero de clases. Rcdonclcc este rcsulLado pala obtenel rrn rrúrnrero cor)venicnte) que tenga el mismo níurelo de decimales qlre los d¿rtos.
li1 ttrcnor,
.4 ,)
/nráx - frnín k
Construya las clases indicando los cxtremos de Ias misrnas. Cor¡ro ayllda
7.5. Distribución de frecuencias b) f,os restantes extremos de las clases clase al extrenro cle
c1¿rse
se obtienen ailadiendo repetidarnente la longitud de anterior, hasta cnbrir todo el rango cle valolcs.
L, : Li-t I A, .j : i,2,...,k. 4
Marque cada observación dentro de la clase que le corresponda. Determine la frecuencia absoluta,
5.
7r,¿,
corr€spondiente a cada clase.
Calcule las columnas restantes. IJna vez que tiene la frecuencia absoluta, proceda las frecuencias lelativa y acumuladas) como se explicó anteriorrnente.
a calcular
Observación. El número de intervalos puede variar del inicialmente estimado al redondear el valor de la longitud del intervalo y que se cumpla el paso 3 a).
Ejemplo. (Continuación.) Construir una distribución
de frecuencias por clases de los datos de las
mediciones del tiempo necesario para armar anaqueles.
Solución: De acuerdo a la tabla los datos
se
distribuirán en k:7 clases. Los máximos y los mínimos
son:
r^5* --
34.4,
rmí.
: 32.7,
rmáx
-
trni.
:
L.7,
1n
longitud de la clase que se redondea a
: ::: :0.24, 7
A:0.2.
Fijemos los extremos de los intervalos: el extremo inferior debe ser el número inmediatamente menor al valor mínimo, que termina en 5 y tiene un decimal más que los datos; es decir, Lo:32.65. Luego, Ios extremos siguientes se determinan sumando, sucesivamente, 0.2 al extremo inferior hasta sobrepasar el máximo valor de las observaciones:
L1 : Lo * A: L2 : Lt * A:
* 32.85 * 32.65
: 0.2 : 0.2
32.85 33.05
:
Ls :
Le -l
A:34.25 *0.2:34.45
Finalmente, se determinan las frecuencias de cada clase.
A continuación se muestran los resultados. Tiempo (min) JZ.ti5 - J2.E5 32.85 - 33.05 33.05 - 33.25 33.25 - 33.45 33.45 - 33.65 33.65 - 33.85 33.85 - 34.05 34.05 - 34.25 34.25 - 34.45 Total
FYecuencia
absoluta
(n¿)
FYec. absoluta acumulada (.11,)
-tYecuencia
relativa
(/¿)
Flec. relativa acumulada (fl) 0.02
97 99
0.02 0.08 0.18 0.22 0.27 0.14 0.06
0.02
0.99
100
0.01
2
10
r8
28
22 27
50
t4
91
77
100
0.10 0.28
0.50 0.77 0.91
0.97
r.00 1.00
Nótese que por efecto del redondeo en Ia longitud del intervalo ha dado un total de 9 clases. Queda para el Iector realizar el mismo ejercicio redondeando la longitud de Ia clase a 0.3.
10
Capítulo
1.6.
7. Análisis Exploratorio de Datos
Representaciones gráficas de los datos
una rnanera rntly eficiente cle co'oce. el corn¡lo.ta'riento de un conjunto gráficamente' ya que permite cre datos es re¡rrese'tar.lo dar rtna descripciin a. -"r,lr" rápida y ráit de entender. La importancia i"o de b e ir acomp añado il:T:T.5 f*13¡,T# l.:, :ll" : ".o an ¿,isis ". t
i:
::rff
J.t
;Tfi:,::l
1.6.1. Diagrama de puntos un
di'aqrama d'e puntos es una forma de resumir datos cuantitativos, en ra que cad.a observación se si se disponu a"'lo,"r,os datos, cada punro
;'":T::1,1J*?ll""Til*'q,,:T: ffiñJ:
il#;'
El diagrama de puntos deja apreciar:
1'
Larocarización general de ras observaciones.
2.
La dispersión de las observaciones.
3'
La presencia de observaciones inusuales o valores atípicos.
se aconseja utilizar este diagrama para representar hasta un máximo de 20 0bservaciones individuales, ffi :JJ.:ffi s e p ue d en combi n ar
"."u,u Para datos nominales u ordinales, un diagrama de puntos es.simirar barras reemplazadas por a un gráfico de barras, con una serie de puntos. Para ras iatos contin,os, un diagiama a un histograrl&, con ros de puntos es similar rectangurás ieemplazado, oorl.,-riior. (vcase r" ,'"*io" r.o.a¡ #:;::i:;"tü;1:"::"t'"T"1il mediciones (en milímetros) de ros días de lruvia en er verano de 2006
6'4 4'0 3'2 4'6 3'2 8.2 6.0 0-2 4.6 5.2 0.6 2.0 11.8 El diagrama de puntos está dado en la Figura
1.2.
i'if?sii u.,n* Figura 1.2: Diagrama de puntos. En el diagrama observamos que:
16.4 3.2.
7,6. Representaciones
o a
o
gráficas de los datos
11_
1. 2.
Los datc¡s están agnrpados ccrca del valor 3, antes que, digamos B o 10.
3.
EI valor 16.4 puede ser calificado de atípico, porque se clcuentra alejado del grupo principal de
Las observaciones sc cxtiencleu en ah'ecledor clc 17 uriidacles) con Llua concentración entre 0 y 8. datos.
L.6.2. Diagrama de tallo y hojas
;e
to
El diagrama de puntos tiene algunas desventajas: es difícil regresar de los puntos a los datos y puede hacerse confuso si se tiene un número alto de datos. Entonces, es conveniente utilizar otras herramientas para realizar su representación gráfica.
El diagrama de tallo g hojas, que es una técnica semigráfica que se emplea para ilustrar las principales características de los datos (localización, dispersión y simetría). Además, tiene la ventaja de presentar Ios valores de los datos. Por la forma en que se construye, se debe emplear para un conjunto de hasta 100 datos.
Mediante un ejemplo, veamos cómo se realiza el diagrama, p6o a paso. Consideremos los siguientes datos: 08
19
77
01
13
04
15
02
07
09
05
16
00
o4
01
12
es)
tar
trá
)o
A los datos los clasificaremos considerando las decenas; así tendremos dos grupos, uno que empieza con 0 y otro que empieza con 1. Ellos forman el tallo, al colocarlos de manera vertical: 0
rar
1
lue
las üar
A continuación, para cada observación anotamos el segundo dígito (de las unidades) a la derecha la barra vertical, que vienen a constituir las hojas. La primera observación 08 da 0 1
006
Al agregar la segunda observación 19, da 0 1
8 9
Y así, se van añadiendo las observaciones hasta obtener: 0 1
8L79542041 976352
Los valores que forman las hojas pueden reordenarse de menor a mayor, así: 0
0LI2445789
1
235679
de
12
Capítulo
7.
Análisis Exploratorio de Datos
Podemos crear dos categorías en cada una de las decenas, en las cuales los dígitos de las unidades del 0 al 4 formen un F,rupo y los dígitos del 5 a 9 foimen otro; de esta manera se tiene: t)
r42047
0
8795
1
to ¿¿
1
9765
Cuando los datos constan de más de dos cifras, se deben escoger los rangos para las agrupaciones que se realizarán;luego aI llcnar las hojas se separan mediante una coma para evitar confusiones. Si disponemos de los siguientes datos: qD DJ
55
79
106
188
47
118
47
58
82
113
208
60
88
Se pueden realizar dos diagramas de
tallo y hojas:
0
33,47,47,55,58, 60, 79, 82,
1
06, 13, 18, BB 08, 48
2
248
88
que está agrupado por centenas. El siguiente diagrama está agrupado en intervalos de 50:
0
33,47,47 55,58,60, 79, 82,88
1
06, 13, 18
1
88
2
08, 48
0
2
Asimismo, se pueden usar diagramas múltiples para comparar dos conjuntos de datos, para ello se coloca un tallo común y las hojas de un conjunto se ponen a la izquierda del tallo y las hojas del segundo conjunto a la derecha del tallo, de la siguiente manera: ft
4371 9888655
1
310
2
99875
2
311
3
678 03
.)
5
1
44 5779 0L23344
4
la izquierda están más agrupados en los valores bajos, con un rango mayor y fuerte asimetría; mientras que el conjunto de la derecha es muy simétrico y con menor dispersión. Se observa que los datos de
También, se emplean estos diagramas para representar datos con decimales; por ejemplo, si tenemos los datos:
1.3 0.8 1.6 2.0 r.7 7.2 0.5 1.9 0.6 2.2 0.5
1.6.
7.6. Representaciones gráficas de los datos El cliaglanra rcsrrltalte
13
5568
0. 1.
236679
2.
02
1.6.3. Gráfico de sectores y gráfico de barras Los gráficos de sectoles
y de barras son dos formas de ¡lrcsentar gr-tlficamente datos categóricos.
Supongamos que los datos aparecen resumidos en una tabla como Ia siguierrte:
Categorías
FYecuencias
absolutas
(n¿)
Fbecuencias
relativas
Ct
u
f,
Cz
n2
fz
Cn
;,
Total
ir
n,
1
(/¿)
Un gráfico de sectores es un círculo dividido en segmentos, donde el área de cada uno de los sectores es proporcional a la frecuencia relativa de esa categoría. El ángulo central de la categoría es igual a fi x 360". Junto a cada uno de los sectores que constituyen el gráfico, se suele indicar el nombre, el número de elementos y el porcentaje de cada categoría. También, se puede resumir datos cualitativos mediante rn gró.fi,co de baryas. En éstos, los datos del mismo ancho, cada uno de los cuales representa una categorÍa particular. La longitud (y por lo tanto el área) de cada rectángulo es proporcional al número de casos en la categoría que representa. se exhiben mediante rectángulos,
Si los datos son nominales, las categorÍas se pueden colocar en cualquier orden; pero si los datos son ordinales, las categorías deben estar ordenadas. Los gráficos de barras se pueden presentar de manera horizontal o vertical y usualmente hay un espacio entre los rectángulos. Junto a cada uno de los segmentos que componen el gráfico se coloca el nombre
el número de elementos
y el porcentaje de cada grupo.
Con el gráfico de barras se distinguen las principales caracterÍsticas de los datos, como aquellas causas que son más importantes o que más frecuentemente se presentan en un proceso. También, tiene la ventaja de que se pueden realizar gró,,ficos de barras agntpadas, que consiste en representar sobre el mismo gráfico más de dos variables -siempre que estén medidas en las mismas unidades-, permitiendo realizar comparaciones,
Ejemplo. En una empresa financiera, marcas. Un
los empleados disponen de computadortrs portátiles de distintas resumen del número de máquinas, de acuerdo a su respectiva marca, se presenta en el
siguiente cuadro.
de Marca Número respuestas
Toshiba Dell HP
135 76 53
% 42 23 16
de Marca Número respuestas Lenovo 43 19 No sabe
% 13
6
t4
Capítulo
7.
AnáIisis Exploratorio de Datos
Representar mediante gráficos de sectores
y de barras.
Solución: Los gráficos se encuentran err Ia Figura
1.3.
Toshiba
Toshiba Dell
HP
Lenovo
No sabe
Figura 1.3: Gráficos de barras y de sectores.
L.6.4, Histograma Un histograrna es un conjunto de rectángulos, cada uno de los cuales representa un intervalo de agrupación. Sus bases son iguales al intervalo de clase empleado en la distribución de frecuencias y las alturas son proporcionales a la frecuencia absoluta,fi,¿ o relativa /¿ de la clase.
El histograma es apropiado para datos continuos, medidos con una misma escala y se lo emplea cuando un diagrama de tallo y hojas es tedioso de construir. Igualmente, puede ayudar a detectar observaciones atípicas
y cualquier brecha entre los datos.
Ejemplo. (Continuación.) El histograma correspondiente a la tabla
de distribución de frecuencias
de los tiempos de ensamblaje de anaqueles se presenta a continuación.
Figura 1.4:
1.6.5. PolÍgono de frecuencias y ojiva Un polígono de frecuenci¿s es un gráfico que se obtiene uniendo con segmentos de recta los puntos que tienen proporcionalmente como abscisa a la marca de clase y como ordenada la frecuencia respectiva. Se cierra en ambos extremos en las marcas adyacentes con frecuencia cero.
7.7. Ejercicios
15
La ojiua
es un polígono de frecuencias acumuladas; es decir, en las abscisas se colocan los límites superiores de cada intervalo de clase y en Ias ordenadas se coloca la frecuencia acumulada (absoluta o relativa) de la clase. La ojiva es útil para: 1.
Calcular el número o el porcentaje de observaciones que corresponden a un intervalo determinado de Ia variable.
2.
Calcular los percentiles de la distribución de los datos.
Ejemplo. (Continuación.) El polígono de frecuencias y la ojiva, correspondientes a la tabla
de
distribución de frecuencias de los tiempos de ensamblaje de anaqueles se presenta a continuación.
Figura 1.5: Polígono de frecuencias y ojiva. Una vez que se ha confeccionado una tabla de frecuencias y se ha realizado Ia representación gráfica correspondiente, es necesario disponer de valores que permitan describir y compara¡ los conjuntos de datos, mediante números que indiquen su posición, su variabilidad y su forma. Ésto se realiza con las llamadas medidas estadísticas o simplemente estadísticos.
L.7.
Ejercicios
1.
Dé ejemplos (preferentemente de su propio campo) de poblaciones y muestras.
2.
Para cada uno de los distintos tipos de datos: discretos (categóricos, ordinales y nominales) y continuos, enuncie al menos dos ejemplos. Justifique sus respuestas.
3.
En una encuesta de opinión acerca de las preferencias de bebidas gaseosas, por sus colores: negro (N), blanco (B) V R (rojo), 20 consumidores dieron las siguientes respuestas:
l i
N, B, B, N, R, B, B, N, N, B, N, B, B, R, N, B, N, R, N, B. I
Construya el gráfico de sectores circulares.
4.
Los siguientes datos corresponden al porcentaje de alumnos de cuarto grado de escuela, clasificados según su rendimiento académico en la materia lenguaje.
Calificación % Insuficiente 53 tre
ta.
Regular 26 Bueno 15 Muy bueno 5 Sobresaliente
1
Capítulo
16
a) b) c) E
i).
¿,Con quó
tipo
d<;
7.
Análisis Exploratorio de Datos
datos est¿i ustcd tlalra,jauclo? Explique.
Retrlir:e los gr'áficos cle pastel
y dc barrtr,s clc los
d¿rtos.
¿.Qué porcenta.jc de los alurnrros cle cuarto graclo tien<:u urr renclirnierrto <> o mejor que bueno?
En Ia siguiente tabla se describe diferentes razas vadas. R,aza
basset boxer'
bauceron
bulldog caniche chiguagua cocker
colley doberman dogo
fox hound galgo
labrador mastin pekinés podenco
pointer san bernardo teckel teI'ranor¡a
d
perros, según varias caracterÍsticas obser-
Tamaño Peso Velocidad Agresividad Función 2 11 I 2 I 22 2 2
a) ¿A qué tipo de datos pertenece cada caracterÍstica definida en la tabla?; b) Para cada variable, realice el gráfico de pastel o el gráfico de barras; c) Compare los distintos gráficos y deduzca cuáles variables están relacionadas. Explique respuesta.
6.
Se tiene
la siguiente información acerca de la composición del cuerpo humano.
Figura 1.6: Distribución de materiales en el cuerpo y distribución de las proteinas.
su
t7
7.7. Ejercicios ¡,Qué porcentaie del peso total del cuerpo humano corresponde al peso total de la piel?
7.
Se registró Ia distancia diaria (en km) que el representante comercial de una empresa recorre para visitar a sus clientes:
8.2 4.6 5.9 6.5
13.3
10.1
11.5
10.5 10.0
72.6
13.0 13.1 10.4
L2.7
10.8 15.0
13.5 t2.0 14.1 t3.2
7.6
r0.4
4.3
7.7
5.0
t2.0
8.3
13.6
a) Realice un diagrama de puntos para los datos; b) Realice un diagrama de tallo y hojas; c) Determine la tabla de frecuencias; d) Dibuje el histograma; e) Compare este último con los diagramas de puntos y de tallo y hojas. 8.
La inversión anual, en miles de dólares, de una muestra de 40 pequeñas empresas fueron:
36 19 29 37 2042534 27 77 31 10 46 26 12 23
33 22 29 24 27 27 28 15 41. 18 33 25
31 2L 35 24 26 31 30 18 39 28 23 28
a) Elabore una distribución de frecuencias con 7 intervalos de clase; b) Realice el diagrama de tallo y hojas; c) Determine el porcentaje de empresas con una inversión entre 14 mil y 9.
10.
20 mil dólares.
Los ingresos mensuales de una muestra de pequeños comerciantes se tabularon en una distribución de frecuencias simétrica de 5 intervalos de clase de igual amplitud, resultando como ingreso mÍnimo 125 dólares, marca de clase del cuarto intervalo: 300. Si el 8 % de los ingresos son menores que 165 dólares y el 70 % de los ingresos son menores que 275 dólares. ¿Cuál es el porcentaje de los ingresos que son superiores a 285 dólares? Se tiene
la siguiente tabla acerca de las edades de los obreros de cierta empresa: Edades
22-27 27
-32
32-37 37-42 42-47
No. de obreros L4 17
25 10
I4
Encuentre el porcentaje de obreros cuyas edades están comprendidas entre 35 y 40 años.
11. La siguiente
tabla muestra la distribución de las notas en un examen. Nota
No. alumnos
0-5
7
5-10
18
10-15
i5
r5-20
10
¿Qué porcentaje tuvieron una nota comprendida entre 8
y
17?
7.
AnáIisis Exploratorio de Datos
18
Capítulo
12
Al clasifical las no+"as cle 0 a 100 cn un exarnen,
13.
En la tabla se indi,can los tiempos de espera en las ventanilias de un banco.
se obtuvo una distribución simét,rica, con 5 intervalos de clase de iglral ancho. Si el 10% desaprotró con rnenos de20, rnientra-s qurcel 40o/o obtlrvo notas comprendidas entre 40 y 60, ¿,qrré porcentaje de alurrinos obtuvo una nota rnenor de 60?
Tiempo (rnin)
03
Frec. absoluta
Frec. relativa
32
3-6 6-9
0.30
9-12 12-
005
8
0.10
15
Halle el tamaño de Ia muestra y complete la tabla de distribución de frecuencias.
14.
Los pesos de n artículos se ordenaron en una tabla de distribución de frecuencias de 7 intervalos de igual ancho de clase, donde: mín : 50 g, máx : 120 g.
Además,
ft : fz, fs:
fs,
a) Determine el valor
b)
fs t fa I fz :0.36,
n1-l nz
I
n3 -r n4
-_-
560 y U.
:64.
de n;
¿Cuántos de estos artículos tendrán un peso mayor o igual a 60 g
15. Halle el tarnaño de la muestra y
y menor a 110
g?
reconstruya Ia siguiente tabla simétrica de distribución de
frecuencias.
Intervalo
Frec. absoluta
10- t2 12-
7
Frec. relativa
Frec. relativa acumulada 0.24
0.52 5
18-20
16.
La tabla muestra la distribución del ingreso familiar mensual de 80 familias. Intervalo
- 680 - 720 720 - 760 760 - 800 800 - 840 640 680
Frec. absoluta
Frec. absoluta acurnulada
48
60
Frec. relativa
0.r25 0.075
Determine el número de familias que tienen un ingreso menor a 800 dólares mensuales.
17.
Dado el siguiente histograma de frecuencias relativas. [c, /], si el total de la rnuestra es de 400?
¿Cuántas observaciones hay en el rango
2(
7.7. Ejercicios
Figura
i8.
1_9
1.7:
En el siguiente gráfico se muestra el consumo de energÍa en una fábrica.
¿Qué porcentaje del consumo diario se utiliza desde las 19h hasta las 24h?
19
En la siguiente ojiva
se
representan los porcentajes de personas que componen un grupo de
personas) según su edad.
100
55 45 25 10
12 Figura
17 1.9:
Determine qué porcentaje de personas tienen edades comprendidas entre 10 y 15 años. go
20.
Dada la ojiva correspondiente a los gastos en servicios de los hogares de una ciudad.
Capítulo
20
7.
Análisis Exploratorio de Datos
/D
Figura 1.10: Reconstruya la tabla de distribución de frecuencias.
1.8.
Medidas de localización
Cuando se dispone de un conjunto de observaciones, es de interés encontrat el valor en torno al cual se agrupan la mayorÍa de ellas o el centro de las mismas. Las medidas descriptivas que permiten especificar estos valores se denominan medidas de localización o md,idas de tendencia central. Existe una amplia variedad de medidas de localización; nos concentraremos en las m¿ís empleadas: el promedio, la mediana, la moda, la media geométrica y la media armónica.
1.8.1. La media muestral o promedio Definición (de promedio o media aritmética) El promedio, notado como 7, de un conjunto de n mediciones 21, r2t...,,rn es igual a la suma de sus valores dividido entre n; es decir, n &-
.
Drn i=l
rt*rz*.'.*rn
n
Si las observaciones están agrupadas en una tabla de frecuencias de datos individuales como la siguiente:
Observación
Flec. absoluta
rI
fLy
I2
n2
rk
nk
donde n¿ es la frecuencia absoluta de la observación ,ri, el promedio se calcula por k
Dnn'n ¿:t
I: ---=-, n
&
COn
n:
sa
z_rn. d:l
7,8. Medidas de localización
.
2L
Si los datos se presentan en una tabla de frecuencias, agrupados por clases:
se calcula el
Clase
LIC
LSC
Punto medio
Frec. absoluta
1
l1
5t
rl
Tr1
2
I2
S2
r2
TL2
k
t"¡
9p
;r
rLk
punto medio cle cacla clase rromo iri
:; l¿ I
s¡' ' '
Q,:1,2,, .. , k) y el promedio es
k
I
rr,¡
r¡
k
i1
con 7¿:l
t
n
n¿.
i:7
Ventajas e inconvenientes del empleo del promedio:
ual ten
;EI
1. 2. 3. 4. 5.
Se expresa en Ias mismas unidades que
la variable.
En su cálculo intervienen todos los valores de la distribución. Es el centro de gravedad de toda la distribución, representando a todos Ios valores observados. Es único. Su principal inconveniente es que se ve afectado por la presencia de valores atípicos.
Ejemplos
1.
Calcular el sueldo promedio de diez personas que ganan (en dóIares):
170 r72 168 165 173
:
Soluci,ón: Se dispone de n
t78 180 165 767
172.
10 observaciones sin agrupar, entonces
11*rzl..'*rn
&-
n,
170
: ro la
2.
+
+168 +
172
165
+ 173 + 178 +
180
+
165
+
767
+
r72
10
I7L.
Calcular la estatura promedio de 46 señoras, cuyas medidas se dan a continuación.
Estatura Flecuencia
1.45
1.48 4
2
1.50
1 It t,du
5
1,55 72
B
1 ta L,(, f
7
1.60
i.63
4
t
1.65 1
t)
Solución: Como las mediciones están agrupados en una tabla de datos individuales, aplicamos Ia fórmula que considera la frecuencia de cada una de ellas. Téngase presente que el número de clases €s k
:
9
y el tamaño de la muestra
I
r:i:l
I
n'¡r¡ n,
2x
I.45*4 x 1.48+... +3 x 1.63 * 1 x 1.65 46
r.545. Los 46 señoras examinadas tienen una estatura promedio de 1.545 metros.
es
n:
46.
Capítulo
22 3.
7,
AnáIisis Exploratorío de Datos
En una cooperativa de ahorro y crédito se realizó Ia tabla de frecuencias ahorros de sus socios (en dóIares), según se presenta en la tabla, Desde
Hasta
Fbecuencia
0 100
100 200
72
200
30
300 400
400
77
500
186
500
600
224
600
700
209
700
800
r22
800
900 1000
53
900
de Ios montos de los
28 46
19
Calcular el promedio de los ahorros de los socios de la cooperativa.
Soluci'ón: Los datos están agrupados en 10 clases. En primer lugar encontraremos el punto medio de cada clase y los pondremos en la tabla: Desde
Hasta
0 100
100
Punto medio
(z¿)
Flecuencia
50
72
200
150
28
200
30
250
46
300 400
400 500
350 450
186
500
600
550
600
700
650
224 209
700
800
760
722
800
900 1000
850
53 19
900
(n¿)
7r
950
Ahora, empleamos Ia fórmula que considera la frecuencia de cada una. Tenemos que k
:
10
10
y D n¿:970. i:1
Por tanto,
10
D'¿*n
t--l
Á
TL
12
:
x 50*28 x 150+.,. +53 x 950*
19
x
950
970 555.155.
El ahorro promedio de los cooperados
es de b5b.16 dólares.
1.8.2. La mediana La mediana fue por primera vez utilizada, como una medida de localización, por A. A. Cournot en 1843 y redescubierta por F. Galton en L882, año desde el cual su empleo se ha generalizado.
Definición (de mediana) La mediana de un conjunto de datos xr, z2: .. ., rn es el valor que se encuentra en el punto medio, cuando se ordenan los valores de menor a mayor.
1.8. Medidas de localización Se
la nota como Q2 o Med y tiene la propiedad de que a cada lado del valor se encuentra el
23 50 % de
las observaciones. Si disponemos de un conjunto de datos individuales, para el cáIculo de Ia mediana se procede de
Ia siguiente manera:
1. 2.
Se ordenan las
n observaciones rt,12,.
..,rn
de manera creciente.
Si el número de observaciones es impar, entonces n:2rnl1, La mediana es la observación que se encuentra en eI lugar m * I. AsÍ, si disponemos de r¿ : 29 observaciones ordenadas de manera creciente, m : 14 es decir, Ia mediana es la observación que se encuentra en el
lugar14*1:15.
3.
Si el número de observaciones es par, entonces n:2m. La mediana es igual a la suma de las observaciones que se encuentran en los lugares m y rn * 1, dividido para dos. Así, si el número de observaciones es de n : 30, entonces rn: 15; Ia mediana es el promedio de Ias observaciones que se encuentran en los lugares 15 y 16.
Si los datos están resumidos en una tabla de distribución de frecuencias de datos individuales.
1. 2.
Ordene las observaciones de manera creciente, con sus respectivas frecuencias acumuladas.
Calcule
I2"v red.ondee
al entero más cercano. Determine en Ia columna de Ia frecuencia
acumulada a qué dato pertenece, comparando el valor obtenido con el valor de la frecuencia acumulada que es igual o inmediatamente superior; éste valor es la mediana. Si los datos están resumidos en una tabla de distribución de frecuencias por clases, la mediana se determina
1.
por interpolación,
asÍ:
Establezca en qué intervalo está el valor mediano. Para ésto, se determina la primera n clase cuya frecuencia acumulad.a se a mayor o igual a Dicho intervalo se denomina clase
5.
med'iana.
2.
La mediana se calcula con la fórmula n,
Med,: L¡_t-r donde:
; - nl-r =-A,
límite inferior de la clase mediana. es la frecuencia acumulada del intervalo inmediatamente anterior al intervalo de la
,L¿-1 es el
At-r
mediana.
la frecuencia absoluta de la clase mediana. A es Ia longitud de la clase de Ia mediana. La interpretación gráfica del cálculo de la mediana se encuentra en la Figura 1.11. n¿ es
la mediana de un conjunto de datos no necesariamente pertenece a éste. La propiedad fundamental de la mediana es dividir al conjunto de observaciones en la mitad. Nótese que
Ventajas e inconvenientes del empleo de Ia mediana: 1.
Es la medida m¿is representativa en el caso de variables que solo admitan la escala ordinal.
2.
Es fácil de calcular.
.).
En Ia mediana solo influyen los valores centrales y es insensible a la presencia de valores atÍpicos.
4.
En su determinación no intervienen todos los valores de Ia variable.
Capítulo
24
7.
AnáIisis Exploratorio de Datos
L¡¡ MC
L¡
lal
Figura 1.11: Interpretación geométrica del cálculo de la mediana.
Ejemplos
1.
Determinar la mediana de los siguientes datos:
5.5 6.9 7.0 3.0 4.8 4.t 3.2 4.3 5 5 6.5 Soluci,ón: Se tienen n : IL observaciones, por Io que Tn lugar 5*1. Ordenemos los datos
:
5, entonces Ia mediana está en el
3.0 3.2 4.7 4.3 4.3 4.8 5.5 5.5 6.5 6.9 La mediana es la observación que se encuentra en el sexto lugart
2. (Continuación.)
4.3.
7.0.
Qz:4.8.
Calcular Ia mediana de los sueldos de diez personas que ganan (en dólares):
Por lo tanto, la mediana es el promedio entre las observaciones quinta y sexta:
^ 770+172 er: i:171. 3. (Continuación.) Calcular la mediana de la estatura Estatura (r¿)
Fbecuencia
absoluta
(n¿)
I
* ET
la de 46 señoras, cuyas medidas son:
FYecuencia acurnulada (¡lr)
7.45
2
1.48
4
6
1.50
5
11
2
1.53
8
19
1.55
T2
31
r.57
nl
38
1.60
4
42
1.63
J
45
1.65
1
46
r)
I fi
21:
7.8. Medidas de localización
Soluci,ón: Las mediciones están agrupados en una tabla de datos individuales y el tamañ0,d,9,1,1i muestra es n: 46. , . .iJ,ríiri,! Calculamos 2 : ZZ y vemos en Ia columna de Ia frecuencia acumulada que hay los valoles 19 y 2 31, que cumplen que 19 < 23 < 31. i"r;i'r;'irt:;'/ Así, Ia mediana es el valor cuya frecuencia acumulada es 31; es d,ecir, Q2: 1.55-.i "
4.
Para la liquidación del impuesto a Ia renta, en una pequeña empresa, se calcularon lcs'ingbesoS anuales (en dólares) de todos los empleados. La tabla de distribución de frecuencias es la ,i'¡_lsiguiente: Número de Fbecuencia Ingreso anual ,,,r.1 t, personas (n¿) acumulada (Nr)
- 3000 - 4200 4200 - 5400 5400 - 7250 7250 - 9000
2400 3000
9000
-
3
3 23
20 35 25 15
12000
,,r,; r ¡ix
58 83 98 100
2
Solución: Los datos están dados en una tabla de frecuencias por clases con r¿:
llri.il
100.
Entonces, ?2:50; por tanto, la mediana se encuentra en el intervalo (a200;5¿00)';'de!t'nánera que A: 5400 - 4200: 1200.
i-nel
Ahora, tenemos que
* - *n-, Med: L;I*TO : 4200 + tO:"rrg¡
!{-es):
:5L25.7.
'i
rr,','i;trÍ
:'.i
r1i',¡'¡1,\q;?.
35
t;i
La mediana del ingreso anual de los empleados de la empresa oist25'.1¿lil*áJ] '" -1--.\' lrii:Lli-'rr
ir1¡;({
"i'j ..'ilrrrrrri
l:
r
'rli;rl.lirll;l
1.8.3. La rnoda
r"i
I
Definición (de moda) L" moda de un conjunto de ddüob'es aquel valor que tiene la mayor frecuencia absoluta. Se la nota como Mo. Hay ocasiones en las cuales los datos pueden tener dos o más modas, o no puede existir, cuando todos los datos tienen igual frecuencia. Para su determinación es útil construir una tabla de frecuencias de los datos.
.
Si los datos están resumidos en una tabla de distribución de frecuencias por clases, la m'6dr "e determina mediante la fórmula: ii ,,'t:) i, ri ) lfl;'{
Mo:L¿¡* dt,O' trz, O t
I = :,(' i,¿ li) il);jii-),1fli
;i,
ii lfrli/.
donde: tr¿-1 es el límite inferior de la clase modal.
y la frecuencia de la clase anterior. d,2 es la diferencia entre la frecuencia de la clase modal y la frecuencia de Ia clase siguiente. d1 es la diferencia entre la frecuencia de la clase modal
A es la longitud de la clase de la mediana.
,
r ¡;iri:,rt ¡;,I
7.
Capítulo
AnáIisis Exploratorio de Datos
Aunque la icle¿r de <> es mny trrrtigurr, no fue ernpleacla en estaciística, dc rn¿lnela forrnal, hasta c¡re Ia po¡lrlirlizó K. Pe¿u'son en 1894.
Ventajas e inconvenientes del empleo de la moda:
1.
Es fácil de calcular e interpletar.
2.
Es la única medida de Iocalización que ptiede obtenerse en Ias variables de tipo cualitativo.
3.
En su determinación no intervienen todos los valoles de la distribución.
Ejemplos
1.
Supóngase que las notas de un examen de estadística fueron las siguientes:
9.4 8.1 9.0 5.6 7.0 9.0 6.5 9.0 3.8
7.0.
Soluc'ión: La moda de este conjunto es Mo:9.0, que es el valor que más veces se repite.
2.
Calcular la moda de los siguientes datos:
Observación Fbecuencia Solución: La mayor frecuencia
3.
2.7
4.5
6.0
8.7
9.2
5
6
.)
2
4
es 6, correspondiente al
valor 4, por lo tanto Mo:4.
Para la liquidación del impuesto a la renta, en una pequeña empresa, se calcularon los ingresos anuales (en dólares) de todos los empleados. La tabla de distribución de frecuencias es la siguiente: Número de
Ingreso anual 2400 3000 4200
- 3000 - 4200 - 5400
5400 7250 9000
personas
-
-
(n¿)
3
20
7250
35 25
9000
15
12 000
2
Solución: La clase modal es el tercer intervalo, ya que tiene la mayor frecuencia (hs : 35).
: 50; por tanto, la mediana estará el el intervalo dr :35 -20:15, d¿:35 - 25:10 y A:5400 - 4200:7200.
Entonces,,2I
I
(4200; 5400), de manera que
l
:
Ahora, tenemos que
A[o : L¡.--t* ,O' ,O d't -l d'z
:
4200+,,,15,.1200 15+10
:
4920.
I i,
La moda del ingreso anual de los empleados de la empresa es 4920 dólares.
:-
7.8. Medidas de Iocalizaciót't 1.8.4.
27
La media geornétrica
Definición (de media geométrica) La media geornét,rica, notaclzr corno .{lG, n, meclicion€s r1, 12:.. ., nr es igrral a Ia taíz r¿-ésirna de su ltroclucto; es decir,
clc urr conjunto dc
AIG: Vqxrrx-xrk. Si las obselvaciones están agrupadas en una tabla de fi'ecuencias de datos individuales,
x...xr'tlt. MG: {r:7, "";, Si las observaciones están agrupadas en una tabla de frecuencias por clases, la expresión es la misma, pero utilizando el punto medio de Ia clase z¿. El empleo más frecuente de la media geométrica es el de promediar variables tales como porcentajes, :asas, números Índices; es decir, en los casos en los que se supone que la variable presenta variaciones acumulativas.
Ventajas e inconvenientes del ernpleo de la media geométrica:
1. 2. 3. 1.
En su cálculo intervienen todos los valores de Ia distribución. Los valores extremos tienen menor influencia que en la media aritmética. Es úrnica.
Su cálculo es más complicado que el de la media aritmética y solo se la puede calcular cuando todos los valores son positivos.
50s
;la
Ejemplo. Calcular la media geométrica de la estatura
de cinco personas que miden (en metros):
t.70 r.72 1.68 1.65 r.73. Solución:
n:5 observaciones; por tanto, MG : (r¡x12x-xrn
Se dispone de
:
otT 11.70 x I.72 x 1.68 x 1.65 x
I.73:
1.696.
La media geométrica de las citadas estaturas es 1.696 m.
1.8.5. La rnedia armónica que
Definición (de media armónica) La media armónica, notada como NI H, de un conjunto de n mediciones rrt r2t . . . , rt. es el recíproco de la media aritmética de los recíprocos de esos n valores; es decir,
Su empleo no es aconsejable en distribuciones de variables con valores pequeños. Se suele
utilizar para
promediar variables tales como productividades, velocidades, tiempos, rendimientos, cambios, etc.
Capítulo
28
7.
AnáIisis Exploratorio de Datos
Ventajas e inconvenientes del empleo de la media armónica:
1. 2. 3.
En su cálculo intervienen todos los valores de Ia distribución. Su cálculo no tiene sentido cuando algún valor de la variable toma valor cero. Es única.
Ejemplo. Calcular la media armónica
de la estatura de cinco personas que miden (en metros):
1.70 t.72 1.68 1.65 r.73. Solución:
Se dispone de
n:5
observaciones; por tanto,
: 11111 L.70 I.72 1.68 1.65 r.73
1.696.
-_r-r-_r-_L-
La media armónica de las citadas estaturas es 1.696 m.
1.8.6. Percentiles, cuartiles y quintiles Antes de finalizar esta sección, es conveniente referirnos a varios términos que son de uso común en la prríctica estadística: los cuartiles, Ios quintiles y los percentiles. Estas medidas estadísticas corresponden a lo que se denomina medidas de posición no central.
A un conjunto de datos ordenado se lo puede dividir en un número fijo de partes iguales; cuando divide en cien partes se tienen los percentiles.
se lo
Definición (de percentiles) Los percentiles son cada uno de los 99 valores que dividen a la distribución de los datos en 100 partes iguales. los percentiles se les nota como P¡. Con ellos se puede encontrar regiones donde se acumulan los datos; así, el 30 % de los datos están por debajo del trigésimo percentil.
A
Para su cálculo se procede de Ia siguiente manera:
.
Si los datos no estrín agrupados o están en una tabla de datos individuales, se efectúa la siguiente descomposición:
nk 100
: j *r,
donde:
j
es la parte enter u
r
es la parte fraccionaria
a" !.
100
a. *. 100
Entonces, se tiene que
"+-, rj+L,
si
r:
o;
sir>0.
7.8. Medídas de localización Si los rl¿rtos i:sttirr
Calcular el percentil de orden 86 de los ingresos anuales de los empleados de
Lrna enlpresa.
Ingreso anual
2400
3000
-
4200 5400 7250 9000
3000 4200 5400
-
7250 9000
Soht,ción: Teuemos qlte
?¿
12000
:
100.
Número de personas
(n¿)
FYecuencia
acumulada (¡/r)
3
,)
20
23
35
58
25
83
15
9B
2
100
Capítulo
30
1.
Análisis Exploratorio de Datos
:86 y n,k: 100 x 86 : 86. 100 100 EI intcrrr¿rio h cloncle se cricu
Con estos datos, obtenemos:
'k
. - 100 L¡-I nk
,I)A,
D-
72t¡o + tLUv |
rSri
:
7600.
uu
n,.
- 83 trrn
15
--'l
Dos casos particulares, y muy utilizados, resultan cuando al conjunto de datos se Io clivide en cuatlo o cinco partes iguales, que corresponden a los cuartiles y a los quintiles, respectivamente.
Definición (de cuartiles)
Son valores que dividen a la distribución de los datos en 4 partes, cada
una de las cuales engloba eI25% de los mismos. Los cuartiles son 3:
. .
El cuartil inferior (Qr), qre deja a su izquierda el 25% de los ctatos v se curnple eue Qr
P2ó.
El cuartil medio (Qz), qre deja a sr.r izquierda el 50 % de Ios datos, coincide con la mediana y cttmple que Q2
.
:
:
se
Pso.
El cuartil superior (Q3), que deja a su izquierda el 75 % de los datos y se cumple eue Qe -
Pzó.
AsÍ, para el cálculo de los cuartiles solo se deberá tener en cuenta que ellos son los percentiles de orden 25, 50 y 75, respectivamente (Figura 1.12).
500Á
mln
Qt
500
Qt
Q¡
max
Figura 1.12: Disposición de los cuartiles en un conjunto de datos.
Definición (de quintiles) Los quintiles son valores
que dividen a la distribución de Ios datos en cinco grupos, cada uno de los cuales contiene el 20% de las observaciones.
Los quintiies son 4:
. ¡ . r
El primer quintil (qr), q.t" deja a su izquierda el 20% de los datos y se cumple que qr El segundo quintil (qz), qrr" deja a su izquierda el 40% de los datos y se cumple eue El tercer quintil (qs), qn" deja a su izquierda el 60% de los datos y se cumple que El cuarto quintil (g¿), qr" deja a su izquierda
9z
P2o.
-
P4o.
- Poo. el 80% de los datos y se cumple que q4 - P80. qB
7.8. Medidas de localización
31
Ejernplos
1.
Dctcrrniuar los cuartilcs infcliol y su¡rcliol cle las estaturas de 46 señoras,
(Continuación.) cuyas ntedid¿rs son:
Estatura (r¡)
absoluta
(n¿)
r.45
2
1.48
4
b
1.50
5
11
1.53
E
19
1.55
72
31
L.57 1.60 1.63
7
3B
4
42
1.65
1
:
Sohtción: Tenemos que n
.
2
,,1
.)
:
P25,
Pz¡.
46
por tanto,
k:25
nk i00
,
46x25
)'se
:
100
r:
lr
11
p¡, : r j+t PZs : rn:
rrden
Para el cuartil superior, Q¿
:
Pzs, k
:75
46x75
35
100
I.53.
+
0.5.
0.5 y P¡,
:
Pzs 2
0.5.
tlr
100
r:
+
y
nk
Es decir,
y
0.5 y
Pn.
.
l
46.
Para el cuartil inferior, Q1
De manera que,
Frecuencia acumulada (¡i,)
Fbecuencia
* l-rt rsa : 1.57.
(Continuación.) Determinar Ios cuartiles inferior y superior de los ingresos anuales de los empleados de una empresa.
Ingreso anual 2400
-
3000
-
4200 5400 7250 9000
3000 D'lu.
P+0. '60.
D-^
EU'
4200 5400 7250 9000 12000
-
Solu,ción: Tenemos que n
:
100.
Número de personas
(r¡)
FYecuencia
acumulada (Nr)
t)
J
20
23
DT
58 83
Jd
25 15
9B
2
100
Capítulo
32
. Cuartil inferior: El irrtelr'¿rlo
Qt
:
7.
Pz;,
AnáIisis Exploratorio de Datos
k::25
Y: 100
109ri.25
N¡- t : 23,nt
:
100
Q1 es @200;5a00) y 35 y A :54U0
l¿ doncle se enc:uentra
Tambiérr, se tiene que
J,
:
Z¡.
Lt-t:4200.
- 4200 :
1200.
Entonces, lesrrlta que:
t'/t
P¡, : Pzs
Cuartil superior: Qs:
Pzs, k
- Ar,.-, Lt-tI loonk "'¿ t<_t?
:
4200
:
4268.6.
:75
+'",;;'" Ji)
t #:
1200
tO?ñtt
: tt.
Lxt:540A. También, se tiene que N¡-1 : 58, n¡ :25 y A :7250 - 5400 : 1850. El intervalo h donde
y
se encuentra P75 es (5a00; 7250)
Con estos datos, obtenemos:
nb
e-t,
P¡ : Ln-t-t rá nk Pzs
:
b4oo+
75;58raso
: 6658.
1.9.
25
Medidas de dispersión
Luego de determinar Ia localización de las observaciones, es conveniente medir su grado de clispcrsión alrededor del centro. Las medidas que permiten especificar esta característica se denomínan n¿edidas de dispersión.
Estas medidas deben tener la propiedad de que si los datos están ampliamente extendidos, la medida será alta; y cuando los datos se encuentren muy agrupados, será baja. Existen varias medidas de dispersión, nosotros vamos a analizar la desviación estándar, el rango y el rango intercuartil.
1.9.1. La desviación estándar llna vez que
se ha calculado el promedio de las mediciones, un indicador de su variabilidad es la desviación de cada medición particular corr respecto al promedio, r¿- r. Pero ésta da r.rna información válida para cada medición y no para toda la muestra. Para tal efecto se emplea la desviación estándar, medida de dispersión fue introducida por K. Pearson en 1894.
Definición (de desviación estándar o desviación típica) La desviación estándar, notada como s, de nn corljunto de n mediciones 11, 12, ...¡ 2,, es la raíz cuadrada de la suma de los cuadrados de Ias desviaciones de las mediciones, respecto al promedio z, di'l'idida entre n
n-I
D,@, i:l
-
1; es clecir,
7.9. Medidas de dispersión
33
\ótese que la desviación estándal es siempre positiva y sus nnicladcs de medicla son las rnisnrrrs
clrLt:
aquellas que corresponden a los datos originales. Para su cálculo tambiéu se cnrplea la fórnrula equivalente
- n \r)' n-I De la misma manera que para Ia media aritmética se consideran los siguientes casos:
'
Si las observaciones están agrupadas en una tabla de frecuencias de datos individuales:
Observación
FYec. absoluta
Il
TL1
r2
n2
x) te
;o
la desviación estándar se calcula por k
o s: '
ión
- n(T)2 n-7
DnnrT
i:I
k
con n:,
ni.
i:r
Si los datos se presentan en una tabla de frecuencias, agrupados por clases:
úas
Clase
LIC
LSC
Punto medio I1 I2
Flec. absoluta
1
ly
Sl
ida
2
l2
S2
:
:
:
:
rel
k
l¡"
Sk
rk
nk
TL1
n2
s se calcula por k
¡la
-itn¿(r¡-r)2 i:7
ión
o 8:
Ln¿rí - nlI)' i:l n-I O
/-\ñ
k
con n: \-nr. /-¿ ;-l
ilar,
Ventajas e inconvenientes del empleo de la desviación estándar:
l.
Se expresa en Ias mismas unidades que los datos originales.
2.
En su cálculo intervienen todos los valores de la distribución y por ello puede ser complicado.
3.
Es única.
4.
Se ve
muy afectada por la presencia de valores atípicos.
7.
Capítulo
34
Análisis Exploratorio de Datos
Ejemplos
1.
(Continuación.)
Calcular la clesviación estárrdar cle los srreldos cle diez l)crsonrrs que ganan
(en dólares):
r70 t72 168 165 173 178
180
Solu,ción: Previamente se habÍa calculado el promedio
165 167
7: L7I.
t72.
Con ésto, resulta que:
*i@n-,¡' (170
-
t7L)2 + (I72
-
+...+
I7r)2
(167
10-1
-
tTL)2
+
O72
-
LTr)2
1.
Esos sueldos tienen una desviación estándar de 5.1 dólares. 2.
(Continuación.) Calcular la desviación estándar de Ia estatura de 46 señoras, cuyas medidas son:
Estatura
t.45
1.48
1.50
1.53
1.55
L.57
1.60
1.63
1.65
Frecuencia
2
4
5
8
t2
7
4
3
1
:46, k - 9 y r:1.545. el valor a. f nor'n,
Solu,c'ión: Anteriormente se determinó que Para realizar el cálculo, obtengamos
71.
i:t
k
+ 3(1'63)2 + 1(1.65)2 :
D"nr? :2(t.+s)2 + 4(t.458)'+'"
109.9615
i:1
Entonces, se tiene que
Dn *?-n@)2 ffi o:, :.@:0.04627. , n-l n-r
D-
V
¿o-t
La estatura de las señoras analizadas tiene una desviación estándar de 4.6 cm.
3. (Continuación.)
Calcular la desviación típica de los montos de ahorros de los socios de una cooperativa de ahorro y crédito:
Hasta
Punto medio (r¡)
FYecuencia (ni)
0
100
100
200
50 150
28
Desde
Solución: Antes
12
200
30
250
46
300 400
400
77
500
350 450
186
500
600
550
224
600
700
650
209
700
800
750
r22
800 900
900 1000
850 950
53 19
se determinó que
n : 970, k
:
10 y V
-- 555.155.
7.9. Medidas de dispersión
35
Calculemos lzr siguiente sumatona: 9
I,,r 'i-7
r,l :
12(rtQ2
+ 28(150)2 +'. . +
De manera que la desviaciórr típica
b3(850)2
+
:
19(950)2
330025000
es
k
D ro"? - "(")2
,i.:1
n-7
:V/33002ffiéro-i
:riYü¡'
tlonjuntamente con la desviación estándar se suele definir la uarianza muestral de un conjunto de ratos, notada s2, como Ia suma de los cuadrados de las desviaciones respecto a su promedio, dividido :or el uno menos que el número de observaciones en el conjunto de datos y se calcula mediante
"ln:
las
"
{'o
;\f
,;-1
- 7)2
EI rango y el rango intercuartil
r,9.2.
Definición (de rango o recorrido) El rango de n
mediciones
es
igual a la diferencia entre los
'.'alores mayor y menor de las mismas:
Rango
:
T..'áx
Ei rango se puede utilizar para hallar una aproximación de la desviación estándar mediante las si--rrientes relaciones
s
:
R.anso
= --É-) 1/n
R,anso
"=--,
(
para n 176,
para 16 q
para100
para n > 400.
7¿
100,
Ventajas e inconvenientes del empleo del rango:
1.
En su cálculo solo intervienen los dos valores extremos de Ia distribución y por ello se ve muy afectado por Ia presencia de valores atípicos.
2.
trs fácil de calcular.
Definición (de rango intercuartil) EI rango intercuartil, notado por RIQ, de un conjunto latos
es
de
igual a Ia diferencia entre ios cuartiles superior e inferior; es decir,
RIQ: Las definiciones de los cuartiles superior e inferior en 1882.
Qs
-
Qt.
y del rango intercuartil fueron dadas por F. Galton
Capítulo
36
7.
AnáIisis Exploratorio de Datos
Ventajas e inconvenientes del empleo del rango intercuartil:
1.
Es fh<:il cle
2.
Se vc Poco afect¿rcio
3.
En su deterrninación no intclvierre
calcul.¿rr'.
por la Plerselcia dc l¿r
atípicos.
r,¿r.lores
tot¿iliclad cle los clatos.
Ejemplo. (Continuación.) Calcular' la desviación
estárrd¿rl de l¿r cst¿rtur¿r clc 46 señoras, cllvas
meclidas sc reslrmen en la siguierrtc t¿tbl¿r:
Estatura
r.45
r.48
r.50
1.53
1.55
1.57
1.60
r.o.)
1.65
Fbecuencia
2
4
Ir
8
12
7
4
3
1
Solución: Antes
se
dcterminó que Q1 :1.53 Y Qs:I.57. Además, zmí':7.45y
r,'á*:1.65.
Entonces, Rango
RIQ
Tmáx
Qs
-
fnrín
- Qt :
:
1.65
1.57
-
- I.45 :
1'53
:
0.20.
0.04.
Además, podemos calcular una aproximación de la desviación estándar de los datos:
sFr
Rango
0.20
4
4
:
0.05.
Como se ver el valor aploximado cs bastante cercano al exacto, calcuiado con la fórmula respectiva.
1.9.3. El coeficiente de variación Definición (de coeficiente de variación) El
coeficiente de variación, notado y>ot CV, es ig-ual a la desviación estándar- dividid¿r por la medi¿r, rrritmética; es riecir, s
CT':1
T
Esta rnedicl¿r se utiliz¿r l)¿lra conlp¿r'¿rr las rnccliciones de unidades o por distintos individuos. Si u.rr conjurrto de cl¿rtos es honrog(rneo, CV
<
1; si
Cf/ >
tun¿r
misrna magnitrici rc¿liz¿rri¿r cn distintas
1.5. los dzrtos poclrían ser hctclogóncos.
Ventajas e inconvenientes dei empleo clel coeficiente de variación:
1.
Es urr¿r medida ¿rdimensioual.
2.
En sn cálculo interviencn toclas las obscrvaciones. pr-rclicnclo ser nluv iufluido pol valoles atípicos.
3.
Puede ser difícil de interpretar.
4.
Picrde su significtrdo si el prorredio es iguai a cero.
7.7A. Medidas de fornta Ejernplo. (Continuaciórr.) -irr¿1rr (crL ckilzrrcs)
el valor de coeficiente es muy ba.jo, los datos son homogéneos.
1.10. Medidas de forma -{asta ahora, heruos arralizado la localización y la dispersión cle una distribución, pero necesitamos . r'locer más sobre el comportamiento de los datos. En esta sección, analizaremos las medidas de -,) - )inla'. - as medidas de forma de ttna
distlibución
se clasifican en dos
grllpos: medidas dc asinietr'ía y medidas
cttrtosis.
--
1.10.1. Asirnetrra midc cl grado de asimetr'ía de la distribuciórr r,le sus datos sti meclia. Es aclirncnsional v se definc corno srg=Lre:
coet'íczente d,e a,s'intetría, dc nrra variable
tolno
¿r
\-1.r, _ ,):t ln, '
/_-'
As:
,i.:
'
I
t
,s3
--,--.
crtl,o,s cle nn¿L variable cstárr coltstituidas por los r.alores alejaclos de la medía (r,a.1oles cxtrcmos). --:,a l'¿rriable es ¿l,sinií:tric¿r si srr col¿ ;r nn 1¿rclo cs rnás larga que sr1 col¿r al otro y sinrétric¿r si amb¿rs solr igual cle largas. -es
si As > 0. la clistribui:ión ser¿i asiurótiic¿r a cola a la izquierrl:r.
. si As - 0la distlilncicin .
l¿r
i
1a
ser'á sirnéttic¿r. AnLbas colas son igual dc luugirs.
si As < 0 la clistribrrciórt ser¿i ¿rsirnétlica a ltr izcluicrcla. La cola a lur izqnierd¿l es más lrrrgir que la cola a I¿r clelech¿r.
rEn la definición cle las trreclicl¿rs rte ti¡rma no hal,'unidac.l r
clcrccli¿r. La cola a la clerech¿r es más lirrga que
cclacl
cle
criterios cntre los especi:rlista,s, por lo
clrLc
hay una amlrlia
Capítulo
38
1.
AnáIisis Exploratorio de Datos
L,lO.2. Apuntamiento o curtosis EI coeficiente de apuntamiento o curtosis de una variable sirve para medir el grado de concentración de los valores que toma en torno a su media. Se elige como referencia una variable con distribución normal, de tal modo que para ella el coeficiente de apuntamiento es cero.
Ap:
ir", - *)n l,
i:t
-J.
e4
,
Según su apuntamiento, una variable puede ser:
Leptocúrtica, si Ap ) 0; es decir, es más apuntada que Ia normal. Los valores que toma la variable están muy concentrados en torno a su media y hay pocos valores extremos. Mesocúrtica, si
Ap:0;
es decir, es
tan apuntada como la normal.
Platicúrtica, si Ap ( 0; es decir, es menos apuntada que la normal. Hay muchos valores extremos, Ias colas de la variable son muy pesadas.
Figura 1.13: Curtosis de curvas simétricas.
Ejemplo. (Continuación.) Calcular los coeficientes de simetría y apuntamiento de los sueldos de diez personas que ganan (en dólares):
t70 172 168 165 r73 178 180 165 t67 Solución: Previamente se había calculado que 7
-,cs datos son levemente asimétricos, con asimetría hacia la derecha; también, son platicúrticos, ;,,rsible presencia de valores atípicos.
x)
1.11. Otras representaciones grÍificas -
os gráficos analizados anteriormente no requieren realizar cálculos de medidas estadÍsticas. Los ==áficos que a continuación se presentan, sí los emplean; por tanto, son más poderosos al realizar un '-nálisis.
1.11.1. Diagrama de balanza FI di,agrama de balanz¿ fue introducido en el año 2000, como una herramienta que muestra, en un lismo gráfico, la forma de los datos, su valor central y su variabilidad al representar el promedio, el :-ínimo, el máximo y Ia desviación estándar de los datos. ?ara su construcción se procede de la siguiente manera: de 1.
Se calcula el promedio, la desviación estándar, el mínimo
y el mríximo del conjunto de datos que
se analiza.
)
Sobre una recta se ubican los valores del promedio, el mínimo y el máximo. Los segmentos que unen el promedio con el mÍnimo y con el máximo se denominan brazos de Ia balanza.
3
Sobre la misma recta se ubican dos puntos -uno a la izquierda y otro a Ia derecha de la media-, a una distancia igual a la desviación estándar.
I
Debajo del valor del promedio se dibuja un triángulo.
Si los cl¿tos solL sinrírtlic:os, r:l valor del plonreclio se sitú¿r r¡rr r:l
2
en torno ¿ri ccntlcl. los l¡r¿-Lzos rlr: l,r bal¿rnz¿ ser'¿ilr cortos; pr"u cl contrzlricl, si ir"rs tlat,os estiirr dispclsos eu tor-rr
,)
Si nno dc los rlos bl¿rzos clc 1¿r b¿rlarrz¿ es muchr¡ rl¿rs largo c¡rc r:l otlo, nos inclica (llre los sorl asirr)étricos y clue hay posible prcsencia cle r'¿rloles atípicos en l¿s obselv¿ciones.
Si los
<:c:rrtLo
d¿rtc¡s est¿ilr agrrrptrdos
(l¿1tos
Puede ser irtil combin¿rr' (solrre el mismo gr'áfico) con un cliagrzrma clc prrni;os pzrra visualiz¿rl Ia, Irillr(:lr'& en que se distlibuycn ias observaciones.
Ejemplo. Realizal el diagrama
de balanza de los siguientes datos:
5 5 5 5 1010202027 39 55 55 60 60 60 68 75 90
35 90
Soluci,ón,: Estos datos tieneu las siguientes carac;ter'ísticas:
rnírr:5, rnáx:90, r:39.7, s:29.3 Entonces, :L
-S
T *s
El ciizrglirlr¿r
29.3:10.4. 39.7+29,3:69.0. 39.7
-
st0 28 3ü 4C 5S 60 1fi 80
gCI
Figura 1 .15; Scgirrt sc obscrvit crr i'i giálico, el prornedio no se encuentra crr cl centro del ralgo. entonces sc dr:drrc<: quc los cltrtcs sotr asirtrétricros. Arlcrriás, lcs br'¿rzr¡s cie i¿r b¿l¿rnza rro ticrierr ig'ral longitnri, lo <1rri.r ri
1.11"2. Diagrarna de ca.ja El rli,o,qt'ant,a" de c:o,.jo, fr-re irrtroduciclo r:n 1977, pol JoLrn \\I. Tuliey conLo lur¿l herranrierrtzr quc rrurcslr'tr, er Lrn misuro gr:ific:o, l¿r foltna de los clatos, sn r'¿r,lol ccntlal y srr rrariabilicl¿rcI irl rcprr:sentar i¿r rne
l.
Soble lrn¿ líne¿l holizontal se loc¿rliz¿rn l¿ mcdiana. Ios cuartiles inferior y supr:rior ¡'los clatos nrínilro I'm¿ixirno.
7.77. Otras representaciones gráfrcas ,l
Se constrrtye rtna ca..ja angosta qlre une a
4L
Qt y Qz; a continu¿rción,
se clivicle estar caja cn
clos
mecliatrte una línea qne pase por Qz. t
.J.
:n
Finalrnente, se ttazan las uallas, que son dos rectas, una desde cada extremo de la ca.ja, hacia el valor rnínimo y hacia el valor máximo de los datos.
la Figura 1.16 se mnestra un diagrama de caja.
trt Qt
I
min
I
Qz
max
Qr
Figura 1.16: Diagrama de caja.
;--n diagrama de caja es especialmente -"-:lores atípicos
útil para examinar la simetrÍa de los datos, la presencia y para comparar dos conjuntos de muchos datos.
de
Ejemplos
1. (Continuación.) Trazar el diagrama de caja correspondiente a los datos de la estatura
de 46
señoras, cuyas medidas son:
Estatura
r.45
1.48
1.50
1.53
1.55
L.57
1.60
1.63
1.65
Flecuencia
2
4
5
8
12
7
4
3
1
Solución: Antes
se determinó que
Qr
:
1.53, Qz
:
L.55, Qs
:
t.57, rrnín: I.45 y z¡16*
:
1.65.
El diagrama de caja es el siguiente: .
-lttc:cr
,
lr rt¿i
: .tliI)
I
I
t.4s
1.55
r.60
1.65
Figura 1.17:
.l(lIJ¿Ir
Como se observa, los datos son bastante simétricos, con una fuerte concentración en torno al centro y -puesto que las vallas son largas- con la posible presencia de valores atípicos (el mínimo
y el máximo). clirlos Se recogieron los datos de los ingresos mensuales de 200 hombres
Comparar los ingresos de los dos grupos mediante sus diagramas de caja.
Solución:
Se tiene
la siguiente tabla que resume las medidas descriptivas reqtteridas:
Flombres Mujeres
max
220
Qs 230
200
220
230
mIn
Qt
Qz
i90
270
180
190
240
Con todos estos elementos, los diagramas de caja son 240
230
o ut
22O
fl s zro tr
200 190 '180
Sexo
Figura 1.18: En el diagrama correspondiente a las mujeres, observamos que la mediana no se encuentra en Ia mitad de la caja, denotando una asimetrÍa, con fuerte concentración hacia valores bajos. Como Ias vallas son cortas, podemos inferir que no hay presencia de valores atípicos.
En el diagrama que corresponde a los hombres, se observa que Ia mediana está en Ia mitad de la caja, indicando que Ios datos son simétricos. Como la valla inferior es más larga qr-re la superior, rros indica que rlrl valor de 190 es atípico para los hombres.
De acuerdo a las posiciones de los diagramas, se observa que) en general, las mujeres tienen ingresos menores. Tarnbién, se aprecia que los ingresos de los hombres están más concentrados alrededor de la rnediana qne los de las mujeles, denotando que aquellos son más homogéneos.
L.1-2. Ejercicios i.
Una persona está rnanejando un carro en una autopista a 70 km/h y nota que el número de autos a los que pasa es igual al número de autos que a ella le pasan. Los 70 km/h son el promedio, la mediana o la moda de las velocidades de los autos en la carretera. ¿Por qué?
7.72. Ejercícios 2.
Dadas
r¿
:
8 nrccliciones:
Deterrnine: rr) f; lr) 3
Dadas n
: I
4, 2, 6. 5, 7, 5, 4,
l¿r niecliarr¿r;
mediciones:
c)
,s;
43
6.
cl) el lango; e) la asimetría;
5, 8, 8, 4, 4, 9, 7, 5,
4.
Deterrnine: a) 7, b) la mediana; c) s; d) el rango; e) el RIQ;
1.
f) Ia cr-rrtosis.
f) la asimetría; f) curtosis.
En 1904, Cushny y Peebles publicaron en el artículo > (Journal of Physiologg), un estudio sobre el efecto de dos isómeros de Ia molécula hidrocinamida hidro bromida en prodrtcir sueño. Se presentó la variación en el núrmero de horas de sueño por noche al usar las dos versiones de Ia droga:
Paciente Dextro Levo
+0.7 -1.6 -0.2 -L2 -0.1 +3.4 +3.7 +0.8 +0.0 +2.0
1
2 .)
4 5 6
7 8
I
10
+1.9 +0.8 +1.1 +0.1
-0.1 +4.4 +5.5 +1.6 +4.6 +3.4
un diagrama de puntos para cada uno de los dos tipos de drogas y comparárelos. ¿Cuál de los dos isómeros es más efectivo en producir aumento en las horas de sueño?
a) Realice
b) Realice un diagrama de
tallo y hojas con los datos.
c) Calcule el promedio, la mediana ¿Cuál es más efectiva? Explique. ¿.
tenla
y la desviación estándar de los datos de las dos drogas.
Un inversor tiene ahorros repartidos en 3 depósitos con 2000, 5000 y 10000 dólares, respectivamente. Si el primero le rinde un 5To anual, el segundo un 4To anual y el tercero un 2To anual. ¿Cuál es el tipo de interés que recibe? En una empresa se registró la edad (en años completos) de sus empleados, resultando la siguiente tabla:
Como
31 49 36 45 61 40 51 18 29 36 40 46 56 35 48
Idela )ertor, trenen
39 39 34 37 44
56 29 57 47 27 36 42 38 62 49 25 2r 42 43 49
4t 40 51 37 16 37 31 28 25 39 35 37 22 25 28
trados teos.
a) Determine el número de clases que
b) Construya la tabla
: autos
dio, la
7.
de frecuencias
se debe
utilizar en la distribución de frecuencias;
y el histograma;
c)
¿Qué porcentaje de los empleados es menor que 50?;
d)
¿Qué porcentaje de los empleados es mayor que 35.5?
En una bodega de venta de licores se registró las principales. características de 25 marcas
de
Capítulo
44
7.
AnáIisis Exploratorio de Datos
rn'hiskys:
Nota de calidad
5
J
1
5
2
1
7.5
2
I I
I2 t2
3
1
5
1
8
0 0 2
Precio de venta
Proporción de malta
I
70
1
2
60
20 20
4
65 74
20 25
5
70
25
6 7
,J
70
30 30
,
55 93
8 9
62 87 78 83 90 110
10 11 T2
13
t4 15 16
113
t7
96
18 19 20
82
r27
2I
90
22 23
86 100
24 25
100 95
160
a) Identifique el tipo
b) c)
Tiempo de añejarniento
No. de whisky
Categoría
.,
2
30
I
5
J,l tt Jd
2
6.5
I
2
8
3
tt JJ
2
35
2
8.5 8.5
2
40 40 40 40 40 45 45
2 2
100 100 100 100
3 3
i00 100
3
4
2
8 5.5 T2
2
8.5
1
T2
dt
12
d
8.5
4
, 2 2
3 3 3 3
2 1
,
L2
3
12 12 10
4 2
3
11
q d
T2
0
de dato que representa a cada una de las variables;
y hojas para el precio de venta y ei tiempo de añejamiento; Calcule el promedio, la moda y la mediana del precio, la proporción de malta y el tiempo
Realice un diagrama de tallo
de añejamiento;
d)
Encuentre la desviación estándar, el RIQ V el coeficiente de variación del precio, la proporción de malta y el tiempo de añejamiento;
e) Calcule los coeficientes de asimetría y de apuntamiento del precio, la proporción de malta y el tiempo de añejamiento;
f) 8.
Realice un gráfico de barras de Ia categoría y de la nota de calidad.
Calcule el promedio, la mediana y la moda de las edades de 25 personas:
Determine la dislribución de frecuencias inclivicluales de los datos;
b) Elabore la distribución de frecueuci¿rs con datos agnrpaclos l)or clases; c)
-2.
A partir de la distribución obtenida, trace el histograma.
A continuación se dan los resultados de la estatrrra de 100 estudiantes:
Esratura (en cm) No. de eslrrdiantes
| 155 160
165
I 10 14
170 \75
26
180
185
28128
Halle: a) Ia estatura promedio
b) la media armónica c) Ia mediana
y Ia desviación estándar;
y la media geométrica;
y eI RIQ.
A partir de la siguiente distribuciórr de liecuencias, o;
lpo Encuentre:
ror-
a)
rlta
y superior y la mediana;
los cuartiles inferior
b) Ia media armónica; c) la media geométrica.
-=.
La siguiente tabla muestra la temperatura nocturna (en "C) clr.rrantc 200 días: Intervalo qA
4--
b
6-B 8-10
l0 a)
12
Flecuencia
Intervalo
21
12-14
16 15
26 OD
L¿
74 16 16 18 18 20 20 22
Frecrrencia
I4 20 22 1E :,-)
Deterrrile: cl plomedio, Ia mecliana y los cuartiles inferior y superior;
b) Constmya el cliagrama de ca.ja de los datos.
Los siguientes datos se obtuvieron de una encuesta sobre las condiciones de vida, en el área nrral dc los cantones dc Zapotillo y N{zrcará y corresponden al núrrnero de hornbres y de rnujeres que
Capítulo
7.
AnáIisis Exploratorio de Datos
intcgran las f¿rmilias encuestadas.
Hombres
Hornbres
\4ujeres
X4ujercs
Hombres
X4ujercs
Homblr:s \tlujercs
4
2
5
4
2 c
1
.)
t)
.)
2
2
2
4
4
4
2
,
2
7
4
.)
t
1
4
5
4
4
4 b
6
4
7
2
4
I
7
4
5
2
2
.)
2
2 t d
J
8
3
5
4
4 4
1
a)
Realice un diagrama de puntos de los datos, clasificados por sexo;
b)
Realice la tabla de frecuencias y el histograma de los datos, según el sexo de los encuestados;
c) Construya el diagrama d) Interprete y compare
de caja de los datos;
los resultados obtenidos en a), b) y c);
e) Determine el número total de miembros en cada familia. Con estos nuevos datos trace eI diagrama de puntos, el diagrama de tallo y hojas, la tabla de frecuencias, el histograma y el diagrama de caja. Interprete lo obtenido.
16.
Las siguientes temperaturas fueron tomadas al medio día en Quito (en
22, 24, 2r, 24, 20, 22, a) Calcule el promedio y la desviación estándar
'C) durante
una semana:
19.
de dichas temperaturas;
b) Para transformar los grados Celsius (c) en grados Fahrenheit (/) ." usa la ecuación / : 1.Bc * 32. Determine el promedio y Ia desviación estándar de las temperaturas en grados Fahrenheit;
c) Encuentre alguna relación entre
los promedios y las varianzas calculados en a) V b).
17. En una investigación
sobre la razón por Ia que frecuentemente habÍan colas muy largas en las cajas de un banco, se obtuvo información del tiempo (en minutos) requerido para atender a los clientes. Se tomaron 50 mediciones en una caja, las cuales se dan a continuación:
b) Determine (,' * s), (r I2s) y (e + 3s); c) Determine el número de observaciones que se encuentran en cada uno
de los intervalos;
d) Construya el diagrama de caja de los datos y compare con los resultados de la parte ¿Qué observa?
b).
7.72. Ejercicios
18.
47
La siguientc tabla muestra los tiempos de duración (en minutos) de las versiones en DVD de películas dirigidas por Alfred Hitchcock:
Película
Tiempo
Película
119
Dial M fbr
120
Foreign
116
I Confess
The Birds Family Plot
Frenzy
The Man Who Knew Too North by Northwest The Paradise Cane
Much
120 136 116 113
Window Rope Spellbound To Catch a Thief Under Capricorn Rear
81 111 103
Il7
22
Tiempo
Murder
105
Correspondent
120
f08
X4arnie Notorious Psycho Rebecca Shadow of a Doubt Strangers on a Train Topaz Vertiso
130 103 108
132 108 101
126 128
ios; a) Construya
un diagrama de tallo y hojas de los datos;
b) Calcule la mediana de los tiempos;
los cuartiles inferior y superior. Use esta información para detectar algún valor y atípico para trazar el diagrama de caja;
c) Calcule :e el
ray
d) Determine el promedio
y la desviación estándar;
datos mediante un diagrama de balanza. ¿Cuáles datos influyen más en los valores calculados?
e) Represente los
f)
Calcule los coeficientes de asimetría y de apuntamiento.
19.
Las notas de un examen de 6 alumnos son: 6, 5, 9, 19, 3 y 18. Un alumno aprueba si su nota es mayor o igual que el promedio y que Ia mediana de las notas. ¿Qué porcentaje de los alumnos aprobaron el examen?
10.
Un automóvil ha recorrido los 832 km que separan Loja de Esmeraldas, permutando regularmente las 5 llantas (incluida la de emergencia) para que todas tengan igual desgaste. ¿Cuál es el recorrido promedio de cada llanta?
+-
J-
ados
11. El kilometraje
que marca un auto, luego de 4 años de uso, es 100 mil kilómetros. Si el dueño lo compró nuevo y lo hace descansar 1 dÍa, luego de usarlo 4 días seguidos, ¿cuál es el recorrido promedio diario de los días manejados, considerando años de 365 días?
r
las a los
')2. De 400 alumnos promedio es 160
13
Se
de un colegio, cuya estatura promedio es 165 cm, 150 son mujeres y su estatura cm. ¿Cuál es la estatura promedio de los varones?
tiene cuatro números. AI añadir el promedio de tres de ellos al número restante, se obtienen y 29. Si se excluye al mayor de estos números) ¿cuál es el promedio de
los números 17, 2I, 23 los tres restantes?
)/
El promedio de 53 números es 600. Si se eliminan 3 números consecutivos, se observa que nuevo promedio aumenta en 5To. ¿Cuál es el mayor de dichos números consecutivos?
25.
Calcule la mediana de las siguientes temperaturas:
¿Cuál es la medida de localización más representativa? 28
En una reunión hay 50 varones con una edad media de 20.5 años y 25 mu.jeres, las que en promedio ,or, ] miís jóvenes qne los \¡arones. Halle el núrmero entero más próximo a la edacl '10 media de las personas de dicha leunión.
29.
Un ftrmador dice que su vicio empezó con un cigarrillo en la primera sernana, 2 en la segunda, 4 en la tercera, 8 en la cuarta, y así sucesivamente; hasta fumar casi 2 ca.jetillas diarias de 20 cigarrillos cada una, en promedio.
a) b)
¿,A cuántas semanas de
habcl empezado ocnrrió ésto?;
¿Cuántos cigarr-illos diarios, cn prornedio, fumó hasta la primera ser)ana que llegó al nláximcr de su consumo?
30.
Si cada uno de los 28 millones de habitantes de cierto país come) el promedio, 12 kg de pescadcr al año, entre conservas enlatadas y pescado fresco, siendo este rubro 4 veces el de conserva. ¿Cuántas toneladas de pescado fresco se consumen? en promedio, por año?
31.
En una muestra de 20 empresas florÍcolas se obtuvieron los siguientes datos sobre el núrnero de empleados y sus ingresos anuales, en miles de dólares: No. dc empleaclos
10 30 30 s0 50 - 100
Ingresos anlrales 50
-
100
6
100
2
250
250
- 1000 0
i
1
0
0
0
10
Calcule:
a) el ingreso medio anual de las ernprcsrrs; b) el número de empleados promedio.
32.
De los datos de rrna tabla de distribución de frecuencias, con 5 intervalos de clase ;r ancho de clase cornítn, se observó que: Qz:24, x:¡ : l$, 13 :24, nB : 2'n,r, n5 : )71r. ¿.Qué porcerrtaje del total sor nrenores de 30?
7.72. Ejercicios
49
cuánto es igual la suma de cifras dc la media aritmética de la siguiente serie de números'/
r¿
cifr¿rs n cifr¿rs
34. La siguiente tabla muestra la distribución
r¿
r¿ cifr¿rs
de sueldos de 210 trabajadores de una empresa.
Sueldo
Trabajadores
600 700 700 800 800 - 900 900 1000
100
1000
20 60 20
1100
10
a) Halle Ia moda de los sueldos; b) Debido al aumento de Ia productividad, los sueldos sufrieron un incremento del
70%o y,
adicionalmente, un aumento de 50 dólares. Halle el nuevo sueldo promedio.
35.
En una muestra de 1000 trabaiadores, se registró sus sueldos en una tabla de frecuencias: Sueldo
ue en
0
, edad
400 800 1200
400 - 800
de 20
150 300
- 1200 - 1600
200 250
2000
100
1600
¡rnda,
Trabajadores
a) Calcule la moda de los datos; b) ¿Qué porcentaje de los trabajadores tiene
sueldos comprendidos entre
el promedio y la
mediana?
irimo
36
En la siguiente ojiva se muestran los sueldos de Ios traba.jadores de un organismo estatal.
scado lser\¡4.
rero de
Figura 1.19: Halle la diferencia entre el promedio y Ia mediana. 37
En Ia sección de pediatría de un hospital, Ios niños atendidos se clasifi.caron según su obteniendo la siguiente tabla: Edad
Frec. absoluta
Frec. absoluta acumulada
03 rcho de
centaje
3-6 6-9 9-12
Frec. relativa
Frec. relativa acumulada
0.2 20
0.85 80
edad,
CapÍtulo 7. Análisis Exploratorio de Datos
50
Calcrrle el pronrr:clio, la rnecliarr¿r 38
v la clesvi¿rciól estánclar
la cclacl de los niuos ¿rtcndirlos.
Err la sigr.rierite tabla se rnuestr'¿r i¿r clistlilncióu ck: frecnencias clc l¿rs vcntas rc¿rlizad¿ls pol' 60 locales de uu ccntro comelcial popr-tlal de Ia ciudad cle Quitrt. Punto medio (r¿)
Si Ios intervalos tienen igual Ias ventas.
39
cle
Frec. absoluta
lc¡s
Frec. relativa
longitud, halle el promedio, la mediana y la desviación estándar de
En Ia siguiente tabla se muestra la distribución de frecuencias de los pesos de 100 personas: Peso
(t e)
Frec. absoluta
Frec. relativa
0-24 24-48 48-72 72-96
Frec. relativa acumulada
0.18 26
0.78
Calcule la mediana del peso de estos individuos. 40
La siguiente tabla incompleta muestra Ia distribución de frecuencias de los dcpósitos bancarios realizados por 50 clientes, siendo el ancho de clase es constante e igual a 200. Intervalo
Punto medio (r¿)
Frec. absoluta ("0)
Frec. absoluta acumulada (l/r)
Frec. relativa
(f)
9
0.22 I 100
t2 7
0.06
Luego de completar la tabla, calcule:
a)
¿cuántos clientes realizaron depósitos menores a 1000 dólares?;
b)
¿qué porcentaje de clientes realizaron depósitos entre 1200 5' 1600 dólares?;
c) el promedio, la mediana y la moda de
los depósitos.
Capítulo 2
El Concepto de Probab¡l¡dad Las preguntas más importantes de Ia uida son, para la tnaAor parte, realmente solo problemas de probabili,dad
Pierre Simon Laplace
-r
la naturalezay en la vida cotidiana se presentan fenómenos cuyo resultado se determina antici-
-.damente mediante la aplicación de ciertas leyes o fórmulas; por ejemplo, los resultados de mediciones :-rmétricas, los cálculos financieros o ciertos procesos físicos.
-enrbién existen fenómenos cuyo resultado no puede ser anticipado con cetteza, sino que existe una :tbabi,Iidad de que un cierto resultado se dé; por ejemplo, la ganancia que obtendrá un inversionista -=-pués de dos años, el tiempo que sobrevivirá un cónyuge a la muerte de su pareja o el número de ;-ros eu€ pasan por una esquina durante una hora determinada. Es evidente que nadie puede dar -, resultado certero con anticipación a los tres euentos considerados, entonces si se da una respuesta, -:'iste una incertidumbre en el resultado. ?ara dar una explicación matemática a aquellos resultados que aparecen en experiencias en que está -r'olucrado el azar, se desarrolló la teoría de probabilidades.
2.L. Reseña histórica -
a presencia del hueso de astrágalo de oveja, que constituye el antecedente inmediato del dado, en las =-
mil años. En Ia India, en el Rig-Veda (aproximadamente 1000 años a.C.), se menciona un ;:ego de dados como un intento de medir la probabilidad. En Grecia, Sófocles atribuye a Palámedes -= invención del juego de dados, durante el sitio de Tloya. Así, en casi todas las culturas antiguas = posible encontrar referencias que nos indican que el estudio de los fenómenos aleatorios (dados, -Jresencia de lluvia, el clima, etc.) fue muy importante.
-:
más de 40
=n el Renacimiento se produjo un abandono progresivo de explicaciones teológicas, lo que condujo a ';¡a reconsideración de los experimentos de resultado incierto, y los matemáticos italianos del siglo \VI empezaron a interpretar los resultados de experimentos aleatorios simples. Por ejemplo, Cardano, :n 1526, estableció, por condiciones de simetría, la equiprobabilidad de aparición de las caras de un jado. Por su parte, Galileo (1564 - 7642), respondiendo a un jugador que le preguntó por qué es n¿ís difícil obtener 9 tirando tres dados que obtener 10, razonó que de las 216 combinaciones posibles 51
Capítulo
52
ccluiplobables, 25 coticltrcett a 9 C o n,si, d, eraz'i, o ne.
s
o'p'ra,'il
q i,r
t,
oco
2. El Concepto de Probabilidad
y 27 a 10. Galileo publicó
estos rcsult¿rcios en un tlat¿rclo liarnaclo
d,e,t, d,o,rli.
El desarrolio clel an¿ilisis rnatenrático
los juegos dc azal se produjo dur¿rnte los siglos XVI y XVII. Algunos autores consideran como origen del cálculo de probabilidades la lesolución del prolrlema de los puntos en la correspondencia entre Pascal y Fermat en 1654. El problema planteado a estos autores por Chevalier de Meré, fue cónro debería repartirse el dinero cle las apuestas, depositado en la mesa, si los jugadores se ven obligados a finalizar la partida sin que existiera un ganador. Aunque ningur<-r de estos dos matemáticos publicó al respecto, sí lo hizo Huygens en su tratado Ratioci,n'iis 'in In,do alae (Razonamientos relativos al juego de dados). Su escrito tiene Ia trascendencia de ser el primer liblo de probabilidades de la historia. c,le
Durante el siglo XVIII, el cálculo de probabilidades se extendió a problemas físicos y de seguros marítimos. El factor principal de su desarrollo fue el conjunto de problemas de astronomía y de física que surgieron ligados a la constatación empírica de la teoría de Newton. Un primer problerna fue el tratamiento de los errores de medición: se disponía de varias medidas independientes de una determinada magnitud física y se presentaba el interrogante de cómo combinarlas para obtener un resultado más preciso. Daniel Bernoulli (1700 - 1782) proporcionó la primera solución al problema de calcular una cantidad desconocida a partir de un conjunto de mediciones de su valor que) por el error experimental, presentan variabilidad. Pierre Simón Laplace (I749 - 7827), introdujo la primera definición explícita de probabilidad y desarrolló la ley normal como modelo para describir la variabilidad de los errores de medida. En esta época también hubo importantes contribucfones de matemáticos como Legendre (1752 - 1833) y Gauss (1777 - 1855) para tratar de realizar predicciones del comportamiento de ciertos fenómenos.
Durante el siglo XIX, los matemáticos y astrónomos continuaron ampliando la teorÍa, de manera que a mediados de este siglo ya existían Ias herramientas que permitieron su consolidación como una rama, científica. A pesar de ello, la aplicación de estos principios se restringÍa a Ia Física y la Astronomía. Una descripción axiomática de la idea de probabilidad fue dada en 1933, por A. N. Kolmogorov. Ello constituyó la base de la moderna teoría, tal como hoy la conocemos. Con ésto, se consiguió elaborar modelos complejos y aplicar las probabilidades a muchas ciencias y campos de Ia vida.
En las últimas décadas, el empleo de la teoría de probabilidades en las modernas ciencias naturales, en las ciencias sociales y en ramas de aplicación, como la ingeniería, el cálculo actuarial o la economía ha crecido enormemente y su conocimiento es una necesidad imprescindible. Antes de iniciar el estudio de la probabilidad, revisemos los principales conceptos del análisis combinatorio.
E
_I--
:
2.2.
Fundamentos de análisis combinatorio
Primero, definamos eI factori,al de un número entero positivo
n!:nx(n-1)
x
z¿
como el producto
x2xl. con0!:1
Ahora, consideremos un conjunto finito compuesto por n elementos diferentes: {a1,a2,...,a,-}. Se por k elementos (k I El número de estos subconjuntos "). depende de si los conjuntos son ordenados o no. Las colecciones ordenadas se llaman uariaciones y las no ordenadas combinaci,ones. desea formar una colección constituida
.
2.2. Fundantentos de análisis contbinatorio
53
Definición (de variación)
Se clenornin¿r variaci(rrr a c¿r.cla nrro cle los irrrcgJ,os orclcrr¿rrlos clc /' lenreutos, tornaclos cle otlo cle n r:lernentos (k ( n). cle rnanel'¿l cluc estos arrcrglos rlificrcrL cn algúur .-enientr.i o en el orden de colocación.
r-
rrúrrnero cle r'¿rri¿rciones de A; elementos qne pueden obtenelsc a partir: de rin coujlurto rl
,nl
Wn:'n
(n-A:)!
Definición (de combinación)
Se denomina combinación a cada uno de los subcorr.juntos de k (A: ( n), sin tener eu cttenta el ordcn de los rnismos, de elernentos de otro de n .-ementos, tomados --.anera que no pueden haber dos combinaciones con los mismos elernentos.
:-
número de combinaciones de k elementos que pueden obtenerse a partir de un conjunto de n .-:mentos, denotado por Cf., es igual a nl.
kt(n
{ Cf se le denomin
-
k)t'
a coef.ciente bi,nomi,al.
E.jemplo. Encontrar el núrmero de variaciones y de combinaciones de dos elementos que -.'tener a partir del conjunto {a,b,c}.
-:'lución: a)
Se tiene
Se pueden
n : 3 y lr :
formar
2.
3! : 6 : V! : .-(3-2)! ;1 (a,
'o) Se pueden formar
^2 "3 -
se pueden
b),
(b,
6 variaciones, qlle soII:
a), (a,r), (c,a), (b,c), (c,b).
3! : 2(3 - 2)! ^-L 2.r
3 combinaciones:
{o,b}, {o,"}, {b,r}. Definición (de permutación) Una permutación de n elementos
r:
es cada una de las variaciones
los n elementos distintos.
=- número de permutaciones de
n elementos
es igual a
Pn: Ejemplo. Encontrar I 'iuc'ión: Son P3
:
n!'
Ias permutaciones que se pueden forurar a
3!
:
paltir del conjunto {a,b,c}.
6 permutaciones; éstas son:
(a,b,c), (a,c,b), (r,o"b), (c,b,a), (b,c,a), (b,a,c). -dirora, consideremos dos conjuntos de rn
y n elementos, respectivamente:
A: {at,a2,.".,a,r} y B : {h,bz,...,brr}.
Capítulo
54
2. El Concepto de Probabilidad
Parejas. Con los n¿ elementos <.lc A y los tr elerucntos <¡rr: contcngan lln cleniento rle c:¿rd¿r con.jrrnto.
cle
B
cs posible forrn¿rl nt,xTt ptrlejirs (rt,¡,lt¡,)
Ejemplo. En uu¿r f¿ibrica cle calz¿rc,lo se confcccir¡n¿rn 4 Lnodcl<¡s de zapatos lttlla. clirmas, en 6 tztrrrarius cliferentes. Por lo tanto, se pr-reden fabricar 4 x 6 : 24 distintos tipos de zapatos. Gencralicemos estc concepto a arreglos mírltiplcs.
Arreglos múltiples. Consideremos los conjuntos A: {at,a2,...,a,rr} de n¿ elementos, B : {ú,b2,...,b,r}dcnelementos,yasísucesivamentehastaG:{g,g2,...,g"}deselementos. Con ellos es posible formar rnxn x...x s arreglos (a¡,b¡,...,gr) que contienen un elemento dc cada corr.lunto.
Otra forma de ver este concepto es considerar un procedimiento A que se puede realizar de m maneras; un procedimiento B de n maneras; y así sucesivamente, hasta un procedimiento G de s rnaneras. La acción consistente en realizar el procedimicnto A, seguido del procedimiento B, hasta llegar al procedimiento G; se puede efectuar de m x n x - -' x s maneras diferentes.
Ejemplo. Suponga que se clasifica a un grupo de estudiantes universitarios según su sexo, estado civil y la carrera que estudian. El sexo puede ser masculino o femenino; el estado civil puede ser soltero, casado o divorciado; y, digamos que hay 7 carreras. Entonces, hay un total de 2 x3 x7 : 42 clasifi.caciones diferentes.
Anteriormente, se examinó las permutaciones de elementos de un conjunto, pero sin repetición; si ahora queremos determinar las permutaciones con repetición, bastará considerar en los arreglos múltiples el mismo conjunto.
Definición (de perrnutación con repetición) llna permutación con repetición, de k elementos obtenidos a paltir de un conjunto de n elementos, es un arreglo de k elementos ordenados en el que los elementos pueden repetirse arbitrariamente. El número de permutaciones con repetición es igual P,\,
:
a
nk
Ejemplo. Con los elementos del conjunto A: {a,b,c}, ¿cuántas permutaciones con repetición,
de
dos elementos, se pueden formar?
Soluc'ión: Se van a formar parejas considerando dos veces el conjunto A, por Io tanto se tiene y k :2; entonces, hay un total de 32 : 9 permutaciones con repetición; ellas son: (a,
2.3.
a), (a,b), (a,c), (b,o), (b,b),
(b,
n:
c), (c,a), (c,b), (c,c).
Eventos y espacios muestrales
Examinemos un ejemplo: el lanzamiento de un dado una sola vez. Como resultado de la prueba se pueden producir diferentes resultados: <>, <, <<€l número que aparece es par>>, etc. Esto nos conduce a definir \os euentos.
Definición (de evento) Se llama evento, notado como (r, a cualquiera de los resultados posibles de un experimento u otra situación que involucre incertidumbre. Los eventos se clasifican en: elementales, aquellos que constan de un solo resultado: r compuestos, que consisten de más de un resultado. Por ejemplo, <> es un evento elemental: mientras
2.4. Defrnición axiotnática de la probabilidad
bl)
llre <> es un evento conpuesto, l)orque cstá conformado de Los cventos -lementales <(sale dos>>, > y <. ,Jbselvernos que todo cvento relacionado con una pn,reba
se pr"rede
desclibir en términos de evertos
.lenrenta,les.
Definición (de espacio muestral) La colección
de todos los eventos elementales, notirdo por Q,
-e denomina espacio muestral:
A: {rl o es evento
elemental}.
lntonces, un evento no es más que un subconjunto del espacio muestral O.
por Gaiileo para resolver el problema -e por qué en el lanzamiento de tres dados "10" y "11" aparecen más frecuentemente qr-re "9" y "72" . ?ara resolverlo listó todos los casos posibles. Señalemos que el concepto de espacio muestral fue introducido
-,
olviendo al ejemplo, si consideramos el número de puntos que aparecen al arrojar un dado, tenemos: Espacio muestral: Q
:
{1, 2,3,4,5,6}.
A-- { el número que sale es par }: {2,4,6}. -''rmo los eventos se asocian a conjuntos, es natural pensar que sus operaciones tienen algún significado rmo eventos.
::an A y B dos eventos de O, en el siguiente cuadro se presentan 1as equivalencias entre las proposi--rnes de las teorías de probabilidades y de conjuntos y en la Figura 2.1 se encuentran los diagramas -r Venn correspondientes.
Notación 0 0
.4r B -4. B
.4\B
-4':CI\A
A)B:A ,4C B
lnterpretación en la teoría de conjuntos Elemento o punto Conjunto de puntos Conjunto vacío Unión de conjuntos Intersección de conjuntos Diferencia de conjuntos Conjunto complementario Conjuntos disjuntos A es subconjunto de B
:s claro que estos
:
s IS
Interpretación en la teoría de probabilidades Evento o suceso Espacio muestral (suceso seguro) Evento imposible Por lo menos uno de los eventos A o B ocurre Ambos eventos A y B ocurren A ocurre y B no ocurre No ocurre A A y B se excluyen mutuamente (incompatibles) Si A ocurre, también B
conceptos se extienden a cualquier sucesión de eventos.
2.4. Definición axiomática de la probabilidad Lna probabilidad provee una descripción cuantitativa de la posibilidad de ocurrencia de un evento ;,articular y se puede pensar que es su frecuencia relativa, en una serie larga de repeticiones de una -rrueba, en la que uno de los resultados es el evento de interés. Formalmente, la probabilidad de un evento ,4 se define como una función que cumple:
Capítulo
56
2. EI Concepto de Probabilidad
i
I
I
A
ii
Figura 2.1: Interpretación de los conjuntos como eventos: a) Ocurre eI evento A. b) Ocurre A u ocurre B (A U B). c) Ocurre A y ocurre B (An B). d) Si A ocurre, también B (A e B). e) Eventos incompatibles (A ) B :0). f) No ocurre A (ocurre A").
. A1.
Para todo evento A: 0 < Pr(A) S 1.
. A2. Pr(Q) : r. . A3. Si A y B son incompatibles:
Pr(A U B)
:
Pr(,a) + Pr(B).
De aquí, no es difÍcil demostrar que en general se cumple la relación:
Pr(A u B)
:
Pr(A) + erla¡
- Pr(Á. B)
(2.1)
conocida como fórmula de Ia probabilidad para Ia unión.
Ejemplos
1.
Dados los eventos A, conjuntos los eventos:
B y C del espacio muestral f). Expresar mediante las operaciones
entre
a) Tan solo ocurre A.
b) c)
Si ocurre A, no ocurre B.
Por lo menos dos de los eventos ocurren.
Solución:
a)
Puede ocurrir A, r E AA B" NC".
b)
Si no ocurre
y simultáneamente no ocurre B y no ocurre C;
B entonces ocurre B";
es decir que <
es decir que el evento es
ocurre A, también ocurre -8">>, el evento
esc€ AcB". c) Ocurrirán (Ay B) o (Ay C) o @ V C) o (Ay B y C), pero el último evento está contenido en los tres primeros. El resultado es: Í € (,4n B)U(AnC) U (BnC).
2.
Demostrar que:
a) Pr(Á")
- 1-
Pr(A).
2.5. Cálculo de probabilidades b) Si A C B
errtorices PL(A)
:)t
< PL(ll).
Soht,ción,:
0: A¿A' (conAyA"disjuntos), entoncesi)or A3.. PL(O) :Pl(A) +Pr(A") vpolA2., Pr(O) : 1; corr lo que se obtiene: 1 : Pr'(A) + Pr(Á") v el lesultaclo es inrnediato. b) Si A C B entonces B: AO(A' tl.B) siendo Ay (A ttB) incompatibles; por lo tanto, por' A3. Pr(B) : Pr(A) + Pr(4" n B). a)
Por ,A1.,
.A.
Pr(A n B) > 0, entonces Pr(B) > Pr(A).
continuación damos varias definiciones de mucha utilidad:
:
1.
Dos eventos son igualmente probables si Pr(,4)
2.
El evento A es mós probable que B si Pr(A) > Pr(B).
3.
Pr(B).
Euento c'ierto.- Es el que siempre aparece en la realización de un experimento, su probabilidad es igual a 1.
4.
Euento zmpos'ible.- Es aquel que jamás puede ocurrir, su probabilidad es igual a 0.
2.5. Cálculo de probabilidades -\l realizar el cálculo de Ias probabilidades
es necesario distinguir de qué Cisponemos; ellos pueden ser: fi.nito, infinito numerable o continuo.
tipo de espacio muestral
2.5.L. Espacios muestrales finitos Si consideramos el evento A: {rtru)2¡...,o¿}, su probabilidad está completamente determinada si conocemos sus valores en cada elemento Pr({r,,,1}), Pr({a.'2}), . . ., Pr({c,.'¡,}); entonces,
Pr(A)
:
k
(2.2)
DPr({a.'¿}). i:t
Un caso particularmente importante se presenta cuando todas las probabilidades Pr(c.r) son iguales. Si convenimos en designar Card(A) el número k de elementos del conjunto ,4 de elementos del espacio muestral; entonces,
Pr(A) :
Casos favorables de
y Card(O) el número l/
A
Casos posibles
Card(A) k Carcl(A) ¡/ Es decir, la probabilidad de un evento aleatorio A es igual a Ia rel¿rción cntre el núrmero de everrtos eiementales favorables (cuando A sucede) y el nirmero total de eventos elementales del espacio muesrral. Esta definición es satisfactoria en ploblemas referentes a jr,regos de azan',loterías o experimentos sencillos.
2. EI Concepto de Probabilidad
Capítulo
58
En el ejemplo clel lanzamicrtto cle O
:
dado cortsicleremos el evcnto A <
rrn
: 6, Card(A) :3.
{1, 2,3,4,5,6},
A
:
Card(O)
{2,4,6},
Pr(A)
¡rar>>:
Card(A) :-:-31 :ffi 62
En los siguientes ejemplos, consideraremos espacios mnestrales finitos y aplicaremos los conceptos análisis combinatorio al cálculo de probabilidades.
de
Ejemplos
1.
En un estante hay 2 libros de historia y 3 de biología. ,Ll azar, se toma un libro y luego se toma un segundo libro. Encontrar la probabilidad de que un libro de biología sea seleccionado: a) la primera vez; b) ambas veces. Soluci,ón:
a) Por defi.lición, O : {11r, Hz,Bt,Bz,Bs}. Sea A el evento <>; Pr(A) '-'
b)
es decir,
A: {Bt,Bz,Bs}.
:9'1!9 :I Card(f^)) 5'
Que ambas veces se seleccione un libro de biología significa:
. .
que la primera elección es un libro de biologÍa, entonces se tiene 3 casos favorables; y que la segunda elección también sea un libro de biología, entonces hay 2 casos favorables.
Así, el número de casos favorables es igual a 3 x 2 : 6. El número de casos posibles, de todas las parejas sin repetición, es 5 x 4 Entonces, la probabilidad buscada es
63 u- 20 2.
Por tanto,
:20.
10'
En la final de un concurso escolar de matemática participan 6 alumnos, de los cuales 3 pertenecen al colegio A. Si se premia a los dos primeros con regalos diferentes, ¿cuál es la probabilidad de que los alumnos del colegio A obtengan los 2 premios?
Soluciórt: El conjunto f) está constituido por las parejas que se pueden formar con los 6 participantes. El número total de parejas es Vfr Sea el evento
B:
: fr :
tO.
<>.
El número de casos favorables en el cual 2 de los 3 alumnos del colegio A ganan los premios es: V3 : o. Luego,
Pr(B)
3.
:*:0.,
Entre 100 fotografías de un sobre se encuentra la foto buscada. Del sobre se extraen aI azar 70 fotos. Hallar la probabilidad de que entre ellas resulte la foto necesaria.
Solución: Ei espacio muestral Q está formado por los conjuntos de 10 elementos que pueden formarse a partir de 100: Card(A) : Cl8o.
2.5. CáIculo de probabilidades
59
núrmero de resultados favorables que nos interesa es igual escogerse 9 fotos de las 99 restantes; es d'ecir, Card(A) : CBg'
al total de formas como pueden
El
La probabilidad buscada
es
Pr(A)
4,
CP^ :eÉ';:10. 1
En el Consejo Universitario cada una de las 10 facultades está representada por el decano y el subdecano. Se nombra una comisión de 10 miembros elegidos aI azar. Determinar Ia probabilidad de que:
de
a) una determinada facultad esté representada; b) todas Ias facultades estén representadas. Solución: )ma i) la
facultad dada no está representada>>, y en calculemos su probabilidad. Hay 20 representantes, 18 de ellos no son de la facultad cuestión, por Io tanto existe" C18 casos favorables' EI número de comisiones diferentes de 10 miembros que se pueden formar con los 20 miem-
a) Considerando el evento complementario A':
bros es C|$,
entonces
Pr(a")
<
r_rlq g : s, :;ifr
finalmente,
Pr(A) s'Y
-1-*:#
x0.7632.
de maneras diferentes en que pueda estar un representante de cada facultad en la comisión es 210. La probabilidad del evento B: <>
b) EI número
bles.
Pr(B)
:
#ry
0.00554.
arrojan dos dados. Hallar la probabilidad del evento salen más de dos puntos). Se
¡:
{al menos en uno de los dos dados
Solución: EI espacio muestral puede describirse como reCen
cl:
rd de
rarti-
{(i,
j)li, j: L,2,...,6},
j donde el evento elemental (i,j) corresponde a los ¿ puntos aparecidos en un dado y los puntos aparecidos en el otro. Consecuentemente, Card(Q) : 36. Designemos como 81 el evento consistente en que en el primer dado salen más de dos puntos y con B2 el evento análogo para el segundo dado:
Bt : {U,j)l i-_ 3,4,5,6; i :1,2,-..,6}, Bz : {(i, j)l i -- L2,. . . ,6; i :3,,4, 5,6} u10 Leden
por lo tanto, card(B1) : card(Bz) :21. Puesto Card(B1 ¡ B) :42 :16. Ahora bien,
Pr(81)
:
Pr(Bz)
:'! : 36
qrue
?, y
B1l\82: {(i, i)l Pr(81
i,i :3,4,5,6},
¡Bz):#:Í
entonces
Capítulo
60
2. El Concepto de Probabilidad
Dc la fór'rnula dc probtrbilidacl para la nrriórr se obtiene:
Pr(A) :
Pr(l]1 ¿
Bz): Pr(Br) + PL(82) - Pr(81 ¡
2248 : 5-5-9:b
Se recomienda que el
Bz)
lector resuelva este ejercicio rnediante el ernpleo del evento complernentario.
u)2¡...run,...} un espacio muestral infinito numerable; entonces, resulta
que
:1, ie,1i,,,)) i:l luego, si
A
es un evento de Q, su probabilidad se calcula por
Pr(A)
: t Pr({a.'¿}). u¡,€A
Para el cálculo de las probabilidades, generalmente, se utilizan series numéricas infinitas.
Ejemplo. Juan y Andrés juegan tenis con la misma habilidad. hasta que uno de ellos gane 2 sets seguidos. Halle la par de sets para terminar el juego.
Solución: Sean los eventos: J:
<
Deciden jugar una secuencia de sets probabilidad de que se necesite jugar número
set Juan>> y A: <>.
Segúrn el enunciado, el espacio muestral está conformado
rL 1. 2. 3. 4. 5. El evento B:
Empieza Juan ganando
*
JJ
JAA JAJJ JAJAA JAJAJJ
por los siguientes eventos elementales:
Empieza Andrés ganando AA AJJ AJAA AJAJJ AJA.IAA
* *
jugará hasta que uno de ellos gane 2 sets consecutivos>> es la unión de los eventos que están señalados con una estrella (*) en el espacio muestral. <
Se tiene que
Pr(JJ) +
Pr(AA) :
Pr(JAJJ)+ Pr(AJAA) Las restantes probabilidades,on
:
1
i' 1
=. 8
l,32', l12g'etc'
Entonces, la probabilidad de B está dada por la suma
Pr(B)
: :
[Pr(JJ) + Pr(AA)] + [Pr(JAJJ) + er(e;eA)]
1111 _ _ _ _l_
_l_
-.t-
2'8'32'128 -
_-!- -.
1
')2tt-l
_.1_
-
_l_
+...
2.5. Cálculo de probabilidades La srrlrr¿ cle est¿ selie geornritrir;¿r es igual a ?, ,r,,r'Io clrrc Pr(B)
33
:
61
?.
2,5.3. Espacios rnuestrales continuos Sttpongamos c¡te sc tienc rtna" figura ¡rltrna f) v
l'r'(-4)
:
Area de f)
-.
O
Figura 2.2: Interpretación geométrica de Ia probabilidad.
ItS
)ro
En general, si A es un evento cle un espacio mnestral continuo O, tal que su rnedicla (longitud, ',rotrr*"r., ,iempo, etc.) existe; entonccs, su probabilidad cs
Pr(A):
\{edida cle ,4 \tledida de O'
Ejemplos
1,
Sobre un plano se trazaron circunferencias concéntricas de radios 5 cm y 10 cm, respectivamente. Halle Ia probabilidad de que un punto marcado aI azar en ia circunferencia mayor caiga también
en el anillo forrnado por las dos circunferencias (Figura 2.3).
Figura 2.3: Sol:uciór¿: El ár'ea del círculo lnayol es
,5: I02rcm2: 100ir<'rrr2.
El área del anillo comprendido entre las dos circunferencias es igual a la diferencia entre las dos áreas:
7:
(702n
-
52n) cm2
:
75tr cnt2; entonces,
Pr(A)
T 75r cttt2 :s:loo;"-t:o'75'
Capítulo
62
2.
l) :
{(:r;. !l) I () <:t; I 1; il v sitP
2. El Concepto de Proba'bilidad
í :l I ii
(i,';grui.2"4) ci i:sirir.<:io irirrstliil ,i,:r rrrr fcririrrrcro akrirtoli¡r (l'¡itrrr,'l;r ¡risrir¿r ¡rlolrrrlrilirltlrl ilc sLl 1r".r¡LtLo clL r;rrerL1a. Jr
O
il 4
,,4n8
x
E
117
Figura 2.4: Detclrninar' la probabilidacl de los evcntos:
A: {(r,y)/0 I r < tl2; 0< y < t}; lr) B : {(",y)10 ( r { 1; 0 < y < lla); .d)
c) An B; d) A¿ B. Solttctór¿:
O: 1 x 1 : 1. Áre.r cle A:! * t: 1. eutr¡nces pr(.,{) - !12 :!. 22 1: l,) Árcu de B - * j,,,,rto,,,", Pr(1J) :+ = i ' 1: a) Árca
Cr-rántcls alrcglos se prrerlcu forrn¿u corr los eleurcntos de los cou.lrurtos cuv¿r cardin¿rlicl¿rd sc in
: 2 Ctrrcl(B) :7;
: 4; b) Card(A) :5; a) Card(A)
6.
Carcl(C)
- 5. :4;
Card(D)
:
5.
Cnántas palejas con rclposicrón pueden formar-se con conjuntos crtya c¿rlclina.lidad
n:3;
a) l.
Crrrd(C)
Card(13)
b)
rz:5;
c)rt:T;
es:
d) rr,:8.
Ftxure todas las combinaciones y valiacioncs qlre se pnerlen obtener a parl,ir de los cortjuntos:
a) A: {a,,e,'i,o,z} cn grLlpos de tres elementos; b) B : {I,2,3,4, 5,6} en grupos de tres elementos. 8.
Para los conjuntos indicaclos forme todas las pa,r'ejas sin reposición y parejas con reposición:
^)
b) B: {I,2,3,4,5,6).
A: {a,e,i,o,u};
r;¡r cortrruc uv.r-iu!ar--- -, .--:. eiirr-'131. ql.- -.-:ii¡r::-,i', , $:rL)iici y [1 silllg:r'ente; debe elegi' un presidente y r-rn vicepresiderr c. ¿De cuántas maneras se pueclerr elcgrr esr,e par dc fiutcrorr¡ilios si el presidente debe ser nn ;:iente?
Ul
hospital cuenta con 21 ci r.ijanos (ion ri)s, ¿.Cuánttrs ternas sc pueclen f:rrnar?
,,'-¡.ies
hay que folrnar ter-uas para re¿lizar guardias.
Un amigo le quiere regalar a ¡tro 3 cliscos y los quiele clegir cntre los 10 que más Ie gustan.
¿.Dc
cuántas marreras pucde hace¡'lo? ')
c,iirs, r'ccolclando quc éstas sorr difclentes, J.as malcó al azar-. Halle la probabilic.lad de que se haya marcado las cifras Al
marc:ar urr núrniero telcfónico lula persona olvidó las trcs írltimas
correct¿ts.
De entre 9 empleados se deben selecciorrar a 3 para viajar a 3 Jrlar,'¿s A, B y C fuera dc la ciuclad. Cacla empleado irá a una planta. ¿De cuántos modos se puede iracer la selección de los ernpleaclos que via.jarán?
Eu cl ejcrcrcio ¿rntelior considéresc qrre los 3 enrpleirclos \¡an a ir rnaneras se puede hacer la seleccicin?
¿l
l¿ misrna
planta.
¿.D<:
curintas
Si cn el ejelcicio antcrior, cle los 9 ernplcaclos, 7 son homl>res. ¿Cuál es Ia probabilidacl entrc los tr
de
scle¿cciorra: cx¿rcta,rnentc r.rrrtr nrr-¡er _)
¿.Cuárrtos nrirneros de 6 cifras pucderr haccrse con los
rr) sin rcstlicción
algrrua'/;
b)
dígitos
sin rcpctil ling;'.url
{I,2,3.4,
cifra?; c)
5, 6}:
maStolcs c¡rc 500000?
Sicte pcrson¿rs h¿1n soiicitado empleo para lleuar dos r.acantcs. ¿De cuárrtos modos se puerclen llcrrar l¿ts vat:¿rrrtcs si:
rr) la pr:irncr¿l i)crlsou¿l selcccionacl¿r tecibr,r b) no hay clifer'
nr¿:tyor
Etr tttr lestattrarttr: cie cotnicla rtipicla se inclir:a al clicrrtc (lrrc sri harnbrrlgr-resa. a rnás del pan 1, la catne, puede ir cou todo lo siguiente r¡ sin ello: sals¡r clc tornatc, nrostaza, rnayollesa) lechuga, cebolla, tomate o queso. ¿.Crt:intos tipos difercnt<,rs <1r: hirrnburguesas son posibles?
20.
La producción de una rnáqnina cronsta de 4 f¿rses. Ilirl' 6 líneas cle montajc pala la primera fase, 3 para la segunda, 5 para l:t telcrerir, y 5 para la irltirrr¿r. Detelmine de cnántas forrnas distintas se puede montar Ia máquina en este proceso de producciórr.
21. Eu un plano hay 15 puntos
quc
de los cuales rro hay tles que sean colineales. ¿Cr-riintas rectas
determinan? 22.
¿Cuántos triángulos determinan los vértices de un polígono regular de 9 lados?
23.
Una heladería tiene 16 sabores disponibles. ¿De cuántas formas se pueden pedir 6 helados si:
a) no se elije el mismo sabor más de una vez?; b) se puede pedir un mismo sabor hasta 6 veces?; c) un sabor no se puede pedir más de 5 veces?; d) la mitad debe ser de fresa? Un entrenador de fúrtbol debe seleccionar a 11 jugadores de entre los que había
24.
conúocado anteriormente para Ia concentración. Si puede hacer su selección de 72376 maneras, ¿.cuántos jugadores estuvieron preserrtes en Ia concentración? (Se supone que ningirn .jugador tiene un puesto fijo de juego.)
25
En un Ienguaje de computación, un identificador consta de una Ietra o de una letra seguida de hasta siete símbolos, qrte ptteden ser letras o dígitos. (En este lenguaje son indistinguibles las letras mayúsculas y minúrscrrlas, hay 26 letras y 10 dígitos.) ¿',Cuántos identificadores diferentes se pueden utilizar en el lenguaje de computación?
26.
En cualquier set de un partido de tenis, el oponente X puede vencer al oponente Y de siete maneras. (Con el marcador 6 - 6, se juega uu desernpate: tie breaker) El primer tenista que gane tres sets obtiene la victoria. ¿De cuántas maneras se pueden registrar los resultados si: a) X gana en cinco
sets?;
b) para ganar el partido 27.
se necesita
jugar como mínimo
tr.es sets?
¿De cuántos modos se pucden poner 5 anillos diferentes en los dedos de una narlo. omitiendo el
pulgar?
Definición de probabilidad 28
Sean Q un espacio muestral y A, B y C eventos cualesquiela) exprese las siguientes afirmaciones conro uniones e intersecciones de A, B y C y de sus conrplementos.
ocurre; c) No ocurre más que un e\-ento: b) Por Io menos uno de los eventos A, B, C d) Ocurlert exactanlellte cios eveutos; ocnrre; e) Ocrrrren no más de dos e\-entos. a) Ninguno
de los eventos
A, B, C
29. Con el empleo de Ia definición
de probabilidad, dernuestre:
2.6. Ejercicios a) Pr(0) : o; b) Pr(AuB) : Pr(A) +Pr(B) aj
-Pr(Ana);
c) Pr(A u B) < Pr(A) + Pr(B); cl) Pr(A) : Pr(-4nB) +Pr'(AnB').
30. Se arrojan dos dados, sean A el evento <>, y B el evento <>. Describa los eventos A a B, Atl B, A l\ 8". Encuentre sus probabilidades si se supone que los 36 eventos elementales tienel igual probabilidad.
i€, AS
31. Se consideran dos eventos A y B, tales que Pr(A) : 1 r PrlB) : 1. 2 3" Pr(A'O B) en los siguientes
casos:
a) A y .B son incompatibles; b) A C B; :32.
Se consideran dos eventos
Determine el valor de
Ay B, con Pr(A) :
c) Pr(A n B) 0.375,
Pr(B)
:
0.5 y
er(AnB) :0.125.
c) Pr(Á" ) B"); d) Pr(Á" n B) y Pr(A.
a) Pr(Á") y Pr(B"); b) Pr(A u B); A y B dos eventos tales que Pr(A)
:0.9 y Pr(B) :0.8.
: :1 8
Demuestre
Calcule:
Bc).
quePr(AnB) >
'),).
Sean
0.7.
34.
Un experimento aleatorio consiste en arrojar una moneda y un dado a la vez y observar resultado. Escriba el espacio muestral del experimento.
el
rdo
tos
,JD
utl
de las
tes
Una empresa tiene dos tiendas distribuidoras, una en el norte y otra en el sur de la ciudad. De Ios potenciales clientes, se sabe que el 30% solo compra en la tienda norte, el 50% solo compra en la tienda sur, el 10 % compra indistintamente en las dos tiendas y el 10 % de los consumidores no compra en ninguna de las dos. Sean los eventos A: <> y B: <>. Calcule las probabilidades (e interprételas):
a) Pr(A); b) Pr(,A u B); c) Pr(B");
ete
d) Pr(A n B); e) Pr(A \ B);
f)
Pr(Á" ñ B");
g) Pr[(A n B)"];
h) Pr(A u B').
lue :
36.
En la intersección de una autopista, los automóviles pueden girar a Ia derecha (D) o a la izquierda (1) Desde un puesto de observación se registra el sentido de la maniobra de los tres primeros vehículos.