Este libro está escrito con el fin de ofrecer una buena introducción a los métodos estadísticos aplicados para que sus lectores puedan realizar un sólido análisis estadístico en muchas situaciones empresariales y económicas. Hemos hecho hincapié en la comprensión de los supuestos que son necesarios para realizar un análisis profesional. Con las computadoras modernas, es fácil calcular a partir de los datos las salidas necesarias para muchos métodos estadísticos. Es tentador, pues, aplicar meramente sencillas “reglas” utilizando estas salidas, enfoque que se adopta en numerosos libros de texto. El nuestro es combinar los conocimientos con muchos ejemplos y ejercicios y mostrar que la comprensión de los métodos y de sus supuestos es útil para entender los problemas empresariales y económicos.
Incluye CD El libro va acompañado de un CD-ROM que contiene los archivos de datos relativos a los ejemplos y ejercicios resueltos.
Otros libros de interés Levine, David M. Estadística para administración Pearson Prentice Hall ISBN 9789702608028
Sarabia, J. M. Gómez Déniz, E. Vázquez Polo, F. J. Estadística actuarial Pearson Prentice Hall ISBN 9788420550282
Estadística para administración y economía
6ª ed.
Newbold Carlson Thorne 9
9
www.pearsoneducacion.com
Paul Newbold.indd 1
788483 224038
ISBN: 978-84-832-2403-8
788483 224038
Incluye CD
6ª edición
Estadística para administración y economía Paul Newbold William L. Carlson Betty Thorne 5/12/07 10:25:20
Regresi6n simple /
Esquema del capitulo 12.1. Analisis de correlacion Contraste de hipotesis de la correlacion 12.2. Modelo de regresion lineal 12.3. Estimadores de coeficientes por el metoda de minimos cuadrados Calculo por computador del coeficiente de regresion 12.4. EI poder explicativo de una ecuacion de regresion lineal EI coeficiente de determinacion Ff2 12.5. Inferencia estadfstica: contrastes de hip6tesis e intervalos de confianza Contraste de hip6tesis del coeficiente de la pendiente poblacional utilizando la distribuci6n F 12.6. Predicci6n 12.7. Analisis grafico
Introducci6n Hasta ahora hemos centrado la atenci6n en el anal isis y la inferencia relacionados con una unica variable. En este capftulo extendemos nuestro anal isis a las relaciones entre variables. Comenzamos con una breve introducci6n al analisis de correlaci6n, seguido de la presentaci6n del anal isis de regresi6n simple. Nuestra presentaci6n es paralela a la del Capftulo 3, en el que hicimos hincapie en las relaciones descriptivas, incluido el uso de diagramas de puntos dispersos, coeficientes de correlaci6n y la regresi6n lineal como instrumentos para describir las relaciones entre variables. Suponemos que el lector esta familiarizado con ese capftulo. En el analisis de los procesos empresariales y econ6micos se utilizan a menudo las relaciones entre variables. Estas relaciones se expresan en terminos matematicos de la forma siguiente:
y= f(X) donde la funci6n puede adoptar muchas formas lineales y no lineales. En algunos de esos casos, la forma de la relaci6n no se conoce exactamente. Aquf presentamos anal isis que se basan en relaciones lineales. En muchos casos, las relaciones lineales constituyen un buen modelo del proceso. En otros casos, nos interesa una parte limitada de una relaci6n no lineal a la que podemos aproximarnos mediante una relaci6n lineal. En el apartado 13.7 mostramos que algunas relaciones no lineales importantes tambien pueden analizarse utilizando el anal isis de regresi6n. Por 10 tanto , los metodos de correlaci6n y de regresi6n pueden aplicarse a una amplia variedad de problemas.
432
Estadfstica para administraci6n y economfa
Las relaciones lineales son muy utiles para muchas aplicaciones empresariales y economicas, como indican los siguientes ejemplos. EI presidente de Materiales de Construccion, S.A., fabricante de placas de yeso, cree que la cantidad anual media de placas de yeso vendidas en su region es una funcion lineal del valor total de los permisos de edificacion expedidos durante el ana anterior. Un vendedor de cereales quiere saber como afecta la produccion total al precio por tonelada. Esta desarrollando un modele de prediccion que utiliza datos historicos. EI departamento de marketing necesita saber como afecta el precio de la gasolina a sus ventas totales. Utilizando datos semanales sobre los precios y las ventas, planea desarrollar un modelo lineal que muestre cuanto varian las ventas cuando varia el precio. Con la aparicion de muchos y buenos paquetes estadisticos y hojas de calculo como Excel , hoy es posible para casi todo el mundo calcular estadisticos de correlacion y de regresion. Desgraciadamente, tambien sabemos que no todo el mundo sabe interpretar y utilizar correctamente estos resultados obtenidos por computador. Aqui ellector aprendera algunas ideas fundamentales que 10 ayudaran a utilizar el anal isis de regresion. Comenzaremos examinando el anal isis de correlacion.
12.1. Analisis de correlacion En este apartado utilizamos los coeficientes de correlacion para estudiar las relaciones entre variables. En el Capitulo 3 utilizamos el coeficiente de correlacion muestral para describir la relacion entre variables indicada en los datos. En el 5 y en el 6 aprendimos 10 que era la correlacion poblacional. Aqui presentamos metodos inferenciales que utilizan el coeficiente de correlacion para estudiar relaciones lineales entre variables. En principio, dos variables aleatorias pueden estar relacionadas de diversas formas . Es util postular al comienzo del analisis una forma funcional de su relacion. A menudo es razonable suponer, como buena aproximacion, que la relacion es lineal. Si se examina un par de variables aleatorias, X e Y, entre las que existe una relacion lineal, en un diagrama de puntos dispers~s las observaciones conjuntas sobre este par de variables tenderan a estar concentradas en torno a una linea recta. Y a la inversa, si no existe una relacion lineal, no estaran concentradas en torno a una linea recta. No todas las relaciones que estudiaremos estaran muy concentradas en torno a una linea recta. EI diagrama de puntos dispersos de much as relaciones importantes muestra una tendencia hacia una relaci6n lineal, pero con una considerable desviaci6n con respecto a una linea recta. En los diagramas de puntos dispers~s del Capitulo 2 vimos algunos ejemplos. Las correlaciones tienen muchas aplicaciones en el mundo de la empresa y en la economfa. En muchos problemas econ6rnicos aplicados, afirmamos que hay una variable independiente 0 exogena X, cuyos valores son deterrninados por actividades realizadas fuera del sistema economico exarninado y que hay una variable dependiente 0 endogena Y, cuyo valor depende del valor de X. Si preguntamos si las ventas aumentan cuando bajan los precios, estamos analizando una situacion en la que un vendedor ajusta de una forma deliberada e independiente los precios en sentido ascendente 0 descendente y observa como varian las ventas. Supongamos ahora que los precios y las cantidades vendidas son el resultado de equilibrios de la oferta y la demanda como propone el modelo economico basico. En ese caso, podriamos analizar los precios y las cantidades como variables aleatorias y preguntarnos si estas dos variables aleatorias estan relacionadas entre sf. El coeficiente de correlaci6n puede utilizarse para averiguar si existe una relaci6n entre variables en cualquiera de estas dos situaciones.
Capftulo 12.
Regresion simple
433
Supongamos que tanto X como Y son determinados simultaneamente por factores que se encuentran fuera del sistema economico analizado. Por 10 tanto, suele ser mas realista plantear un modelo en el que tanto X como Y sean variables aleatorias. En el Capitulo 5 presentamos el coeficiente de correlacion Pxy como medida de la relacion entre dos variables aleatorias, X e Y. En esos casos, utilizamos el coeficiente de correlacion poblacional, Pxy' para indicar la existencia de una relacion lineal sin que ella quisiera decir que una de las variables era independiente y la otra dependiente. En las situaciones en las que una de las variables es dependiente logicamente de otra, el siguiente paso logico despues del analisis de correlacion es la utilizacion del analisis de regresion para desarrollar el modelo lineal. Este es el tema del siguiente apartado. Aqui presentamos metodos de inferencia estadistica que utilizan correlaciones muestrales para averiguar las caracterfsticas de las correlaciones poblacionales.
Contraste de hipotesis de la correlacion El coeficiente de correlacion muestral
es una medida descriptiva util de la fuerza de la relacion lineal en una muestra. Tambien podemos utilizar la correlacion para contrastar la hipotesis de que no existe una relacion lineal en la poblacion entre un par de variables aleatorias; es decir,
Esta hipotesis nula de que no existe una relacion lineal entre un par de variables aleatorias es muy interesante en algunas aplicaciones. Cuando calculamos la correlacion muestral a partir de datos, es probable que el resultado sea diferente de 0 aunque la correlacion poblacional sea O. Nos gustarfa, pues, saber en que medida debe ser diferente de 0 una correlacion muestral para con tar con una prueba de que la correlacion poblacional no es O. Podemos demostrar que cuando la hipotesis nula es verdadera y las variables aleatorias siguen una distribucion normal conjunta, la variable aleatoria
sigue una distribucion t de Student con (n - 2) grados de libertad. Las ecuaciones 12.1 a 12.3 muestran los contrastes de hipotesis adecuados.
Contrastes de la correlaci6n poblacional nula Sea rei coeficiente de correlaci6n muestral, calculado a partir de una muestra aleatoria de n pares de observaciones de una distribuci6n normal conjunta. Los siguientes contrastes de la hip6tesis nula
Ho:p tienen un valor de significaci6n ex:
=
0
434
Estadfstica para administracion y economfa
1.
Para contrastar Ho frente a la hipotesis alternativa
H1:p > 0 la regia de decision es
Rechazar Ho si 2.
rJ(n - 2)
J(1 - ?) > t
ll
-
(12.1 )
2 ,'1
Para contrastar Ho frente a la hipotesis alternativa
H1:p <0 la regia de decision es
rJ(n - 2)
J(1 - ?) <
Rechazar Ho si 3.
-
(12.2)
t,, - 2,cx
Para contrastar Ho frente a la hipotesis alternativa bilateral
la regia de decision es
Rechazar Ho si Aquf, tn -
2
~
rJ(n - 2)
JO - ?) <
-
t,,-2,cx/2
rJ(n - 2) J(l _ ?) > t ll -
2 ,'1/2
(12.3)
es el numero para el que
P(tll -
4.
o
2
> tn - 2 ,rJ.) = rx
donde la variable aleatoria tn - 2 sigue una distribucion t de Student con (n - 2) grados de libertad. Si introducimos tn - 2 . w2 = 2,0 en la ecuaci6n 12.3, podemos demostrar que una «regia practica» aproximada para contrastar la hipotesis anterior de que la correlacion poblacional es 0 es
2
iri>-
0z
EJEMPLO 12.1 . Valoraci6n del riesgo politico (contraste de hip6tesis de la correlaci6n) Un equipo de investigaci6n estaba intentando averiguar si el riesgo politico existente en los palses esta relacionado con su inflaci6n. En esta investigaci6n, se realiz6 una encuesta a analistas del riesgo politico que permiti6 elaborar una puntuaci6n media del riesgo politico de 49 paises (los datos proceden del estudio mencionado en la referencia bibliografica 2).
Solucion Cuanto mas alta es la puntuaci6n, mayor es el riesgo politico. La conelaci6n muestral entre la puntuaci6n del riesgo politico y la inflaci6n de estos paises era de 0,43.
Capitulo 12.
Regresion simple
435
Queremos averiguar si la correlacion poblacional, p, entre estas medidas es diferente de 0. Concretamente, queremos contrastar
frente a utilizando la informacion muestral
I' =
n = 49
0,43
EI contraste se basa en el estadfstico
t
=
rj(n - 2)
j (l -
,2)
=
0,43j(49 - 2)
j l-
(0,43)2
= 3265 '
Dado que hay (n - 2) = 47 grados de libertad, vemos en la tabla 8 de la t de Student del apendice que t47 , 0.005 < 2,704 Por 10 tanto, podemos rechazar la hipotesis nula al nivel de significacion del 0,5 por ciento. Tenemos, pues, pruebas contundentes de que existe una relacion lineal positiva entre la inflacion y la valoracion de los expertos del riesgo polftico de los pafses. Observese que de este resultado no podemos extraer la conclusion de que una de las variables es la causa de la otra, solo que estan relacionadas. \
.:~
INTERPRETACION
°
Antes hemos sefialadoque la hipotesis nula Ho: P = puede rechazarse utilizando la regia practica aproximada II'I > 2/ Este resultado proporciona un rapido contraste para averiguar si dos variables estan relacionadas linealmente cuando se examinan una 0 mas correlaciones muestrales. Asf, por ejemplo, en el caso de una muestra de tamafio n = 25, el valor absoluto de la correlacion muestral tendrfa que ser superior a 2/fo = 0,40. Pero en el caso de una muestra de tamafio n = 64, el valor absoluto de la correlacion muestral ten-
In,.
drfa que ser superior a 2/.J64 = 0,25 solamente. Se ha observado que este resultado es util en muchas aplicaciones estadfsticas.
EJERCICIOS
Ejercicios basicos 12.1. Dados los pares siguientes de (x, y) observaciones, calcule la correlaci6n muestral. a) (2, 5), (5, 8), (3 , 7), (1, 2), (8, 15).
b) (7, 5), (10, 8), (8, 7), (6, 2), (13, 15). c) (12, 4), (15, 6), (16, 5), (21, 8), (14, 6). d) (2, 8), (5, 12), (3, 14), (1, 9), (8, 22).
12.2. Contraste la hip6tesis nul a
Ho: P =
°
frente a
HI: P =1=
°
dada a) Una correlaci6n muestral de 0,35 en una muestra aleatoria de tamafio n = 40 b) Una correlaci6n muestral de 0,50 en una mllestra aleatoria de tamafio n = 60
436
Estadfstica para administraci6n y economfa
c) Una correlacion muestral de 0,62 en una muestra aleatoria de tamano n = 45 d) Una correlacion muestral de 0,60 en una muestra aleatoria de tamano n = 25 12.3. El profesor de un curso de estadistica puso un examen final y tambien pidio a los estudiantes que realizaran un proyecto. La tabla adj unta muestra las calificaciones de una muestra aleatoria de 10 estudiantes. Halle la correlacion muestral entre las calificaciones del examen y las del proyecto. Examen
8 1 62
74
78
93
69
72
83
90
84
Proyccto
76
69
76
87
62
80
75
92
79
71
Ejercicios aplicados 12.4. En el estudio de 49 paises analizado en el ejemplo 12.1, la correlacion muestral entre la valoracion del riesgo polftico realizada por los expertos y la tasa de mortalidad infantil de estos paises era 0,75. Contraste la hipotesis nula de que no existe ninguna correlacion entre estas cantidades frente a la hipotesis alternativa de que ex iste una correlacion positiva. 12.5. En una muestra aleatoria de 353 profesores de ensefianza secundaria, se observo que la correlacion entre las subidas salariales anuales y las evaluaciones de la docencia era de 0,11. Contraste la hipotesis nula de que estas cantidades no estan correlacionadas en la poblacion frente a la hipotesis alternativa de que la correlacion poblacional es positi va. 12.6. Se observa que la correlacion muestral de 68 pares de rendimientos anuales de acciones ordinarias del pais A y del pais B es de 0,51 . Contraste la hipotesis nula de que la correlacion poblacional es 0 frente a la hipotesis alternativa de que es positiva. Se recomienda que los siguientes ejercicios se resuelvan con la ayuda de un computador.
12.7. ~~ La tabla adjunta y el fichero de datos Dow Jones muestran las variaciones porcentuales (Xi) del indice Dow-Jones registradas en los cinco primeros dias de sesion de cada uno de los afios de un periodo de 13 anos y las correspondientes variaciones porcentuales (y) del indice a 10 largo de todo el ano.
x 1,5 0,2 -0, 1 2,8 2,2 - 1,6 - 1,3
y
14,9 - 9,2 19,6 20,3 -3,7 27,7 22,6
x 5,6 - 1,4 1,4
1,5 4,7 1,1
y
2,3 11 ,9 27,0 -4,3 20,3 4,2
a) Calcule la correlacion muestral. b) Contraste al nivel de significacion del 10 por ciento la hipotesi s nula de que la correlacion poblacional es 0 frente ala hipotesis alternativa bilateral.
12.8. ,., Una universidad di stribuye en todos sus cursos un cuestionario de evaluacion para que 10 reHenen los estudiantes. La tabl a adjunta y el fichero de datos Student Evaluation muestran tanto la valoracion media del profesor (en una escala de 1 a 5) como la calificacion media esperada (en una escala de A = 4 a E = 0) de una muestra aleatoria de 12 cursos. Valoracion del profesor
2,8 3,7 4,4 3,6 4,7 3,5 4,1 3,2 4,9 4,2 3,8 3,3
Calificacion esperada
2,6 2,9 3,3 3,2 3,1 2,8 2,7 2,4 3,5 3,0 3,4 2,5
a) Halle la correlacion muestral entre las valoraciones de los profesores y las calificaciones esperadas. b) Contraste al nivel de significacion del 10 por ciento la hipotesis de que el coeficiente de correlacion poblacional es 0 frente a la hipotesis alternativa de que es positivo.
12.9. ~, En un estudio sobre la publicidad, los investigadores querfan saber si existfa una relacion entre el coste per capita y los ingresos per capita. Se midieron las siguientes variables en una muestra aleatoria de programas de publicidad: Xi =
Yi
=
coste de la publici dad -:- n.o de preguntas recibidas ingresos generados por las preguntas ..:... n.o de preguntas recibidas
Los datos muestrales se encuentran en el fichero de datos Advertising Revenue. Halle la correlacion muestral y contraste la hipotesis nula de que la correlacion poblacional es 0 frente a la alternativa bilateral.
Capitulo 12. Regresion simple
437
12.2. Modelo de re resi6n lineal Para medir la fuerza de cualquier relacion lineal entre un par de variables aleatorias se utilizan coeficientes de correlacion. Las variables aleatorias se tratan de una forma totalmente simetrica y da 10 mismo que hablemos de «la correlacion entre X e Y» que de «Ia correlacion entre Y y X» . En el resto de este capitulo, continuamos analizando la relacion lineal entre un par de variables, pero desde el punto de vista de la dependencia de una de la otra. Ahora dejamos de tratar las variables aleatorias de una forma simetrica. La idea es que, dado que la variable aleatoria X toma un valor espedfico, esperamos una respuesta de la variable aleatoria Y. Es decir, el valor que toma X influye en el valor de Y. Podemos pensar que Y depende de X. Las variables dependientes 0 endogenas - Y- tienen valores que dependen de variables independientes 0 exogenas -X-, cuyos valores son manipulados 0 influidos, a su vez, por factores externos a un proceso economico espedfico. ~ Los modelos lineales no son tan restrictivos como podria parecer para el am'ilisis emINTERPRETACION presarial y economico aplicado. En primer lugar, los modelos lineales a menudo constituyen una buena aproximacion de una relacion en el intervalo examinado. En segundo lugar, en los Capitulos 13 y 14 veremos que algunas funciones no lineales pueden convertirse en funciones lineales implfcitas para el analisis de regresion. En este capitulo realizamos un estudio formal del analisis de regresion y de la con-espondiente inferencia estadistica en el caso de modelos lineales sencillos. En los Capftulos 2 y 3 introdujimos los instrumentos de los diagramas de puntos dispersos, la correlacion y la regresion simple para describir datos. En el 13 aplicaremos estas ideas a los modelos de regresion multiple que tienen mas de una variable de prediccion y en el 14 presentamos metodos y aplicaciones avanzados que aumentan nuestra capacidad para analizar problemas empresariales y economicos. Este analisis comienza con un ejemplo que muestra una aplicacion representativa del analisis de regresion y el tipo de resultados que pueden obtenerse. EJEMPLO
12.2. Predicci6n sobre las ventas de Northern Household Goods (estimaci6n de un modelo de regresi6n)
El presidente de Northern Household Goods Ie ha pedido que desarrolle un modelo que prediga las ventas totales de las nuevas tiendas que se propone abrir. Northern es una cadena de gran des almacenes en nipida expansion y necesita una estrategia racional para averiguar donde deben abrirse nuevas tiendas. Para realizar este proyecto, necesita estimar una ecuacion lineal que prediga las ventas al por menor por hogar en funcion de la renta disponible del hogar. La empresa ha obtenido datos de una encuesta nacional realizada a los hogares y para desarrollar el modelo se utilizaran las variables de las ventas al por menor (Y) y la renta (X) por hogar. Solucion
"
Retail Sales
La Figura 12.1 es un diagrama de puntos dispersos que muestra la relacion entre las ventas a1 por menor y la renta disponible de las familias. Los datos efectivos se muestran en la Tabla 12.1 y se encuentran en el fichero de datos Hamado Retail Sales. Segun la teoria economica, las ventas deben aumentar cuando aumenta la renta disponible y el diagrama de puntos dispersos apoya en gran medida esa teoda. El am'ilisis de regresion nos proporciona un modelo lineal que puede utilizarse para calcular las ventas al por
438
Estadfstica para administraci6n y economfa
Y Retail Sales = 1922 + 0.3815 X Income 7000 , -- - - -- - - - - - - - -- - - - ,
5
•
•
• •
III
... 011
c.::
9 1.9% 9 1.5%
• ••
•
·iii
147.670
•• •
6500
'"011 iii
R-Sq R-Sq(adj)
6000
•
>-
.. .
5500
•
/
• • 9000
Figura 12.1.
Tabla 12.1.
10000
12000
11000 X Income
13000
Ventas al por menar par hagar en relaci6n con la renta dispanible per capita.
Datos sobre la renta disponible por hogar (X) y ventas al por menor por hogar (Y).
Afio
Renta (X)
Ventas al por menor (y)
Afio
Renta (X)
Ventas al por menor (y)
1 2 3 4 5 6 7 8 9 10 11
9.098 9.138 9.094 9.282 9.229 9.347 9.525 9.756 10.282 10.662 1l.019
5.492 5.540 5.305 5.507 5.418 5.320 5.538 5.692 5.871 6.157 6.342
12 13 14 15 16 17 18 19 20 21 22
11.307 11.432 11.449 11.697 11.871 12.018 12.523 12.053 12.088 12.215 12.494
5.907 6.124 6.186 6.224 6.496 6.718 6.921 6.471 6.394 6.555 6.755
menor por hogar cOlTespondientes a varios niveles de renta disponible. La recta del diagrama representa el modelo de regresi6n simple Y = 1.922,39
+ 0,381517X
don de Y son las ventas al por menor por hogar y X es la renta disponible por hogar. Por 10 tanto, la ecuaci6n de regresi6n nos proporciona, a partir de los datos, el mejor mode10 lineal para predecir las ventas correspondientes a una renta disponible dada. Observese que este modele nos dice que cada aumento de la renta familiar disponible per capita de 1 $, X, va acompafiado de un aumento del valor esperado de las ventas al por menor, Y, de 0,38 $. Es evidente que el resultado es importante para predecir las ventas al por menor. Por ejemplo, observamos que una renta familiar de 50.000 $ predecirfa que las ventas al por menor senin de 20.997 $ (1.922 + 50.000 x 0,3815).
Capitulo 12.
'"""'loI
INTERPRETACION
Regresi6n simple
439
Llegados a este pun to, debemos hacer hincapie en que los resultados de la regresion resumen la informacion que contienen los datos y no «demuestran» que el aumento de la renta sea la «causa» del aumento de las ventas. La teorfa economica sugiere que existe una relacion causal y estos resultados apoyan esta teorfa. Los diagramas de puntos dispersos, las con-elaciones y las ecuaciones de regresion no pueden demostrar la existencia de una relacion causal, pero pueden aportar pruebas a su favor. Asf pues, para extraer conclusiones, necesitamos conjugar la teorfa -la experiencia en Ja administracion de empresas y el amllisis economico- con un buen analisis estadfstico. Sabemos pOl' nuestros estudios de la econornfa que la cantidad comprada de bienes, Y, en un mercado especffico puede representarse pOl' medio de una funcion lineal de la renta disponible, X. Si la renta tiene un nivel especffico, X;, los compradores respond en comprando la cantidad Yi' En el mundo real, sabemos que hay otros factores que influyen en la cantidad efectiva comprada. Son factores identificables como el precio de los bienes en cuestion, la publicidad y los precios de los bienes rivales. Tambien hay otros factores desconocidos que pueden influir en la cantidad efectiva comprada. En una ecuacion lineal simple, representamos el efecto de estos factores , salvo la renta, por medio de un termino de en-or Ilamado E. La Figura 12.2 muestra un ejemplo de un conjunto de observaciones generadas pOl' un modelo lineal subyacente de un proceso. EI nivel medio de Y, para to do X, se representa pOl' medio de la ecuacion poblacional
Y= f30 + f3I X El modelo de regresion lineal permite hallar el valor esperado de la variable aleatoria Y cuando X toma un valor especffico. El supuesto de la linealidad implica que esta esperanza puede expresarse de la forma siguiente: E(YIX
f30 + f3I X
= x) =
donde f30 representa la orden ada en el origen Y de la ecuacion y f3, es la pendiente. El valor observado efectivo de Y para un valor dado de X es igual al valor esperado 0 media poblacional mas un error aleatorio, E, que tiene una media 0 y una varianza (52: Yi =
EI terminG de error aleatorio cion lineal. Figura 12 .2. Modelo de regresion lineal poblacional.
E
f30 + f3 x; + Ei j
representa la variacion de Y que no es estimada porIa rela-
y
I
:
Ei
I
+ (X"y,)
+
I
: I
IYi
I
y, : I I
X,
I I I I I I I I
(Xi'Yi) I I
= (30 +'(3, I I I I I I I I
Xi
Xi
+
Ei
x
440
Estadfstica para administraci6n y economfa
La regresi6n por minimos cuadrados nos proporciona un modelo estimado de la relaci6n lineal entre una variable independiente 0 ex6gena y una variable dependiente 0 end6gena. Comenzamos el proceso de formulaci6n de la regresi6n partiendo de un modelo poblacional en el que X tiene unos valores predeterminados y para to do X hay un valor medio de Y mas un termino de error aleatorio. Utilizamos la ecuaci6n de regresi6n estimada -mostrada en la Figura 12.1- para estimar el valor medio de Y para to do valor de X. Los puntos no estan alineados siempre en esta recta debido a que existe un termino de error aleatorio que tiene una media 0 y una varianza comun para todos los val ores de X. El error aleatorio representa todos los factores que influyen en Y que no estan representados por la relaci6n lineal entre Y y X. Los efectos de estos factores, que se supone que son independientes de X, se comportan como una variable aleatoria cuya media poblacional es O. Las desviaciones aleatorias 8 i en torno al modelo lineal se muestran en la Figura 12.2 y se combinan con la media de Yi para todo Xi para obtener el valor observado Yi.
Regresi6n lineal basad a en un modelo poblacional En la aplicaci6n del anal isis de regresi6n, se representa el proceso estudiado por medio de un modele poblacional y se calcula un modele estimado utilizando los datos de que se dispone y realizando una regresi6n por mfnimos cuadrados. EI modele poblacional es (12.4)
donde {30 y {31 son los coeficientes del modelo poblacional y 8 es un termino de error aleatorio. Para todo valor observado, Xi' el modelo poblacional genera un valor observado, Yr Para realizar la inferencia estadfstica, como veremos en el apartado 12.4, se supone que 8 sigue una distribuci6n normal de media 0 y varianza (J2 . Mas adelante, veremos que puede utilizarse el teorema del Ifmite central para abandonar el supuesto de la distribuci6n normal. EI modele de la relaci6n lineal entre Y y X viene definido por los dos coeficientes, {30 y {31. La Figura 12.2 10 representa esquematicamente. -~
INTERPRETACION
En el modelo de regresi6n por mfnimos cuadrados suponemos que se seleccionan valores de la variable independiente, Xi' y para cada Xi existe una media poblacional de Y. Los valores observados de Yi contienen la media y la desviaci6n aleatoria 8;. Se observa un conjunto de n(x i , Y;) puntos Y se utiliza para obtener estimaciones de los coeficientes del modelo utilizando el metoda de mfnimos cuadrados. Ampliamos los conceptos de la inferencia clasica presentados en los Capitulos 8 a 11 para hacer inferencias sobre el modelo poblacional subyacente utilizando el modelo de regresi6n estimado. En el Capitulo 13 veremos c6mo pueden considerarse simultaneamente varias variables independientes utilizando la regresi6n multiple. El modelo de regresi6n estimado y mostrado esquematicamente en la Figura 12.3 viene dado por la ecuaci6n donde bo y b j son los valores estimados de los coeficientes y e es la diferencia entre el valor predicho de Y en la recta de regresi6n
)Ii
=
bo + bjXi
y el valor observado Y;. La diferencia entre Yi e )Ii para cada valor de X es el residuo ~
e;
= Yi - Yi = Yi - (b o + bjxJ
Capftu lo 12. Regresi6n simple
Figura 12.3. Modelo de re gresion estimado.
441
Y
:}(Xj,Y';l I I I
I I I I I I I I I
x2,V2)
(Xj,Yi)
I I I I I I I I I I
I I
Xl
t
ej
x
X2
Por 10 tanto, para cada valor observado de X hay un valor predicho de Ya partir del mode10 estimado y un valor observado. La diferencia entre el valor observado de Y y el predicho es el residuo, ej • El residuo, ej , no es el error del modelo, £, sino la medida combinada del error del modelo y los errores de la estimaci6n de bo Y b i y, a su vez, los errores de la estimaci6n del valor predicho. Hallamos el modelo de regresi6n estimado obteniendo estimaciones, bo Y b l , de los coeficientes poblacionales utilizando el metoda Hamado amilisis de minimos cuadrados, que presentamos en el apartado 12.3. Empleamos, a su vez, estos coeficientes para obtener los val ores predichos de Y para todo villor de X.
Resultados de la regresion lineal La regresi6n lineal da dos importantes resultados: 1.
2.
Los valores predichos de la variable dependiente 0 end6gena en funci6n de la variable independiente 0 ex6gena. La variaci6n marginal estimada de la variable end6gena provocada por una variaci6n unitaria de la variable independiente 0 ex6gena.
EJERCICIOS
Ejercicios basicos
12.11. Dada la ecuaci6n de regresi6n
12.10. Dada la ecuaci6n de regresi6n
y= 100 + lOX a) l,Cmil es la variaci6n de Y cuando X varia en +3? b) l,Cmil es la variaci6n de Y cuando X varia en - 4? c) l,Cmil es el valor predicho de Y cuando X = 12? d) l,Cmil es el valor predicho de Y cuando X = 23? e) l,Demuestra esta ecuaci6n que una variaci6n de X provoca una variaci6n de Y?
Y= - 50
+
12X
a) l,Cual es la variaci6n de Y cuando X varia en +3? b) l, Cual es la variaci6n de Y cuando X varia en - 4? c) l,Cual es el valor predicho de Y cuando X = 12? d) l,Cual es el valor predicho de Y cuando X = 23? e) l,Demuestra esta ecuaci6n que una variaci6n de X provoca una variaci6n de Y? 12.12. Dada la ecuaci6n de regresi6n Y = 43
+
lOX
442
Estadfstica para administraci6n y economfa
a) (,Cual es la variaci6n de Y cuando X varia en +87 b) (,CuaJ es la variaci6n de Y cuando X varia en - 67 c) (,Cual es el valor predicho de Y cuando X = 117 d) (,C ual es el valor predicho de Y cuando X = 297) e) (,Demuestra esta ecuaci6n que una variaci6n de X provoca una variaci6n de Y7
12.13. Dada la ecuaci6n de regresi6n Y= 100 + 21X a) (,Cual es la variaci6n de Y cuando X varia en
+57 b) (,CuaJ es la variaci6n de Y cuando X varia en - 77 c) (,CuaJ es el valor predicho de Y cuando X = 147 d) (,Cual es el valor predicho de Y cuando X = 277
e) (,Demuestra esta ecuaci6n que una variaci6n
de X provoca una variaci6n de Y7
Ejercicios aplicados 12.14. (,Que diferencia existe entre un modelo lineal poblacional y un modele de regresi6n lineal estimado7 12.15. Explique la diferencia entre el residuo e j y el error del modele ej. 12.16. Suponga que hemos estimado una ecuaci6n de la regresi6n de las ventas semanales de «palm pilot» y el precio cobrado durante la semana. fnterprete la con stante bo para el director de la marca. 12.17. Se ha estimado un modelo de regresi6n de las ventas totales de productos alimenticios con respecto a la renta disponible uti li zando datos de pequefias ciudades aisladas del oeste de Estados Unidos. Elabore una lista de los factores que podrian contribuir al termino de error aleatorio.
12.3. Estimadores de coeficientes por el metodo de mfnimos cuadrados La recta de regresion poblacional es un util instrumento teorico, pero para las aplicaciones necesitamos estimar el modele utilizando los datos de que se disponga. Supongamos que tenemos n pares de observaciones, (XI' YI), (X2' Yz), ... , (x n, Yn)' Nos gustarfa encontrar la linea recta que mejor se ajusta a estos puntos. Para ello, es necesario encontrar estimadores de los coeficientes desconocidos /30 y /31 de la recta de regresion poblacional. Hallamos los estimadores de los coeficientes bo Y b l con ecuaciones obtenidas utilizando el metoda de mfnimos cuadrados. Como mostramos en la Figura 12.3, hay una desviacion, ei, entre el valor observado, Yi' y el valor predicho, Yi' en la ecuacion de regresi6n estimada para cada valor de X, donde ej = Yi - Yi' A continuacion, calculamos una funcion matematica consistente en elevar al cuadrado todos los residuos y sumar las cantidades resultantes. Esta funcion -cuyo primer miembro se denomina SCE- incluye los coeficientes bo Y bl' La cantidad SCE se denomina suma de los cuadrados de los errores. Los estimadores de los coeficientes b o Y b l son los estimadores que minimizan la suma de los cuadrados de los errores.
Metodo de mlnimos cuadrados EI metoda de mfnimos cuadrados obtiene estimaciones de los coeficientes de la ecuaci6n lineal bo y b 1 en el modelo (12.5) minimizando la suma de los cuadrados de los errores
SCE =
ej :
L e~ = L (yj - yi
(12.6)
Capitulo 12.
Regresi6n simple
443
Los coeficientes bo y b 1 se eligen de tal manera que se minimice la cantidad 11
seE
Il
I
=
e;
;= 1
=
I
[Yi - (b o + b1xJf
(12.7)
;= 1
Utilizamos el calculo diferencial para obtener los estimadores de los coeficientes que minimizan la SeE. En el apendice del capitulo se ex plica c6mo se obtienen los estimadores por medio del calculo.
EI estimador del coeficiente resultante es II
COy
;= 1
(x, Y)
2 Sx
II
;=1 Il
Yi
II
I
(x; - X)X;
;=1
Observese que el numerador del estimador es la covarianza muestral de X e Y y el denominador es la varianza muestral de X. La tercera lInea muestra que el coeficiente b l es una funcion lineal de las Y. Dedicamos mucho tiempo al coeficiente de la pendiente porque este resultado es clave para much as aplicaciones. El coeficiente de la pendiente b l es una estimacion de la variacion que experimenta Y cuando X varia en una unidad. Por ejemplo, si Yes la produccion total y Xes el numero de trabajadores, entonces b l es una estimacion del aumento marginal de la produccion por cada nuevo trabajador. Este tipo de resultados explica por que la regresion se ha convertido en un instrumento analftico tan importante. Con algunas manipulaciones algebraicas podemos demostrar que el estimador del coeficiente tambien es igual a
donde rxy es la correlacion muestral y Sy Y Sx son las desviaciones tfpicas muestrales de X e Y. Este resultado es importante porque indica como esta relacionada directamente la relacion estandarizada entre X e Y, la correlacion rxy ' con el coeficiente de la pendiente. En el apendice del capitulo tambien mostramos que el estimador de la constante es
Sustituyendo bo por este valor en la ecuacion lineal, tenemos que Y = 51 - b1x + b1x Y - 51 = bl(x - x)
x,
En esta ecuacion vemos que cuando x = entonces Y = 51 y que la ecuacion de regresion siempre pasa por el punto (x, 51). EI valor estimado de la variable dependiente, y;, se obtiene utilizando
444
Estadfstica para administraci6n y economfa
o utilizando
Esta ultima forma pone de relieve que la recta de regresion pasa por las medias de X e Y.
Estimadores de coeficientes por el metodo de mfnimos cuadrados EI estimador del coeficiente de la pendiente es 11
y el estimador de la con stante u ordenada en el origen es
Tambien sefialamos que la recta de regresion siempre pasa por la media X, y. EI metodo de mfnimos cuadrados podrfa utilizarse para calcular estimaciones de los coeficientes bo y b 1 utilizando cualquier conjunto de datos pareados. Sin embargo, en la mayorfa de las aplicaciones queremos hacer inferencias sobre el modelo poblacional subyacente que forma parte de nuestro problema economico 0 empresarial. Para hacer inferencias, es necesario que estemos de acuerdo en ciertos supuestos. Dados estos supuestos, puede demostrarse que los estimadores de los coeficientes por minimos cuadrados son insesgados y tienen una varianza minima.
Supuestos habituales en los que se basa el modelo de regresion lineal Para hacer inferencias sobre el modele lineal poblacional utilizando los coeficientes del modele estimados se postulan los siguientes supuestos. 1.
Las Y son funciones lineales de X mas un termino de error aleatorio
2.
Las x son numeros fijos 0 son realizaciones de la variable aleatoria X que son independientes de los terminos de error, e;- En el segundo caso, la inferencia se realiza condicionada a los valores observados de las x. Los terminos de error son variables aleatorias que tienen la media 0 y la misma varianza (J2. EI segundo supuesto se llama homocedasticidad 0 varianza uniforme.
3.
E[sJ = 0 4.
y
E[s;]
= (i
para (i = 1, ... , n)
Los terminos de error aleatorio, ei, no estan correlacionados entre sf, por 10 que
para todo i =P j Generalmente, se considera, con razon, que el segundo de estos supuesios es cierto, aunque en algunos estudios econometricos avanzados es insostenible (el supuesto no se cumple, por ejemplo, cuando no es posible medir Xi con precision 0 cuando la regresion forma parte de un sistema de ecuaciones interdependientes). Sin embargo, aquf consideraremos que se satisface este supuesto.
Capitulo 12.
Regresi6n simple
445
°
Los supuestos 3 y 4 se refieren a los terminos de enor, ci' de la ecuaci6n de regresi6n . El termino de error esperado es y todos los terminos de enor tienen la misma varianza. Por 10 tanto, no esperamos que las varianzas de los terminos de enor sean mas altas en el caso de algunas observaciones que en el de otras. La Figura 12.2 muestra esta pauta: los en"ores conespondientes a todos los valores de X proceden de poblaciones que tienen la misma varianza. Por ultimo, se supone que las discrepancias no estan correlacionadas entre sf. Asf, por ejemplo, la aparici6n de una gran discrepancia positiva en un punto de observaci6n no nos ayuda a predecir los valores de ninguno de los demas terminos de error. Los supuestos 3 y 4 se satisfacen si los terminos de error, c;, pueden concebirse como una muestra aleatoria procedente de una poblaci6n que tiene de media 0. En el resto de este capftulo, estos supuestos se cumplen. La posibilidad de abandonar algunos de ellos se examina en el Capftulo 14.
Calculo por computador del coeficiente de regresion La extensa aplicaci6n del analisis de regresi6n ha sido posible gracias a los paquetes estadfsticos y a Excel. Como sospechara el lector, los calculos para obtener estimaciones de los coeficientes de regresi6n son tediosos. Las ecuaciones de los estimadores y otros importantes calculos estadfsticos estan incluidos en los paquetes informaticos y en Excel y se utili zan para estimar los coeficientes de problemas especfficos. El program a Excel puede utilizarse para realizar analisis basicos de regresi6n sin demasiadas dificultades. Pero si se desea utilizar metodos de analisis de regresi6n aplicado avanzado 0 un perspicaz analisis grMico, debe utilizarse un buen paquete estadfstico. Dado que nos interesan principalmente las aplicaciones, nuestra tarea mas importante es realizar un analisis adecuado de los calculos de regresi6n para estas aplicaciones. Este analisis debe realizarse conociendo las ecuaciones de los estimadores y el analisis relacionado con elias. Sin embargo, no utili zamos estas ecuaciones para calcular realmente las estimaciones u otros estadfsticos de la regresi6n. Dejamos los calculos para los computadores; nuestra tarea es pensar, analizar y hacer recomendaciones. La Figura 12.4 muestra una parte de las salidas Minitab y Excel correspondientes al ejemplo de las ventas al por menOL Observese la localizaci6n de las estimaciones de la constante, bo, y el coeficiente de la pendiente, b L, en la salida informatica. Los conceptos restantes de cada lfnea ayudan a interpretar la cali dad de las estimaciones y se explican en apartados posteriores. En esta regresi6n, la constante estimada, bo, es 1.922 y el coeficiente de la pendiente estimado, b L, es 0,382. Estos valores se calculan utilizando las ecuaciones de los estimadores de los coeficientes antes presentadas. La ecuaci6n estimada puede expresarse de la forma siguiente:
y= 0, utilizando las medias
~~
+ 0,382x
x = 10.799 e y = 6.042, de la forma siguiente: y=
INTERPRETACION
1.922
6.042
+ 0,382(x -
10.799)
Normalmente, los modelos de regresi6n s610 deben utilizarse en el rango de los val ores observados de X en el que tenemos informaci6n sobre la relaci6n porque laorelaci6n puede no ser lineal fuera de este rango. La segunda forma del modelo de regresi6n esta centrada en las medias de los datos con una tasa de variaci6n igual a b L • Utilizando esta forma, centramos la atenci6n en la localizaci6n media del modelo de regresi6n y no en la ordenada
446
Estadfstica para administracion y economfa
Results for: retail sales.MTW Regression Analysis: Y Retail Sales versus X Income
The regression equation is Y Retail Sales = 1922 + 0.382 X Income SE Coe f 274 .9 0.02 529
Predictor Constant X I nc ome
R- Sq = 91. 9%
S = 147.670
T 6.99 15 .08
Coeficientes b a, b,
P 0.000 0.000
R-Sq(adj} = 91.5% (a)
B
A
1 2 3 4 5 6 7 8 9 10 11 12 13
c
o
E
G
F
,SUMMARY OUTPUT , Retp"ession Stolislics 'Multiple R 0.958748803 iR Square 0.919199267 . 'Adjusted R Square 0.91515923 Standard Error 147.6697181 , 22 . 'Observations : IANOVA ' d/
SS !.IS F Siqni/iconce F i~R~e-g-re-s-s~io-n----~----~---1~-4~9~6~14~3~4~.4~0~6--4~9~6~1~43~4~·~2~2~7~.5~2~25~~2~.~17~1~3~4~E~-1~2 ,Residual 20 · 436126.9127 , 21806.35
i 14~T~O~~~I~~~~~~~~~~2~1~5~3~9~75;6~1;.3~1~8~ ' ~~~~~~~~~~~~~~~~~~~coeficiemes~,~
15 16 17 18 19
!
1 ::'"'101
ilntercept iX Income :
P-~"olue
6.991806 8.74E-07 15.08385 . 2.17E-12 :
Lowe, 9fi%
U,
1348.858617 0.328756343
e, 9fi% :
2495.92677 0.4342771
(b)
Figura 12.4.
Amllisis de regresion de las ventas al por menar (a) par media de Minitab y (b) par media de Excel.
en el origen con el eje de las Y. Los usuarios ingenuos del analisis de regresi6n a veces intentan hacer interpretaciones de la constante bo, extrayendo ciertas conclusiones sobre la variable dependiente cuando la variable independiente tiene un valor de O. Consideremos la regresi6n de las ventas al por menor con respecto a la renta disponible del ejemplo. l,Afirmarfamos realmente que las ventas al por menor son de 1.922 $ cuando la renta disponible es de O? En realidad, sencillamente no tenemos datos para afirmar que se vende algo cuando la renta disponible es O. Este es otro ejemplo de la importancia de un buen analisis en lugar de interpretaciones tontas. Como analistas profesionales, debemos tener cuidado de no defender resultados que sencillamente no existen. EJERCICIOS
Ejercicios basicos 12.18. Calcule los coeficientes de una ecuaci6n de regresi6n por minimos cuadrados y formule la ecuaci6n, dados los siguientes estadisticos muestrales: a) = 50; Y= 100; Sx = 25 ; Sy = 75 ; r xy = 0,6; n = 60 b) = 60; Y= 210; Sx = 35; Sy = 65; r xy = 0,7; n= 60
x x
c)
X = 20;
60 d) = 10; n = 60 e) = 90; /7 = 60
Y= 100; Sx = 60;
Sy
= 78;
r xy
= 0,75;
/7=
x x
Y= 50; Y= 200;
Sx
= 100;
Sy
= 75;
r xy
= 0,4;
= 80;
Sy
= 70;
r xy
= 0,6;
Sx
Ejercicios aplicados 12.19. Una empresa fija un precio distinto para un sistema de DVD en ocho regiones del pais. La ta-
Capitulo 12.
bla adjunta muestra los numeros de unidades vendidas y los precios correspondientes (en cientos de d6Iares) . Ventas
420
380
350
400
440
380
450
420
Precio
5,5
6,0
6,5
6,0
5,0
6,5
4,5
5,0
12.20. Dada una muestra de 20 observaciones mensuales, un analista financiero quiere realizar una regresi6n de la tasa porcentual de rendimiento (Y) de las acciones ordinarias de una empresa con respecto a la tasa porcentual de rendimiento (X) del Indice Standard and Poor's 500. Dispone de la siguiente informaci6n: 20
20
L
Yi
= 22,6
Xi
= 25,4
numero de botellas vendidas por noche coste medio, en d6lares, de una cena
Y=
x = 25,5 II
If
L
16,0
(Xi -
i= 1
n- 1
L (X; -
i)2 =350
x)(y; -
i~l
n - 1
y) 180
a) Halle la recta de regresi6n muestral. b) Interprete la pendiente de la recta de regresi6n muestral. c) l,Es posible dar una interpretaci6n que tenga sentido de la ordenada en el origen de la recta de regresi6n muestral? Explique su respuesta. Se recomienda que los siguientes ejercicios se resuelvan con la ayuda de un computador.
20
20 x2 1
= 1457 '
L
XiYi =
150,5
i=1
i~ l
a) Estime la regresi6n lineal de Y con respecto aX. b) Interprete la pendiente de la recta de regresi6n muestral. c) Interprete la ordenada en el origen de la recta de regresi6n muestral. 12.21. Una empresa realiza un test de aptitud a todos los nuevos representantes de ventas. La direcci6n tiene interes en saber en que medida es capaz este test de predecir su exito final. La tabla adjunta muestra las ventas semanales medias (en miles de d61ares) y las puntuaciones obtenidas en el test de aptitud por una muestra aleatoria de ocho representantes. Ventas semanales 10
12
28
24
18
16
15
12
55
60
85
75
80
85
65
60
Puntuaci6n
=
X =
i=.l
i~ l
L
L
447
vende cada noche en los restaurantes de una ciudad depende linealmente de los costes medios de las cenas en los restaurantes. Se han obtenido los siguientes resultados de una muestra de n = 17 restaurantes que son aproximadamente del mismo tamano, siendo Y
a) Represente estos datos y estime la regresi6n lineal de las ventas con respecto al precio. b) l,Que efecto seria de esperar que produjera una subida del precio de 100 $ en las ventas?
Regresi6n simple
a) Estime la regresi6n lineal de las ventas semanales con respecto a las puntuaciones del test de aptitud. b) Interprete la pendiente estimada de la recta de regresi6n. 12.22. Se ha formulado la hip6tesis de que el numero de botellas de una cerveza importada que se
12.23. ~;;g Vuelva a los datos del ejercicio 12.7 sobre la variaci6n porcentual (X) del indice DowJones en los cinco primeros dias de sesi6n del ano y la variaci6n porcentual (Y) del Indice en el conjunto del ano. a) Estime la regresi6n lineal de Y con respecto aX. b) Interprete la orden ada en el origen y la pendiente de la recta de regresi6n muestral.
12.24. fi.i1 El viernes 13 de noviembre de 1989, cayeron vertiginosamente las cotizaciones en la bolsa de Nueva York; el fndice Standard and Poor's 500 cay6 un 6,1 por ciento ese dia. El fichero de datos New York Stock Exchange Gains and Losses muestra las perdidas porcentuales (y) que experimentaron los 25 mayores fondos de inversi6n el 13 de noviembre de 1989. Tambien muestra las ganancias porcentuales (x), suponiendo que los dividendos y las ganancias de capital de estos mismos fondos se reinvirtieron en 1989 hasta el 12 de noviembre. a) Estime la regresi6n lineal de las perdidas registradas el 13 de noviembre con respecto a las ganancias obtenidas hasta el 13 de noviembre de 1989. b) Interprete la pendiente de la recta de regresi6n muestral.
448
Estadfstica para administraci6n y economfa
12.25. fi ) Ace Manufacturing esta estudiando el ab-
a) Estime la regresi6n lineal de la variaci6n de la tasa media de absentismo por enfermedad con res pee to a la variaci6n de la tasa de absentismo. b) Interprete la pendiente estimada de la recta de regresi6n.
sentismo laboral. Los datos del fichero Employee Absence se refieren a la variaci6n anual de la tasa total de absentismo y la variaci6n anual de la tasa media de absentismo por en fermedad.
12.4. EI poder ex licativo de una ecuaci6n de re resi6n lineal El modelo de regresion estimado que hemos presentado puede concebirse como un intento de explicar los cambios de una variable dependiente Y provocados por los cambios de una variable independiente X. Si solo tuvieramos observaciones de la variable dependiente, y, la tendencia central de Y se representarfa por medio de la media y y la variabilidad total en torno a Y se representarfa por medio del numerador del estimador de la varianza muestral, L(y; - yl Cuando tambien tenemos medidas de X, hemos demostrado que la tendencia central de Yahora puede expresarse en funcion de X. Esperamos que la ecuacion lineal este mas cerca de los valores individuales de Y y que, por 10 tanto, la variabilidad en torno a la ecuacion lineal sea men or que la variabilidad en torno a la media. Estamos ya en condiciones de desarrollar medidas que indiquen la eficacia con que la variable X explica la conducta de Y. En nuestro ejemplo de las ventas al por menor mostrado en la Figura 12.1, las ventas al por menor, Y, tienden a aumentar con la renta disponible, X y, por 10 tanto, la renta disponible explica algunas de las diferencias entre las ventas al por menor. Sin embargo, los puntos no estan todos en la Ifnea, por 10 que la explicacion no es perfecta. Aquf desarrollamos medidas basadas en la descomposicion de la variabilidad, que miden la capacidad de X para explicar Y en una regresion especffica. El analisis de la varianza, ANOV A, para una regresion de mfnimos cuadrados se reaIiza descomponiendo la variabilidad total de Yen un componente explicado y un componente de error. En la Figura 12.5 mostramos que la desviacion de un valor de Y con respecto a su media puede descomponerse en la desviacion del valor predicho con respecto a la media y la desviacion del valor observado con respecto al valor predicho
Figura 12.5. Descomposicion de
Y
la variabilidad.
Y= b o+ b 1 X /
STC t- Yi-
A
ei= Yi - Yi ---. SCE
Y
Y 1---I I I I I I I I I· I
Xi
X
Capitulo 12.
Regresion simple
449
Elevamos al cuadrado los dos miembros de la ecuacion -ya que la suma de las desviaciones en torno a la media es igual a 0- y sumamos el resultado obtenido en los n puntos II
II
II
;= ]
i= 1
i= 1
Tal vez algunos lectores se hayan dado cuenta de que la elevacion al cuadrado del primer miembro debe incluir el producto de los dos terminos ademas de sus cantidades al cuadrado. Puede demostrarse que el termino del producto de los dos terminos es igual a O. Esta ecuacion puede expresarse de la forma siguiente:
STC = SCR
+ SCE
Aqui vemos que la variabilidad total - STC- puede dividirse en un componente -SCRque representa la variabilidad que es explicada por la pendiente de la ecuacion de regresion (la media de Y es diferente en distintos niveles de X). El segundo componente -SCE- se debe a la desviacion aleatoria 0 sin explicar de los puntos con respecto a la recta de regresion. Esta variabilidad es una indicacion de la incertidumbre relacionada con el modelo de regresion. EI primer miembro es la suma total de los cuadrados: n
STC
=
I
(y; -
.0 2
i= ]
La cantidad de variabilidad explicada poria ecuacion de regresion es la suma de los cuadrados de la regresi6n y se calcula de la forma siguiente: n
n
;= ]
i= ]
Vemos que la variabilidad explicada porIa regresion depende directamente de la magnitud del coeficiente hi y de la dispersion de los datos de la variable independiente, X. Las desviaciones en torno a la recta de regresion, ei , que se utilizan para calcular la parte no explicada, 0 sea, la suma de los cuadrados de los errores, pueden definirse utilizando las siguientes formas algebraicas: II
II
II
i= ]
i=]
i= ]
Dado un conjunto de valores observados de las variables dependientes, Y, la STC es fija e igual a la variabilidad total de todas las observaciones con respecto a la media. Vemos que en esta descomposicion, cuanto mas altos son los valores de SCR y, por 10 tanto, cuanto mas bajos son los valores de SCE, mejor «se ajusta» 0 se aproxima la ecuacion de regresi6n a los datos observados. Esta descomposicion se muestra grcificamente en la Figura 12.5. En la ecuacion de SCR vemos que la variabilidad explicada, SCR, esta relacionada directamente con la dispersion de la variable independiente 0 X. Por 10 tanto, cuando exarninamos aplicaciones del analisis de regresion, sabemos que debemos tratar de obtener datos que tengan un gran rango para la variable independiente de manera que el modelo de regresion resultante tenga una variabilidad sin explicar men or.
450
Estadfstica para administracion y economfa
Analisis de la varianza La variabilidad total en un analisis de regresion, STC, puede descomponerse en un componen_ te explicado por la regresion, SCR, y un componente que se debe a un error sin explicar, SCE:
STC
= SCR + SCE
(12.8)
cuyos componentes se definen de la forma siguiente. Suma total de los cuadrados: 11
(12.9) ;=1
Suma de los cuadrados de los errores:
SCE =
11
11
II
;=1
i= l
i= l
L (Yi - (b o+ b[X;))2 = L (y; - .Vi = L ei
(12.10)
Suma de los cuadrados de la regresi6n: Il
n
;= I
;= 1
(12.11)
Vol vamos con esta informacion a nuestro ejemplo de las ventas al por menor (ejemplo 12.2) con el fichero de datos Retail Sales y veamos como utilizamos la descomposicion de la variabilidad para averiguar en que medida explica nuestro modelo el proceso Retail Sales estudiado. La Tabla 12.2 muestra los calculos detail ados de los residuos, e;; las desviaciones de Y con respecto a la media, y las desviaciones de los val ores predichos de Y con respecto a la media. Estos nos proporcionan los componentes para calcular SCE, STC y SCR. La suma de los cuadrados de las desviaciones de la columna 5 es SCE = 436.127. La suma de los cuadrados de las desviaciones de la columna 6 es STC = 5.397.561. Por ultimo, la suma de los cuadrados de las desviaciones de la columna 7 es SCR = 4.961.434. La Figura 12.6 presenta las salidas Minitab y Excel del analisis de regresion, incluido el analisis de la varianza.
EI coeficiente de determinacion R2 Bemos visto que el ajuste de la ecuacion de regresion a los datos mejora cuando aumenta SCR y disminuye SCE. El cociente entre la suma de los cuadrados de la regresion, SCR , y la suma total de los cuadrados, STC, es una medida descriptiva de la proporcion 0 porcentaje de la variabilidad total que es explicada pOl' el modelo de regresion. Esta medida se llama coeficie~te de determinacion 0, en terminos mas generales, R2. 2
SCR
SCE
STC
STC
R =-=1 - -
A menudo se considera que el coeficiente de determinacion es el porcentaje de la variabilidad de Y que es explicado por la ecuacion de regresion. Antes hemos demostrado que SCR aumenta directamente con la dispersion de la variable independiente X: 11
SCR =
L cY; ;=[
II
y)2
=
bi L ;=[
(X; - x)2
Capitulo 12.
Regresi6n simple
451
Tabla 12.2. Valores efectivos y predichos de las ventas al por menor por hogar y residuos calculados a partir de su regresion lineal con respecto a la renta por hogar. Ventas al por mellor ADO
Rellta (X)
(Y)
Velltas al por mellor predichas
1 2 3 4 5 6 7 8 9 10
9.098 9.138 9.094 9.282 9.229 9.347 9.525 9.756 10.282 10.662 1l.019 11.307 11.432 11.449 11.697 11.871 12.018 12.523 12.053 12.088 12.215 12.494
5.492 5.540 5.305 5.507 5.418 5.320 5.538 5.692 5.871 6.157 6.342 5.907 6.124 6.186 6.224 6.496 6.718 6.921 6.471 6.394 6.555 6.755
5.394 5.409 5.392 5.464 5.444 5.489 5.557 5.645 5.846 5.991 6.127 6.237 6.284 6.291 6.385 6.452 6.508 6.701 6.521 6.535 6.583 6.689
11
12 13 14 15 16 17
18 19 20 21 22
Sllma de los cuadrados de los val ores
Residuo
Desviacioll observada COil respecto a la media
Desviacioll predicha COil respecto a la media
98 131 -87 43 - 26 - 169 - 19 47 25 166 215 - 330 - 160 - 105 - 161 44 210 220 - 50 -14 1 - 28 66
-550 -502 -737 -535 -624 -722 -504 -350 -171 115 300 - 135 82 144 182 454 676 879 429 352 513 713
- 649 - 633 - 650 -578 - 599 - 554 - 486 - 397 -197 - 52 84 194 242 248 343 409 465 658 479 492 541 647
436.127
5.397.561
4.961.434
Vemos, pues, que R2 tambien aumenta directamente con la dispersion de la variable independiente. Cuando buscamos datos para estimar un modelo de regresion, es importante elegir las observaciones de la variable independiente que abarquen la mayor dispersion posible de X con el fin de obtener un modele de regresion con el mayor R2.
Coeficiente de determinacion R2 EI coeficiente de determinacion de una ecuacion de regresion es
SCR STC
R2 = - - = 1
SCE STC
(12.12)
Esta cantidad yarra de 0 a 1 y los valores mas altos indican que la regresion es mejor. Las interpretaciones generales de R2 deben hacerse con cautela, ya que un valor alto puede deberse a que SCE es bajo 0 a que STC es alto 0 ambas cos as a la vez.
°
°
R2 puede variar de aI, ya que STC es fijo y < SCE < STC. Cuando R2 es alto, significa que la regresion es mejor, manteniendose todo 10 demas constante. En la salida del analisis de regresion vemos que el R2 de la regresion de las ventas al por menor es 0,919,0 sea, 91,9 por ciento. Normalmente, se considera que R2 es la variabilidad porcentual explicada.
452
Estadfstica para administraci6n y economfa
Results for: retail sales.MTW Regression Analysis: Y Retail Sales versus X Income
The regression equation is Y Retai l Sa l es = 1922 + 0 . 382 X Income Pre d i ctor Consta n t X I n come
Coef 1922.4 0 .3 81 52
SE Coe f 274 . 9 0 . 025 29
T
P
6 . 99 15.08
0 . 000 0 . 000
R- Sq(adj)
Se' Error tfpico de la estimacion
91 .5 %
R2, Coeficiente de determinacion
Ana l ysis o f Va ri ance Sourc e DF Regres s i on 1 Residua l Error 20 Total 21
F
P
4 9~ 227.52
MS
O. 0 00
~~.--------------
S~, Varianza del error del modelo
SRC = 4,961,434 SCE = 436,127
Unusua l Ob serva t i on s
STC
Y
Obs X 12
Income 11307
Ret a i l Sales 5907 . 0
Fit 623 6. 2
SE Fit 34 . 0
Residual -32 9.2
=
5,397,561
St Res i d -2. 29R
R den otes an observat i on with a l arge standa r diz e d residual . (a)
1
isLfMMA~OUTPJT -·--B----"i-_.s_-·-·~-- Q _·,_..s.--·-·-c---L......--c---Q.--.LSe' Error ,tipico dela estimaci6n :
2 3. i
Reo/ession Slotisties
~ iMultipl,e H . 0.958748803 : : : . 5 li'\ §qu~re ,. . ( 0.919199267 ' )+-_'-------- R}, Coeficiente de determ.inaCi6n 6 !,A..dju~t.ed R §quare l .. 0.91515923 7 jSlandard Error : (147 .6697181 :) 8 !Observations 22 , ~, Varia;nza del error del modelo . ~ ! ., ..... '.
10 ANOVA
· Hf:: ; R:-e-g-re-s-s-:-io-n-------L--~tU~--:+---r.;~~;=;;:-;i-------O:=--=Oc-=~=~~~~~
·~.~ ·I~:i~~~~" ,
SRC = 4,961,434 .: SCE = 436,127 : STC = 5,397,561
15 i · 1'6 -+i--------'--c.=-o-e....,ffI""CJ....,.e-n-ts----'S-=-t,B-nd.-:B-~-d'"'£j=-"-o-'~'--t-St.-=-o-t--'-.-:P--::--vB-":-ue--'---,L-o-~-tN-g-=-'§=-%:--.;... · ....,.up..,...'P-e-~-g""'§=-%,....;.
17 !Intercellt
18 1x
1922.392694 ; 274 .9493737 , 6.991806 ; 8.74E-07 : 0.38151672 ' 0.025293061 15.08385 : 2.17E-12 '
In;;~me
1348.858617 ' 2495 .92677 : 0.328756343 0.4342771 :
(b)
Figura 12.6.
~
INTERPRETACION
Anillisis de regresion de las ventas al por menor con respecto a la renta disponible: (a) salida Minitab; (b) salida Excel.
La segunda forma de la ecuaci6n pone de manifiesto que R2 depende del cociente entre SCE y STC. R2 puede ser alto porque SCE es bajo -el objetivo deseado- 0 porque STC es alto 0 por ambas cosas a la vez. Las interpretaciones generales de R2 que se aplican a todas las ecuaciones de regresi6n son peligrosas. Dos modelos de regresi6n que tengan el rnismo conjunto de Yi observadas siempre pueden compararse utilizando el coeficiente de determinaci6n R2, y el modelo cuyo R2 sea mas alto explica mejor la variable Y. Pero las comparaciones generales de R2 -que afirman que un modelo es bueno porque su R2 es
Capitulo 12.
Regresi6n simple
453
superior a un determinado valor- son engafiosas. Generalmente, los analistas con experiencia han observado que R2 es 0,80 0 mas en los modelos basados en datos de series temporales. En los modelos basados en datos de corte transversal (por ejemplo, ciudades, regiones, empresas), el valor de R2 oscila entre 0,40 y 0,60 y en los modelos basados en datos de personas individuales a menudo oscila entre 0,10 y 0,20. Para ilustrar el problema de las interpretaciones generales de R2, consideremos dos moelos de regresi6n -cuyos graficos se muestran en la Figura 12.7-, cada uno de los cuales se basa en un total de 25 observaciones. En ambos modelos, SeE es igual a l7 ,89, por 10 Figura 12.7. Comparaci6n del R2 de dos model os de regresi6n; (a) R2 alto; (b) R2 bajo.
Regression Model with High R Squared Y1 = 10.3558 + 1.99676 X S =0.881993
R-Sq
= 99 .7 %
R·Sq(adj)
= 99.6 %
60
50
40
30
20
10 0
5
10
15
20
25
X (a)
Regression Model with Low R Squared Y2 S = 0.881993
= 10.3558 + 0.196759 X R-Sq(adj) = 72.6 % R-Sq = 73.8 % •
16
• 15 14
N
>-
13
12 11 10
•
9 0
5
15
10
X (b)
20
25
454
Estadfstica para administraci6n y economfa
que el aj uste de la ecuacion de regresion a los puntos de datos es el mismo. Pero en el primer modelo, la suma total de los cuadrados es igual a 5.201 ,05 , mientras que en el segundo es igual a 68,22. Los valores de R2 de los dos modelos son los siguientes. Modelo 1: SCE
R2 = 1 - -
STC
= 1
17,89 - - - =0,997 5.201,05
Modelo 2: SCE
17,89
R2 = 1 - -
= 1 - - - = 0738 STC 68,22'
Dado que SCE es igual en ambos modelos y, pOl' 10 tanto, la bondad del ajuste es la misma en los dos , no podemos afirmar que el modelo 1 se ajusta mejor a los datos. Sin embargo , en el modelo 1 el valor de R- es mucho mas alto que en el modelo 2. Como vemos aquf, la interpretacion general de R2 debe hacerse con mucha cautela. Observese que los dos intervalos diferentes del eje de ordenadas de la Figura 12.7 se deben a valores diferentes de STC. Tambien puede establecerse una relacion entre el coeficiente de correlacion y el R2, observando que la correlacion al cuadrado es igual al coeficiente de determinacion . Otra interpretacion de la correlacion es que es la rafz cuadrada de la variabilidad porcentual explicada. ')
Correlacion y R2 EI coeficiente de determinacion, R2, de la regresion simple es igual al cuadrado del coeficiente de correlacion simple: (12.13) Este resultado establece una importante conexi on entre la correlacion y el modele de regresion.
La suma de los cuadrados de los errores puede utilizarse para obtener una estimacion de la varianza del error del modelo e i' Como veremos, el estimador de la varianza del error del modelo se utiliza para realizar la inferencia estadfstica en el modelo de regresion. Recuerdese que hemos supuesto que el error poblacional, e;, es un error aleatorio que tiene una media 0 y una varianza (J 2 . El estimador de (J 2 se calcula de la forma siguiente:
Estimacion de la varianza del error del modelo La cantidad SeE es una medida de la suma total de los cuadrados de las desviaciones en torno a la recta de regresion estimada y e; es el residuo. Un estimador de la varianza del error poblacional del modelo es Il
~2
(J
L e;
2
;= I
e
n - 2
=s = - -
SCE
n- 2
(12.14)
Se divide por n - 2 en lugar de n - 1 porque el modelo de regresion simple utiliza dos parametros estimados, bo y b1 , en lugar de uno. En el siguiente apartado vemos que este estimador de la varianza es la base de la inferencia estadfstica en el modelo de regresion.
Capitulo 12.
Regresion simple
455
EJERCICIOS
Ejercicios basicos
12.28. Sea
12.26. CaJcule SCR, SCE, s; y el coeficiente de determinaci6n, dados los siguientes estadisticos calculados a partir de una muestra aleatoria de pares de observaciones de X e Y: n
a)
I
(Yi - j)2 = 100.000;
R
r = 0,50; n = 52
= 90.000;
(Yi - y)2
n
c)
I
(y; - y)2
r
240;
=
r2
= 0,70;
n
= 52
II
I R2
=
0,80; n
=
=
52
II
I
I
(y; - y)2
= 200.000; r = 0,30; n = 74
(Yi - y)2
I
(Yi - y)2
= 60.000;
r
b) Utilizando el resultado del apartado (a), demuestre que el coeficiente de determinaci6n es igual al cuadrado de la correlaci6n muestral entre X e Y. c) Sea b l la pendiente de la regresi6n por mfnimos cuadrados de Y con respecto a X, b'r la pendiente de la regresi6n por mfnimos cuadrados de X con respecto a Y y r la correlaci6n muestral entre X e Y. Demuestre que
= 0,90; n = 40
;~I
Ejercicios apl icados 12.27. Sea la recta de regresi6n muestral Yi
(x; - x)2
_i~_I_ _ __
i~1
II
e)
b2 I
II
d)
STC
a) Utilizando el apartado (d) del ejercicio 12.27, demuestre que
II
I
SCR
= -
el coeficiente de determinaci6n de la recta de regresi6n muestral.
i= 1
b)
2
= bo + blx; + ei = Yi + e; (i = 1, 2, ... , n)
y sean
x e y las medias muestrales de las varia-
bles independiente y dependiente, respectivamente. a) Demuestre que ei = Yi -
Y-
b(x; - x)
b) Utilizando el resultado del apartado (a), demuestre que II
c) Utilizando el resultado del apartado (a), demuestre que "
I
;= 1
11
e; =
I
(Yi - y)2 - b 2
II
I
(Xi - X)2
i=1
d) Demuestre que Yi -
Y=
b;Cx; - x)
e) Utilizando los resultados de los apartados (c) y (d), demuestre que STC = SCR
+ SCE
f) Utilizando el resultado del apartado (a), demuestre que 11
I ;~ I
e;(Xi - x) = 0
b l ·bt=r2 12.29. Halle e interprete el coeficiente de determinaci6n de la regresi6n de las ventas del sistema de DVD con respecto al precio, utilizando los datos siguientes. Ventas
420
380
350
400
440
380
450
420
Precio
5,5
6,0
6,5
6,0
5,0
6,5
4,5
5,0
12.30. tli .o9 Halle e interprete el coeficiente de determinaci6n de la regresi6n de la variaci6n porcentual del fndice Dow-Jones en un ano con respecto a la variaci6n porcentual del fndice en los cinco primeros dias de sesi6n del ano, continuando con el analisis del ejercicio 12.7. Compare su respuesta con la correlaci6n muestral obtenida con estos datos en el ejercicio 12.7. Uti lice el fichero de datos Dow Jones. 12.31. 4;,} Basandose en los datos del ejercicio 12.24, halle la proporci6n de la variabilidad muestral de las perdidas porcentuales experimentadas por los fondos de inversi6n el 13 de noviembre de 1989 explicada por su dependencia lineal de las ganancias porcentuales obtenidas en 1989 hasta el 12 de noviembre. Utilice el fichero de datos New York Stock Exchange Gains and Losses.
456
12.32.
Estadfstica para administraci6n y economfa
~ Vuelva a los datos sobre la tasa de absentismo lab oral del ejercicio 12.25. Utilice el fichero de datos Employee Absence.
f
a) Halle [os valores predichos, Yi' y los residuos, ei , de la regresi6n por mlnimos cuadrados de la variaci6n de la tasa media de absentismo por enfermedad con respecto a la variaci6n de [a tasa de desempleo. b) Halle las sumas de los cuadrados STC, SCR y SCE Y verifique que STC
=
SCR
+ SCE
c) Utilizando los resultados del apartado (a), halle e interprete el coeficiente de determinaci6n. 12.33. Vuelva a los datos sobre las ventas semanales y las puntuaciones obtenidas en un test de aptitud por los representantes de ventas del ejercicio 12.21. a) Halle los valores predichos, Yi' y los residuos, ei , de la regresi6n por mlnimos cua-
drados de las ventas semana[es con respecto a [as puntuaciones del test de aptitud. b) Halle las sumas de los cuadrados STC, SCR y SCE Y verifique que STC = SCR
+ SCE
c) Utilizando los resultados del apartado (a), halle e interprete el coeficiente de determinaci6n. d) Halle directamente el coeficiente de corre[aci6n muestral entre las ventas y las puntuaciones del test de aptitud y verifique que su cuadrado es igual al coeficiente de determinaci6n . 12.34. En un estudio se demostr6 que en una muestra de 353 profesores universitarios, la correlaci 6n entre las subidas salariales anuales y las eva[uaciones de la docencia era de 0,11 . i., Cmil seria el coeficiente de determinaci6n de una regresi6n de las subidas salaria[es anuales con respecto a [as evaluaciones de la docencia en esta muestra? Interprete su resultado.
12.5. Inferencia estadfstica: contrastes de hip6tesis e intervalos de confianza Una vez desarrollados los estimadores de los coeficientes y un estimador de (12, estamos ya en condiciones de hacer inferencias rel ativas al modelo poblacional. El enfoque Msico es paralelo al de los Capftulos 8 a 11. Desarrollamos estimadores de la varianza para los estimadores de los coeficientes, bo Y bl> Y utilizamos los panimetros y las varianzas estimados para contrastar hip6tesis y para calcular intervalos de confianza utilizando la distribuci6n t de Student. Las inferencias realizadas a partir del analisis de regresi6n nos ayudaran a comprender el proceso analizado y a tomar decisiones sobre ese proceso. Suponemos inicialmente que los errores aleatorios del modelo, c, siguen una distribuci6n normal. Mas adelante, sustituiremos este supuesto por el del teorema del limite central. Comenzamos desarrollando estimadores de la varianza y formas utiles de contraste. A continuaci6n, los aplicamos utilizando nuestros datos sobre las ventas al por menor. En el apartado 12.2 definimos la regresi6n simple correspondiente al modelo poblacional:
en la que las Xi tienen valores predeterrninados, pero no son variables aleatorias. En los Capftulos 5 y 6 sobre las funciones lineales de variables aleatorias vimos que si ci es una variable aleatoria que sigue una distribuci6n normal de varianza (12, entonces Yi tambien sigue una di stribuci6n normal que tiene la misma varianza. El segundo miembro es una funci6n lineal de X, salvo por la variable aleatoria ci. Si sumamos una funci6n de X a una
Capitulo 12.
Regresi6n simple
457
variable aleatoria, no cambiamos la varianza. En el apartado 12.3 observamos que el estimador del coeficiente de la pendiente, b I' es 11
I bl =
(Xi - X)(yi - )I)
i=1 11
I
(Xi - i)2
i=1
donde (Xi - i) ai = -,-,--'----
I
(Xi - X)2
i=1
En este estimador, vemos que b l es una funci6n lineal de la variable aleatoria Yi cuya varianza es (j2. Las Yi son variables aleatorias independientes. Por 10 tanto, la varianza de b l es una transformaci6n simple de la varianza de Y. Utilizando los resultados del Capitulo 6, la funci6n lineal puede expresarse de la forma siguiente: 11
bl =
I
aiYi
i=1
(Xi - x)
11
n
I
(Xi - X)2
i=1
Dado que Yi sigue una distribuci6n normal y b I es una funci6n lineal de variables normales independientes, esta funci6n lineal implica que b l tambien sigue una distribuci6n normal. De este amilisis podemos deducir la varianza poblacional y la varianza muestral.
458
Estadfstica para administracion yeconomfa
Distribuci6n en el muestreo del estimador de los coeficientes por mfnimos cuadrados Si se cumplen los supuestos habituales de la estimacion por mfnimos cuadrados, entonces b 1 es un estimador insesgado de f3 1 y tiene una varianza poblacional (J2 ,.,.2 _ _ _ __ vb l 11
I
(X i -
_
X)2
(n - l)s~
(12.15)
;= I
y un estimador insesgado de la varianza muestral ?
,.2
s;
2 S = ---"--bl n
I
(Xi -
X)2
ve
(n - 1)s;
(12.16)
i= 1
EI estimador de la constante de la regresion, bo, tambien es una funcion lineal de la variable aleatoria Yi y, por 10 tanto, puede demostrarse que sigue una distribucion normal, y su estimador de la varianza puede obtenerse de la forma siguiente:
i bo = ( -n1 + (n
2) i
- l)s~
e
Es importante observar que la varianza del coeficiente de la pendiente, b l , depende de dos importantes cantidades: 1. 2.
:~
INTERPRETACION
La distancia de los puntos con respecto a la recta de regresion medida por s;'. Cuando los valores son mas altos, la varianza de b l es mayor. La desviacion total de los valores de X con respecto a la media medida por (n - 1)s; . Cuanto mayor es la dispersion de los valores de X, menor es la varianza del coeficiente de la pendiente.
Estos dos resultados son muy importantes cuando hay que elegir los datos para realizar un modelo de regresion. Antes hemos sefialado que cuanto mayor era la dispersion de la variable independiente, X, mayor era R2, 10 que indicaba que la relacion era mas estrecha. Ahora vemos que cuanto mayor es la dispersion de la variable independiente -medida por s"~ -, menor es la varianza del coeficiente estimado de la pendiente, b l . Por 10 tanto, cuanto menores sean los estimadores de la varianza del coeficiente de la pendiente, mejor es el modelo de regresion. Tambien debemos afiadir que muchas conclusiones de investigaciones y muchas decisiones de polftica economica se basan en la variacion de Y que se debe a una variacion de X, estimada pOl' b I' Por 10 tanto, nos gustarfa que la varianza de esta importante variable de decision, b l , fuera 10 mas pequefia posible. En el analisis de regresion aplicado, nos gustaria saber primero si existe una relacion. En el modelo de regresion, vemos que si /31 es 0, entonces no existe una relacion lineal: Y no aumentarfa 0 disminuirfa continuamente cuando aumenta X. Para averiguar si existe una relacion lineal, podemos contra star la hipotesis
frente a
Capitulo 12.
Regresi6n simple
459
Dado que h, sigue una distribuci6n normal, podemos contrastar esta hip6tesis utilizando el estadfstico t de Student
que se distribuye como una t de Student con n - 2 grados de libertad. El contraste de hip6tesis tambien puede realizarse con valores de /31 distintos de 0. Una regia practica es extraer la conclusi6n de que existe una relaci6n si el valor absoluto del estadfstico t es superior a 2. Este resultado se obtiene exactamente en el caso de un contraste de dos colas con un nivel de significaci6n rL = 0,05 y 60 grados de libertad y constituye una buena aproximaci6n cuando n > 30.
Base para la inferencia sobre la pendiente de la regresi6n poblacional Sea /3 1 la pendiente de la ecuaci6n poblacional y b 1 su estimaci6n por minimos cuadrados ba-
sad a en n pares de observaciones muestrales. En ese caso, si se cumplen los supuestos habituales del modele de regresi6n y puede suponerse tambien que los errores, 8;, siguen una distribuci6n normal, la variable aleatoria
(12.17) se distribuye como una t de Student con (n - 2) grados de libertad. Ademas, el teorema del limite central nos permite conciuir que este resultado es aproximadamente valido para una amplia variedad de distribuciones no normales y muestras de un tamafio suficientemente grande, n.
La mayorfa de los programas que se emplean para estimar regresiones calculan normalmente la desviaci6n tfpica de los coeficientes y el estadfstico t de Student para /3, = 0. La Figura 12.8 muestra las salidas Minitab y Excel correspondientes al ejemplo de las ventas al por men or. En el caso del modelo de las ventas al por menor, el coeficiente de la pendiente es hI = 0,382 con una desviaci6n tfpica Sb[ = 0,02529. Para saber si existe relaci6n entre las ventas al por menor, Y, y la renta disponible, X, podemos contrastar la hip6tesis
frente a
En la hip6tesis nul a, el cociente entre el estimador del coeficiente, h j , y su desviaci6n tfpica sigue una distribuci6n t de Student. En el ejemplo de las ventas al por menor, observa'mos que el estadfstico t de Student calculado es hj
-
/3,
t=---
0,38152 0,02529
°=
15,08
El estadfstico t de Student resultante, t = 15,08, mostrado en la salida del am'ilisis de regresi6n, constituye una prueba contundente para rechazar la hip6tesis nula y concluir que existe una estrecha relaci6n entre las ventas al por menor y la renta disponible. Tambien
460
Estadistica para administracion y economia
Results for: retail sales.MTW Regression Analysis: V Retail Sales versus X Income
The regression equation is tbl , Estadfstico tde Student Y Retall Sales = 192 2 + 0 . 382 X r n c o m e C Predlctor Constan t X Income
Coef SE Coef T 1922. 4 274 . 9 6 . 99 ~~~
P 0.000 0.000
~
~ 1 47.~ R-S
=
91.9 %
Sb ' l
Error tfpico del coeficiente de la pendiente
R- Sq(adj) = 91.5 % S e'
Error tfpico de la estimaci6n
Analysis of F
Source Regression Residual Error Tota l
P
~~~)..._ _--_O_,_O_O_O_~, Varianza del error del modelo SCR, Suma de los cuadros de la regresi6n
Unus ual
Obs X 12
I ncome 11307
SCE, Suma de los cuadros de los errores
Retail Sale 5907.
Fi t 6236.2
SE Fi t 34.0
Residua l -329. 2
St Resid - 2 . 29R
R denotes an observat on with a large standardized residual .
b l , Coeficiente de la pendiente (a)
A 1
2 3 4 5 6 7 8
B
!SUMMARYOUTPUT
i
c
D
E
F Se'
Error tfplco
G
de la estimaci6n
Regression ~"'Btistics
iMultiple R 0.958748803 IH Squllre 0.919199267 0.9151592 3 ' !Adjusted R Squllre IStllndllrd Error <:::87.66971]]) 10bservlltions 22
SCR, Suma de los cuadros de la regresi6n
SCE, Suma de los cuadros de los errores
9
10 ANOVA 11 ~ ' ~__~__________~oY~__~~~~~~~~~~~~~~~~~~ 12 Regression 13 !Residulll
Se, Varianza del error del modelo
14 ITot1l1 . 21 15 1 16 r : --------------~--~~--~~~~~~~~~~~--~~-L~o-~-~-,-g~~~%~,~:~u.~~-~-e-'~g~~~7~17 :Intercept 18 :X Income 19 j
2.17E-12
1348.858617 2495.92677 ' 0.3 28756343 . 0.4342771
tb " Estadistico t de Student Sb"
Error tfp ico del coeficiente de la pendiente
b" Coeficiente de la pendiente (b)
Figura 12.8.
Modelos de ventas al par menor: estimadores de las varianzas de los coeficientes: (a) salida Minitab; (b) salida Excel .
sefialamos que el p-valor de hI es 0,000, 10 que es una prueba alternativa de que (J I no es igual a 0. Recuerdese que en el Capitulo 10 vimos que el p-valor es el menor nivel de significaci6n al que puede rechazarse la hip6tesis nula.
Capitulo 12.
Regresi6n simple
461
Tambien podrfan realizarse contrastes de hipotesis relativos a la constante de la ecuacion, b o, utilizando la desviacion tfpica desarrollada antes y mostrada en la salida Minitab. Sin embargo, como normalmente nos interesan las tasas de variacion -medidas por b l - , los contrastes relativos a la constante general mente son menos importantes. Si el tamafio de la muestra es 10 suficientemente grande para que se apJique el teorema del lfmite central , podemos realizar esos contrastes de hipotesis aunque los elTores, c;, no sigan una distribucion normal. La cuestion clave es la distribucion de bl' Si b l slgue una distribucion normal aproximada, es posible realizar el contraste de hipotesis.
Contrastes de la pendiente de la regresion poblacional Si los errores de la regresion, 8 i , siguen una distribucton normal y se cumplen los supuestos habituales del metodo de los mfnimos cuadrados (0 si la distribucion de b1 es aproximadamente normal), los siguientes contrastes tienen un nivel de significacion ex.
1.
Para contrastar cualquiera de las dos hipotesis nulas
Ho:PI=M frente a la hipotesis alternativa
la regia de decision es
Rechazar Ho si 2.
(12.18)
Para contrastar cualquiera de las dos hipotesis nulas
Ho: PI
=
f3l"
frente a la hipotesis alternativa
la regia de decision es
Rechazar Ho si 3.
(12.19)
Para contrastar la hipotesis nula
frente a la hipotesis alternativa bilateral
HI :PI #-
fit
la regia de decision es
Rechazar Ho si
P*I
bI S
hJ
>:
/' tll -
2 ,,/2 •
o
(12.20)
Podemos obtener interval os de confianza para la pendiente PI de la ecuacion poblacional utilizando los estimadores de los coeficientes y de las varianzas que hemos desarrollado y el razonamiento realizado en el Capitulo 8.
462
Estadfstica para administraci6n y economfa
Intervalos de confianza de la pendiente de la regresi6n poblacional ~ Si los errores de la regresi6n, 8 i , siguen una distribuci6n normal y se cumplen los supuestos habituales del analisis de regresi6n, se obtiene un intervalo de confianza al 100(1 - 0:)% de la pendiente de la recta de regresion poblacional (11 de la forma siguiente:
(12.21) don de
tn - 2
aJ2
es el numero para el que
y la variable aleatoria tn - 2 sigue una distribuci6n t de Student con (n - 2) grados de libertad.
En la salida del analisis de regresi6n de las ventas al por menor con respecto a la renta disponible de la Figura 12.8, vemos que n = 22
hi = 0,3815
Sb
=
0,0253
Para obtener el intervalo de confianza al 99 por ciento de PI' tenemos 1 - rx = 0,99 n - 2 = 20 grados de libertad y, por 10 tanto, vemos en la tabla 8 del apendice que t n - 2 ,rx/2
=
t20 , 0,005
y
= 2,845
Por 10 tanto, tenemos el intervalo de confianza al 99 por ciento 0,3815 - (2,845)(0,0253) <
PI <
0,3815
+ (2,845)(0,0253)
o sea 0,3095 <
PI < 0,4535
Vemos que el intervalo de confianza al 99 por ciento del aumento esperado de las ventas al por menor por hogar que acompafia a un aumento de la renta disponible por hogar de 1 $ abarca el intervalo de 0,3095 $ a 0,4353 $. La Figura 12.9 muestra los intervalos de confianza al 90, al 95 y al 99 por ciento de la pendiente de la regresi6n poblacional. Figura 12.9. Intervalos de confianza de la pendiente de la recta de regresi6n poblacional de las ventas al por menor a los niveles de confianza del 90, el 95 y el 99 por ciento.
Intervale de confianza al 90% ·,-------------------4
0,3379
0,3815
0,4251
Intervalo de confianza al 95%
1-----------------------1 1-----------------------1 0,3287 0,3815 0,4343 Intervale de confianza al 99%
1------------------------0,3095
I------------~~------·--------I 0,3815 0,4535
Cap itulo 12.
Regresi6n simple
463
Contraste de hip6tesis del coeficiente de la pendiente poblacional utilizando la distribuci6n F Existe otro contraste de la hipotesis de que el coeficiente de la pendiente, (31' es igual a 0:
Ho :(3) = 0 H 1 :(31 #0 Este contraste se basa en la descomposicion de la variabilidad que hemos presentado en el apartado 12.4. Este contraste parte del supuesto de que, si la hipotesis nula es verdadera, entonces pueden utilizarse tanto SCE como SCR para obtener estimadores independientes de la varianza del error del modelo (f2 . Para realizar este contraste, obtenemos dos estimaciones muestrales de la desviacion tfpica poblacional (f, que se denominan terminos cuadniticos medios. La suma de los cuadrados de la regresion, SCR, tiene un grado de libertad, ya que se refiere al coeficiente de la pendiente, y el cuadrado medio de la regresion, CMR, es SCR CMR = = SCR
1
Si la hipotesis nula - ausencia de relacion- es verdadera, entonces CMR es una estimacion de la varianza global del modelo, (f2 . Tambien utilizamos la suma de los cuadrados de los errores al igual que antes para hallar el error cuadnitico medio, ECM: SCE ECM=--=S2 n ~2 e
En el apartado 11.4 introdujimos la distribucion F, que era el cociente entre estimaciones muestrales independientes de la varianza, dadas varianzas poblacionales iguales. Puede demostrarse que CMR y ECM son independientes y que en Ho ambas son estimaciones de la varianza poblacional, (f2. Por 10 tanto, si Ho es verdadera, podemos demostrar que el cociente CMR SCR F = -- = ECM
s;
sigue una distribucion F con 1 grado de libertad en el numerador y n ~ 2 grados de libertad en el denominador. Tambien debe seiialarse que el estadfstico F es igual al cuadrado del estadfstico t del coeficiente de la pendiente. Esta afirmacion puede demostrarse algebraicamente. Aplicando la teorfa de la distribucion, podemos demostrar que una t de Student al cuadrado con n ~ 2 grados de libertad y la F con 1 gr'ldo de libertad en el numerador y n ~ 2 grados de libertad en el denominador son iguales: F(J., 1,17-2 = ~/2,n - 2
La Figura 12.8(a) muestra el analisis de varianza de la regresion de las ventas al por menor procedente de la salida Minitab. En nuestro ejemplo de las ventas al por menor, la
464
Estadfstica para administraci6n y economfa
suma de los cuadrados de los errores se di vide por los 20 grados de libertad para calclll ar el ECM: ECM =
436.127 20 = 21.806
A continuaci6n, se calcula el cociente F, que es como el cociente entre dos cuadrados medios: CMR
4 .961.434
ECM
21.806
=- - =
F
= 227 52 '
Este cociente F es considerablemente mayor que el valor crftico de r:t. = 0,01 con 1 grado de libertad en el numerador y 20 grados de Iibertad en el denominador (F 1.20,0,0 I = 8, 10) segun la Tabla 9 del apendice. La salida Minitab -Figura 12.8(a)- de la regresi6n de las ventas al por menor muestra que el p -valor de esta F calculada es 0,000, 10 que constitllye una prueba alternativa para rechazar Ho. Observese tambien que el estadistico F es igual a ?, siendo t el estadistico del coeficiente de la pendiente, b I:
F = t2 227,52 = 15,082
Contraste F del coeficiente de regresion simple Podemos contrastar la hipotesis
frente a la alternativa
utilizando el estadfstico F CMR
SCR
F=--= -
ECM
(12.22)
s;
La regia de decision es Rechazar Ho si
F): F 1,n -
2,iX
(12.23)
Tambien podemos mostrar que el estadfstico F es (12.24)
en cualquier anal isis de regresion simple. Este resultado muestra que los contrastes de hip6tesis relativos al coeficiente de la pendiente poblacional dan exactamente el mismo resultado cuando se utiliza la t de Student que cuando se utiliza la distribuci6n F. En el Capitulo 13 veremos que la distribuci6n F -cuando se utiliza en un analisis de regresi6n multiple- tambien brinda la oportunidad de contrastar la hip6tesis de que varios coeficientes poblacionales de la pendiente son simultaneamente iguales a O.
Capitulo 12.
465
Regresi6n simple
EJERCICIOS ·
Ejercicios basicos 12.35. Dado el modelo de regresi6n simple
Y=[30+[3I X y los resultados de la regresi6n siguientes, contraste la hip6tesis nula de que el coeficiente de la pendiente es 0 frente a la hip6tesis alternativa de que es mayor que cero utili zando la probabilidad de cometer un error de Tipo I igual a 0,05 y halle los interval os de confianza bilaterales al 95 y al 99 por ciento. a) Una muestra aleatoria de tamano n = 38 con h i = 5 Y Sb, = 2,1 b) Una muestra aleatoria de tamano n = 46 con hi = 5,2 Y Sb , = 2,1 c) Una muestra aleatoria de tamano 11 = 38 con h i = 2,7 Y Sb, = 1,87 d) Una muestra aleatoria de tamano 11 = 29 con hi = 6,7 Y sb, = 1,8
12.38. Una cadena de comida nlpida decidi6 realizar un experimento para averiguar la influencia de los gastos publicitarios en las ventas. Se introdujeron diferentes cambios relativos en los gastos publicitarios en comparaci6n con el ano anterior en ocho regiones del pafs y se observaron los cambios que experimentaron las ventas como consecuencia. La tabla adjunta muestra los res ultados. Aumento de los gastos publicitarios (%)
0
4
Aumento de las ventas (%)
2,4
7,2
suponiendo que (J. = 0,05, dados los siguientes estadfsticos de la regresi6n: a) EI tamano de la muestra es 35, STC= 100.000 Y la correlaci6n entre X eYes 0,46. b) EI tamafio de la muestra es 61, STC= 123.000 y la correlaci6n entre X eYes 0,65. c) EI tamano de la muestra es 25, STC= 128.000 Y la correlaci6n entre X eYes 0,69.
10,3 9,1
8
6
10,2 4,1
7,6
3,5
12.39. Un vendedor de bebidas alcoh6licas al por mayor tiene interes en averiguar c6mo afecta el precio de un whisky escoces a la cantidad vendida. En una muestra aleatoria de datos sobre las ventas de ocho seman as se obtuvieron los resultados de la tabla adjunta sobre el precio, en d61ares, y las ventas, en cajas. Precio
19,2 20,5
19,7 21,3
Ventas
25,4
18,6
14,7
20,8
12,4 11,1
19,9
17,8
17,2
15,7 29,2
35,2
Halle el intervalo de confianza al 95 por ciento de la variaci6n esperada de las ventas provocada por una subida del precio de 1 $.
Ejercicios aplicados 12.37. Considere la regresi6n lineal de las ventas del sistema DVD con respecto al precio del ejercicio 12.29. a) Utilice un metodo de estimaci6n insesgado para hallar una estimaci6n de la varianza de los terminos de en'or en la regresi6n poblacional. b) Utilice un me to do de estimaci6n insesgado para hallar una estimaci6n de la varianza del estimador pOI' mfnimos cuadrados de la pendiente de la recta de regresi6n poblacional. c) Halle el intervalo de confianza al 90 pOI' ciento de la pendiente de la recta de regresi6n poblacional.
9
10
a) Estime por mfnimos cuadrados la regreslOn lineal del aumento de las ventas con respecto al aumento de los gastos publicitarios. b) Halle el intervalo de confianza al 90 por ciento de la pendiente de la recta de regresi6n poblacional.
12.36. Uti lice un modelo de regresi6n simple para contrastar la hip6tesis frente a
14
Se recomienda que los siguientes ejercicios se resuelvan con la ayuda de un computador. 12.40.
6'9
Continue el amllisis del ejercicio 12.30 de la regresi6n de la variaci6n porcentual del Indice Dow-Jones en un ano con respecto a la variaci6n porcentual del fndice en los cinco primeros dras de sesi6n del ano. Utilice el fichero de datos Dow Jones. a) Utilice un metoda de estimaci6n insesgado para hallar una estimaci6n puntual de la varianza de los terminos de error de la regresi6n poblacional.
466
Estadfstica para administraci6n y economfa
b) Utilice un metoda de estimaci6n insesgado para hallar una estimaci6n puntual de la varianza del estimador por mfnimos cuadrados de la pendiente de la recta de regresi6n poblacional. c) Halle e interprete el intervalo de confianza al 95 por ciento de la pendiente de la recta de regresi6n poblacional. d) Contraste al nivel de significaci6n del 10 por ciento la hip6tesis nula de que la pendiente de la recta de regresi6n poblacional es 0 frente a la hip6tesis alternativa bilateral. 12.41. Considere el modelo de las perdidas experimentad as por los fondos de inversi6n el 13 de no-
viembre de J 980 del ejercicio 12.24. Utilice el fichero de datos New York Stock Exchange Gains and Losses. a) Utilice un metodo de estimaci6n insesgado para hallar una estimaci6n puntual de la varianza de los terminos de error de la regresi6n poblacional. b) Utilice un metoda de estimaci6n insesgado para hall ar una estimaci6n puntual de la varianza del estimador por mfnimos cuadrados de la pendiente de la recta de regresi6n poblacional. c) Halle los interval os de confianza al 90, al 95 y al 99 por ciento de la pendiente de la recta de regresi6n poblacional.
12.6. Prediccion Los model os de regresion pueden utilizarse para hacer predicciones 0 previsiones sobre la variable dependiente, partiendo de un valor futuro supuesto de la variable independiente. Supongamos que queremos predecir el valor de la variable dependiente, dado que la variable independiente es igual a un valor especffico, XII +" Y que la relacion lineal entre la variable dependiente y la variable independiente continua manteniendose. El valor correspondiente de la variable dependiente sera, entonces,
que, dado XII + " tiene la esperanza E[YIl+' IXII + d
= fJo + fJ1x
lI
+,
Existen dos opciones interesantes:
1. 2.
Podemos querer estimar el valor efectivo que se obtendra con una unica observacion, Yn+ ,. Esta opcion se muestra en la Figura 12.lO. Podemos querer estimar el valor esperado condicionado, E[YII+' IXn+ d, es decir, el valor medio de la variable dependiente cuando la variable independiente es fija e igual a X n + 1• Esta opcion se muestra en la Figura 12.11.
Dado que los supuestos habituales del analisis de regresion continuan cumpliendose, se obtiene la rnisma estimacion puntual en las dos opciones. Sustituimos simplemente los fJo y fJl desconocidos por sus estimaciones por minimos cuadrados, ho y h ,. Es decir, estimamos (fJo + fJ,x ll + ,) por medio de (h o + h1x n + I)' Sabemos que el estimador correspondiente es el mejor estimador insesgado lineal de Y, dado X. En la primera opcion, nos interesa saber cual es la mejor prediccion de una observacion del proceso. Pero en la segunda opcion, nos interesa saber cual es el valor esperado 0 media a largo plazo del proceso. En ambas opciones, un buen estimador puntual con nuestros supuestos es
ya que no sabemos nada util sobre la variable aleatoria, 8" + " salvo que su media es O. Por 10 tanto, sin otra informacion utilizaremos 0 como estimacion puntual.
Capitulo 12. Regresi6n simple
467
y
y 6.800
6.800
6.501 6.300
6.501 6.300
5.800
5.800
5.300 '--_ _-"-_ _ _--'----_+-_'---. 9.000 10.200 11.400 I 12.600 X 12.000
5.300 '-----_ _-----'-_ _ _-'-_-\-_--'---. 9.000 10.200 11.400 I 12.600 X 12.000
Figura 12.10. Recta de regresi6n estimada por mfnimos cuadrados de las ventas al por menor con respecto a la renta disponible: ap licaci6n a un unico valor observado.
Figura 12.11. Recta de regresi6n estimada por mfnimos cuadrados de las ventas al por menor con respecto a la renta disponible: valor esperado.
Sin embargo, normal mente queremos intervalos, ademas de estimaeiones puntuales, y para eso las dos opeiones son diferentes, ya que los estimadores de la varianza de dos eantidades diferentes estimadas son diferentes. Los resultados de estos estimadores diferentes de la varianza llevan a los dos intervalos diferentes. En la primera opei6n, el intervalo generalmente es un intervalo de predieei6n porque estamos predieiendo el valor de un tinieo punto. El intervalo de la segunda opei6n es un intervalo de eonfianza porque es el interva10 del valor esperado.
Intervalos de confianza de las predicciones e intervalos de prediccion Supongamos que el modelo de regresi6n poblacional es Yi
f30
=
+ f3I Xi + Gi
(i = 1, ... , n
+
1)
que se cumplen los supuestos habituales del anal isis de regresi6n y que los Gj siguen una distribuci6n normal. Sean bo y b 1 las estimaciones por minimos cuadrados de /30 y /31' basadas en (x1, Y1), (x2 , Y2 ), .. . , (xn' Yn)' En ese caso, puede demostrarse que los intervalos a1100(1 - a)% son los siguientes:
1.
Para la predicci6n del valor efectivo resultante de Yn + l ' el intervalo de predicci6n es
Yn+ ± t I
ll -
1+~ n
2 ,aj 2
[
+
(x + i)2]se n
1 -
(12.25)
11
L
(Xi - X)2
i =1
2.
Para la predicci6n de la esperanza condicional E(Yn+1Ixn+1)' el intervalo de confianza es
Yn+ ± tn- 2,aj2
(12.26)
I
donde n
LXi X
=
i =1
n
Y
Yn+l = bo + b1x,,+1
468
Estadfstica para administracion y economfa
EJEMPLO 12.3. Predicci6n de las ventas al por menor (predicci6n basad a en un modelo de regresi6n)
Retail Sales
Mostramos como se calculan los interval os utilizando el ejemplo 12.2 sobre las ventas al por menor y la renta disponible. Le han pedido que haga una prediccion de los valores de las ventas al por menor por hogar cuando la renta disponible por hogar es de 12.000 $: el valor efectivo del ano que viene y el valor esperado a largo plaza. Tambien Ie han pedido que calcule intervalos de prediccion e intervalos de confianza para estas predicciones. Utilice el fichero de datos Retail Sales.
Solucion Los valores predichos para el proximo ano y para el largo plaza son 511/+ 1
= bo + =
bjXn + l
+ (0,3815)(12.000)
1.922
=
6.501
Par 10 tanto, observamos que las ventas estimadas son de 6.501 $ cuando la renta disponible es de 12.000 $. Tambien observamos que
x=
n = 22
I
10.799
(Xi - x)2 = 34.110.178
s; =
21.806
Por 10 tanto, el error tfpico de una unica observacion predicha de Y es
1+ -1 + n
[
(xI1+J-
X)2 ] S e =
1
[1
Il
I
+ 22 +
(12.000 - 1O.799)2J 34.110.178
J
21.806 = 154,01
(Xi - x)2
i= J
Asimismo, observamos que el error tfpico del valor esperado de Yes
-1 + n
[
(x" + 1
-
X)2 ] Se -_
11
I
1 [ 22
+
_ (12.000 - 10.799fJ J 34.110.178 21.806 - 43,76
(Xi - i)2
i= J
Supongamos que se necesitan interval os del 95 por ciento para las predicciones suponiendo que rt. = 0,05 Y tn - 2 ,rx/ 2 = t20 , 0,025 = 2,086 Utilizando estos resultados, observamos que el intervalo de prediccion al 95 por ciento para las ventas al por menor del proximo ano cuando la renta disponible es de 12.000 $ se calcula de la fonna siguiente: 6.501 6.501
± (2,086)(154,01)
± 321
Por 10 tanto, el intervalo de prediccion al 95 por ciento para las ventas de un unico ano en el que la renta es de 12.000 $ va de 6.180 $ a 6.822 $. . En el caso del intervalo de confianza del valor esperado de las vent as al por menor cuando la renta disponible es de 12.000 $, tenemos que 6.501 6.501
± (2,086)(43,76) ± 91
Por 10 tanto, el intervalo de confianza at 95 par ciento del valor esperado va de 6.410 $ a 6.592 $.
Capitulo 12.
"lII
INTERPRETACION
Regresi6n simple
469
Las Figuras 12.10 y 12.11 muestran la distincion entre estos dos problemas de estimacion de intervalos. Vemos en ambas figuras la recta de regresion estimada para nuestros datos sobre las ventas al por menor y la renta disponible. Tambien vemos en la Figura 12.10 una funcion de densidad que representa nuestra incertidumbre sobre el valor que tomaran las ventas al por menor en cualquier ano especffico en el que la renta disponible sea de 12.000 $. La funcion de densidad de la Figura 12.11 representa nuestra incertidumbre sobre las ventas al por men or esperadas 0 medias en los afios en los que la renta disponible es de 12.000 $. Naturalmente, tenemos mas incertidumbre sobre las ventas de un unico afio que sobre las ventas medias y eso se refleja en la forma de las dos funciones de densidad. Vemos que ambas estan centradas en las ventas al por menor de 6.501 $, pero que la funcion de densidad de la Figura 12.10 tiene una dispersion mayor. Como consecuencia, el intervalo de prediccion de un valor especffico es mayor que el intervalo de confianza de las ventas al por menor esperadas. Podemos ex traer algunas concIusiones mas estudiando las formas generales de los intervalos de prediccion y de confianza. Como hemos visto, cuanto mas amplio es el intervalo, mayor es la incertidumbre sobre la prediccion puntual. Basandonos en estas formulas, hacemos cuatro observaciones:
1.
2.
Manteniendose todo 10 demas constante, cuanto mayor es el tamafio de la muestra . n, mas estrecho es el intervale de confianza. Vemos, pues, que cuanta mas informaci6n muestral tengamos, mas seguros estaremos de nuestra inferencia. Manteniendose todo 10 demas constante, cuanto mayor es mas amplio es el intervale de confianza. Una vez mas, es de esperar, ya que s; es una estimacion de (f2, la varianza de los errores de la regresion, ci. Dado que estos errores
s;,
representan la discrepancia entre los val ores observados de las variables dependientes y sus esperanzas, dadas las variables independientes, cuanto mayor es la magnitud de esta discrepancia, mas imprecisa sera nuestra inferencia. n
3.
Consideremos ahora la cantidad
(I
(Xi -
X)2. Esta cantidad es simplemente un
i= 1
4.
~
INTERPRETACION
multiplo de la varianza muestral de las observaciones de la variable independiente. Cuando la varianza es grande, significa que tenemos informacion sobre un amplio ran go de valores de esta variable, 10 que nos perrnite hacer estimaciones mas precisas de la recta de regresion poblacional y, por 10 tanto, calcular intervalos de confianza mas reducidos. Tambien vemos que cuanto mayores son los valores de la cantidad (xn + I - X)2, mas amplios son los intervalos de confianza de las predicciones. Por 10 tanto, los intervalos de confianza son mas amplios a medida que nos alejamos de la media de la variable independiente, X. Dado que nuestros datos muestrales estan centrados en la media X, es de esperar que podamos hacer inferencias mas definitivas cuando la variable independiente esta relativamente cerca de este valor central que cuando esta a alguna distancia de el.
No se recomienda extrapolar la ecuacion de regresion fuera del rango de los datos utilizados para realizar la estimaci6n. Supongamos que se nos pide que hagamos una prediccion de las ventas al por menor por hogar en un afio en el que la renta disponible es de 30.000 $. Volviendo a los datos de la Tabla 12.1 y a la recta de regresi6n de la Figura 12.11, vemos que 30.000 $ se encuentra muy fuera del range de los datos utilizados para
470
Estadfstica para administraci6n yeconomfa
desarrollar e l modelo de regresion . Un analista sin experiencia podrfa utilizar los metod os antes presentados para hacer una prediccion 0 estimar un intervalo de confianza. En las ecuaciones podemos ver que los intervalos resultantes serfan muy amplios y, por 10 tanto , la prediccion tendrfa escaso valor. Sin embargo, las predicciones que se realizan fuera del ran go de los datos originales plantean un problema mas fundamental: no tenemos sencill amente ninguna prueba que indique como es la naturaleza de la relacion fuera del ran go de los datos. No hay ninguna razon en la teorfa economica que exija absolutamente que la relacion siga siendo lineal con la misma tasa de variacion cuando nos salimos del rango de los datos utilizados para estimar los coeficientes del modelo de regresion . Cualquier extrapolacion del modelo fuera del ran go de los datos para predecir valores debe basarse en otra informacion 0 evidencia, ademas de la que contiene el analisis de regresion bas ado en los datos de que se dispone. Cuando los analistas intentan hacer este tipo de extrapolacion, pueden cometer graves errores.
EJERCICIOS
Ejercicios basicos 12.45. Dado un analisis de regresi6n simple, suponga que hemos ajustado el siguiente modelo de regresi6n:
12.45. Dado un analisis de regresi6n simple, suponga que hemos ajustado el siguiente modelo de regresi6n: y II
y
Se= 11,23
II
se=9,67
x=8
n=32
I
(Xi -
Halle el intervalo de confianza al 95 por ciento y el intervalo de predicci6n al 95 par ciento para el punto en el que X = 13. 12.43. Dado un analisis de regresi6n simple, suponga que hemos ajustado el siguiente modelo de regresi6n: Y; = 14 + 7Xi y n
x=8
n=25
I
(xi - xl=300
; ~ l
Halle el intervalo de confianza al 95 por ciento y el intervalo de predicci6n al 95 por ciento para el punto en el que x = 12. 12.44. Dado un analisis de regresi6n simple, suponga que hemos ajustado el siguiente modelo de regresi6n: Yi = 22 + 8x; y
se=3,45
x=l1
n=22
I"
11=44
(x; - i)2=400
;~ 1
Halle el intervalo de confianza al 95 por ciento y el intervalo de predicci6n al 95 par ciento para el punto en el que x = 17.
I
(x; - x)2 = 800
i ~ l
i)2 = 500
;~ l
se=7,45
x=8
Halle el intervalo de confianza al 95 por ciento y el intervalo de predicci6n al 95 por ciento para el punto en el que x = 17.
Ejercicios aplicados 12.46. Se toma una muestra de 25 obreros de una fabrica. Se pide a cada obrero que valore su satisfacci6n en el trabajo (x) en una escala de I a 10. Se averigua tambien el numero de dras que estos obreros estuvieron ausentes del trabajo (y) el ano pasado. Se estima la recta de regresi6n muestral por mfnimos cuadrados para estos datos. Y= 12,6 - 1,2x Tambien se ha observado que 25
x=6,0
I
(Xi -
i)2 = 130,0 ;
SeE = 80,6
i~ l
a) Contraste al nivel de significaci6n del 1 par ciento la hip6tesis nula de que la satisfacci6n en el trabajo no produce un efecto lineal en el absentismo frente a una hip6tesis alternativa bilateral adecuada. b) Un obrero tiene un nivel de satisfacci6n en el trabajo de 4. Halle un intervalo al 90 par
Capitulo 12.
Regresi6n simple
471
ciento del numero de dfas que este obrero estarfa ausente del trabajo en un ano.
mente en 1989 [rente a la hipotesis alternativa bilateral.
12.47. Los medicos tienen interes en saber que relacion existe entre la dosis de un medicamento y el tiempo que necesita un paciente para recuperarse. La tabla adjunta muestra las dosis (en gramos) y el tiempo de recuperacion (en horas) de una muestra de cinco pacientes. Estos pacientes tienen parecidas caracterfsticas, salvo la dosis del medicamento administrada.
12.51. Sea r la correlacion muestral entre un par de variables aleatorias. a) Demuestre que 1-
le
r2
n -2
STC
b) Utilizando el resultado del apartado (a), demuestre que b
r
Dosis
J (l - ?) /(n 25
Tiempo de recuperacion
40
10
27
16
a) Estime la regresion lineal del tiempo de recuperacion con respecto a la dosis. b) Halle e interprete el intervalo de confianza al 90 por ciento de la pendiente de la recta de regresion poblacional. c) l,Serfa util la regresion muestral obtenida en el apartado (a) para predecir el tiempo de recuperacion de un paciente al que se Ie administran 2,5 gramos de este medicamento? Explique su respuesta. 12.48. En el caso del problema de la tasa de rendimiento de las acciones del ejercicio 12.20, se observo que 20
I l
= 196,2
i= l
a) Contraste la hipotesis nula de que la pendiente de la recta de regresion poblacional es 0 frente a la hipotesis alternativa de que es positiva. b) Contraste la hipotesis nula de que la pendiente de la recta de regresion poblacional es 1 frente a la hipotesis alternativa bilateral. 12.49. Utilizando los datos del ejercicio 12.21, contraste la hipotesis nula de que las ventas semanales de los representantes no estan relacionadas lineal mente con su puntuacion en el test de aptitud frente a la hipotesis alternativa de que existe una relacion positiva. 12.50. Vuelva a los datos del ejercicio 12.4l. Contraste la hipotesis nul a de que las perdidas que experimentaron los fondos de inversion el viernes 13 de noviembre de 1989 no dependfan linealmente de las ganancias obtenidas anterior-
seIJI(x; -
2)
X)2
c) Utilizando el resultado del apartado (b), deduzca que el contraste de la hipotesis nul a de la correlacion poblacional 0, presentado en el apartado 12.1 , es igual que el contraste de la pendiente de la recta de regresion poblacional 0, presentado en el apartado 12.5. 12.52. En el problema del ejercicio 12.22 sobre las ventas de cerveza en los restaurantes se observo que I(Y; - y)2 n- 1
=
250
Contraste la hipotesis nula de que la pendiente de la recta de regresion poblacional es 0 [rente a la hipotesis alternativa bilateral. 12.53. En una muestra de 74 observaciones mensuales, se estimo la regresion del rendimiento porcentual del oro (y) con respecto a la variacion parcentual del fndice de precios (x). La recta de regresion muestral, obtenida par mfnimos cuadrados, era y = -0,003
+ 1,1lx
La desviacion tfpica estimada de la pendiente de la recta de regresion poblacional era 2,3 1. Contraste la hipotesis nula de que la pendiente de la recta de regresion poblacional es 0 frente a la hipotesis alternativa de que la pendiente es positiva. 12.54. Vuelva a los datos del ejercicio 12.39. Contraste al nivel del 5 por ciento la hipotesis nula de que las ventas no dependen linealmente del precio de este whisky escoces frente a la hipotesis alternativa bilateral apropiada. 12.55. Vuelva a los datos del ejercicio 12.29. a) Halle una estimacion puntual del volumen de ventas cuando el precio del sistema DVD es de 480 $ en una region dada.
472
Estadfstica para administracion y economfa
b) Si el precio del sistema se fija en 480 $, halle intervalos de confianza al 95 por ciento del volumen efectivo de ventas en una regi6n y el numero esperado de ventas en esa region.
12.56. Continue con el aml lisis del ejerci cio 12.7. Si el indice Dow-Jones sube un 1,0 por ciento en los cinco primeros dias de sesi6n de un ano, halle intervalos de confianza al 90 por ciento de la variaci6n porcentual efectiva y la esperada del indice en todo el ano. Analice la distinci6n entre estos intervalos.
12.57. f~, Vuelva a los datos del ejercicio 12.25 (fichero de datos Employee Absence). Halle para un ano en el que no varia la tasa de desempleo
intervalos de confi anza al 90 pOl' ciento de 1'1 vari aci6n efectiva de la tasa media de absenti smo laboral por enfermedad y de la variaci6n esperada.
12.58. Utilice los datos del ejercicio 12.20 para hall ar intervalos de confianza al 90 y al 95 pOt' ciento del rendimiento esperado de las acciones de la empresa cuando la tasa de rendimiento del in dice Standard and Poor's 500 es del 1 pOl' ciento.
12.59. Un nuevo representante de ventas de la empresa del ejercicio 12.21 obtiene 70 puntos en el test de aptitud. Halle intervalos de confianza al 80 y al 90 por ciento del valor de las ventas semanales que conseguini.
12.7. Analisis grafico Hemos desarrollado los metodos teoricos y analfticos que permiten realizar amllisis de regresion y construir modelos lineales. Utilizando contrastes de hipotesis e intervalos de confianza, podemos averiguar la calidad de nuestro modelo e identificar algunas relaciones irnportantes. Estos metodos inferenciales suponen inicialmente que los errores del modele siguen una distribucion normal. Pero tambien sabemos que el teorema del lfmite central nos ayuda a realizar contrastes de hipotesis y a construir intervalos de confianza mientras las distribuciones muestrales de los estimadores de los coeficientes y los valores predichos sean aproximadamente normales. El modelo de regresion tambien se basa en un conjunto de supuestos. Sin embargo, las aplicaciones del analisis de regresion pueden ser erroneas por much as razones, incluidos los supuestos que no se satisfacen si los datos no siguen las pautas supuestas. El ejemplo de la regresion de las ventas al por menor con respecto a la renta disponible -Figura 12.1- tiene un diagrama de puntos dispersos que sigue la pauta supuesta en el analisis de regresion. Sin embargo, esa pauta no siempre se produce cuando se estudian nuevos datos. Una de las mejores formas de detectar posibles problemas en el analisis de regresion simple es realizar diagramas de puntos dispersos y observar la pauta. Aquf examinamos algunos instrumentos analfticos y ejemplos de analisis de regresion que pueden ayudarnos a preparar mejores aplicaciones del anaIisis de regresion. En este apartado utilizamos el analisis grafico para mostrar como afectan al analisis de regresion los puntos que tienen valores extremos de X y los puntos que tienen valores de Y que se desvian considerablemente de la ecuacion de regresion por mfnimos cuadrados. En capftulos posteriores mostramos como puede utilizarse el analisis de los residuos para examinar otras desviaciones con respecto a las pautas normales de los datos . Los puntos extremos son puntos en los que los valores de X se desvfan considerablemente de los valores de X de los demas puntos. Volvamos ala ecuacion 12.26, que presenta el intervalo de confianza del valor esperado de Y cOlTespondiente a un valor especffico
Capitulo 12.
Regresion simple
473
de X. Para este intervalo de confianza es fundamental un termino lIamado norm almente valor de influencia (leverage), hi, de un punto, que se define de la forma siguiente:
Este valor de influencia aumenta la desviaci6n tfpica del valor esperado cuando los puntos de datos estan mas lejos de la media de X y, por 10 tanto, lIevan a un intervalo de confianza mas amplio. Se considera que un punto i es un punto extremo si el valor de h de ese punto es muy diferente de los valores de h de todos los demas puntos de datos. Vemos en el ejemplo siguiente que el programa Minitab identifica los puntos que tienen un elevado valor de influencia con una X si hi > 3 pin, donde p es el numero de predictores, incluida la constante. La mayoria de los paquetes estadfsticos buenos permiten identificar estos puntos, pero no asi el programa Excel. Utilizando esta opcion, es posible identificar los puntos extremos, como muestra el ejemplo 12.4. Los puntos atfpicos son los puntos que se desvfan considerablemente en la direccion de Y con respecto al valor predicho. Normal mente, estos puntos se identifican calculando el residuo normalizado de la forma siguiente:
Es decir, el residuo normalizado es el residuo dividido por el error tfpico del residuo. Observese que en la ecuacion anterior los puntos que tienen un elevado valor de influencia -un elevado h,~- tienen un error tipico del residuo menor, porque los puntos que tienen un elevado valor de influencia probablemente influyen en la localizacion de la recta de regresion estimada y, por 10 tanto, el valor observado y el esperado de Yestaran mas cerca. Minitab marca las observaciones que tienen un valor absoluto del residuo normalizado superior a 2,0 con una R para indicar que son casos atipicos. Tambien las marcan la mayoria de los buenos paquetes estadisticos, pero no el Excel. Utilizando esta opcion, es posible identificar los puntos atipicos, como muestra el ejemplo 12.5. ~ En los dos ejemplos siguientes, veremos que los puntos extremos y los casos atfpicos INTERPRETACIQN tienen una gran influencia en la ecuacion de regresion estimada en comparacion con otras observaciones. En cualquier analisis aplicado, estos puntos inusuales forman parte de los datos que representan el proceso estudiado 0 no forman parte de ellos. En el primer caso, deben incluirse en el conjunto de datos y en el segundo caso no. El analista debe decidir. Normalmente, para tomar estas decisiones hay que comprender bien el proceso y hacer una buena valoracion. En primer lugar, debe examinarse detenidamente cada punto y comprobarse su fuente. Estos puntos inusuales podrfan deberse a errores de medicion 0 de recogida de datos y, por 10 tanto, se elirninarian 0 se corregirian. Una investigaci6n mas profunda puede revelar circunstancias excepcionales que no se espera que formen parte del proceso habitual y eso indicarfa la exclusion de los puntos de datos . Las decisiones sobre que es un proceso habitual y otras decisiones afines exigen una valoracion y un examen detenidos de otra informacion sobre el proceso estudiado. Un buen analista utiliza los calculos estadfsticos anteriores para identificar las observaciones que deben exarninarse mas detenidamente, pero no se basa exclusivamente en estas medidas de identificacion de las observaciones inusuales para tomar la decision final.
474
Estadfstica para administraci6n y economfa
EJEMPLO 12.4. EI efecto de los valores extremos de X (amilisis mediante un diagrama de puntos dispersos) Nos interesa saber c6mo afectan los valores extremos de X a la regresi6n. En este ejemplo, se analiza el efecto de los puntos que tienen valores de X que son muy diferentes de los otros puntos utilizando dos muestras que s610 se diferencian en dos puntos. Estos ejemplos comparativos, aunque son algo excepcionales, se utilizan para poner enfasis en el efecto que producen los puntos extremos en un analisis de regresi6n.
Solucion La Figura 12.12 es un diagrama de puntos dispersos con una recta de regresi6n trazada sobre los puntos y la 12.13 es Ia salida del anal isis de regresi6n calculada con los datos. La pendiente de Ia recta de regresi6n es positiva y R2 = 0,632. Pero observese que dos puntos extremos parecen determinar la relaci6n de regresi6n. Examinemos ahora el efecto de un cambio de los dos puntos de datos extremos, mostrado en las Figuras 12.14 y 12.15. y2 = 11.74 + 0.9145 x2
------_--------..-.
100 90
5 R·Sq R-Sq(adj)
8.41488 63. 2% 61.7%
80 70 1'1
60
>
• • -:. \ ••• •• ••
50
. .. . •
40 30
4'"
20 10 0
Figura 12.12.
10
20
30
40 x2
50
60
70
80
Diagrama de puntos dispersos con dos puntos extremos de X: pendiente positiva.
Regression Analysis: V2 versus x2
Th e regres sion equation is Y2 = 11 . 74 + 0.914 5 x2
S
= 8 .4 1488
R-Sq
= 63 . 2%
R- Sq(adj)
61 . 7%
Analysis of Variance Source Regression Error Total
DF 1 25 26
SS
MS
F
P
3034 _80 1770 . 26 4805.05
3034.80 70.81
42 . 86
0.00 0
Fitted Line: y2 versus x2
Figura 12.13.
Analisis de regresion con dos puntos extremos de X: pendiente positiva (salida Minitab).
Capitulo 12.
Regresi6n simple
475
Regression Analysis: Y versus X
The regression equation is Y1 = 53 . 2 - 0.463 X Predic t or Constant Xl s
=
SE Coef 3.5 1 8 0 .1 042
Coef 53.195 - 0.4626
6.27612
R-Sq
=
44.1%
T
P
15.12 -4.44
0 . 000 0.000
R-Sq(adj)
=
41 . 9%
Analysis of variance Source Regression Residual Error Total
DF 1 25 26
SS 776 .56 984 . 74 1761.30
MS 776.56 39.39
F 19.71
P 0 . 000
Unusual Observat i ons Obs X 7 35.5 26 80.0
Y Fit 49.14 36 . 78 10.00 16.19
Se Fit 1. 27 5.17
Residual 12 . 37 - 6.19
La obse rvaci6n 26 es un punta extrema can gran influencia
St Resid 2 . 01R -1.74 X
R denotes an observa t ion with a large standardized residual. X denotes an observation whose X value gives it large inf l uence. _ _ _ _ _ __ _ _ _ _ __ _ __
Figura 12.15.
. . . . . . ." " " " " " " ' . . . , , . , . . - - - . - • • • c · .
Analisis de regresion can dos puntas extremos de X: pendiente negativa (salida Minitab).
476
Estadfstica para adm inistraci6n y econom fa
:~
INTERPRETACION
Como consecuencia del cambio de dos puntos de datos solamente, ahora la relaci 6n tiene una pendiente negativa estadfsticamente significativa y las predicciones serfan muy diferentes. Sin examinar los diagramas de puntos dispersos, no sabrfamos pOl' que la pendiente que se obtiene es positiva 0 negativa. Podriamos haber pensado que nuestros resultados representaban una situaci6n de regresi6n normal como la que hemos visto en el diagrama de puntos dispersos de las ventas al pOl' menor. Observese que en la Figura 12.15 la observaci6n 26 se ha denominado observacion extrema mediante el sfmbolo X. Este ejemplo muestra un problema que se plantea habitualmente cuando se utili zan datos hist6ricos. Supongamos que X es el numero de trabajadores que trabajan en un turno de producci6n eYes el numero de unidades producidas en ese turno. La mayor parte del tiempo la fabrica tiene una plantilla relati vamente estable y la producci6n depende en gran parte de la cantidad de materias primas existentes y de las necesidades de ventas. La producci6n se ajusta al alza 0 a la baja en un rango estrecho en respuesta a las demandas y a la plantilla existente, X. Por 10 tanto, vemos que en la mayorfa de los casos el diagrama de puntos dispersos cubre un estrecho rango de la variable X. Pero a veces hay una plantilla muy grande 0 muy pequefia, 0 el numero de trabajadores se ha registrado incorrectamente. Esos dias la producci6n puede ser excepcionalmente grande 0 pequefi a 0 puede regi strarse incolTectamente. Como consecuencia, tenemos puntos extremos que pueden influir mucho en el modelo de regresi6n. Estos pocos dfas determinan los resultados de la regresion. Sin los puntos extremos, la regresi6n indicarfa que la relaci6n es pequefia 0 nula. Si estos puntos extremos representan extensiones de la relaci6n, el modelo estimado es uti!. Pero si estos puntos se deben a condiciones excepcionales 0 a errores de recogida de datos, el mode10 estimado es engafioso. En una aplicacion podemos observar que estos puntos extremos son COlTectos y deben utilizarse para trazar la recta de regresion. Pero el anahsta tiene que tomar esa decision sabiendo que ninguno de los demas puntos de datos apoya la existencia de una relacion significativa. De hecho, es necesario realizar un estudio detenido para comprender el sistema y el proceso que generaron los datos y para evaluar los datos de los que se dispone.
EJEMPLO 12.5. EI efecto de los valores atfpicos de la variable Y (analisis mediante un diagrama de puntos dispersos) En este ejemplo consideramos el efecto de los valores atfpicos en sentido vertical. Recuerdese que el modelo del analisis de regresion supone que toda la variaci6n se produce en el sentido de las Y. Sabemos, pues, que los val ores atfpicos en el sentido de las Y tendran grandes residuos y estos residuos daran como resultado una estimacion mayor del error del modelo. En este ejemplo, veremos que los efectos pueden ser aun mas extremos.
Solucion· Para comenzar, observemos el diagrama de puntos dispersos y el analisis de regresion de las Figuras 12.16 y 12.17. En este ejemplo, tenemos una estrecha relacion entre las variables X e Y. EI diagrama de puntos dispersos apoya c1aramente la existencia de una relacion lineal, estimandose que hI = 11,88. Adeinas, el R2 del modelo de regresion es cercano a 1 y el estadfstico t de Student es .nuy alto. Es evidente que tenemos pruebas contundentes para apoyar un modelo lineal.
Capitulo 12.
Regres i6n simple
477
Y1 = - 4.96 + 11.88 Xl 900
S R-Sq R-Sq (adj)
•
800
64.7786 91.7% 91.4%
700 600
... >
500 400 300 200 100 0 0
10
20
30
40
50
60
Xl Figura 12.16.
Diagrama de puntos dispersos con una pauta prevista.
Regression Analysis: Yl versus Xl The regressi o n equation is Y1 = - 4 . 96 + 11 . 88 Xl
s
64.7786
R-Sq
9 1 .7 %
R- Sq(adj )
91.4%
Analysis of var i a nce Source Regression Error Total
DF 1 25 26
SS 1160171 1 0 4 907 1 2650 77
MS 1160171 4196
F 276 . 48
P
0.000
Fitted Line: Yl versus Xl
Figura 12.17.
Regresion con una pauta prevista (salida Minitab).
Veamos ahora como afecta un cambio de dos observaciones a los puntos atipicos, como muestra la Figura 12.18, que podria deberse a un enor en la recogida de los datos o a la presencia de unas circunstancias muy poco habituales en el proceso estudiado. La pendiente de la recta de regresion sigue siendo positiva, pero ahora b l = 6,40 y la estimacion de la pendiente tiene un error tfpico mayor, como muestra la Figura 12.19. EI intervalo de confianza es mucho mas amplio y el valor predicho a partir de la recta de regresion no es tan preciso. Ahora el modelo de regresion conecto no esta tan claro. EI programa Minitab identifica las observaciones 26 y 27 como observaciones atfpicas imprimiendo una R al lado del residuo normalizado. Los residuos normalizados cuyo valor absoluto es superior a 2 se indican en la salida. Si los dos puntos extremos ocunieron realmente en el funcionamiento normal del proceso, deberfamos incluirlos en
478
Estadfstica para administraci6n y economfa
nuestro analisis. Pero el hecho de que se desvfen tanto de la pauta indica que debemos investigar atentamente las situaciones de los datos que generaron esos puntos y estudiar el proceso examinado.
S R-Sq R-Sq(adj)
192.721 26.6% 23.7%
Puntos atfpicos
Figura 12.18.
Diagrama de puntos dispersos con puntos atipicos de Y.
Regression Analysis: V1 versus X1
The regression equation is Yl = 184 + 6 . 40 Xl Predictor Constant Xl S
=
SE Coef 82.10 2 . 126
Coef 183 .9 2 6.400
192.721
R-Sq
=
26.6%
T
P
2.24 3 . 01
0.034 0.006
R-Sq(adj)
=
23.7%
Ana lysi s of Variance Source DF Regression 1 Residual Error 25 Total 26
SS 336540 928537 1265077
MS 336540 37141
F 9.06
P 0.006
Residual 653.3 -535.9
St Resid Casos atfpicos 3 . 71R ....------ marcados con una R - 2 . 91R
Unusua l Observations Xl Yl Obs 2.0850.0 26 0.0 27 55.0
Fit 1 96.7 535.9
Se Fit 78 . 3 57.3
R denotes an observation with a large standardized residual.
Figura 12.19.
Regresion con puntos atipicos de Y (salida Minitab).
Capitulo 12.
Regresi6n simple
479
Podrfamos proponer otros much os ejemplos. Podrfamos observar que el diagrama de puntos dispersos sugiere la existencia de una relacion no lineal y, por 10 tanto, serfa un modelo mejor para un problema especffico. En los Capftulos 13 y 14, veremos como puede utilizarse la regresion para analizar relaciones no lineales. Observaremos muchas pautas de datos a medida que examinemos distintas aplicaciones del analisis de regresion. Lo importante es que debemos seguir regularmente los metodos del analisis -incluida la realizacion de diagramas de puntos dispersos- que puedan suministrar la mayor informacion posible. Como buen analista, debe «jConocer sus datos!» En el capitulo siguiente vemos como pueden utilizarse tambien los residuos graficamente para realizar mas contrastes de los modelos de regresion.
EJERCICIOS
Ejercicios basicos
Ejercicio aplicado
12.60. '4 Frank Anscombe, alto ejecutivo encargado de la investigaci6n, Ie ha pedido que analice los cuatro modelos lineales siguientes utilizando los datos que contiene el fichero de datos ADScombe.
12.61. ". John Foster, presidente de Public Research Inc., Ie ha pedido ayuda para estudiar el nivel de delincuencia existente en diferentes estados -de Estados Unidos antes y despues de la realizaci6n de elevados gastos federales para reducir la delincuencia. Quiere saber si se puede predecir la tasa de delincuencia en el caso de algunos delitos despues de realizados los gastos utilizando Ja tasa de delincuencia existente antes de realizar los gastos. Le ha pedido que contraste la hip6tesis de que la delincuencia existente antes predice la delincuencia posterior en el caso de la tasa total de delincuencia y de las tasas de asesinato, violaci6n y robo. Los datos para su anaIisis se encuentran en el fichero de datos Crime Study. Realice el anaIisis adecuado y escriba un informe que resuma sus resultados.
+ f3 1X 1 + f3 1X 1 f30 + f3 1X 1 f30 + f3 1X 1
Yj = f30
Y2 = f30
Y3 = Y4 =
UtiJice su paquete informatico para estimar una regresi6n lineal para cada modelo. Trace un diagrama de puntos dispers~s de los datos utilizados en cada modelo. Escriba un informe, incluyendo los resultados del analisis de regresi6n y el grafico, que compare y contraste los cuatro modelos.
RESUMEN En este capitulo hemos desarroJlado los modelos de dos variables 0 de minimos cuadrados simples. Nos hemos basado en algunos de los conceptos descriptivos iniciales presentados en el Capitulo 3. EI modele de regresi6n simple supone que un conjunto de variables ex6genas 0 independientes tiene una relaci6n lineal con eJ valor esperado de una variable aleatoria end6gena 0 dependiente. Desarrollando estimaciones de los coeficientes de este modelo, podemos comprender mejor los procesos empresariales y econ6micos y podemos predecir los valores de la variable end6gena en funci6n de la variable ex6gena. En nuestro estudio, hemos desarrollado estimadores de
los coeficientes y de las variables dependientes . Tambien hemos desarroJlado medidas de la bondad del ajuste de la regresi6n: analisis de la varianza y de R2. Despues de ese estudio, hemos presentado metodos de inferencia estadistica: contraste de hip6tesis e intervalos de confianza de los estimadores de regresi6n fundamentales. Tambien hemos examinado el analisis de correlaci6n, analizando simplemente la relaci6n entre dos variables. Por ultimo, hem os examinado la importancia de los diagramas de puntos dispersos y el analisis grafico del desarrollo y el contraste de modelos de regresi6n.
480
Estadfstica para administracion y economfa
TERM~NOS Cl-AVE amllisis de la varianza, 450 base para la inferencia sobre la pendiente de la regresi6n poblacional, 459 coeficiente de determinacion, R2, 451 contraste F para el coeficiente de regresion simple, 464 contrastes de la correlacion poblacional nula, 433 contrastes de la pendiente de la regresion poblacional, 461
carrelacion y R2, 454 distribucion en el muestreo del estimador de los coeficientes par mfnimos cuadrados, 458 estimacion de la varianza del error del modelo, 454 estimadores de los coeficientes, 442 intervalos de confianza de las predicciones, 467 intervalos de confianza de la pendiente de la regresion poblacional b I, 462
metodo de minimos cuadrados, 442 regresion lineal basada en un modele poblacional, 440 resultados de la regresion lineal, 441 supuestos para los estimadores de los coefici entes por mfnimos cuadrados, 442
EJERCICIOS V APLICACIONES DEL CAPiTULO 12.62. i,Que significa la afirmacion de que un par de variables aleatorias estan correlacionadas positivamente? Ponga ejemplos de pares de variables aleatorias en los que espera que exista
a) una correlacion positiva b) una correlacion negativa c) una correlacion nula 12.63. Una muestra aleatori a de cinco conjuntos de observaciones de un par de variables aleatorias dio los resultados de la tabla adjunta.
x
4
y
-2
- 1
o o
4
2
a) Halle el coeficiente de correlacion muestral. b) Teniendo en cuenta el hecho de que cada valor de Yi es el cuadrado del valor correspondiente de X;. comente su respuesta a1 apartado (a). 12.64. En una muestra aleatoria de 53 tiendas de una cadena de grandes almacenes se observo que la correlacion entre las ventas anuales en euros por metro cuadrado de superficie y el alquiler anual en euros por metro cuadrado de superficie era 0,37. Contraste la hipotesis nula de que estas dos cantidades no estan correlacionadas en la poblacion frente a la hipotesis alternativa de que la correlacion poblacional es positiva. 12.65. En una muestra aleataria de 526 empresas, se observo que la correlacion muestral entre la proporcion de directivos que son consejeros y una medida del rendimiento de las acciones de la empresa ajustada para tener en cuenta el ries-
go era de 0,1398. Contraste la hipotesis nula de que la cOiTelacion poblacional es 0 frente a la hipotesis alternativa bilateral. 12.66. En una muestra de 66 meses se observo que la correlacion entre los rendimientos de los bonos a 10 anos de Canada y de Hong Kong era de 0,293. Contraste la hipotesis nula de que la correlacion poblacional es 0 frente a 1a hipotesis alternativa de que es positiva. 12.67. En una muestra aleatoria de 192 mujeres trabajadoras, se observo una correlacion muestral de - 0, 18 entre la edad y una medida de la disposic ion a cambiar de empleo. Basandose unicamente en esta informacion, extraiga todas las conclusiones que pueda sobre la regresion de la disposicion a cambiar de empleo con respecto a la edad. 12.68. Basandose en una muestra de n observaciones, (xjo Y I) , (X2, Y2), ... , (x"' Y,), se calcula la regresian muestral de Y con respecto a x. Demuestre que la recta de regresion muestral pasa por el punto (x = Y = )1), donde e ji son las medias muestrales.
x,
x
12.69. f.'; Una empresa realiza narmalmente un test de aptitud a todo el nuevo personal en formacion. Al final del primer ano en la empresa, este personal en formacion es valorado por sus supervisores inmediatos. En una muestra aleatoria de 12 personas en formacion, se obtuvieron los resultados mostrados en el fichero de datos Employee Test. a) Estime la regresion de la valoracion realizada par el supervisor con respecto a la puntuacion obtenida en el test de aptitud.
Capitulo 12.
b) lnterprete la pendi ente de In recta de regresi6n m uestral. c) (,Es posible dar una interpretaci6n Uti I a la ordenada en el origen de la recta de regresi6n m uestral? d) Halle e interprete el coeficiente de determinaci6n de esta regresi6n. e) Contraste la hip6tesis nula de que la pendiente de la recta de regresi6n poblacional es 0 frente a la hip6tesis alternativa unilateral obvia. f) Halle el intervalo de confianza al 95 por ciento de la valoraci6n que darfa el supervisor a una persona en formaci6n que tuviera una puntuaci6n de 70 en el test de aptitud.
12.70. Se ha intentado evaluar la tasa de inflaci6n como predictor del tipo al contado en el mercado de letras del Tesoro alemanas. Partiendo de una muestra de 79 observaciones trimestrales, se obtuvo la regresi6n lineal estimada
y=
0,0027
+ 0,7916x
donde
Y = variaci6n efectiva del tipo al contado x = variaci6n del tipo al contado predicha por
la tasa de inflaci6n El coeficiente de determinaci6n era 0,097 y la desviaci6n tfpica estimada del estimador de la pendiente de la recta de regresi6n poblacional era 0,2759. a) Interprete la pendiente de la recta de regre-
si6n estimada. b) Interprete el coeficiente de determinaci6n. c) Contraste la hip6tesis nula de que la pen-
diente de la recta de regresi6n poblacional es 0 frente a la hip6tesis alternativa de que la verdadera pendiente es positiva e interprete su resultado. d) Contraste la hip6tesis nula de que la pendiente de la recta de regresi6n poblacional es I frente a la hi p6tesis alternati va bilateral. 12.71. La tabla muestra las compras por comprador de ocho cosec has de un vino selecto (y) y la valoraci6n del vino realizada por el comprador en un ano ex) . x
3,6
3,3
2,8
2,6
2,7
2,9
2,0
2,6
y
24
21
22
22
18
13
9
6
a) Estime la regresi6n de las compras por compradOI' con respecto a la valoraci6n realizada por el comprador.
Regresi6n simple
481
b) Interprete la pendi ente de la recta de regresi6n estimada. c) Halle e interprete el coeficiente de determinaci6n. d) Halle e interprete el intervalo de confi anza al 90 por ciento de la pendiente de la recta de regresi6n poblacional. e) Halle el intervale de confianza al 90 por ciento de las compras esperadas por comprador de una cosecha a la que el comprador da una valoraci6n de 2,0.
12.72. En una muestra de 306 estudiantes de un curso basico de estadfstica, se obtuvo la recta de regresi6n muestral
+ 0,2875x
Y = 58,813
donde
Y
calificaci6n final de los estudiantes al terminar el curso x = calificaci6n en un examen de posici6n rea- . lizado al principio de curso. =
EI coeficiente de determinaci6n era 0,1158 y la desviaci6n tfpica estimada del estimador de la pendiente de la recta de regresi6n poblacional era 0,04566. a) Interprete la pendiente de la recta de regre-
si6n muestral. b) Interprete el coeficiente de determinaci6n. c) La informaci6n dada permite contrastar la hip6tesis nula de que la pendiente de la recta de regresi6n poblacional es 0 de dos formas distintas frente a la hip6tesis alternativa de que es positiva. Realice estos contrastes y muestre que llegan a la misma conclusi6n.
12.73. Basandose en una muestra de 30 observaciones, se estim6 el modelo de regresi6n poblacional
Yi
=
f30
+ f3 ,Xi + 8;
Las estimaciones por mfnimos cuadrados obtenidas fueron
bo = 10,1
y
La suma de los cuadrados de la regresi6n y la suma de los cuadrados de los errores fueron SCR
=
128
y
SCE = 286
a) Halle e interprete el coeficiente de determinaci6n . b) Contraste al nivel de significaci6n del 10 por ciento la hip6tesis nula de que f3, es 0 frente a la hip6tesis alternativa bilateral.
482
Estadistica para administraci6n y economia
c) Halle
Se recomienda que los siguientes ejercicios se resuelvan con la ayuda de un computador.
30
I
(Xi -
X)2
i= 1
12.77. f ,,I El departamento de economia de una un i-
versidad esta intentando averiguar si los conocimientos verbales 0 matematicos son mas importantes para predecir el exito academico en los estudios de economfa. El profesorado del departamento ha decidido utilizar como medida del exito la calificacion media (OP A) obtenida por los licenciados en los cursos de economfa. Los conocimientos verb ales se miden por medio de las calificaciones obtenidas en dos examenes estandarizados: el SAT verbal y el ACT de ingles. Los conocimientos matematicos se miden por medio de las calificaciones obtenidas en el SAT de matematicas y en el ACT de matemiiticas. El fichero de datos llamado Student GPA, que se encuentra en su disco de datos, contiene los datos de 112 estudiantes. El nombre de las columnas de las variables se indica al comienzo del fichero de datos. Debe utilizar el paquete estadfstico que utilice habitualmente para realizar el amllisis de este problema.
12.74. Basandose en una muestra de 25 observaciones, se estimo el modelo de regresion poblacional
/30 + /31 Xi + Ei
Yi =
Las estimaciones por mfnimos cuadrados obtenidas fueron bo = 15,6
Y
bl
1,3
=
La suma total de los cuadrados y la suma de los cuadrados de los errores fueron STC
=
268
SCE
y
=
204
a) Halle e interprete el coeficiente de determi nacion. b) Contraste al nivel de significacion del 5 por ciento la hipotesis nula de que la pendiente de la recta de regresion poblacional es 0 frente a la hipotesis alternativa bilateral. c) Halle el intervalo de confianza al 95 por ciento de /3 I·
a) Represente graficamente la OPA de economfa en relacion con cad a una de las dos cali ficaciones de los conocimientos verbales y cada una de las dos calificaciones de los conocimientos matematicos. l.Que variable es el mejor predictor? Observe las pautas poco habituales que hay a en los datos. b) Calcule los coeficientes del modelo lineal y los estadfsticos del analisis de regresion para los modelos que predicen la OP A de economfa en funcion de cada calificacion en conocimientos verbales y cada calificacion en conocimientos matematicos. Utilizando tanto las medidas mate mati cas y verbales del SAT como las medidas de matematicas e ingles del ACT, averigiie si los conocimientos matematicos 0 verbales son el mejor predictor de la OPA de economfa. c) Compare los estadfsticos descriptivos -la media, la desviacion tipica, el cuartil superior y el inferior, el rango- de las variables consideradas predictoras. Observe las diferencias e indique como afectan estas diferencias a la capacidad del modelo lineal para realizar predicciones.
12.75. Un analista cree que el unico determinante importante de los rendimientos de los activos (Y) del banco es el cociente entre los prestamos y los depositos (x). En una muestra aleatoria de 20 ban cos se obtuvo la recta de regresion muestral Y = 0,97
+ 0,47x
con el coeficiente de determinacion de 0,720. a) Halle la correlacion muestral entre los rendimientos de los activos y el cociente entre los prestamos y los depositos. b) Contraste la hipotesis nula de que no existe una relacion lineal entre los rendimientos y el cociente frente a una hipotesis alternativa bilateral. c) Halle
JI
(Xi -
X)2
12.76. Comente la siguiente afirmacion: Si se estima una regresion del rendimiento por acre del mafz con respecto a la cantidad de fertilizante utilizada empleando las cantidades de fertilizante utilizadas normalmente por los agricultores, la pendiente de la recta de regresion estimada sera, desde luego, positiva. Sin embargo, es bien sabido que si se utiliza una cantidad muy grande de fertili zante, el rendimiento del maiz es muy bajo. Por 10 tanto, las ecuaciones de regresion no son muy Miles para hacer predicciones.
12.78.
if Los
responsables de la National Highway Traffic Safety Administration (NHTSA) de Estados Unidos quieren saber si los diferentes tipos de vehfculos de un estado tienen relacion con la tasa de mortalidad en carretera del esta-
Capitulo 12.
do. Le han pedido que realice varios am1lisis de regresion para averiguar si el peso medio de los vehfculos, el porcentaje de automoviles importados, el porcentaje de camiones ligeros 0 la antigiledad media de los automoviles estin relacionados con las muertes en accidente ocurridas en automoviles y camionetas. Los datos del amilisis se encuentran en el fichero de datos llamado Crash, que esta en su disco de datos . Las descripciones y las localizaciones de las variables se encuentran en el catalogo del fichero de datos del apendice. a) Represente grMicamente las muertes en accidente en relacion con cada una de las variables potenciales de prediccion. Observe la relacion y cualquier pauta excepcional en los puntos de datos . b) Realice un analisis de regresion simple de las muertes totales en accidente con respecto a las variables potenciales de prediccion. 1ndique si alguna de las regresiones muestra una relaci6n significativa y, en caso afirmativo, cuM. e) Muestre los resultados de su analisis y ordene las variables de prediccion segun su relacion con las muertes totales en accidente. 12.79. ('4) EI Departamento de Transporte de Estados
Unidos de sea saber si los estados que tienen un porcentaje mayor de poblacion urbana tienen una tasa mas alta de muertes totales en accidente ocurridas en automoviles y camionetas. Tambien quiere saber si existe alguna relacion entre la velocidad media a la que se conduce por las carre teras rurales 0 el porcentaje de carre teras rurales que estan asfaltadas y las tasas de muertes en accidente. Los datos de este estudio se encuentran en el fichero de datos Crash almacenado en su disco de datos. a) Represente grMicamente las muertes en accidente en relacion con cada una de las variables potenciales de prediccion. Observe la relacion y cualquier pauta excepcional en los puntos de datos. b) Realice un analisis de regresi6n simple de las muertes en accidente con respecto a las variables potenciales de predicci6n. e) Muestre los resultados de su analisis y ordene las variables de prediccion segun su relacion con las muertes totales en accidente. 12.80.
!f, Un economista desea predecir el valor de mercado de las viviendas de pequefias ciudades del Medio Oeste ocupadas por sus propietarios. Ha reunido un conjunto de datos de 45 peque-
Regresion simple
483
fias ciudades que se refieren a un periodo de dos afios y quiere que los utilice como fu ente de datos para el analisis. Los datos se encuentran en el fichero Citydat, que estan en su disco de datos. Quiere que desarrolle dos ecuaciones de prediccion: una que utilice el tamafio de la vivienda como predictor y otra que utilice el tipo impositivo como predictor. a) Represente grMicamente el valor de mercado de las viviendas (hseval) en relacion con el tamafio de la vivienda (sizense) y en relacion con el tipo impositivo (taxrate). Observe cualquier pauta excepcional en los datos . b) Realice analisis de regresion para las dos variables de prediccion. i,Que variable predice mejor el valor de las viviendas? e) Un promotor industrial de un estado del Medio Oeste ha afirmado que los tipos del impuesto local sobre bienes inmuebles de las pequefias ciudades debe bajarse porque, en caso contrario, nadie comprara una vivienda en estas ciudades. Basandose en su analisis de este problema, evalue la afirmacion del promotor. 12.81. t; 'i Stuart Wainwright, vicepresidente de compras para una gran cadena nacional de tiendas de Estados Unidos, Ie ha pedido que realice un analisis de las ventas al por menor por estados. Quiere saber si el porcentaje de desempleados 0 la renta personal per capita estan relacionados con las ventas al por menor per capita. Los datos para realizar este estudio se encuentran en el fichero de datos llamado Retail, que esta almacenado en su disco de datos y se describe en el catalogo del fichero de datos del apendice. a) Trace grMicos y realice analisis de regresion para averiguar las relaciones entre las ventas al por menor per capita y el porcentaje de desempleados y la renta personal. Calcule intervalos de confianza al 95 por ciento para los coeficientes de la pendiente de cada ecuacion de regresion. b) i, Como afecta una disminucion de la renta per capita de 1.000 $ a las ventas per capita? e) i,Cual es el intervalo de confianza al 95 por ciento en la ecuacion de la renta per capita de las ventas al por menor correspondientes a la renta media per capita y a un nivel que este 1.000 $ por encima de la renta media per capita? 12.82.
«, Un importante proveedor nacional de materiales de construccion para la construccion de viviendas esta preocupado por las ventas totales
484
Estadfstica para administraci6n y economfa
del proximo ana. Es bien sabido que las ventas de la empresa estan relacionadas directamente can la inversion nacional total en vivienda. Algunos banqueros de Nueva York estan prediciendo que los tipos de interes subiran alrededor de 2 puntas porcentuales el proximo ana. Le han pedido que realice un analisis de regresion para poder predecir el efecto de las variaciones de los tipos de interes en la inversion en vivienda. Los datos de series temporales para realizar este estudio se encuentran en el fichero de datos llamado Macro2003, que esta almacenado en su disco de datos y se describe en el apendice del CapItulo 14.
tipo de interes de los fondos federa les para el otro. Analice los estadfsticos de la regresion e indique que ecuacion hace las mejores predicciones. b) Halle el intervalo de confianza al 95 par ciento del coeficiente de la pendiente en ambas ecuaciones de regresi on. c) Basandose en cada mode lo, prediga como afecta una subida de los tipos de interes de 2 puntos porcentuales a la inversion en vi vienda. d) Uti lizando ambos modelos, calcule intervalos de confianza al 95 par ciento de la variacion de la inversion en vivienda provocada par una subida de los tipos de interes de 2 puntas porcentuales.
a) Desarrolle dos modelos de regresi6n para predecir la inversion en vivienda utilizando el ti po de interes preferencial para uno y el
Apendice En este apendice mostramos c6mo se estiman por minimos cuadrados los parametros poblacionales de regresi6n. Queremos hallar los valores bo Y b 1 tales que la suma de los cuadrados de las discrepancias 11
SCE=
II
I
sea 10 mas pequefia posible. En primer lugar, mantenemos constante b l y diferenciamos con respecto abo, 10 que nos da
Dado que esta derivada debe ser 0 para obtener un minimo, tenemos que
I
Yi -
nbo - b l
I
Xi =
0
Por 10 tanto, dividiendo por n resulta que
Introduciendo este resultado de bo en la expresi6n anterior, tenemos que n
SCE
=
I
i= 1
[(yi - jI) - bl(x i -
x)f
Capitulo 12.
Regresion simple
485
Diferenciando esta expresi6n con respecto a b I ' obtenemos
aSCE
11
_
_
_
----;;;;:- = 2 i~1 (Xi - X)[(yi - y) - bl(X i - X) =
-
2(
L (Xi -
x)(y; -
y) -
b,
L (Xi - X)2)
Esta derivada debe ser 0 para obtener un minimo, por 10 que tenemos que
Por 10 tanto, b l -
L (Xi -
X)(Yi x)2
L (Xi -
y)
Bibliograffa 1. 2.
Dhalla, N. K., «Short-Term Forecasts of Advertising Expenditures» , Journal of Advertising Research, 19, n.o 1, 1979, pags. 7-14. Mampower, J. L., S. Livingston y T. J. Lee, «Expert Judgments of Political Risk», Journal of Forecasting , 6, 1987, pags. 51-65.
Regresi6n multiple Esquema del capitulo 13.1.
EJ modele de regresion multiple Especificaci6n del modele Desarrollo del modele Graficos tridimensionales
13.2.
Estimaci6n de coeficienles
13.3. 13.4.
13.5.
Metoda de minimos cuadrados Poder explicativo de una ecuaci6n de regresi6n multiple Intervalos d e confianza y conlrastes de hip6tesis de coeficientes de regresion individuales Intervalos de confianza Contrastes de hip6tesis Contrastes de los coeficientes de regresi6n
Contrastes de lodos los coeficientes Contraste de un conjunto de coeficientes de regresi6n Comparaci6n de los contrastes F y t
13.6. 13.7.
Predicci6n Transformaciones de modelos de regresion no lineales
Transformaciones de modelos cuadralicos 13.8. 13.9.
Transformaciones logaritmicas Utilizaci6n de variables ficticias en modelos de regresi6n Diferencias entre las pendientes Metodo de aplicaci6n del analisis de regresi6n multiple Especificaci6n del modelo Regresi6n multiple Efecto de la eliminaci6n de una variable estadfsticamente significativa Analisis de los residuos
Introducci6n En el Capitulo 12 presentamos el metodo de regresi6n simple para obtener una ecuaci6n li neal que predice una variable dependiente 0 end6gena en funci6n de una unica variable independiente 0 ex6gena; por ejemplo, el numero total de art fculos vendidos en funci6n del precio. Sin embargo. en muchas situaciones, varias variables independ ientes influyen conjuntamente en una variable dependiente. La regresi6n multiple nos permite averiguar el efecto simultaneo de varias variables independientes en una variable dependiente utilizando el principio de los minimos cuadrados.
488
Estadfstica para administraci6n y economfa
Existen muchas aplicaciones importantes de la regresion multiple en al mundo de la emprasa y an la eeonomia. Entre estas aplicaciones se encuentran las siguientes:
1. La cantidad vendida de bianes es una funcion del precio, la renta, la publicidad, 2.
3. 4.
el precio de los bienes sustitutivos y otras variables. Existe inversion de capital cuando un empresario cree que puede obtaner un beneficia. Par 10 tanto, la inversion de capital es una tuncion de variables rel acionadas can las posibilidades de obtener beneficios , entre las que se encuenlran el tipo de interes, el producto interior bruto, las expectativas de los consumidores, la renta disponible y el nivel tecnol6gica. EI salano es una funcion de la experiencia, la educacion, la edad y el puesto de trabaja. Las grandes empresas del comercio al par menor y Ja hostelerfa deciden Ja localizacion de los nuevas establecimientos basandose en los ingresos previstos por ventas y/o en la rentabilidad. Utilizanda datos de localizaciones anteriores que han tenido exito y que no 10 han tenido, los analistas pueden construir modelos que predicen las vantas a los beneficios de una nueva 10calizaci6n posible.
EI analisis eeonomico y empresarial lien e algunas caracterfsticas unicas en comparaci6n can el analisis de olras disciplinas. Los cientificos naturales trabajan en un laboratorio en el que es posible controlar muchas variables, pero no todas . En cambia, eJ laboratorio del economista y del directiva as el mundo y las cond iciones no pueden controlarse. Por 10 tanto, necesitan instrumentos como la regresion multiple para eslimar el afeelo simultaneo de varias variables. La regresion mUltiple como «instrumenta de labarataria » as muy importante para el trabajo de los directivos y de los economistas. En esta capitulo ve remos muchas aplicaciones especificas en los ejemplos y los ejercicios . Los metodos para ajustar modelos de regresion multiple se basan en el mismo principia de los minimos cuadrados que aprendimos en el Capitu lo 12 y, par 10 tanto, las ideas presentadas en ese cap itulo se axtenderan directamente a la regresi6n multiple. Sin embargo, se intraducen algunas complejidades debido a las relaeiones entre las distintas variables ex6genas. Estas requieren nuevas ideas que se desarrollan en este capitulo.
13.1. EI modelo de regresion multi Ie N uestro objetivo es aprender a utilizar la regresi6n multiple para crear y analizar model os. Por 10 l anto, aprendemos co mo funciona la regresi6n multiple y alg unas directrices para i nlerpretaria. Comprendi endo perfectamente la regresi6 n multiple, es posible reso l ver una umplia variedad de problemas ap licac1os. Este estudio de los metodos de regresi6 n m(lItiple es paralelo al de la rcgresi6n simple. El primer paso para desarrol1ar un modele es la cs peeifieaci6 n de ese modelo, que consistc en la selecei6 n de las variables del modelo y de 13 forma del modelo. A conlinuaci6n, se estudia el metoda de millimos euadrados y se allali ~ za la variabilidad para identificar los efeetos de cada una de las va riables de predi cci6n . Despues se eswd ia 13 estimac ion, los inLervalos de confianza y cl contraste de hi potesis. Se uti l izan frecuentemenle apli cae iones informalicas para indicar como se apl ica la leOrla a problemas real istas. EI estud io de este capItulo sera mas facil si se ponen ell relaci6n sus ideas COil las que presenlamos en el CapItulo 12.
Especificacion del modelo Comenzamos con una ap li cac i6n que ill/stm la importante tarea de la espec ificaci6n del modele de regres i6n. L a espec i fi caci6 n del modelo cons iste en la selecc i6n de las variables ex6gcnas y l a forma funcional del mode 10.
Capitulo 13.
Regresi6n multiple
489
EJEMPLO 13.1. Proceso de produccion (especificacion del modelo de regresion) EI director de produccion de CircuilOs Flexibles. S.A., Ie ha pedido aYllda para estlldiar un proceso de produccion. Los circlli tos fle xibles se producen con un rollo con tinuo de resina flex ible que lleva adherida a su su perficie una Fina peifcll la de material conductor hecho de cobrc. El cobre se adhiere a la resina pasando la res ina por una solucion de cobre. EI grosor del cobre es fu ndamenta l para que los circuilos sean de buena calidad. Depende en parte de In temperatura de la so luci6n de cobre, de la velocidad de la [fnea de produccion, de la densi.dad de la soluc i6n Y del grosor de la resina flexib le. Para controlar el grosor del cebre adheride a la superficie, el director de producci6n necesi ta saber que efecto produce cada una de estas variables. Le ha ped ido ayuda para desarrollar un modele de regresion mu ltiple.
Solucion La regres ion multiple puede uti lizarsc para hacer cstimaciones de l efecto que produce cada variable en combinacion con las demas. El desan·ollo del modelo comienza con un ana lisis detenido de l contexto del problema. El primer paso en este ejemplo serfa una extensa conversacion con los ingenieros responsab les del disefio del producto Y de la produccion, con el fin de comprender detall adamente el proceso de l que se pretende desarrollar un modelo. En algu nos casos, se estud iarfa la literatura existente sabre el proceso. Este debe ser comprendido y aceptado per todos los interesados antes de poder desarrell ar Ull modelo util ut ilizando el anal is is de regresion mUltiple. En eSle ejemplo, la variable de pendiente, Y, es el greso!" del cobrc. Las valiables independientes son la temperatura de 1a solucio n de cobre. XI: la velocidad de la lfnea de produccion, X2; la dcnsidad de la solucion, XJ • y el grosor de la res ina fle xible, X4 . Los ingenieros y los cientfficos que comprendfan la tecnologfa de l proceso de recubrimiento identificaron estas variables como posibles predictores del grosor del cobre, Y. Basandose en el estudio del proceso, la especificacion del modele resu ltante es y ~ flo
+ {!,X, + {!2X, + P3X, + fi,X,
En el modelo lineal anterior, las Ii; son coeficienles lineales conSlanles de las Xj que indican el efecto condicionado de cada variable independienle en la determinacion de la variable dependieme, Y, en la poblacion. Por 10 tanIo, las P; son parametros en el modelo de regres i6n Itneal. A continuacion, se producirfa una serie de lotes para haccr mediciones de distintas combi naciones de las variables independientes y la variable depend icnte (vcasc el anaJi sis del diseno experimenta l en el apartado 14.2). EJEMPLO 13.2. Localizac ion de las l iendas (especificacion del modelo) El director de plani ficac i6n de una gran cadena dt{ comercio al por menor estaba insatisfecho con su experienc ia en la apel1ura de nuevas tiendas. En los cuatro ult imos afios, el 25 por ciento de las nuevas tiendas no habfa conseguido las ventas prev istas en e1 periodo de pmeba de dos afios y se habfa ccrrado con cuantiosas perdidas econ6mkas. El director querfa desarro ll ar mejores crilerios para elegir el empi azam iento de las tiendas y llego a la conclusion de que debfa estudiarse la experiencia hi st6rica de las tiendas que habfan tenido exi to y las que habfan fracasado.
490
Esladfslica para adminislraci6n y economia
Solucion Hablando con un consultor, lIeg6 a la conclusi6n de que pod ian uti li zarse los datos de las tiendas que habfan conseguido las venlas que estaball previ stas y los datos de las que no las habfan conseguido para desarroll ar un modelo de regresion multiple. El co n ~ suItor sugirio que debra lltil izarse como variable dependiente, y, las ventas del segundo ailo. Se em plearfa un modele de regresion para predec ir las venlas del segundo ailo en funcio n de varias variabl es illdependienles que dcfinen la zona que rodea a la tiencla. Solo se abrirfan tiendas en los lugares en los que las ventas predichas superaran un ni~ vel minima. EI mode lo tambie n indicarfa como afec tan varias variables independientes a las ventas. Tras hablar largo y tendi do con personas de la empresa, el consultor recomend6 las siguien les variables independ icntcs: 1. Xl = lamano de la tienda 2. X 2 = vol umen de trMico de la call e en la que se encuentra la tienda 3. X] = aperlura de la tienda so la a en un centro comercial 4. X4 = exislencia de una tienda rival a menos de 500 metros 5. X 5 = ren La per capita de la poblaci6n residente a menos de 8 kilometros 6. X6 = mitnero total de personas que residen a menos de 8 kjlometros 7. X7 = renta per capita de la poblacion que res ide a menos de 15 kilometros 8. Xl'. = ntimero total de personas que res iden a menos de 15 ki lometros
Se uti lizQ la regresi6n multi ple para esli mar los coeficienles del modelo de pre di c~ cion de las ventas a partir de datos recog idos en lodas las liendas abiertas en los ocho 6ltimos anos. En el conjunto de datos habra tiendas que segufan abiertas y tiendas que se habfan cerrado. Se desarro1l6 un modele que podfa utilizarse para predecir las ventas del segun do ano. Este modele contenfa estimadores, b), de los para metros del modelo, p). Para ap licar el modelo g
Yi =
bo +
L
bj xji
j= l
se hici eron mediciones de las variables independienles de cada nueva localizaci6n pro~ pLlesta y se calcu laron las ventas predichas de cada local izac ion. Se uti liz6 cJ nivel pre~ dicho de ven tas , junto con eJ cri terio de los anal istas de marketin g y de un co mite de directores de tiendas de ex iLo, para elegir el lugar en el que se abrirfan [iendas. En la estraleg ia para especificar un modelo influyen los objetivos de l modelo. Uno de los objetivos cs la pred iccion de una variable dependiente 0 «de resultado» . Entre las apli ~ caciones se encuentran la prediccion de las ventas, de la producci6n, del consumo total, de la invers ion total y otros muchos criterios de los resultados empresariales y economicos. EI seg undo objetivo es estimar el efecto marginal de cada variable independiente. Los eco no~ mi stas y los di recti vos neces ilan saber como cambian las medidas de los resultados cuando varian las variables independicn tes, Xj' donde j = I, .. ., K. Por ejemplo: L 2. 3.
l,Como varfan las ventas como consecllencia de una subi da del precio y de los gastos pllblicitarios? i..Como varia la producci6n cuando se alteran las cantidades de trabajo y de capi tal ? i.. Disminuye la mortalidad infantil cuando se illcremenlan los gastos en asistenc ia sanitaria y en servicios de saneamiento?
Capitulo 13.
Regresi6n multiple
491
Objetivos de la regresi6n La regresi6n multiple permite obtener dos importantes resultados: 1.
2.
Una ecuaci6n lineal estimada que predice la variable dependiente, Y, en funci6n de K variables independientes observadas, xi' donde j = 1, ...• K.
donde i = 1, "" n observaciones. La variaci6n marginal de la variable dependiente, Y, provocada por las variacionas de las variables independienles, que se eslima por medio de los coeficientes, bj. En la regresi6n multiple, estos coeficientes dependen de que otras variables se incluyan en al modelo. EI coeficiente bj indica la variaci6n de Y, dada una variaci6n unitaria de X;, descontando al mismo tiempo el efecto simultaneo de las demas variables independlentes.
En algunos problemas, ambos resultados son igual de importantes. Sin embargo, normalmente predomina uno de ellos (por ejemplo, la predicci6n de las ventas de las tiendas, y, en el ejemplo de la localizaci6n de las liendas).
La variaci6n margina l es mas diffei l de estimar porque las variab les independ ientes csHi.n relac ionadas no s610 con las variables depen dienles sino lam bien entre Sl. Si dos variubles independie ntes 0 mas varian en un a re lac i6n linea l directa entre sf, es dificil averiguar cI efecto que produce cada variable independienle en la variable dependiente. Exam inaremos delalladamen te el modelo del ejemplo 13.2. EI coeficien te de XI ---es decir, b J- indica la variaci6n que experimentan las ventas del segundo ana por cada variaci6n unitaria del tamano de la tienda. EI coeficiente de Xj indi ca la variaci6n que experi mentan las ventas por cada variaci6n unitari a de la rcnta per capita de la poblaci6n que reside a menos de 8 ki l6metros, miell(ras que la de X7 indica la variaci6n de las ventas por cada variaci6n de la renla per capita de la poblaci6n que res ide a menos de 15 ki l6metros. Es probable, pOI' supuesto, que las variables Xs Y X7 esten correlacionadas. Par 10 tanto, en la medida en que estas variables varfen am bas al mismo tiempo, es diffcil averiguar la contribucion de cada una de elias a la variacion de los ingresos generados por las ventas de las tiendas. Esta correlaci6n entre variables independientes comp lica e l modelo. Es importanle comprendcr que e l mode lo predice los ingresos generados por las ventas de las tiendas ulilizando la combinaci6n de variables que contielle el modelo. El efecto de una variable de prediccion es e l efecto que produce esa variab le cuando se combina con las demas. POI' 10 tanto, en general, el coeficiente de una vari ab le no indica el efecto que produce esa variable en todas las condiciones. Estas complcj idades se anal izanl n mas delen idamenle cuando se dcsarroll e el mode lo de rcgresi6n mUltiple.
Desarrollo del modelo Cuando aplicamos la regresi6n mUltiple, construimos un modelo para exp licar la variabilidad de la variable dependiente. Para eso queremos incluir las influencias simultaneas e in* dividuales de varias variables independientes. Supongamos, por ejemplo, que queremos desarrollar un modelo que pred iga el margen anua l de beneficios de las soc iedades de ahorra y cn!dilO in mob ili ari o ulili zando los dalos recog idos durante un periodo de anos. Una especificaci6n inicial del modelo indicaba que el margen an ual de beneficios eslaba relac ionado can los ingresos netos pOl' dolar depositado y el nLimero de oncinas. Se espera que el ingreso neta aumente el margen anua! de benefic ios y se preve que el nllmero de ofic in
492
Estadfstica para adminislraci6n y economia
red llcini el margen an ual de benericios dcbido al aumenlO de la competencia. Eso nos lie. varia a especifi car lin modele de regrcs i6n poblacional
Y = flo + li,X, + (J,X, + c donde Y = margen anual de beneficios XI = ingresos anuales netos por d61ar depos itado X2 = numcro de ofi cinas existe ntes ese anD
Savings
LIl Tabla 13. 1 y cl Fichera de dalos Savings and Loa n cont iencJ1 25 observaciones por ano de eS{as variables. Utili zaremos estos datos para desarralJar un modele li neal que prediga el margen anunl de beneficios en fu nci6n de los ingresos por d61ar depos ilado y del nume ro de ofi cinas (vease la referencia bibliografica 4).
and Loan Ta bla 13.1.
Ano
I 2 3 4 5 6 7 8 9
!O II
12 13
Ingresos po r d611l r 3,92 3,6 1 3,,2 3,07 3,06 3, 11 3,2 1 3,26 3,42 3,42 3,45 3.58 3,66
Datos de las asociaciones de ahorro y c redito inmobitiario. Nlimero Mllrgen de d e oficinas beneficios 7.298 6.855 6.636 6.506 6.450 6.402 6.368 6.340 6.349 6.352 6. 361 6.369 6.546
0,75 0,7 1 0,66 0,6 1 0,7 0,72 0,77 0,74 0,9 0,82 0 ,75 0.77 0,78
Ano
lngresos por d61a r
14 15 16 17 18 19 20 21 22 23 24 25
3,78 3,82 3,97 4.07 4,25 4.4 1 4.49 4,70 4,58 4.69 4.71 4.78
Numero Margen de de olieinas henelicios 6.672 6.890 7. 115 7.327 7.546 7.93 1 8.097 8.468 8.7 17 8,99 1 9. 179 9.318
0,84 0,79 0,7 0,68 0,72 0,55 0,63 0,56 0,41 0.5 1 0,47 0,32
Pero antes de poder estimar el modelo, es necesario desarrollar y comprender el me· todo de regres i6n multiple. Para comenzar, exami nemos el rnodelo gene ral de regres i6n multiple y observemos sus diferencias CO il el modele de regresi6n simp le. EI modelo de regres i6n mUltiple es
donde f'.; es e l tt~rmi no de error aleatorio que tiene la media 0 y la varian za (J2, Y las /lj son los coeficientes 0 efectos margi nales de las variables independie ntes 0 cx6genas, Xj . donde j = I, .. ., K, dados los efeclOs de las demas variables independie ntcs. Las i indi o can las observacioncs, siendo i = I, ... , 1/.. Uti lizamos las minusculas Xji para indi car los va lores especfficos de la variable Xj en la obscrvac i6n i. Suponemos que las 8i son inde· pendientes de Jas Xj y entre sf para que las estimaciones de los coefi cientes y sus va· rianzas sean correctas. En el Capitulo 14 ex plicamos que ocurre cuando se abandon an estos su puestos.
Capitulo 13.
Regresi6n multiple
493
EI mode lo mucstra l estimado es
don de e; es cl residuo 0 diferencia entre el valor observado de Y y el valor estimado de Y obten ido utili zando los coeficientes cstimados, bi' donde j = I, ... , K. EI metodo de regresi6n obl iene estimac iones simultaneas, bi' de los coeficientes del modelo pob lac ional , /Jj' utili zando el metodo de minimos cuadrados. En nuestro ejempJo de las asoc iaciones de ahorro y credi to inmob iliario , el modelo poblacional para los puntos de datos indi viduales es
Este modelo reducido con dos variab les de prediccio n solamente brinda la oportunidad de comprender mejor el metodo de regresi6n. La func ion de regres i6n puede representarse gnificBmente en Ires dimensiones, como muesLra la Figura 13. 1. La funci6n de regresi6n se representa mediante un plano en el que los valores de Y son una funci6n de los va lores de la variables independientcs Xl Y X 2. Para cada par pos ible, Xl;, X2i, el valor esperado de la variable dependi enle, Yi. se encuentra en el plano. La Figura 13.2 ilu stra especff"icamentc cl ejemplo de las asociaciones de ahorro y credilo jnmobili ario. Un aumento de Xl provoca un au mento del valor esperado de Y, condicionado al cfeclo de X2 • Asimismo, un aumento de X2 provoca una di sminucion del valor esperado de Y, condicionada al efeclo de XI. Para complelar nuestro modelo, anadimos un (ermino de error I:. Este termino de en·or reconoce que no se cump li ra exaClamenle ninguna relaci6n postu lada y que es probable que haya Olras variables que tamb ie n aFeclen al valor observado de Y. Por 10 tanto, cuando aplicamos ei modelo, observamos el valor esperado de la variable dependiente, Y- represent ado por el plano e n 101 Figura 13.2-, mas un {e rmi no de error alealorio, 1-:, que representa 1a parte de Y no inc\uida en eI valor esperado. Co mo conseCUCllcia, cI mode lo de datos liene la forma
y
y
.x,
Figura 13.1.
EI plano es el valor esperado de Y en funci6n de XI Y X2.
Figura 13.2. Comparaci6n del valor obselVado y el esperado de Yen funci6n de dos variables independienles.
494
Estadistica para administraci6n yeconomia
EI modele de reg res ion poblacional multiple EI modelo de regresi6n poblacional multiple define la relaci6n entre una variable dependien!e 0 end6gena, Y, y un conjunto de variables independien!es 0 ex6genas, xi' donde j == 1, ... , K. Se supone que las xji son numeros fijos; Yes una variable aleatoria definida para cada obselVaci6n, i, donde i == 1, ..., n, y n es el numero de obselVaciones. EI modele se define de la forma siguiente: (13.1)
donde las
Pj son coeficientes constantes y las I: son variables alealorias de 0 y varianza a2 .
En el ejemplo de las asociaciones de ahorro y credito inrnobiliario, con dos variables independientes, el modelo de regres i6n pob lacional es
Dados valores especfricos de los ingresos netos, Xli' y el numero de oric inas, XZi' el margen de benericios observado, Yi' es la suma de dos partes: el va lor esperado, flo + {JIX li + fJ-zX2i' y el tennino de error aleatorio, f.i . EI termi no de error aleatorio puede concebi rse como In combinaci6n de los efeclos de oLros muchos factores sin iden tificar que afecLan a los margenes de beneric ios. La Fi gura 13.2 ilustra el modele; el plano ind ica el valor esperado de vadas combi naciones de las vari ables indepe ndi entes y la E; es la desviaci6 n entre el plano --el va lor esperado--- y cI valor observado de Y - marcado con un punto grande- de un punto de dato especffico. En genera l, los valores observados de Y no se Cneuentran en el plano sino po r encima 0 por debajo de el, debiclo a los lerminos de error positivos 0 negatiVOS, l:i' La regres i6n si mple, presentada en el capftul o anterior, no es mas que un caso especial de la regres i6n multipl e con una (mi ca variable de predi ec i6n y, por 10 tanto, el plano se reduce a una Hnea. As f pues, la teorla y eI anali sis que hemos desarrollaclo para ta regresi6n si mple tambi en se aplican a la regres i6n multi ple. Si ll embargo, ex iste n algunas interprctaciones mas que desarrollaremos en nuestro eSludio de la regresi6n multiple. Una de eli as se ilustra en el siguiente anali sis de los grafieos trid imensionales.
Gnificos tridimensionales Tal vez sea mas fUeil eomprender el metodo de regres i6n multiple mediante una imagen grMi ca sim plificada. Observe el rinc6n de la habitacion en la que esta sentado. Las Hneas formadas pOI' las dos paredes y el suelo representan los ejes de dos vari ables independientes, X I Y X2 . La esquina que forman las dos paredes es el eje de la variable dependiente, Y. Para estimar una recta de regresi6n, relln imos conjllntos de punlOs (x l i. X2i e yJ Representemos ahora estos puntos en su habitac i6n utili zando las esq uinas de las paredes y el slle lo como los tres ejcs. Con estos puntos suspendidos en su habi tae i6n, buscamos un pl ano en el espacio que se aproxi me a todos ell os. Este plano es la fo rma geo metrica de la ecuaci6n de mfnimos cuadrados. Con estes PUlltos en el espacio, ahora subimos y bajaIllOS un plano y 10 hace mos girar en dos direcciones: todos estos movimientos los hacemos simultaneamente hasta que tenemos Lin plano que esta «cerea» de lodos los puntos. Recuerdese que en el Capitulo 12 hieimos esto con una Ifnea recta en dos dimens iones para obtener una ec uaci6 n
Capitulo 13.
Regresion multiple
495
A contin uacion , extendemos esa idea a tres dimensioncs para oblener una ecu<1ciu n
""
INTERPRETACION
Este proceso cs, par supuesto, mas complicado que en el caso de In rcgresi6n simple. Perc los problemas reales son complicados y la regres i6n permite analiza!" mcjor In complejidad de estos problemas. Querernos saber c6mo varfa Y cuando varfaX !. Pero sabemos que en estas variaciones influye, a su vez, la forma en que varfaX 2 . Y si XI Y X z siempre varfan a la vez, no podernos saber cuanto contribuye cada variable a las variaciones de Y. Las interpretac iones geomelricas de la regresion multiple son cada vez mas comp lejas a medida que aumenta el numcro de variables independientes. Si n embargo, la analog fa con la regresion simple cs ex traordinari amente uti!. Estimamos los coeficientes minimizando la suma de los cuad rados de las desviaciones de la dimensio n Yen torno a una fu nc ian lineal de las variables independ ientes. En la regres ion si mple, la fu nci 6n es una linea recta en un grafi co bid imen sional. Con dos variables independientcs, la funcion es un plano en un espacio tridimensional. Cuando consideramos mas de dos variables independientes, (enemos varios hiperplanos complejos que son impos ibles de vis ualizar.
EJERCICIOS
Ejercicios basicos
c) l,Cuai es la variaeion de en 2'1
13.1. Dado el modelo lineal eSli mado
y=
10
13.5. Dado el modelo lineal estimado
+ 3xI + 2x2 + 4xJ
a) Calcule.V cuando
XI
b) Calcule c) Calculc d) Calc ule
Xl
Ycliando XI
y cuando y cuando
Xl
= 20, X2 = = 15, x 2 = = 35. x 2 = = 10, X2 =
II y.\") = 10. 14 Y x3 = 20. 19 Y X3 = 25. 17 Yx] = 30.
13.2. Dado el modelo lineal CSlimado
y=
10
+ 5Xl + 4x2 + 2x]
a) Calcule.V cuanda
XI
ycuando XI
b) Ca\Cule c) Calcule
y cuando XI
d) Calcule
Xl
y cuando
= 20. X 2 = = 15, X2 = = 35, X2 = = 10, x 2 =
11 14 19 17
Y x] Y x3 Y X3 Y x)
= = = =
10. 20. 25. 30.
13.3. Dado el modelo lineal eSl imado
y= a) Calcule
10
+ 4-1 +
y cuundo XI
y cuanda Ca1cule y cuando Calcuie y cuundo
XI =
c)
XI XI
+ 8X3
= 20. X2 = 15, x2 = = 20. x 2 = = 1O'.\"2 =
b) Ca1cule d)
12x2
11 Y x3 = 10. 24 Y X3 = 20. 19 Y x) = 25. 9 Y X3 = 30.
13.4. Dado el modelo lineal esti mado
y=
10
+ lxl +
a) l,Cuai es la variaci6n de en 4? b) l,Cual es In variaci6n de
en I?
y cuando x2 aumenla
12t2 + 8x3
y cuando Xl aumenta y cuanda xJ aumenla
y= 1O -2x1a) l,Cual es la variacio n de
14x2+&3
ycualldo x] aumenta
cn 4? b) l,Cual es la variacion de nuye cn I? c) l,Cmil es la variac ion de nuye en 2?
y cuanda
X3
dismi-
y cuando X2
dismi-
Ejercicios aplicados 13.6. Una empresa acromiulica querfa predeeir e\ numcro de horas de trabajo necesario para aeabar el diseno de un nuevo avi6n. Se pensaba que las variables cxplicativas relevantes eran la velocidad m[lxima del avian. Sli peso y el numero de piezas que lenia en comun can olms modelos construidos por 1a cmprcsa. Se tom6 una muestra de 27 aviones de la empresu y se esti mo el S l guienle modelo: Yi = Pu
+ Pl-\·Ii + fizX2i + {3Y:3j + e,.
donde
y,. = esfuerzo de disefio en millones de horas de trabajo Xli = veloeidad maxima del avi6n, en kil6mctros par hora X2i = peso del avion, en loneladas
496
Estadistica para administracion y economia
X 3" =
numcro porccnlual de piews en camLin con atros modelos
Los coeficientes de regresi6n estimados cran
6,
h j = 0,661
~
0.065
6,
~
- 0,018
Xl = rentn semana[ en ciemos de d61ures X 2 = lamano de la familia Las cstimaeiones de los panimetros de la regrcsi6n par mlnimos cuadrados eran bo =
Interprete estas estimacioncs.
13.7. En un estud io de la influencia de [as instiwciones fInancieras en los tipos de interes de los bonos alemanes, se anal izaron datos trimestrales de un periodo de 12 aiios. EI modelo postlilado era Yi = flo + fllx li + fJ?'x 2, + e,. dondc Yi = variaci6n de los tipos de inten::-" de los bonos en el trimcstre Xli = variaci6n de las compras de bonos pOl' parle de las instituciones financieras en el trimestre X2,. = variacion de las ventas de oonos POI' p aJ1C de las instituciones financieras en cI trimestre Los eoeficientes de rcgrcs ion parcial estimados eran b, ~ 0,057 b, ~ -0,065 Interprete estas estimaciones . 13.8. Se aj llst6 el siguiente modelo a una muestra de 30 fam Uias para explicnr el consumo de leche por familia : Yi
=
Po + PIX I ; + P2X2i + 8,
dande Yi =
consumo de leche, en li tros a In seman a
~ 0,025
b l = 0,052
a) Interprete las estimaciones b J Y b2 .
b) j,Es posible hacer una interpretaei6n de la estimacion b o que tenga sentido?
13.9. Se ajust6 eI slguienle modelo a una muestra de 2S estudiantes utilizando datos obtenidos a! final de su primer ano de universidad . El objcl ivo era explicar el aumento de peso de los esrudiantes.
Yi = Po
+ PIXI,. + fliX2; + P:y'<3iC,.
donde
y,.
aumento de peso en kilos durante el primer ano Xli = numero media de comidas a la semana X 2i = numero medio de horns de ejercicio a la semana X3i = numero medio de cerveZ
Las estimaciones de los para metros de la regresi6n pOl' mlnimos cuadrados eran b o = 7,35 b2 = ~ 1 , 345
b l = 0,653 b3 = 0,613
a) Interprete las estimaciones hi' b2 Y b 3 . b) t,Es posib le haecr una interpretaci6n de la estimnci6n bo que tenga sentido?
13.2. Estimaci on de coeficientes Los coeficientes de regres i6n mul tiple se ca lcul an utilizando estimadores oblenidos mediante el melodo de mfnimos cuadrados. Este metodo de minimos cuadrados es similar al que presenlamos en el Capitulo 12 para la regresi6 n simple. S in embargo, los estimadores son complicados debi do a las relaciones entre las vari ables independicntes Xj que ocurren simu ltaneamente con las re laciones entre las vari ables independ ientes y la variabl e depend iente. Por ejemp lo , si dos variables indepcndientes aumcntan 0 dismin uycn al mi smo tiempo -corrcl aci6 n pos it iva 0 negati va- mientras que al mismo tiempo la variable dcpendiente aumenta 0 dismin uye, no podemos saber que variab le independ ienle esta relac ionada rea hn ente con la variaci6n de la variable dependi ente. Como consec uenc ia, observamos que los coeficientes de regresi6n estimados son menos fiabl es si hay estrcchas correl ac iones entre dos variables independi cntcs 0 mas. Las estimac iones de los cocfic ientes y sus varianzas sicmprc sc obtienen por com putador. Si n embargo, ded icaremos bastanles esfuerzos a eSlud iar el algebra y las rormas de calcul ar la regresi6n pOl' mfnimos cuadrados. Estos esfuerzos permi tin.lll comprender el metoda y averi guar c6mo influ yen las d ife rentes pautas de los datos en los resultados. Come nzamos con los supuestos habituales del modelo de regres i6 n multi pl e.
Capitulo 13.
497
Regresion multiple
Supuestos habituales de la regresi6n multiple El modelo de regresion poblacional multiple es
y; =
fio + fi,Xt; + fJ2-''( 2i + ... + fJKX Ki + t;
y suponemos que se dispone de n conjuntos de observaciones. Se postulan los siguienles supuestos habituales para el modelo.
1. Las
X/I son 0 bien numeros fijos, 0 bien realizaciones de variables aleatorias, XI' que son independientes de los terminos de error, cr En el segundo caso, la inferencia se realiza condicionada a los valores observados de las xj , 2. EI valor esperado de la variable aleatoria Yes una juncian lineal de las variables independientes ~. 3. Los terminos de error son variables alealorias cuya media es 0 y que tienen la misma varianza, t? Este ultimo supuesto se denomina homocedasticidad a varianza uniforme.
y 4.
Ell;lJ
= ([2 para (i = t , .. ., /1)
Los terminos de error aleatorios, c" no eslim correlacionados entre sf, por 10 que
para todo i = j 5.
No es posible hallar un conjunlo de numeros que no sean iguales a cera, co' c 1 ' tal que
••• ,
cK'
Esta es la propiedad de la ausencia de relacion lineal entre las Xl
Los cuatro primeros supuestos son esenc ialmente iguales que los que postulamos en el caso de la regresi6n simp le. Sin embargo, el supuesto 5 excluye algu nos casos en los que existen relaciones lineales e ntre las variables de pred icc ion. Supongamos, pOl' ejemplo, que lenemos interes en ex pl icar la variab il idad de las tarifas que se cobran par cI envlo de mafz. Una variable expl icativa ev idenle serfa la distancia a la que se envfa el maiz. La distancia podrfa medirse en diferentes unidades como millas 0 kil6metros. Pero no tendrfa sentido uti lizar co mo variables de predicci6n tanto la distancia en mill as como la dislanc ia en kil ometros. Estas dos medidas son func iones lineales una de la olra y no satisfarfan el supuesto 5. Ademas, serfa una tonterfa tratar de evaillar sus efectos independientes. Como veremos, las ecuaciones para calcu lar las eslimaciones de los coeficientes y los program as informaticos no funcionan si no se satisface el supuesto 5. En la mayorla de los casos, la especificaci6n adecuada del modelo evi tara que se viole ese su puesto.
Metodo de mfnimos cuadrados EI metoda de mfnimos cuadrados para la regresi6n multiple calcu la los coeficientes estimados pa ra min imizar la suma de los clladrados de los residuos. Recue rdese que el residuo es
498
Estadfstica para administraci6n y economia
Yi
donde Yi es el valor observado de Ye es el valor de Y predi cho a partir de la regres iun. En terminos formales , minimi za mos SCE:
seE ~ L" ;=1
L"
~
e; (y; -
y;)'
;=1
=
L"
(y; - (b o + b,x, ; +
... + bKxd)'
i"" I
Esta minimizaci6n eonsiste en hallar el plano que mejor represente un eonjunto de pu ntas en el espacio, como hemos visto en nuestro analisis de los graficos tridimensionales, Para rea lizar el proeeso formal mente, utili zamos deri vadas pare ia les para desarroll ar un eonjunto de eeuacioncs normal es simuitaneas que se resuelve para obte ne r los estimadores de los coeficien tes. Para los que tc ngan buenos conocimientos de mate maticas, en el apendi ce de l capitul o presentamos algunos de los detalles del proceso, S in embargo, se pueden extracr importantes concJusioncs dandose cucnta de que quere mos enconlrar 1<1 ec uaci6n que mejor re presente los datos observados. Afortunadame nt e, e n las apli caciones estudiadas e n este libra, los co mpl ejos calcul os siemprc se rcalizan utili zando un paquete cstadfstico co mo Minitab, SAS 0 SPSS. Nuestro objetivo es comprender c6mo se interprelan los resu lt ados de las regresioncs y utilizarlos para resolver pro bl emas. Lo hare mos examin ando algunos de los result ados algebraicos inlennedios para ayudar a comprender los e fectos que producen di stintas paUl as de datos e n los estimadores de los cocri cientes.
Estimaci6n por minimos cuadrados y regresi6n muestral multiple Comenzamos can una muestra de n observaclones (XI" X2i , "" xKo' y~ donde i = 1, ,." n) medidas para un proceso cuyo modelo de regresi6n pobJacional multiple es
Las estimaciones par minimos cuadrados de los coeficientes fJl' fJ 2 , ,." bo' b l , ... , b K para los que la suma de los cuadrados de las desviaciones
SCE =
L" ;- 1
(Yi - bo -
blXli -
b2!2i - ... - b KxKi
fJ K
son los valores
(13 .2)
es la menor posible . La ecuaci6n resultante
(13.3) es la regresi6n muestral multiple de Yean respecto a XI' X2 ,
Consideremos de nuevo el modelo de regresi6n
mente.
COil
... ,
XI('
dos variab les de pred icci6n sola·
Capitulo 13. Regresi6n multiple
499
Los estimadores de los eoeficientes pu eden reso lverse utilizando las fonnas s iguientes: (13.4)
(13.5)
(13.6)
donde I~\ I)' = r.l:2.l'
=
= SXI = ...~> = =
I':
s;
correlaci6 n muestral entre correlaci6n muestral en tre correlaci6n muestral entre desv iac ion tlpica muestral desv iaci6n Llpica muestrru desv iaci6n tfpica muestrru
XI Y Y
Xz e Y X I Y X2 de X I de X2 de Y
En las ecuaciones de los estimadores de los coeficientes , vemos que la est imaci6n del cocficiente de la pendiente, b l, no s610 depcnde de la correlac i6n entre Y Y XI sino que tam bien la afec(a la correlaci6n en tre X I Y Xl Y la correlaci6n entre Xl e Y. Si la cOlTelaci6n entre XI Y X2 es igual a 0, los estimadores de los coefieientes, hi Y b2• senln igua les que los eSLimadores de los eoeficienles que se obtendrfan en las regres iones simples correspondiemes: debemos sei'iaJar que eslO raras veces ocurre en el anal isis empresari al Y eeon6mico. Y a 1a inversa, si la correlac i6n entre las variables independientes es igual a I, los estimadores de los coeficientes seran indefin idos, pero eso se debenl unicamente a que la cspeciFicaci6 n del modelo es incorrccta Y viol an'i el supuesto 5 de la regresi6n multiple. Si las variab les independientcs estrin correlacio nadas perfecLamcnte, ambas experimen tan variaciones rel ativas silTIllhiineas. Vemos que en ese caso no es posib le saber que variab le predice la variaci6n de Y. En el ejemplo 13.3 vemos el efeclo de las correlaciones en tre las variables independien les examinando el prob lema de las asociaciones de ahorro y eredito inmobiliario, cuyos datos se muesLran en la Tabla 13.1.
EJEMPLO
13.3. Margenes de beneficios de las asociaciones de ahorro y credito in mobilia rio (estimacion de los coeficientes de regresion)
, Savings and Loan
EI presidente de la confederacio n de asoc iaciones de ahorro y credito inmobi li ari o Ie ha pedido que ident ifiqllc las variables que afeclan al margen porcentual de beneficios. Soluci6n En primer Jugar, desarrollamos una especificaci6n del modelo de regresi6n multiple que predice los beneficios como una fllnci6n lineal del porcentaje de ingresos netos por d6lar depositado y el numero de ofi cinas. Util izando los datos de la Tabla 13. 1 que se encuentran en el fichero de datos Savings and Loan, hemos eSlimado un modele de regres i6n multiple, que se observa en las Salidas Minitab y Excel de la Figura 13.3. Los coeficientes esti mados se identifican en la salida de los programas informati cos. Vemos que cada aumento unitari o de los ingresos, Xl' provoca un all menlo de los beneFi cios porcentuaJes de 0,237 -si la olm variable no varfa- y un aumento unitario del
500
Eslad istica para administraci6n y economia
Regression Analysis: Y profit versus X1 revenue, X2 offices The regression e quati o n is Y profit = 1 . 56 ~ 0 . 23 7 Xl revenue - 0 . 000 24 9 X2 offices
Co eficientes
_ _ -;:;;--;:=;-_ _ --:- ---:- de / __-;:~..boo regresion b,. b, p Coe SE Coef T
Predictor Con stan t Xl r e v e n ue x 2 of f ices
1 . 564 50 0.23720 0 . 00024908
S = 0 . 0533022
R- Sq
=
0.079 4 0 0 . 05556 0 . 00003205
0 . 000 0 . 000 0 . 000
1 9 . 70 4 . 27 - 7 . 77
R-Sq (ad j) = 85 . 3%
8 6 . 5%
Ana lys i s of Va ri a n ce OF 2
Source Re g r e ssion Residu a l Er r o r Total
22 24
SS
MS
0 . 40151 0 . 0 6 2 50 0 .4 64 02
0 . 2007 6 0 . 00 2 8 4
F 70 . 66
P 0 . 000
., ;
, , R
~
;
G",,",
, ,
s~
,.
;;;;-"
...,,,..
"
v.,,;;-::"'"
F
.
~
,,,
.
,
~ . .
..
CoeflC lentes de regreslOn
b,.b,
boo Figura 13.3.
Ecuaci6n de regresi6n de los beneficios de las asociaciones de ahorro y credito inmobiliario: (a) salida Minitab; (b) salida Excel.
numero de ofic inas reduce los beneficios en 0,000249. Cons ideremos ahora los dos mode los de regresi6n simple de las Figuras 13.4 y 13.5, en los que hacemos una regresi6n de Y con respeclo a cada variable independienle por separado. Consideremos primero la regresi6n de Ycon respecto a los ingresos. Xl ' de la Figura 13.4. En eSla regresi6n simple, el coeficienle de Xl es -0, 169, que es ciaramenle diferente de + 0.237 de la regresian mu l! iple. M,ls abajo, vemos que la correlaci6n entre X I Y X2 es 0,941. Esta gran correlac i6n produce un gran efecto en el coefi ciente de Xl en la ecuaci6n de regres i6n multiple. Consideremos a conlinuaci6n In regresi6n de Y con respecto a X2 solamenle de la Figura 13.5. En esla regres ian simple, el coeficiente de la pendiente del numero de ofi ~
Capitulo 13.
Regresi6n multiple
501
Regression Analysis: V profit versus Xl revenue The regression equation is Y profit = 1.33 - 0.169 xl revenue
Predictor Const-ant Xl revenue 5
Coef 1.3262
~ ...
. 0 . 100891
R-Sq = 49 . 5%
Analysis of variance DF Source Regression 1 Residual Error 23 Total 24
Figura 13.4.
SE Coef 0.1386 0.03559 R-Sq (adj)
T
p
9.51 - 4.15
0 . 000 0.000
41.4%
"
S5
M5
F
P
0.22990 0.23412 0 . 46402
0.22990 0 . 01018
22 . 59
0 . 000
Coeficiente de regresion b 1
Regresi6n de los beneficios de las asociaCiones de ahorro y cr~dito inmobiliario con respecto a los ingresos.
Regression Analysis: Y profit versus X2 revenue The regression equation is Y profit = 1.55 - 0 . 000120 x2 offices
Predictor Constant x2 offices 5 •
Coef 1 .54 60
~ . 000120Il> ~0 . 00001434
0 . 0104911
R-Sq(adj)
R-Sq '" 75 . 4%
Analysis of variance Sourc e DF Reg r ession 1 Residual Error 23 Total 24
Figura 13.5.
SE Coef 0.1048
T
P
14 . 15 -8 . 39
0.000 0 . 000
. 14.3%
55
M5
F
P
0.34913 0 . 11429 0 .4 6402
0 .3491 3 0.00491
10 . 38
0. 000
Coeficiente de regresion
~
Regresi6n de los oeneficios de las asociaciones de ahorro y cr~dito inmobiliario con respecto a! numero de oficinas.
cinas, X2, es - 0 ,1XXl120, mientras que en 1a regres i6n multiple es - 0,000249. Este cambio de los coefi c icntes, aunque no es Ian grande como en el caso del coeficiente de X I_ tambie n se debe a la eslrecha correlaci6n ·entre las variables independientes. Las correlaciones entre las Ires variables son
Y Beneficios Xl lngresos X2 Oficinas
Xl lngresos
- 0,704
- 0,868
0 ,94 1
Vcmos que la corrclaci6n entre XI Y X 2 cs 0,941. Por 10 tanio , las dos variables tiendcn a variaI' a la vcz y no es sorprendente que los coeficienles de la regresi6n multipl e sean difercnles de los coeficientes de la regresi6n simple. Debemos senalar que los coeficientes de la regresi6 n multiple son coejiciel1tes cOlldiciol/ados; es dec ir, el coeficienLc est imado
502
Esladislica para adminislracion y economia
hi depende de las demas variabl es incJuidas en e l modelo. Eso sicmpre es aSI en la regre.
si6n multiple, a menos que dos variables indcpcndientes tengan una correlaci6n 1lluestral de ccm, algo que es l11uy improbabl e. Estas rc laciones tam bien puedcn eSludiarse uli li zando un IlgrMico malricial» de Mini. tab, como e l que muestra la Figura 13.6. No existen grafi cos de este tipo en Excel. Obser. vese que la relaci6n simple entre Y y X2 es claramente lineal. mientras que la relacion sim ple entre Y Y XI es algo curvilfnea. Esta rel ac ion no lineal entre XI e Yexplica en parte por que e l coeficienle de Xl de la regresi6n simple es ran distinto del de la regrcsion multiple. Vemos en este ejem plo que las correlaciones entre variables independientes pueden inOuir considerablcmenle en los coeficientes estimados. Por 10 taniO, si es posible cleg ir, deben cvitarse las variab les independicntes muy correlac ionadas. Pero en mochos casos no es posib le clcgi r. Las estimaciones de los coefi cientes de regres ion sicmpre dependen de las demas vari ables de predicci6n del modelo. En este eje mplo, los beneficios aumentan en funci6n de los ingresos porcentuales por dolar depositado. Sin embargo, e l uumento simultaneo del numero de oficinas -que red ujo los beneficios- ocultarfa el aumento de los beneficios si se utilizara un analisis de regres i6n simple. Por 10 lanlo, es muy importanle especificm correctamente el modelo, es decir, la elecci6n de las variables de predicc i6n. Para especifi car cl modelo es necesario comprender el contexto del problema Y la teoria. Matrix Plot of X1 revenue, X2 offices, V profit Xl' .... v .... nue
I~I),)I )
8000
•
7000
0.'
0.• 0.4
••
•• • • • • • • ~ •• • • • • '. .' ". • • • • • • • •• • •
X2 offices
.
•
· '.
,
4
Figura 13.6.
Instrucciones de Minitab 1. Pulsar Graph 2. Seleccionar Matrix plot 3. Seleccionar Simple 4. Seleccionar Matrix options 5. Seleccionar lower Left
•.' ••
• ••
, • • • •• •
I'
•
•
•
•
• •
,
7000
8000
Y profit
••
, 9COO
•
Graficos matricia!es de las variables de las asociaciones de ahorro y crMito inmobiliario.
EJERCICIOS
Ejercicios basicos 13.10. Calcule los coeficicntes b l Y b 2 del modelo de
rcgrcsi6n
a) rx ,y = 0,60; r xlY = 0,70; rX • T , = 0,50; sx, = 200; S XI = 100: Sy = 400 b) Tx ,}, = - 0,60: TX1:1 = 0,70; ,-x .... , = - 0,50; Sx, = 200·' s.~, = 100'' S y = 400 c) = 0,40; ':'1:1 = 0,450; = 0,80; S x, = 200'' sx, = 100's ' y =400 d) ':'oY = 0,60; rx,y = - 0,50; ,-x ...., = - 0,60; .~x, = 20C},.' ' .<, = 100'' S y = 400
Tx,y
dados los siguientes eSladfsticos sinteticos:
':.,x,
Capflulo 13. Regresi6n multiple
:jercicios aplicados
a) Formulc una ecuaci6n de regresi6n que utili-
13.11. Considere las ccullciones de regrcsi6n lineal eslimadas Y = no + alX I
y = bo + blX I
13.12.
503
+ "zX2
b)
a) Mucstre dctaJladamente los estimadores de los coeficientes de a l Y hi cuando la cOiTelaci6n entre X I Y X 2 es igual a O. b) Muestre detalladnmcnte los estimadores de los coefic ientes de (Jj Y b l cuundo la correiaci6n entre X I Y Xz es igual n I.
c)
Se recomienda que los siguientes ejercicios se resue lvan con lu ay uda de un computador.
d)
f 1 Amalgamated Power Inc. Ie ha pedido que eSlime una ecuaci6n de rcgresi6n para averiguar c6mo afeclan algunas variables de predicci6n ,I 101 demanda de ventas de electricidad. Realiza una serie de estimac iones de regrcsi6n Y anali za sus resultados uti lizando los dalos trimestrales de las ventas de electricidad de los 17 dltimos afios que se encuen tran en el fi chero de datos I)ower Demand. a) Estime una ccuHci6n de regresi6n utilizando las ventas de elcctricidad como variable dependicnte y el ndmero de clientes y cl precio como variables de predieei6n. Interprete los eocfieientes. b) Estimc una eeuaei6n de regresi6n (venlas de electricidad) utili zando solumente cl numero de clientes como variable de predicci6n. Interprete el cacfi ciente y compare e1 resultado con cl del apartado (a). e) Estime una ecuaci6n de regrcsi6n (ventas de electricidad) uti lizando el precio Y los gmdos-dfas como variables de predicci6n. Interprcte los coeficiel1(es. Compare cl cocfi cien le del precio con el que ha obten ido en cJ apartado (a). d) Est"ime una ecuaci6n de regresi6n (ventas de electricidad) utili zando Ia renta y [os gradosdfas como variables de predicci6n. Intcrprele los coeficienles.
13.13. , f Transportation Research Inc. Ie ha pcdido que fonnule algunas ecuaeiones de regresi6n multiple para estimar cl efeclo de algunas variables en el ahorro de combustible. Los dalos para este estudio se Cllcuenlran en el fichcro de datos Motors y In variabl e dependiente son las millas por gal6n -milpgal- canforme a la certi ficaci6 n del Departamento de Transparte.
e)
ce la patencia de los vehiculos - horsepower- y el peso de los veh fc ulos - weightcomo variables indepcndientes. Intcrprctc los cocficientes. Formule una segunda ecuaci6n de regresi6n que anada cl numero de cilindros --cylinder- como variable indcpendiente " la ccuaci6n del npartado (a). Interprete los caefici entcs. Formule una ecunci6n de regresi6n que ulilice el nllmero de cilindros y el peso del vehfculo como variables independienles. Interprete los coeficientes y com pare los resultados con los de los apanados (a) y (b). Formule una ecuacion de regresi6n que uliliee la palencia de los vehCculos, el peso de los vehlcu los y el precio como variables de predicci6n. Interprete los coeficientes. Escriba un breve infonne que resuma sus resultados.
13.14. ' . Transportat ion Rcsearch Inc. Ie ha pedido que fo rmule a!gunas ecuaciones de regresi6n multiple para estimar el efecto de algullas variables en la palencia de los vchCcu los. Los datos para este estudio se enCllcnlran en el fi chero de datos Motors y la variab le depcndiente es la potencia -horsepower- conforme a la certifi caci6n del Depanamento de Transporte. a) Formu!e una eCllaci6n de regresi6n que uti lice el peso de los vehCcu los - weight- y las pu lgadas ciibicas de desplazamiento de los cilindros --displacement- como variables de prcdicci6n. Inlcrprete los coeficientcs. b) Formule una ecuacion de regresi6n que lltilice el peso de los vehfcu los, el desplazam icnto de los cilindros y el niimero de cilindros --<:ylinder- como variables de prcdicci6n. Interprelc los cocfi cientes y compare los resuhados con los del apartudo (a). e) Formulc unCI ecuaci6n de regresi6n que ut ilice el peso de los vehfculos. el desplazamicnto de los cil indros y las millas por gal6n - milpgal- como variables de predicci6n. Interprete [os cocficientes y compare los resultados con los del apartado (a). d) Formule una ecuaci6n de regresion que util ice el peso de los vehfculos, cl desplazamienlo de los cilindros. las millas por gal6n y el precio como variables de prcdicci6n. Interprete los coeficientes y compare los resul tados con los dcl apartado (c). c) Escriba un brevc informe que presellle los resultados de su ana lisis de esle problcma.
505
Capitulo 13. Regresi6n multiple
Restando In media muestral de la variab le dependi ente de ambos mi cmbros, tenemos que
que puede ex presarse de Ja siguiemc manera: De~v iaci 6 n observada con respecto a Ja media muestral
des vi aci6n predicha con respecto a la media muestraJ
+
res iduo
A continuaci6n , elevando
" (y, -
"L.
"
::-.' = "L. (y - ,: :- - y, .2 y,.
+ (y, -
• 2 y,)
i- I
=
I"
i_ I
I" e;
que es la de scomposici6n de la suma de los cuadrados present ada en el Capitulo 12. STC = SCR
+ SCE
Suma tolal de los c uadrados = suma de los cuadrados de In regresi6n
Esla descomposici6n simplificada se debe
1:1
+
suma de los cuadrados de los errores
que )' e; son independientes Yl por 10 tanto.
Descomposicion de la suma de los cuadrados y coeficiente de determinacion Comenzamos con el model0 de regresi6n multiple ajustado mediante minimos cuadrados
donde las b, son las estimaciones par minimos euadrados de los coeficientes del modelo de regresi6n poblacional y las e son los residuos del modelo de regresi6n estimado. La variabilidad del modelo puede dividirse en los componentes
STC = SCR
+ SCE
(13.7)
donde estos componentes se definen de la forma siguiente. Suma total de los cuad rados:
STC =
I" "
(y, -
Y)'
(13.8)
"
(13.9)
506
Estadistica para administraci6n y economfa
Suma de los cuadrados de los errores:
SCE
"
=I
(y, -
y,)' = I" ei
(13.10)
Suma de los cuadrados de la regresi6n :
SCR =
I" tY, - Yl'
(13.11)
i-I
Esla descomposicion puede interpretarse de la forma siguiente: Variabilidad muestral total = variabilidad explicada
+ variabilidad no explicada
EI caeficiante de determinaciOn, R2, de la regresi6n ajustada es la proporcion de la variabilidad muestral total explicada par la regresf6n
, SCR R-= = STC
SCE -STC
(13.12)
y se deduce que
La suma de los cuadrados de los errores tambi en se utili za para calcular la eSlimaci6 n de la vari anza de los en·ores del model a poblacional, como muestra la ecuaci6n 13.1 3. AI igual que ocurre en 11.1 regres ion simpl e, la varianza de los errores poblacionales se utiliza para la inferencia estadfstica de la regresi6n multip le.
Estimacion de la varianza de los errores Dado el modelo de regresi6n poblacional multiple
y, = /io +
/i ,x" + /i,,,-, + ... + PKXK1 + e,
Y los supuestos habituales de la regresi6n, sea q2 18 varianza comun del fermi no de error, I!r Entonces , una estimaci6n insesgada de esa varianza es
s' "
L" e;
= -,',,--,' __ = _,SC , -E - ,--_ II - KI/ - K -
(13.13)
donde K es el numera de variables independientes en el modelo de regresi6n . La raiz cuadrada de la varianza, s", tambien se llama error tiplco de la estimacion .
Uegados a este punta, tamb ien pode mos calcu lar el cuadrado medio de la regresi6n de la forma siguientc:
SCR CMR = K Ulilizamos el CMR como medida de la variabi lidad ex plicada ajustada para te ner en cue nta e l numcro de variables independi cn les.
Capitulo 13.
Regresi6n multiple
507
La media muestral de la variable dependicnte de los beneficios de las asociaciones de ahorro y ered ito inmobiliario es y = 0,674, y hemos uti lizado cstc valor para calcular las dos ultimas eo lumnas de la Tabla 13.2. Utilizando los datos de esta labIa y los co m ponen~ tes, podemos demostrar que SCE
0,0625
~
STC
~
0,4640
R' ~ 0,87
En estos resultados, vemos que en esta muestra cl 87 por eicnto de la variabilidad de los beneficios de las asociaciones de ahorro y cred ito in mobilia rio es expl icado por las relaciones lineales con los ingresos netos y el numero de oficinas. Observese que tambien podrfamos calcul ar la suma de los cuadrados de la regres ion a parlir de la identidad SCR
~
STC - SCE
~
0,4640 - 0,0625
~
0,40 15
Tambicn podemos calcu lar una estimac i6n de la varianza de los errores a 2 utilizando la ecuaci6n 13. 13:
?
sf!
I" ei
=
SCE II-K-
; ... \
II-K-
0,0625 25 - 2 - 1 ~ 0,0284
La Figura 13.7 presenta la sali du Mini tub y Excel del aml li sis de regresi6n correspondiente al prob lema de las asoc iaciones de ahorro y credito inmobi liario e ind ica las distintas sumas de los cuadrados calculadas. Los paquetes estadisticos calcu lan habitualmcntc cstas cantidades; incluimos los deLalles de la Tabla 13.2 Cmicamente para indicar c6mo sc ca1cuIan las sumas de los cuadrados. A partir de ahora, suponemos que las sumas de los cuadrados se ealculan mediante un paquete estadistico. Los componcntes de la variab ilidad tienen sus correspondientes grados de li bertad. La cantidad STC tiene 1/ - 1 grados de libel1ad porque se neeesita la med ia de Y para eaJcularla. EI eomponente SCR tiene K grados de li bcnad pOl·que los coefieientes K se neces itan para ealcularla. Por ulti mo, el componente SCE tiene 1/. - K - 1 grados de li bertad porque se neeesitan los K coeficientes y la media para eaJcularJ a. Observese que en 1a Figura 13.7 se incluyen los grados de libertad (DF) eOlTespondien Les a cada componente. Utilizamos cI coefic ien te de determinaei6n, R2, habitual mente como es tadistico descriptivo para describi r la fuerza de la relaci6n lineal entre las variab les independientes X y la variable dependienle, Y. Es importante haecr hincapic en que R2 s610 puede utilizarse para com parar modelos de regres i6n que tienen el mismo conj un to de observac ioncs mucstrales de Yi, sie ndo i = 1, ... , Il. Este res ullado se observa en la forma de la ecuaci6n SCE 1- STC
Vemos, pues, que el va lor de R2 pllede scr alto bien porq lle SCE es pequefia - 10 que indi ca que los pun tos observados estan eerea de los pun tos prediehos- , bicn porque STC es grande. Hemos visto que SCE y indican la eereanfa de los puntos observados a los puntos prcd iehos. Cuando dos 0 lTlaS eCllaciones de regresi6n tienen la mi sma ST C, R2 es una med idu comparable de la bondad del aj uste de las ecuaciones. La ulili zaci6n de R2 como medi da global de la calidad de una ecuaci6n ajustada puede plantear un probl ema. Cuando se afiaden vari ab les independientcs a un modelo de regre-
s;
508
Estadistica para adminiSlracion y economia
Regression A nalvsis: V profit versus X l revenue, X2 offices
The
~e9~ession
Y profit
equation is
1 . 56 + 0 . 237 Xl revenue - 0 . 000249 x2 offices
-
e - - - - -- -- - - - -- -
Predictor Constant Xl revenue x2 offices
E
Coe 1 . 56 450 0 . 23720 0 . 00024908
•
SE Coef
0 . 07940 0 . 05556 0 . 00003205
T 19 . 70 4 . 27 - 7 . 77
bo, b"
P
0 . 000 0.000 0 . 000
7~~~;~~~::==========~~~=~ Coeficiente de la estimacion
0 . 0 53 ~ 6
= 86y
offices
dedelerminaci6nR z
""' R- SQ( a djj = 85 . 3%
MS~
~
70 66
P
Varianza de
0 000
~_
Tota l
e 5
_ _ _ _ _ _ CMR ;: SCRjK
Sou rce Regres s ion Resid ual Err o r Source Xl revenus
'"
Error tlpico
.......
Ana ly s i s o f Variance
X2
Coeficientes
5~
24
DF
Seq SS
1 1
0 . 22990 0 . 17161
SCR . O,401S1 SCE = 0,06250 STC "" 0,46402
Numero de variables independientes (Xl = K
Error tipico la estimaci6n
5"
Coeficiente
i i
Numero de I
ind ependientes CMR : SCR K
Coeficientes
boo
SCR= 0, 40 151 SCE .. 0,06250 S TC = 0,46402
b" '"
Figura 13.1.
Salida Minilab (a) y salida Exce l (b) del analisis de regresl6n correspondiente al problema de las asociaciones de ahorro y credilo inmobiliario.
(X) '" K
Capitulo 13.
Regresi6n multiple
509
si6 n multipl e -en casi lodas las siluacioncs ap licadas- , la suma explicada de los cuad rudos, seR, aumenta aunque la variable indepenclicn le adicional no sea una variable de predicci6n importante. Por 10 tanto, pod rfamos enconlrarnos con que R'! ha aumentado espuriamentc dcspues de que se ha anad ido una 0 mas variables de predicc i6 n poco importantes al modelo de regresi6n multiple. En esc caso, el aumentQ del vnlor de J?'! se rfa e nganoso. Para ev itar cste problema, el coeficienle de dete rminac i6n aj ustado puede calcularse como mueSlra la ecuac i6n 13.14.
Coeficiente de determinacion ajustado EI coeficiente de determinacion ajustado,
R2,
se define de la forma siguiente:
SCE/(n - K - I ) (13.14)
STC/(n - I )
Utilizamos esta medida para tener en cuenta el hecho de que las variables independientes irrelevantes provocan una pequefla reducci6n de la suma de los cuadrados de los errores. Por 10 tanto, el R2 ajustado permite comparar mejor los modelos de regresi6n multiple que tienen diferentes numeros de variables independientes.
Volviendo a nuestro ejemp lo de las asociac iones de ahorro y cn!d ito inmobiliario, vemos que 1/ =
25
SCE
~
0,0625
STC
~
0,4640
y, por 10 tanto, el coe fic iente aju stado de determi nacion es
iP-=
0.0625 / 22 1 - 0,4640/ 24 ~ 0,853
En cste ejemplo, la diferencia entre R2 y iF no es muy grande. Sin embargo, si e l modelo de regresi6n hubiera cOlltenido algunas vari ables independi entes que no fueran importantes predictores co ndi cionados, la diferencia serra grande. Olra medida de la relac ion en la rcgresi6n multi ple es e l coeficie nte de correlac i6 n mu ltiple.
Coeficiente de correlacion multiple EI coeficiente de correlaci6n multiple es la correlaci6n entre el valor predicho y el valor observado de la variable dependiente
R ~ f(Y,y) ~ y In'i R-
(13.15)
y es igual a la ra fz cuadrada del coeliciente multiple de determinaci6n . Utilizamos R como olra medida de la fuerza de la relaei6n entre la variable dependiente y las variables independientes. Par 10 tanto, as comparable a la correlaci6n entre Y y X en la regresi6n simple.
510
Estadfstica para administraci6n y economia
EJERCICIOS
Ejercicios basicos 13.15. Un am'il isis de reg resi6n ha producido la siguiente labia del amllisis de la varianza:
suma total de los cuadrados y la suma de cuadrados de la regresi6n Crall STC
~
3.881
y
SCR
~
lo~
3,549
Analysis of Variance Sou r ce
Of' 3 26
Regres~ion
Res i dual Error
5S
MS
4500 500
s;.
a) Calcule SI: Y b) Calcule STC. c) Calcllie R2 Y eI coeficiente ajustado de de-
terminacion. 13.16. Un analisis de regresi6n ha prodllcido la s\guiente tabla del an5lisis de la varianza: Analysis of vari an c e OF 2 29
Sou r ce Re g res sion Resi d ua l Error
5S
MS
7000 2500
s;.
u) Calcule s~ y b) Calcule STC. c) Ca1cu le R2 y cI cocficiente ajustado de determinacion. 13.17. Un an5lisis de regresi6n ha prodllCido la si guicntc tabla del amilisis de la varianza : Anal ys i s o[ Vari a nce S o urce Re gress i on Re s i d ual Er r or
,
OF
SS
45
40000 10000
MS
a) Calcu1c s" y s;. b) Ca1cule src. c) CaJcule R2 y cI coericiente ajuslado de detcrminaci6n. 13.18. Un an5lisis de rcgresi6n ha producido la siguiente tabla del alllliisis de la varianza:
a) Halle e imcrprc(c el coeficiente de determi_ nacion. b) Halle la slima de los clladrados de los errores. c) Halle el coeficiente ajustado de dClermina_ ci6n . d) Halle e intcrprctc cl coefieiente de corrcla_ ci6n mu.lti ple. 13.20. En el estudio del eJerclcio 13.8, en el que las estimaciones pOl' mfnimos cuadrados se basaball en 30 eonjllntos de observaciones mucslrales. !a suma lotal de los clladrados y la sllma de los cuadrados de la regresi6n eran STC
~
162.1
y
SCR
~
88.2
a) Hall e e interprete el coeficiente de delermi naci6n. b) Halle el cocficiente de determinaci6n ajustado. c) Halle e inlerprete el coeficiente de correlaci6n mu ltiple. 13.21. En eI estudio del ejercicio 13.9, se utilizaron 25 observaciones para calcular las estimaciones pOl' mfnimos cuadrados. La suma de los cuadrados de la regresion y la suma de los cuadrados de los errores eran SCR
~
79.2
y
SCE
~
45,9
a) Halle e interprele el coeficiente de determi nacion. b) Halle el cocficientc de detel1llinaci6n ajustado. c) Halle e interprete el coeficiente de correlacion mu.ltiple.
Anal ys i s of varian c e So urce Regre s sion Re sidua l Er ror
OF 5 200
SS
MS
80000 1 5000
a) Ca1cule se y s;. b) Ca1cu le STC. c) Calcule R2 y cI coeficiente ajustado de detenninaci6n.
Ejerci cios aplicados 13.19. En el estudio del ejercicio 13.6, en el que las est imaciones por mfn imos cuadrados se basaban en 27 conjuntos de observaciones mueslrales, la
13.22. Vuelva a los datos de las asociaciones de ahorro y credito inmobiliario de la Tabla 13. 1. a) Estime por mfnimos cuadrados la regrcsion del margen de beneficios con respecto al numera de ofici nas. b) Estime por mfnimos cuadrados la regresi6n de los ingresos nelOS con respecto al numel'O de oficinas. c) Estime por mlnimos cuadrados la regresi6n del margen de beneficios con respecto a los ingresos nelos. d) Estime por mfn imos cuadrados la regresion del numero de ofic inas con respeclo a los ingresos nelos.
Capitulo 13.
Regresi6n multiple
511
13.4. Intervalos de confianza y contrastes de hipotesis de coeficientes de regresion individuales En el apartado 13.2 hcmos dcsarrollado y anali zado los est imadorcs puntuales de los metros del modelo de regresi6n multiple
para.~
A continuae ion, desarrollamos intervalos de confianza y con trastes de hipotes is de los eoeficie ntes de regresi6n est imados. Estos interva los de confian za y contrastes de hipotesis dependell de la. varianza de los coefieientes y de la di stribucion de probabilidad de los coeficielltes. En e l apartado 12.5 mostramos que el coeficiente de regres ion simple es una funcion lineaL de la variable dependiente, Y. Los coeficicntes de regresi6n multiple, bj , tam bi en son funciones lineales de la variable depcndi ente, Y, pero el algebra es algo mas comp leja y no se presentara aqul. En la ecuac i6n de reg res ion mCiltipie anterior, vemos que la variable dependiente, Y, es una funci6n lineal de las variables X mas el error aleatorio /;:. Para un conjunlo dado de variables X, la fu ncion
es en realidad una constante. Tambiell vimos en los Capftulos 5 y 6 que sumando un a eon stante a una variable aleatoria <.: se obtiene la vari ab le aleatoria Y que tiene la mi sma di stribucion de probabilidad y la misma varianza que la variabl e alcatoria original £. Como consecuencia, la variable dependien le, Y, sigue la misma distribuci61l normal y liene la mi sma varianza que el termino de error, e. Se deduce, pues, que los coerieientes de regresion, bj - que son funci ones lineales de Y-, tambien siguen una dist ribuc i6n normal y su varianza puede obtenerse utili zando la relaci6 n li neal entre los coeficientes de regresion y la variab le dependiente. Este ctilculo se rea lizarfa sigui endo los mi smos pasos que en el caso de la regresion simp le del apartado 12.5, pero el algebra es mas co mplcja. Basandonos en la relac i6n lineal entre los coeficientes e Y, sabemos que las estimaciones de los cocficientes siguen una distribuci6n normal si cl error del Illodelo, G, sigue una di stribuc i6n normal. Como consec ueneia del teorema del Ifmite central, genera lmente observamos que las eSlim aciones de los coefic ientes siguen aproximadamente una di stribucion normal, aunque f. no la siga. Por 10 tanto, los contrastes de hipotesis y los intervalos de confianza que desarrollamos no son afectados seriamente por las desv iaciones con respecto a la normalidad en la di stribuci6n de los terminos de error. Podemos considerar que el termjno de error, e, del modelo de regresion poblacional incluye las influenc ias conj ulllas en la variable dependiente de multitud de faetores no inciuidos en la lista de variables independ ientes. Estos factores pueden 110 tener por separado una gran influenci a, pero su efecto eonju nto puede ser importanle. EI hecho de que el ter~ mino de error este formado par un gran numero de eom ponentes cuyos efeetos son aleatorios es un argumento in tuitivo para suponer que los errores de los coeficientes tamb ien siguen una distribuei6n normal. Como hemos visto antes, los estimadores de los coeficientes, hj' son funeiones lineales de Y, y el valor predicho de Y es una funcion lineal de los estim adores de los coefic ientcs de regres ion. EI computador realiza los ca.lculos resultantes de las complejas relaciones. Sin embargo, estas relaciones a veees pueden pl antear problemas de interpretaci6n, por 10 que dedicamos algun tiempo a expli car la for ma de calcular las varial1zas. Sj no compren-
512
Estadislica para adminislraci6n y economia
demos c6mo se ca lcu lan las varianzas, no podl"cmos comprendcr perfectamenle los conIrastes de hip6tes is y los intervalos de con rianza. La varianza de una est imaci6n de un coeri cienle dcpende del lamano de la mues!ra. de la dispcrsi6n de las variables X, de las correlaciones en tre las vari ables independientcs y del termino de error del modelo. Por 10 tanto, estas correlaciones afectan tanto a los intcrval os de confianza como a los con trastes de hi p6tesis. Antes hemos visto que las cOITcla_ ciones entre las vari ables indepcndien tes in fluyen en los estimadores de los coeficiemes. Eslas correJaciones entre variables independi enles tambien aumentan la vari anza de los estimadores de los coeficienles. Una imporlame concl usi6n es que la varianza de los estimadores de los coeficientes, ademas de los estimadores de los coeficientes. depende de todo el co njunlo de variables independ ientes del modelo de regresi6n. El aml li sis anterior de los gn'ifi cos tridimens iona les hacia hin capie en los complejos efeclos que producen varias variab les en la varianza de los coeficienles. A medida que Son estrechas las relaciones entre las vari ables indcpendicntes, las cstimaciones de los coeficientes son mas inestnbles, es decir, tienen una vuri anza mayor. A continuac ion, presentamos un amilisis mas formal de estas complcjidades. Para oblcner buenas estimaciones de los coeficientes --eslimaciones que tengan una baja varianza- debemos buscar un umplio rango para las variables indepcndie nles, elegir vari"bJes independ ientes que no esten eSlrcc h a m~nte rclacionadas entre sf y buscar un modele que este cerca de lodos los puntos de datos. En la pn'ictica, cuando se rea li zan estud ios estadfslicos aplicados en cI mundo de la empresa y la economfa. a menudo hay que utilizar datos que di stan de se r idca les. como los de l ej emplo de Jas asociaciones de ahorro y eredilo inmobili ario. Pero conociendo los efectos aqu f an alizudos. podcmos con tal" con elementos para detcnninar en que medida son apli cables nuestros mode los. Para comprender algo el efeclo de las correlaciones de variables independientes, e)(<1minamos los estimadores de las vari anzas a partir del modelo de regresi6n multiple estimado con dos variables de predicc i6n:
Los estimadores de las vari anzas de los coeficientes son
s;, = (/I -
s'
(13.16)
e
I )s~/I
(13.17)
y las rafces cuadradas de estos estimadorcs de las varian zas,
Sb ,
Y Sb 2, se denominan errores
'(picos de los coejiciellfes.
La varianza de los est imadores de los coeficientes aumenta direClamente con la di slancia a Ia que se encuentran los puntos de la Ifneu, medida por la varianza de los en'orcs eSlim udos. Ademfis. una dispersi6n mayor de los valores de las variables independientes - Illcdida por s;, 0 por s.~!- reduce la varianza de los cocfic ientes. Recuerdese que eSlOS resultados tamb ie n se aplican a los estimadores de los coeficicntes de regres i6n simple. Talllb ien vemos que la varianza de los estimadores de los coeficientes aumenta con los aumentos de la correluci6n entre Ins variables indepcndientes de l modelo. A medida que aumenla la correlaci6n entre dos vari ables independientes, es mas diffei! separar el efeclo de cada una de las variables para predeci r las variables dependientes. Cuando aumenta cl
s;,
Capitulo 13.
Aegresion multiple
51 3
numero de. variables indcpendi enles en un mode lo, las influeneias en la varian za de los eoefieientcs eontinuan siendo importantes, pero la estruet ura al gebraiea se vuelve muy eomplcja y no se presenta aqul. EI efeeto de las corre laciones haee que los esti madorcs de las varianzas de los coeficientes dependan de las demas variables inclepenciienles del mode lo. Recuerdese que los estimadores efectivos de los coeficientes lambien depende n de las demas variables inclependientes del modelo, una vez mas debido al efecto de las correlaciones entre las variables independi entes. A continuaei6n, resumimos la base para la inrerencia de los coeficientes de la regresion poblaciona1. Normal mentc, nos interesan mas los coeficientes de regresi 6n f3j que la constante u ordenada en cI origen f3o. Por 10 tanto, centraremos la atencion en los primcros, sciialando que la inferencia sobre la segunda se reali za de una mancra parcc ida.
Base para la inferencia de los parametros de la regresion poblacional Sea el modelo de regresi6n poblacional
Sean b o' b 1 , .. • , b K las estimaciones par minimos cuadrados de los parametros poblacionales y s/:()' so,' ..., Sb las desviaciones tfpicas estimadas de los estimadores por minimos cuadrados. Entonces, si cumplen los supuestos habituales de la regresi6n y si los terminos de error, 1: 1, siguen una distribucion normal,
te
(13.18)
se distribuye como una distribuci6n t de Student con (n - K ~ 1) grados de libertad.
Intervalos de confianza Pueden obtenerse intervalos de confianza de los
Pj utilizando
la ecuaci6n 13. 19.
Intervalos de confianza de los coeficientes de regresion Si los errores de la regresi6n poblacional, £;1' siguen una distribucion normal y se cumplen los supuestos habituales de la reg resion , los intervalos de confianza bilaterales al 100(1 - (1:)% de los coeficientes de regresi6n, Pi' son
(13.19) donde t,, _ K_ 1.<>12 es el numero para el que
P(t,, -K- I
>
t,, - K -1.a/2) =
2""
y la variable aleatoria t,, _K_l sigue una distribuci6n t de Student con (n - K - 1) grados de libertad.
514
Estadistica para administraci6n y economia
EJEMPLO
13.4. Desarrollo del modelo de las asociaciones de ahorro y credito inmobiliario (estimaclon de intervalos de confianza)
Se nos ha pedido que culculemos intcrva los de confianza de los cocfi cientes del mOdelo de regres i6n de las asociac iones de ahorro y credilO inmobi li ario presenlado en e1 ejem. plo 13.3. Soluci6n La Figura 13.8 nluestra la sal ida Minitab del am'ilisis de regres i6n correspondiente al modelo de regresi6n de las asociaciones de ahOJTO y credito inmobi li ario. Los est imado. Regression Analvsi s: V profit versus X1 revenue, X2 offices
The regression equation is Y profit = 1.56 + 0 . 237 Xl revenu e - 0 . 000249 X2 offices
Predictor
S " 0.0533022
1.
. 000 .000 R-Sq
Analysis of vari ance Sou r ce DF Regression 2 22 Residual Error Total
24
Source Xl r evenue X2 o f fices
'b, tb,
Coef
Constant Xl revenue X2 offices
b,
OF 1 1
86.5'
R-
SS 0 .4 0151 0 . 06250 0 . 46402
tb,
.) "
MS 0 . 20076 0 . 00284
F 70 . 66
0 . 000
Seq SS 0 . 22990 0 . 17161
(,)
."
(b)
Figura 13.8. Regresi6n de problema de las asociaciones de ahorro y credito inmobiliario (salidas Minitab y Excel).
Capitulo 13.
Regresi6n multiple
515
res de los coefic ientes y sus desviacio nes tfpicas cOITes pondientes a las variables de prediccion de los ingresos, hi' y el numero de oficinas, b 2• son b,
~
0,2372
s'" ~ 0,05556;
b,
~
Sb, ~
- 0,000249
0,00003205
Vemos, pue s, que la desv iac i6n tfpica de la di slribuci6n en el muestreo del estimador por minimos cuadrados de [11 se estima en 0,05556 y la de [J2 se eslima en 0,00003205. Para obtener intervalos de confi anza a1 99 por ciento de [1 I Y [12' utilizamos el valor t de Student de la Tabla 8 del apendi ce. 'II - K - J. r.r:!2
= (22.0.005 = 2,8 19
Basandonos en estos resultados, observamos que e1 intervalo de confianza al 99 por ciento de [J I es 0,237 - (2,8 19)(0,05556) <
p,
< 0,237 + (2,819)(0,05556)
0,080 <
p,
< 0,394
o sea,
Por 10 tanto, el interva lo de cOllfianza al 99 par ciento del aumento esperado del margen de beneficios de las asociaciones de ahorro y cn':dito inmobili ario provocado pOl' un aumento de los ingresos nelos de I unidad, dado un numero rljo de otic inas , va de 0,080 a 0,394. El intervalo de confiunza al 99 por cienlO de [12 es - 0,000249 - (2 ,8 19)(0,0000320) < {3, - 0,000249
+ (2,819)(0,0000320)
o sea - 0,000339 <
fl, < -
0,000 159
Vemos , pues, que el intervalo de co nfianza al 99 por ciellto de la disminuci6n espcrada del margen de beneficios provocada par un aumenlo de 1.000 oricinas, dado un ni vel fijo de ingresos netas, va de 0, 159 a 0,339.
Contrastes de hip6tesis Pueden desarrollarsc contrastes de hipolesis de los coeficientes de regrcsi6n utili zando las estimaciones de las varianzas de los coefic ientes. Especialmcntc intcrcsante es e l contraste de hipotcsis
que se utili za frecuentemente para averiguar si una variable independi ente especffica es importante en un modelo de regresi6n mUltiple.
Contrastes de hip6tesis de los coeficientes de regresi6n Si 105 errores de la regresi6n, [;i' siguen una distribuci6n normal y se cumplen los supuestos habituales del analisis de regresi6n, los siguientes contrastes de hip6tesis tienen el nivel de significaci6n IX: 1.
Para contrastar cualquiera de las dos hip6tesis nulas
516
Estadfstica para administraci6n y economia
frente a la hip6tesis alternativa
la regia de decisi6n es
Rechazar Ho si 2.
(13.20)
Para contrastar cualquiera de las dos hip6tesis nutas
Ho: Pj =
P*
0
frente a la hip6tesis alternativa
H ,:
Pj < P*
la regia de decision es
Rechazar Ho si 3.
(13.21 )
Para contrastar la hipotesis nula
flo : lij =
/i*
frente a la hip6tesis alternativa bilateral
H , :Pj #
fI*
la regia de decision es
Rechazar Ho si
"'"
o
(13.22)
Muchos analistas sostiencn que si no podemos rechazar la hip6tesis condicionada de
INTlRPRHACION que cI coeficiente es 0, debemos concluir que la variable no debe inclu irse en el modelo de regresi6n. EI estadfstico f de Student de esle con traste normal mente se ca lcula en la mayorfa de los programas de regresi6n y se indica al lado de la eSlimaci6n de la varianza de los coeficientes: ademas, normahnenle se induye el p-valor del contrasle de hip6tcs is. Estos se muestran en la salida Minirab de la Figu ra 13.8(a). Utili zando el estadfstico t de Student indicado 0 e l p-valor, podemos saber inmediatamcnte si una variable de pred icc i6n es significativa, dadas las dcmas variables del mode lo de regresi6n. Exislen ciaramenle olros mclodos para decidir si una variable independiente debe inc1uirse en un modele de regresi6n. Vemos que el metodo de selecci6n anlerior no liene en cuenta e l error de Tipo II: el coeficiente poblacionai no es igual a 0, pero no rechazamos la hip6tesis nu la de que es igual a 0. ESle es un prob lema importanle cuando un modelo basado en la leoria eeon6mica 0 en otra teoria y cspccificado con cuidado incluye eierlas va riables indepe ndi enles. En esc caso, debido a un gran error, c, y/o a las correlaciones en tre variables independientes, no podemos rechazar la hi p6lcsis de que e l coeficiente es O. En este caso, muchos analistas incluiran la variable independ icnte en el modelo porque creen que debe primar la especificaci6n original del modelo basada en la leoria 0 la experiencia
Capitulo 13.
Regresi6n multiple
517
econ6m icas. Se trata de una cuesti6n diffcil que exige haecr una buena valoracio n basandose tanto en los resultados cstadisticos como en la tcoria economica sobre la relacion subyacente analizada.
EJEMPLO
13,5, Desarrollo del modele de las asociaciones de ahorro y cn3dito inmobiliario (contrastes de hipotesis de coeficientesj
Se nos ha pedido que averiguemos si los coeficielltes del modele de regres i6n de las asociaciones de ahorro y eredito inmobi li ario son predictores significativos de los beneficios .
Solucion En el contraste de hipotesis para esta cuesti6n uti lizaremos los resul tados de la regrcsi6n real izada con el programa Minitab moslrados en la Figura 13.8(a). En plimer lugar, queremos averigllar si los ingresos (Olales aumentan significativamente los beneficios dado el efecto del numero de oficinas, es decir, descontando la infillencia de este. La hipotesis nula es frente a la hip6tesis alternativa
H,:[J, >0 EI contraste puede reaJizarse ca lculando el estadfstico dado Ho: 0,237 - 0 --'cc,..,-,-"..,-
0,05556
1
de Student del coeficiente,
= 4 27
'
En la Tabla 8 de la t de Student del apendice podemos ver que el valor crftieo del estadfstico t de Student es t 22• 0.OO5 =
2,819
La Figura 13.8(a) tam bien indica que el p-valor del contraste de hip6tesis es inferior a 0,005. Basandonos en esta ev idencia, rechazamos Ho Y aceptamos HI y conclui mos que los ingresos totales son un predictor estad fsticamente sign ificativo del aumento de los beneficios de las asoc iac iones de ahorro y credito inmobiliario, dado que hemos ten ido en cuenta el efecto del numero de oficinas. Tambien podemos averiguar si cl numero total de oficinas reduce significativamente los margenes de beneficios. La hip6tes is nula es
Ho: Ii, = 0 fre nte a la hip6tesis alternativa H, : Ii, < 0
518
Estadistica para adminislraci6n y economia
EI contruste puede reali zarse calculando e l estadfst ico t de Student del coe fici cnte, dudo Ho: - 0,000249 = - 7,77 0,0000320
°
En la Tabl a 8 del apendice podemos ver que el valor crftico del estadfstico 1 de Student es 122.0.005 = 2,8 19 La Figura 13.8(a) lambi en indi ca que el p-valor del contraste de hip6resis es in fe rior a 0,005. Basandol1os en esto evidencia, rechazamos Ho Y uccptumos H I y concluimos que el numero de ofic inas es un pred ictor estadfst ieamente significativo de la reducc i6 n de los beneficios de las asociaciones de ahorro y ered ilo inmobil iario, dado que hemos tenido en CLienta el efeelo de los ingresos tolales. Es importanle hacer hineapie en que los dos contrates de hip6tes is se basan en el conjunlo de vari ables incluidas en el mode lo de regresi6n. Por ejempl o, si se incluyeran mas variab les de predicci6n, estos conlrastes ya no serfan v~lidos. Con mas variables en el model o, las esti maciones de los coeficientes y sus desv iaciones tfpicas estimadas serfan diferenles y, pOI' 10 lanto, tambien 10 serfa el estad fsl ico t de Student. Observcse que en la sa lida Minilab del amllisis de regresi6n mostrada en la Figura 13.8(a). el eSLadfstico t de Student de la hip6tesis nula -Ho: fJj = 0- es eI cotiente entre el coe fi ciente eSlimado y e1 error tfpi co de l coeficiel1le estimado. que se encuentra en las dos col umnas si Luadas a la izquierda de l estHdistico r de Student. Tambien se muestra la probabi lidad 0 p-valor de l contrasle de hip6tesis de dos colas: H/ Pj -::j::. 0. Por 10 tunto. c ualquier analista puede realizar estos contrastes de hip6tesis directamente examinando la salida del aml li sis de regresion multiple. El estadistico t de Student y el pvalor se ca lculan en todos los paquetes eSLadfsticos modernos. La mayorfa de los anal istas buscan estos resultados habitualmen te cliando examinan la salida del analisis de regresi6n de un progrHma estadfstico.
EJEMPLO
13,6. faclores que afeclan al Ii po del impueslo sobre bienes inmuebles (amilisis de los coeficienles de regresi6n)
Un ayunta mi ento encarg6 un estudi o para averiguar los ractores que influyen en los im puestos urbanos sobre los bicnes inmuebles de las ciudades de 100.000-200.000 habi tHntes. Solucion Uti lizando una muestra de 20 ciudades de Estados Un idos, se est im6 el siguiente mode10 de regresi6 n:
y=
1,79
+ Q,000567x, + 0,0 183x2 (0.000 139)
R2= 0,7 1
(0.0082)
0,OOO 191x, (0.000446)
11 = 20
donde y = lipo efecti vo del impuesto de bienes inmuebles (impuestos efectivos di vid idos XI
pOl' el valor de mercado de la base imposiriva) = numero de viviendas por kil6 metro cuadrado
Capitulo 13. Aegresi6n multiple
X2
x)
519
porccntajc de los ingresos lTIunici pales lotales represcnlado por las ayudas procedentcs de las adm inistraciones de los estados y de In adrninistraci6n federal = renta personal per capita mediana en d61ares =
Los numeros entre purentesis que se encuentran debajo de los coeficienles son los errores lfpicos de los coeficientes eslimados. La presenlacion anterior constituye un buen fonnato para mostrar los resultados de un modelo de regresi6n. Los resultados indican que las estimaciones cond icionadas de los efeclOs de las tres vmi ables de predicci6n son las sigui entes: 1.
2.
3.
Un 3l1mento de una vivienda pOl' kilometro cuadrado eleva el tipo erectivo del impueslo sobre bienes inmuebl es en 0,000567. Observese que los tipos del impuesto sobre bienes inmuebles l10rmalmente se expl'esan en d61ares pOl' cada 1.000 $ de valor catastral de la propiedad. Asf, un aumento de 0,000567 ind ica que los tipos del impuesto sobre bienes inmuebles son 0,567 $ mas altos por 1.000 $ de valor catastral de la propiedad. Un aumento de los ingresos municipales totales de un 1 par dento procedenle de las ayudas de las administraciolles de los estados y de la administraci6n federal eleva el tipo impositi vo erectivo en 0,0 183. Un aumen lO de la renta personal per capita mediana de 1 $ provoca una dismi!luci6n esperada del tipo impositivo efectivo de 0,000 191.
Hacemos de nuevo hincapie en que estas estimaciones de los coeficientes 5610 son validas en un mode lo que incluya las tres variables de predicci6n an leriores. Para comprender mejor la eXDclilud de eSlOs efectos, constnliremos intervalos de confianza al 95 por dento condicionados. En el modelo de regres i6n estimado, el error tiene (20 - 3 - I) = 16 grados de libertad. Por 10 tanto, el estadistico I de Student para calcular los intervalos de con l'i anza es, como se observa en el apendice, t I6. 0 .0 2.'i = 2,12. EI fonnato del interva lo de confia nza es bj
-
tn -
K-
!'~b)
<
fij
< bj + f/l -K-I.rs.r-sbJ
Por 10 tanto, el coeficiente del numero de viviendas por kil6metro cuadrado tiene un intervalo de confianza al 95 por ciento de 0,000567 - (2,12)(0,000139) < 0,000272 <
p, < 0,000567 + (2, 12)(0,000139)
II, < 0,000862
EI coefi cienle del porcelltaje de ingresos representados pOI' las ayudas tiene un intervalo de confianza al 95 por cienlo de 0,0 183 - (2,12)(0,0082) < 0,0009 <
II, < 0,0183 + (2, 12)(0,0082) #, < 0,0357
Par ultimo, el coefi ciente de la renla personal per capita mediana {iene un intervala de confianza al 95 par dento de - 0,000 19 1 - (2, 12)(0,000446) < - 0,0011 37 <
Ii, < - 0,000 19 1 + (2, 12)(0,000446) p, < 0,000755
Una vez m6s hacernos hincapie en que estos intervalos dependen de que se incluyan las tres variables de predicci6n en el modelo.
520
Esladislica para administraci6n y economfa
Vemos que el illlervalo de confi anza 31 95 por cienlo de fi3 incluye 0 y, por 10 tanto, podriamos no rechazar la hip61esis de dos colas de que este coeficiente es O. Bas{mdo_ nos en eSle intervalo de confian za. conc1 uimos que X) no es una variabl e de predicc i6n estadisticamente signiricaliva en el modelo de regresi6n mult iple. Sin embargo. los intervalos de confianza de las otras dos variables no incluyen 0 y, por 10 tanto, conc lui mos que eslas son estadfslicarnen te signifi cat ivas.
EJEMPLO
13.7. Efeclos de los faclores fiscales en los precios de la vivienda (estimaclon de los coeficienles del modelo de regresi6n)
Citydat
Northern Ci ty (Minnesota) tenfa interes en saber c6mo afec laba la promoci6n inmob iliaria local al precio de mercado de las viviendas de la ci lldad. Northern City es una de las numerosas ciudadcs no metropolitanas pequenas del Med io Oeste de Estados Unidos cuya pobl aci6n osc il a entre 6.000 y 40.000 habitantes. Uno de los objeti vos era averiguar c6mo in fluiria un aumento de la canlidad de locales comerciales en e l valor de las viviendas locales. Los dalos se encuenl ran en e l fi chero de dalos Citydat. Solucion Para res ponder a esta pregunta. se recog ieron datos de algunas ci udades y se utilizaron para construi r un modelo de regresi6n que est ima el efecio de vari:lb les cl ave en e l pre· cio de 13 vivienda. Para este estudio se obtu vieron las siguienles variables de cada ciudnd : Y (hseva l) = precio medio de mercado de las viviendas de 13 ci udad XI (s izchse) = numero med io de habitaciones de las vivielldas
X2 (i ncom72)
=
rcnta med ia de los hogares
Xl (tax rate) = tipo imposilivo por mil d61ares de valor catastra l de las viviendas X4 (comper) = porcenlaje de propiedades inmobili arias imponi bles que son comer-
ciales La Figura 13.9 mllcslra los resultados de la regrcsi6n multi ple, obtcn idos por medio de l programa Mini tab. EI coeficiente del numero medio de habitaciones de las viviendas es 7,878 y 1a desviaci6n Ifp ica del coeficiente es 1,809. En esle estudio, los valores de las viviendas se expresan en unidades de 1.000 $ Y la media de todas las ciudadcs es de 2 1.000 $. As!, por ejempio, si e l numero med io de habitaciones de las viv iendas de una c iuclad es mayor en 1,0, el precio medio es mayor e n 7.878 $. EI estadfs lico I de Student resu ltante es 4,35 y el p-va lor es 0,000. Par 10 Ianto, se rechaza la hip61es is condicionada de que este cocficiente es igllal a 0. Se obliene eI mi sl110 result ado en e l caSD de las variables de la renla y del tipo im pos il ivo. Ln variable «inco m72» esta ex presada en unidades de d61ares y, POI' 10 tanIO, si In renla media de una ciudad es mayor en 1.000 $, el coefi ciente de 0,003666 indica que el prec io medi o de la vivienda es 3.666 $ mayor. Si e l tipo im posilivo aumcnta un I por ciento, el precio medio de la vivienda se reduce en 1.720 $. Vemos que el a n ~ li sis de regres i6n Beva a la concl usion de que cada lI na de estas tres variables es un importante predictor del precio medio de la vivienda de las ciudades inclu idas en eSle estudio. Sin embargo, vemos que el coeficienle del porcenLaje de loca les comerci ales , «comper», es - 10,6 14 y la desviaci6n (ipica del coefi ciente es 6,49 1, 10 que da un estadfstico t de Student igual a - 1,64. Observese que esle resul lado permitc establecer una importante concl ll si6n. EI cocfi ciente tendria un p-valor de
Capitulo 13.
Regresi6n multiple
521
Regression Analysis: hseval versus sizehse, income72, taxrate, Comper The regression equation is hseval = -28 1 + 7.88 sizehse + 0.000367 incom72 - 172 taxrate -10.6 Comper Predictor Constant Sizehse incom72 taxrate Comper S
.
Coef -28.075 7.878 0.003666 -171.80 -10.614
3 . 67686
SE Coef 9.766 1.809 0.001344 43.09 6 .4 91
R-Sq " 47.4%
T
p
-2.87 4.35 2 . 73 -3 . 99 -1 . 64
0.005 0 . 000 0 . 008 0.000 0.106
R-SQ(adj)
~
45.0%
Analysis of variance Source Regression Residual Error Total
OF
4 85 89
5S 1037.49 11 49 . 14 2186 . 63
M5
F
P
259.37 13 . 52
19.19
0.000
Figura 13.9. Modelo de regresi6n del precio de la vivienda (salida Minitab).
una cola de 0,053 0 un p-valor de dos colas de 0,106. Por 10 tanto, parece que reduce algo el prec io medio de las viviendas. Dado que se han incluido los efectos del tamano de las viv iendas, la renta y el tipo im pos itivQ en el precio de mercado de las viviendas, vemos que el porcentaj e de loca les comerciales no eleva los predos de la vivienda. POI' 10 tanto. este analis is no apoya el argumento de que el valor de mercado de las vivi endas au mentanl si se construyen mas locales comerciales. Esa conclus i6n s610 es ciel1a en un modelo que incluya estas cuatro variables de predicc i6n. Observese tambien que los valores de R 2 = 47,4 por ciento y Sr (error tfpico de In regresi6n) = 3,677 estan inc1uidos en la salida del anulis is de regresi6n. Los defensores de Ull aumento de In promoci6n de locales comerc iales tambien 505tenlan que cI aumento de la canlidad de locales comerciales reducirfa los impuestos pagados por lus viviendas oc upadas POI' sus propietarios. Esta tesis se contrast6 utilizando los resultados de la regresi6n de la Fi gura 13.10 obtenidos con el program a Excel. Se indican los estimadores de los coeficientes y sus errores tfpicos. Los estadfst icos 1 de Student de los coe li cientes del tamano de la vivienda y el tipo impositivo son 2,65 y 6,36, 10 cual indica que estas variables son importantes predictores. EI estadfsti co r de Student de la rcnta es 1,83 con un p·valor de 0,07 para un contraste de dos colas. POl' 10 tanto, la renla tiene alguna influencia como predictor, perc su efecto no es tan fuerte como el de las dos vari abl es anteriores. Vemos de nuevo que hay margen para extraer conclusiones s6l idas. La hip6tesis condic ionada de que un au mento de los locales co· merciales reduce los impuestos sobre las viv iendas ocupadas por sus propietarios puede contrastarse utili zando el estadfsti co t de Student de la vari ~lble «com per» en los resultados de la regresi6n. E1 estadfstico I de Student es - 1,03 con un p-valor de 0,308. POl' 10 tanto, la hip6tesis de que un aumento de los locales comerciales no reduce los impuestos sobre la vivienda no puede rechazarse. No existen pmebas en eSle ana li sis de que los impuestos sobre las viviendas disminuirian si se conslruyeran mas locales comerciales. Basandose en los ana lisis de regres i6n real izados en este estudio, los consultores lIegarotl a la conclu si6n de que no ex istfan pruebas de que un allmen to de los locales comerciales elevaria el valor de mercado de las viviendas 0 reducirfa los impuestos sabre bienes inl1lllebles de las viviendas.
522
Estadistica para administraci6n y economia
---
~
-----
-
Mkr-osoft Excel· CITYDAT
l[) EOe
~dit
I[JIe'N
loser!
F~mat
10015
Q.~ t~
:tiindo'N
t!elo
D~!iI d :. ~ ~ ora. " . ~I @J (1) ~ "'" ~1 ... SUMMARY OUTPUT
. 10
.OI U
I
Coeficiente multiple de determinaci6n R2
SCR SCE STC
Estadisticos t Errores tipicos de Student de los coe ficientes
Coeficientes bo, b 1 , ~, ~, b.
Figura 13.10. Modelo de regresi6n de los impuestos sabre las viviendas (salida Excel).
EJERCICIOS
Ejercicios basicos 13.23. Los resu ltados del and Usis de un modelo de rcgresi6n son los siguientes:
y=
1,50
+ 4 ,8x 1 + 6,9x2 (3.1)
(2, 1)
R2 = 0,71
II
=
7,2x) (2,8)
24
Los numeros entre parentesis situados debajo de las cstimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coefici entes. u) CaJcu lc intervalos de confianza al 95 par ciento bilaterales de los tres coeficientes de In pendiente de regrcsi6n.
b) Contrastc pam cada uno de los coeficientes de la pcndientc las hip61esis Ho :
Pj =
0
frente a
13.24. Los resultados del am'il isis de un modelo de rcgresi6n son los siguicntes: ;; = 2.50
+ 6,8x 1 + 6,9x2 - 7,2x) (3.1)
R2 = 0.85
II
(3.7)
(3.2)
= 34
Los numeros entre parentesis siluados debajo de las estimaciones de los coeficientes son los crrores tfpicos muestrales de las estim:lciones de los eoefi cientcs.
Capitulo 13.
a) Calcule imcrvalos de confianza al 95 por denlo bilaterales de los Ires coefieientes de la pendienle de regresi6n. b) Conlrasle para cada uno de los coeficienles de la pendiente las hip6tesis frente a
H I : Ili >
°
13.25. Los resultados del anal isis de lin modelo de regresi6n son los siguientes:
y=
- 101 ,50
+ 34,8x, + 56,9x2 (12.1)
R2 = 0,71
(23.7)
57,b:3 (3 2.S)
65
II =
Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los en-ores I{picos mueslrales de las estimaciones de los coeficientes. a) Calculc intcrvalos dc confianza al 95 por ciento bilaterales de los Ires cocficientes de la pendiente de regresi6n. b) Contraste para eada uno de los coefieientes de la pendiente las hip6tesi s frentc a
Hj
:
y=
- 9,50
+ 17,8x + 26,9x2 - 9,21:3 j
(7.1 ) /I
(13 .7)
n.8)
= 39
Los numeros entre parentesis situados debajo de las estimaciones de los coeficientes son los errores tfpicos muestrales de las estimaciones de los coefidcntes. a) Calcule intervalos de eonfianza al 95 por cicnto bilatcralcs de los tres coeficientes de la pendiente de rcgresi6n. b) Contraste para cada uno de los coeficientes de la pendiente las hip6tesis
flo:{Jj = 0
frente a
HJ :/1) > 0
Ejercicios aplicados 13.27. En cI estudio del ejercicio 13.6, los errorcs tfpicos estimados eran S;"
= 0,099
S;"
= 0,032
a) Hall e intervalos de eonfianza al 90 y el 95 por demo de fJ I' b) Halle intervalos de confianza al 95 y el 99 par eiemo de #2'
523
c) Contraste la hip6tesis nub de que, man leniendose todo 10 demas constanle, el peso del avi6n no liene una intluencia lineal en su esfuerw de diseiio frente a la h ip6tesis alter· nativa bilateral. d) La suma de los cuadrados de los en-ores de cSla rcgresi6n era 0.332. Utilizando los mismos datos, se aj usl6 una regresi6n lincal simple del esfuerzo de diseno can respecto al nlimero poreemual de piezas cornunes, 10 que dio una suma de los cuadrados de los errores de 3.311. Contraste al nivel del I par ciento la hip6tesis mila de que la velocidad maxima y el peso, considerados conjunta· mente, no contribuyen nada en un senti do li neal a la explicaci6n del esfuerz.o de diseno, dado quc cl numero porcentual de pi czas comimes tambicn se util iza como variable explieativa.
l3.28. En cI estudio del ejercicio 13.8, en cl que la regresi6n mueslral se basaba en 30 observaciones, los errores tfpicos eSli mados eran
fJj > 0
13.26. Los resultados del amilisis de un modelo de regresi6n son los siguientes:
Regresi6n multiple
S", =
0,023
a) Comraste la hip6lesis nul a de que, dado el tamano de la familia, el consumo de leche no depende lineal mente de la rema frenle a la hip6tesis a.lternativa unilateral adecuada. b) Halle intervalos de eonfianza del 90, el 95 y el 99 por ciento de f32' 13.29. En el estudio de los ejercicios 13.9 y 13.21, en los que la regresi6n muestral se basaba en 25 observaciones, los errores t[picos estimados eran Sb, =
0,189
Sb, =
0,565
a) Contraste la hip6tesis nula de que, manteniendose 10£10 10 dem.is conslanle, las horas de ejercicio no illtluyen lineal mente en el flumento de peso frente a la hip6tesis allernativa unilateral adecuada. b) Conlrasle la hip6tesis nula de que, rnanteniendose todo 10 demas eonstante, el eonsu· rna de cerveza no in nuye lineal mente en el aumento de peso frente a la hip61esis alter· nativa unilateral adecuada. c) Halle intervalos dc confianza del 90, el 95 y el 99 por ciento de fJI'
13.30. Vuelva a los datos del ejemplo 13.6. a) Contraste la hip6tesis nula de que, manteniendose todo 10 dernas constante, la ren ta
524
Estadislica para adminislraci6n y economia
personal per capita mediana no InOuye en el ripo efcclivo del impuesto sobre bienes inmuebJes frente a una hipotesis alternativa bilateral. h) Conlraste la hip61esis nula de que las tres variables independicntes, consideradas con juntamente, no influyen linealmenle en d tipo erectivo del Impuesto sobre bienes 111muebles. 13.31. , ~ Vue!va a los datos del ejemplo 13.7 que se eneuentran en el fichero de datos Citydat. a) Halle inrervalos de confianza al 95 y al 99 por cienlo de la variaci6n esperada del prccia de mercado de las viviendas provocada par un aumcnlo del numero medio de habitaeiones de I unidad cuando no varIan los valores de todas las demas variables independientes. b) Contraste [a hip6tesis nula de que, manteniendose todo 10 demas constanle, 141 renla media de [as hogares no influye en el precio de mereado frente a la hip6tesis ahernativa de que cuanto mayor es la renta media de [os hogares, milS alto es el precio de mercado. 13.32. En Ull estudio de los ingresos gencrados pOl' las loterfas naciona[es, se ajust6 la siguiente ecuaci6n de regrcsi6n de 29 parses que tienen lorcrfas:
y=- 31 ,323 + O,04045xI + 0,8772r2 (0.00755)
(0.3t07)
365,Olx3 - 9,929Kr4 (263.88)
(3.4520)
R2 = 0,51
donde y = d61ares de ingresos anua[es netos per capita generados por la [olerfa XI = renta personal media per C<'ipita del pars X2 = numero de hOleles: motcles, hosta[es y aJbergues pOl' mil habitantcs del pars x ) = ingresos anua[es gastables per capita generados por las apuestas, las carreras y otros juegos de azar legaJizados X4 = porcentaje de la fronte ra nacional que limita con un pars 0 parses que licnen una loterfa Los numeros entre parenlesis situados debajo de los coeficientes son los en'orcs t[picos de los coeficicntes estimados. a) Inlcrprete el coefieiente estimado de Xl' b) Halle e interprete eJ intervalo de con fi anza al 95 por ciento del coeficienle de x2 en [a regresi6n poblacional.
c) Contraste la hipolcsis nula de que el cocficiente de x) en la regresi6n pobJaeiona[ es () frente a la hip6tesis alternativa de que eSlc cocficicnte cs ncgativo. Interprete sus resu[ _ tados. 13.33. Se realiz6 un estudio para averiguar si podfan ulilizarse algunas caracterfsticas para explic:n la variabil idad de los preeios de los homos. Se csrim6 para una muestra de 19 homos la siguienlc regresi6n:
.y =
- 68,236
+ 0,0023xl + 19,729x2 + 7,653Xl (0.005)
(8.992)
(3.082) .
R2 = 0.84
donde y = prec io en d61ares x I = porencia del homo en BTU pOl' hora Xl = cocficicntc de eficienc ia energetica X3 = numero de posic iones
Los numeros entre parentesis situados debajo de los coeficientes son los errores tfpicos de los cocfieientcs estimados. a) Halle el intervalo de confianza al 95 por cien lo de 141 subida esperada del preeio resultante de un aurnento de [as posiciones cllando los valores de la polencia y el fndice de eficiencia energetica se mantienen fijos. b) Contraste 13 hip6tesis nula de que, mall1enicndosc todo 10 demas cOnstante, el fndice de eficiencia energetica de [os homos no afecta a su precio frente a la hip61esis alternativa de que cuanto mas a[lo es e[ rndiee de eficiencia energetica, mas alto cs cl precio.
13.34. En un estudio de [a demanda nigeriana de importac iones se ajust6 el siguiente mode[o a 19 ariaS de datos:
y= -
58,9+0,20x l - O,IOx2 (0.0092)
if2 = 0,96
(0.084)
donde y = cantidad de importaciones XI = gastos »crsonales de con sumo x 2 = preclo de las importaciones -:- precios intcriorcs
Los numeros entre parentesis situados debajo de los coeficientes son Jos errores t(picos de los coeficientes estimados. a) Halle el intervalo de con fi anza a[ 95 por dento de fJ l' b) Contrastc la hipotcsis nula de que liz = 0 frente a la hip6tesis a[tcrnaliva un ilateral adecuada.
Capitulo 13.
13.35. En un estud io de las tenenc ias extranjeras en bancos bril{micos., se o btu vo la siguientc rcgrc~ si6n muestral, basada en 14 obscrvaciones an ualcs
y=
-
3,248
+ 0, 10 l xI (0,0023)
- O,244x2 + 0,057x3 (0,080)
R2 = 0,93
Xl =
x3 =
y = - 0.00232 - 0 ,00024xl - Q,00002x2 (0,00010)
+ 0,48 122x4 + 0,04950x5 (0.77954)
ii'
y = proporci6n de ac ti v QS a final del ano en filiales de bancos bri tani cos en manos de eXlranjcros en po rcentaj c de los activos 10tales X I = variaci6 n anual , en miles de milloncs de libras, de la invers i6n cxtranjcra directa en Gran Bretafia (excluidos finan zas, seguros y bienes inmuebl es) relaci6n precio-benefi cios de los bancos fndi ce del valor de cambia de In libra
Los ml mcros entre parentesis s ituados de bajo de los coefi cientes son los erfores tfpicas de los coeficientes cstimados .
a) Halle el intervalo de conllanza al 90 por ciento de /31 e interprele su resultado. b) Contraste la hipotesis nula de que fh cs 0 frente a la hip6tesis alternati va de que es negati vo e interprete su resultado. c) Contraste la hip6tesis nula de que /33 es frente a la hip6tcsis alternativa de que es posil ivo e interprete s u resultado.
°
13.36. En un estudio de las diferencias enlre los ni veles de demanda de bomberos par parte de las ciudades, se obtuvo la siguienle rcgrcsi6n mues-
525
Iral , basada en datos de 39 eiudades de Mnryland:
(0.00925 )
donde
Regresi6n multiple
(0,0 11 72)
(0,0000 18)
0,000 1Q."(6 (0.00005)
+ 0,00034x, (0,0001 2)-
+ 0,00645x7 (0.00306)
~ 0.3572
donde y = nLI1TIero de bomberos a tie mpo eompleto per c{ipila X I = salario base maximo de los bamberos en miles de dol ares X 2 = porcentaje de pablaci6n xJ = renta per capita estimada cn miles de d61ares X4 = densidad de poblaci6n X5 = can lidad de ayudas intergubernamencales per capita en miles de d61ares X6 = numero de kil6melros de di slancia hasta la capital de la region x 7 = parcentaje de la poblaci6n que son varones y lienen entre 12 y 2 1 aila:> Los n(imcros entre parenlesis siluados debajo de los caeficientes son los errores tfpicos de los coefi cienles estimados. a) Hallc c intcrprcte el inlervalo de confianza al 99 por ciento de /3:;. b) Contrasle la hip61esis nul a de que IJ4 es frente a la hip6rcsis ahcrnativa bilateral e interprete su resultado. c) ContraSle In hip6tesis nuln de que #7 es frente a la hipotesis allernali va bilateral e illierprele su resultado.
° °
13.5. Contrastes de los coeficientes de re resion En el apartado anterior hemos moslrado c omo puede re a li zarse un contraste de hip6tesis cond ic ionado para averiguar si el coeficiente de una variable es pecffica es s igniricativo en un modelo de regresi6n. Existen, sin embargo, s ituac iones en las q ue no s inleresa saber cual e s e l efeclo de la combinaci6n de varias variables . POl' ejemplo, e n un modelo que predice la ean lidad ve nd ida, podrfa interesarnos saber e ua! es el e fecto eonjunto tanto del precio del vendedor com o del precio del competidor. En olros caso s, podrfa inte rcsarnos saber si la combinaci6n de lodas las variables es un util predicto r de la variable dcpendiente.
Contrastes de todos los coeficientes En p ri mer lugar, presenlamos eontraste s de h ip6tesis para averiguar s i los eonjuntos de varios coeficiente s son lodos simultaneamente iguales a O. Con sidere mos de nuevo e l mode lo
526
Estadfslica para adminislracion y economfa
Comenzamos examinando la hip6tesis nula de que todos los cocficientes son si mult u_ neamcnte iguales a cero:
La aceptac i6n de esta hip6tcsis nos lIevarfa a concluir que ni ngun a de las variables de predicci6n del mode lo de regresi6n es estadfsticamente signi ficati va y, por 10 tanto, que no sum inistran ningu na informaci6n uti!. Si eso ocurriera, tendrfamos que volver al proceso de especificaci6n del modelo y desarrollar un nuevo conjunto de variables de predi ccion. Afortun adamen le, en la mayorfa de los casos apl icados esta hip6tcsis se rechuza porque el proceso de especificacion normal mente lIeva a la identificaci6n de al menos una variable de pred icci6n significativa. Para contrastar la hipotesis anterior, podcmos utili zar la descomposic i6n de la variabilidad desarrol lada en el aparlado 13.3: STC
~
SCR
+ SCE
Recuerdese que SCR es la cantidad de variabil idad exp li cada por la regres ion y SCE es la cantidad de variabil idad no expl icada. Recuerdese tambien que la varianza del modelo de regresi6n puede estimarse utilizando 2
s
,
~
SCE ---=-='---(II - K - 1)
Si la hi p6tesis nula de que todos los coefic ientes son iguales a 0 es verdadcra, entonees el cuadrado medio de fa regresi6n SCR
CMR~
K
tam bien es una medida de l error con K grados de libertad. Como eonsccuencia, el coc iente de F~
SCR/K SCE/(II - K - 1) CMR 2
S,
sigue una distribucion F con K grados de libcrtad en el numerador y 11 - K - I grados de libertad en el denomi nador. Si la hi p6tesis nula es verdadera, lanto el numerador como el denominador son estimaciones de la varianza pobl acional. Como sefialamos en eI apartado 11 .4, cI coeicnte entre las varianzas muestra les independi entes de poblaciones que tienen varianzas poblacionales iguales sigue una distribuci6n F si las poblaciones siguen una distribuei6n normal. Se compara el valor ealculado de F con el valor criti co de F de la Tabla 9 del apendi ce a un nivel de significaci6n GC Si el valor ealculado es mayor que el valor crftico de la tabla, reehazamos la hipolesis nul a y conclui mos que al menos uno de los cocficien tes no es igual a O. Este metoda de con traste se resu me en la ecuaci6n 13.23.
Capitulo 13.
Regresi6n multiple
527
Contraste de todos los para metros de un modelo de regresi6n Consideremos el modelo de regresi6n multiple
Para contrastar la hip6tesis nula
frente 8 18 hi p6tesis alternativa
HI = Al menos un {Jj i=- 0 a un nivel de significaci6n a, u\ilizamos la regia de decision
Rechazar Ho: si
CMR
--,> FK,, S . - K- l. rt
,
(13.23)
donde FK . n _ K _ 1 ." es el valor eritieo de F de la Tabla 9 del apendice para el que
P(FK.I1 - K- 1 > FK.n - K- l. rt) = rx La variable aleatoria calculada FK. n - K - l sigue una distribueion F con K grados de libertad en el numerador y (n - K - 1) grados de libertad en el denominador.
EJEMPLO
13.8.
Modelo de prediccion de los precios de la vivienda (contraste simultaneo de coeficientes)
Duranle el desarrollo del modelo de predicci6n de los precios de 1a vjvienda para NOfthem City, los analistas querfan saber si exjslian pruebas de que la combinaci6n de cuatro variables de predicci6n no era un predictor significativo de l precio de la vivienda. Es decir, querian contrastar la hip6tesis
Solucion
Citydat
Esle metoda de contraste puede ilustrarse mediante la regresi6n de los precios de la vivienda de la Figura 13.9 realizada uti lizando el fichero de datos Citydat. En la tabla del ao.11isis de la varianza, el estadislico F calculado es 19,19 can 4 grados de Iibertad en el numerador y 85 grados de libeltad en el denominador. EI calcu lo de F es F~
259,37 13,52
~ 1919
•
Este valor es mas alto que el valor crftico de F = 3,6 para rx = 0,0 1 de la Tabla 9 del apendice. Observese, ademas, que el Minitab -y la mayoria de los paquetes estadfsticos- caJcula cI p-valor, que en este ejcmplo es igua1 a 0,000. Por 10 tanto, rechazarfa· mos la hip6tesis de que todos los coeficientes son iguales a cero.
528
Estadistica para administraci6n y economfa
Contraste de un subconjunto de coeficientes de regresion En los apartados anteriores hemos desarrollado cOl1 trastes de hi p6tesis de panimetros de re ~ grcs i6n indiv iduales y de todos los panimetros en conjunto. A continuaci6n , desarrollamos un contraste de hip6tesis de un subconjunto de panimetros de regresi6n, como el ejemplo del conjunlo de precios que acabamos de anal izar. Utilizamos estc contraste para averiguar si el efecto conjunto de varias variab les independientes es signi ficativo en un mode lo de regresion. Consideremos un modclo de regresion que contiene las variables indepencli enles Xj Y
La hipotesis nula que se contrasla es j = 1, ... , K
Si Ho es verdadera, las variables Zj no deben inc\uirsc en el modelo de regresi6n porque 110 suministran ninguna informaci6n para explicar la conducta de la variable dependiente mas que la que su mini stran las variables Xj' EI metodo para reali zar este contrasle se resume en la ecuaci6n 13.24 y se analiza detalladamente a continuaci6n. EI contraste se reali za comparando la suma de los cuadrados de los en'ores, SCE, del modelo de regresi6n completo, que incluye tanto las variables X como las variables Z, con la SCE(r) de un mode lo restring ido que s610 incluye las vari ables X. Primero realizamos una regres i6n con respecto al modele de regresi6n co mpleto anterior y obtencmos la suma de los cuadrados de los errorcs, SCE. A continu acion realizamos la regresi6n restringida, que excl uye las variables Z (obscrvese que en esta regres i6n se apli ca la reslriccion de que los coefi cientes tY.j son iguales a 0):
A partir de esta regresi6n obtenemos la suma restringida de los cuadrados de los en'O~ res, SCE(r). A continuaci6n, calcu lamos cl estadfstico F con r grados de libertad en eI nu ~ merador (r es el numero dc variables elimin adas simulliineamente del modele restringido) Y Il - K - r - I grados de libertad en el denominador (los grados de libertad del error en el. modelo que induye lanto las variables independienles X como Z). EI estadfstico F cs
F
~ ~
(SC£(r)
~
SCEJ/r
2
S,
donde s~ cs la varian za estimada del error del modelo compl eto. Este estadfstico sigue L1na distribucion F con r grados de libertad en el numerador y 11 - K - r - 1 grados de liber~ tad en el denominador. Si el valor de F calcu lado es mayor que cJ valor crflico de F, enlonces se rechaza la hip6lesis nula y concluimos que las variables Z co mo conjunto deben incluirse en e l modelo. Obscrvcse que este contrasle no imp lica que las variabl es Z individuales no dcban exc\uirse, par ejemplo, utilizando el contraste f de Student antes ana li za~ do. Ademus, el contraste para lodas las Z no implica que no pueda excluirse un subconjunto de las variab les Z utili zando este metodo de contraste con un subconj unto diferente de vari ables Z.
Capitulo 13. Regresi6n multiple
529
Contraste de un subconjunto de los parametros de regresi6n Dado un modele de regresion con la descomposicion de las variables independienles en los subconjuntos X y Z,
Para contrastar la hip61esis nula
Ho: IX] =
1X2
=
... = IX,. =
0
de que los parametros de regresi6n de un subconjunto son simullaneamente iguales a 0, frente a la hip61esis alternativa HI: Al menos un
IXj
=f. 0
(j = I .... , r)
compararnos la surna de los cuadrados de los errares del modelo completo can la suma de los cuadrados de los errores del modelo restringido. Primero, hacemos una regresi6n para el mo~ delo complei0, que inciuye todas las variables independienles. y obtenernos la surna de los cuadrados de los errores, SeE. A continuaci6n, hacemos una regresion restringida, que excluye las variables Z cuyos coeficlenles son las a: el numero de variables excluidas es r. A parlir de esla regresion obtenemos la suma restringida de los cuadrados de los errares, SCE(i) . A continuacion, calculamos el estadfstico F y apHcamos la regia de declsi6n para el nivel de sig~ nificaci6n IX:
Rechazar Ho si
(SCE(r) - SCEJ /r
s:,
Comparacion de los contrastes Fy
>
F,..II - K- ,· - l.(l
(13.24)
t
Si util izaramos la ecuaci6n 13.24 can r = I, podrfamos contrastar la hip6tcsis de que una {mica variable, Xj' no mejora la pred icc ion de la variable depend icntc, dadas las demas variables independientes del modelo. Por 10 tanto, tenemos cl contraste de hip6tesis Ho : Pj ~ 0 I Ii, l' O,} l' I
H,:
Pj l' 0 111,1' O, }
1'1
Antes hemos visto que este contraste tambien podfa reali zarse util izando un contraste , de Student. Utilizando metodos que no presentamos en este libra. podemos demostrar que los con trastes F y f correspondienles pcrmiten lI egar exactamente a las mismas conclusiones sobre el contraste de hip6tesis de una unica variable. Ademas, el estadfstico I calculado para el coeficiente bj es igual a la raiz cuadrada del estad fstico F calculado correspond icnte. Es decir.
don de Fx., es el estad fslico F calculado utili zando la eCllacion 13.24 cuando se ex cluye la variable Xj del modelo y, por 10 tanto, r = I. Demostramos este resultado numerico en el ejemplo 13.9. La teoria estadfstica de la dislribucion tambicn dcmuestra que una variable aleatori a l' con 1 grado de libertad en el numerador es el cuadrado de una variable aleatoria t cuyos grados de libeltad son iguales al denominador de la variable aleatoria F. POI" 10 tanIO, los con trastes F y t siempre !levan a las mismas conc lusiones sobre el contraste de hipo(es is de una unica variab le independiente en un modele de regres ion multiple.
530
Esladfslica para administraci6n y econom ia
EJEMPLO
13.9. Predicci6n del precio de la vivienda en las pequenas cludades (contrastes de hip6tesis de sUbconjuntos de coeficientes)
Los promo rores de l modelo de predieei6 n del pree io de la vivienda de l ejemplo 13.8 querfan ave riguar si el e feelo eonjullio del lipo imposili vQ y del poreentaje de locl.lles eomereiales contribuye a la predi ee i6 n despues de inc1ui r previamente los efeelos del tamano de la vivienda y de la renla. Solucion Continuando con eI problema de los eje mpl os 13.7 y 13.8) tenemos un contraste condieionado de la hip6tesis de que dos variables no son predielores sign ifica livos, dado que las alras dos son prediclOres significativos:
ESle conlrasle se realiza uti lizando el metoda de la ecuaci6n 13.24. La Fig ura 13.9 presenLa la regresi6n del mode lo eompleto can las cuatro variables de predicc i6n. En esa regresi6n, SeE = 1.149, 14. En 13 Fi gura 13.11 tenemos 11.1 regresion reducida en la que las (micas variables de predicci6n son el tamano de la vi vienda y la renta. En esa regresi6n, SeE = L.426,93. La hip6tesis se contrasta primero calculando el estadfsti co F euyo nume rador es la suma de los euadrados de los errores del modela redueido [SCE(r )] me nos la SCE del modelo completo. F ~
( 1.426,93 - 1.1 49, 14)/2
13,52
10 27
~
'
Regression Analysis: hseval versus sizehse. income72
The regression equ~ tion is hseval = -42 . 2 + 91. 4 si zchse + 0 . 000393 i n com72
Predictor Cons tant Sizehse i ncom72
Coef - 42.208 9 . 135 0 . 003927
R-Sq :: 34 . 7%
S '" 4 . 04987 Analysis of
l'
p
- 4 . 30
0 . 000 0 . 000 0 . 009
4 . 71
2 . 67
R-Sq(ad j)
.
33 . 2%
Va ri~ncc
Source Regres sion Residua l Error Tot al Source s i zehse i ncom72
SE Coef 9 . 81 0 1 . 940 0 . 001473
OF 2 87 89
OF
Seq 55
1
643 . 12 116 . 58
1
SS 7 59. 70 4 26 . 9 2 186 . 63
MS
F
P
379 . 8 5 1 6 . 40
23.1 6
0 . 000
SCE(rl
Figura 13.11 . Regresion del precio de la vivienda: modelo reducido (salida Minitab).
Capitulo 13.
Regresion multiple
531
EI estadfstico F liene 2 grados de libenad ---colTespondientes a las dos vari ab les conl"rastadas simultaneamente- en el numerador y 85 grados de libertad en el denominador. Observese que e l estimador de la varianza, = 13,52, se obliene a pm1ir del modele completo de la Figura 13.9, en la que el error tiene 85 gracias de libertad. Vemos en la Tabla 9 del apcndice que e l valor crilieo de F can IX = 0,01 Y 2 Y 85 grados de Iibertad es aproximadamente 4,9. Como el valor calculado de F es mayor que el va· lor critico, rechazamos la hip61esis nula de que el tipo imposilivo y el porcenlaje de 10· cales comerciales no estan en la combinaci6n significati va. EI efecto conjunto de estas dos variables si mejora el modele que pred ice el precio de la vivienda. POI' 10 tanto, el tipo imposit ivo y el porcentaje de locales comerciales deben incill irse en el modelo.
s;
Tambicn hemos calcu lado esta regres i6n excluyendo la variable «compr» y hemos observado que 1a SeE resultante era SCE(I)
~
1.I 85,29
El estadfstico F calcu lado de esla variable era
F~
(1.I85,29 - 1.149,14)/ 1 13,52
~
2 674 '
La rafz cuadrada de 2,674 es 1,64, que es el estadfstico I calculado para la variabl e «compo> en la salida del am'ilis is de regresi6n de la Figura 13 .9. Util izando cl estadfsti co F calclil ado 0 c l cstadfsti co 1 calcu lado, obtendrfamos este resultado para las hi p6tcsis de esta variable:
Ho : /3compr
=
°I
111 oft 0, I #- compr
HI : /Jcompr #- 0 I /31 #- 0, I #-
COl1lpr
EJERC1CIOS
Ejercicios basicos
c) Analisis de Ia varianza
13.37. Suponga que ha estimado coelicientes para el siguiente modelo de regresi6n :
Source Regression Residual Error
DF 3
"
55 46000 25000
M5
5S 87000 48000
MS
d) Analisis de la varianza
Contraste la hip6tesis de que las tres variables de predicci6n son igllales a 0, dadas las siguientes tablas del amilisis de la varianza. a) Analisis de la varianza Source Reg ression Residual Error
OF 3 26
5S 4500
MS
SOD
b) AmiUsis de la varianzu Source Regression Residual Error
DF 3
"
SS
9780 2100
Source Regression Residua l Error
OF 3 26
Ejercicios ap1icados 13.38. Vuelva al eSludio del esfucr7.0 de diseno de aYiones de los ejercicios 13.6 y 13.19. u) Contraste la hip6tcsis nulu
MS
b) Muestre la tabla del amllisis de la varianza.
532
Estadistica para administraci6n y economfa
13.39. Para el e.-audio de la intlucncia de Ins instituciones finaneieras en los precios de las aeciones del ejercicio 13.7, se utilizaron 48 observaciones lrimestrales y se observo que cl codicicnte cOlTegido de determinuci6n era R2 = 0,463. Contraste lu hip6tcsis nuia.
13.40. Vllelva al estudio del consumo de leche, deserito en los ejercicios 13.8, 13.20 Y 13.28. a) Conrraste In hip6tesis nulo Ho'~' ~ ~,~O
b) Mllestre In tabla del anMisis de la varianza. 13.41. Vllelva al estudio del numento de peso, descrilO en los ejercicios 13.9. 13.21 Y 13.29. a) Contraste la hip6tesis nula
b) Muestre In tabla del analisis de la varianza. 13.42. Vuelva aJ ejercicio 13.32. Contraste la hip6tesis nula de que las cuatra variables independicnrcs. consideradas en conjunto, no inn uyen linealmente en los ingresos generados por las loterfas nacionales. 13.43. Vuelva al ejercicio 13.33. Contraste la hip61esis nula de que las tres variables independientes, consideradas en conjunto, 110 inlluyen linealmente en el precio de los hornos. 13.44. Vuclva al es\udio del cjercicio 13.34. Contraste la hip6tesis nula de que los gastos personales de eonsumo y el precio relativo de las importaeiones, eonsiderados en conjunto, no afectan linealmente a In demanda nigeriana de importac lones.
dependientc, dado que las de mas variables indcpendientes (K - KI ) lambien se ulilizan. Su. pongamos que se vllelve a estimar la regresi6n excluyendo las KI variables indepen
R2 - R*2
SCE/(n - K - I)
I - R2
13.46. Se realiza lIna regresi6n de una variable dependientc ·con respecto a K variables independienles utilizundo 11 conjuntos de observaciones muestra1cs. SeE es la sum a de los cuadrados de los errores y R2 es el coeficiente de detenni naci6n de esta rcgresi6n estimada. Queremos contrastar la hipiltesis nula de que KI de estas variables independientes, eonsideradas en conj unto, no afectan lineal mente a la variable
KI
13.47. En el estudio de los eJerclclos 13.8, 13.20 Y 13.28 sobre el consumo de leche, se ailadic. al modelo de regresi6n una tercera variable independiente: el mimero de ninos cn edad preescolar que habfu en el hogar. Cuando se estim6 esIe modelo ampliado. se observ6 que In suma de los cuadrados de los errores era 83,7. Contraste la hip6tesis nul a de que, mante n h~ndose todo 10 demas constante, el numero de nifios en edad preescolar que hay en el hogar no afecta linealmente al consumo de leche. 13.48. Suponga que una variable dependiente est,! relacionada con K variables independientes a traves de un modelo de regresi6n multiple. Sea R2 el eoeficiente de delerminaci6n y iP el coefieiente cOlTegido. Suponga que se utilizan n conjunros de observaciones para ajustar la regresion. a) Demuestre que -2
R
~
(n - I )R2 -K n - K - I
b) Dcmuestre que
13.45. Vuelva al esludio de los delerminantes de la demanda de bomberos en una ciudad anal izado en el ejcrcicio 13.36. Contraste la hip6tesis nula
e interprete sus resultados.
K -
II -
R
2
~
-,
(II-K-I)R +K
11-1
c) Demuestre que el estadfstico para contraslar la hi p6tesis nula de que todos los eocficienles de regresi6n son 0 puede expresnrse de la forma sigu iente: SCRIK
n - K- I
SeE/(n - K - I )
K
donde K
A ~-~
n-K - I
ii2+A R'
Capflulo 13.
Regresi6n multiple
533
13.6. Prediccion Una apl icac i6n imp0!1ante de los modelos de regresion es predecir los val ores de la variable depend iente, dados los valores de las variabl es independientes. Las prediccioncs pueden realizarse directamente a partir del modelo de regresion estimado utili zando las estimaciones de los cocficicntes de ese modelo, como mueSlra la eCllacion 13.25.
Predicciones a partir de los modelos de regresion multiple Dado que se cumple el modele de regresi6n poblacional
y que los supuestos habituales del ana.lisis de regresj6n son va.lidos, sean bo' b1 , ••. , bK las estimaciones par mlnimos cuadrados de los co.eficientes del modelo, Pi' siendo j = 1, ... , K, basados en los puntos de datos Xl" >S" ••• , X Ki (/ = 1, ... , n). En tal caso, dada una nueva observa~i6n de un punta de datos, Xl, n + l' X 2 , n+ l' "', X K, n+ l' la mejor predieei6n lineal insesgada de Yn + 1 es
(13.25) Es muy arriesgado haeer prediceiones que se basan en valores de X fuera del rango de los datos utillzados para eslimar los eoeficientes del modelo, ya que no tenemos pruebas que apoyen el modelo lineal en esos puntas.
Ademas de querer conocer el va lor predicho de Y para un conj unto de xj ' a men udo nos interesa calcu lar un intervalo de confianza 0 un intervalo de predicci6n. Como sefialamos en el apartado 12.6, el interva lo de confianza incluye el valor esperado de Y con la probabilidad 1 - 0:. En cambio, el intervalo de prediccion incluye los valores individua les prcdicllos: los valores esperados de Y mas el termi no de error aleatorio. Para hallar estos intervalos, es necesario calcu lar estimaciones de las desv iacioncs tfpicas del valor esperado de Y y los puntas individua les. Estos calculos son sim ilares en la forma a los utilizados en la regresi6n simple, pem las ecuaciones de los esti madores son mucho mas complicadas. Las desviaciones tfpicas de los valores prediehos, .'ij' son L1na funei6n del error tfpico de la est imaci6n, se; la desviaci6n tfpica de las variables de predicci6n; las correlaciones entre las variables de predicci6n; y e! cuadrado de la distancia entre la media de las variables independientes y las X para la predicci6n. Esla desv iacion lfpi ca es similar a la desv iaci6n tfpica de las prcdicciones de la regres i6n si mple del Capitulo 12. Sin embargo, las ecuaciones de la regresi6n multiple son muy complejas y no se presentan aquf; [0 que hacemos es calcular los valores uti li zando el programa !y1initab. La mayorfa de los paquetes estadfsticos buenos calcu lan las desv iaciones tfpicas del intervalo de predicci6n y del intervalo de confianza y los correspondientes interval os. Excel no permite calcular la desv iaci6n tfpica de las variables predichas.
EJEMPLO 13.10. Prediccion del margen de beneficios de las asociaciones de ahorro y credito inmobiliario (predicciones del modelo de regresi6n) Le han ped ido que haga una predicei6n del margen de beneficios de las asoc iaciones de ahorro y cn:dito inmobiliario para un ano en el que e1 porcentaje de ingresos netos es
534
Estad{stica para administraci6n y economfa
4,50 Y hay 9.000 oficinas, ulilizando el modelo de regresion de las asociaciones de ahorro y credilO inmobiliario. Los datos se enc uenlran en el lichero Savings and Loan. Savings and Loan
Solucion Utilizando la nolacion de la ecuaci6n 13.25. tenemos las variables XI
.,, + I
=
X 2.,,+ I
4,50
= 9.000
Uti lizando estos valores, observamos que nuestro predictor puntual del margen de beneficios es , )',, + 1 = b o + b IX I. II + 1 + b,;t·2.II + l = 1,565 + (0,237)(4,50) - (0,000249)(9.000) = 0,39 Por 10 tanto, cn un ana en el que el porcentaje de ingresos netos por d61ar depositado es 4,50 y el numero de oficinas es 9.000, predecimos que el margen porcentual de benefitios de las asoc iaciones de ahorro y credito inmobili ario es 0.39. Los valores predichos, los intervalos de confianza y los intervalos de predicci6n pueden calcularse directamente por medio del programa Minitab. La Figura) 3. 12 muestro la salida del analisis de regresi6n. Se presenta el valor predicho, = 0,39 y su desviaci6n tfpica, 0,0277, junto con el intervalo de confianza y el
y
Regression Analysis: Y profit versus Xl revenue, X2 offices The regression equation is Y profit 2 1 . 56 + 0 . 237 Xl revenue -
Predictor Constant Xl revenue X2 offices
S
eoef 1 . 56450 0 . 23720 ~0.00024908
0 . 0533022
R-Sq
SE Coef
0 . 07940 0.5556 0.00003205
86 . 5\
Analysis of variance Sou rce OF Regression 2 Residua l Error22 Total 24
5S
0.40151 0 . 06250 0 . 46402
0 . 000249 X2 offices
T 19 . 70 4.27 -7.77
P 0.000 0.000 0 . 000
Instrucciones de Minitab 1. STAT> REGRESSION > REGRESSION> OPTIONS R-Sq(adj) = 85.3\ 2. Pulsar New Observation Values 3. Seleccionar Fits, Confidence limits, Prediction limits F
P
0 . 20076 70 . 66 0 . 00284
MS
0.000
Valor predicho
pred:.~c~c~ed;;v~a~,;u~e~S;f;o~r;:N:e~W~O~b:,~e;r~v:;~::~~~~~~=-_ ~
95\ CI 0 . 4476)
__
95' PI 0.2656, 0 . S148y.1.- - tntervalo ",,::::::~-:":::::::::=::::~ de predicci6n
Values of Predictor s for New Observations New x. Obs Xl reven ue offices 1 4 . 509000
Error tfpico del valor predicho
___
Intervalo deconfianza
)<------ deVal predicci6n ores de las variables
Figura 13.12. Predicciones e intervalos de predicci6n de la regresi6n multiple (salida Minitab).
Capitulo 13. Regresi6n multiple
535
intervalo de predi cci6n. EI intervalo de confianza -Cl- es un intervalo del va lor esperado de Y en la funcio n lineal defi nida por los valores de las variables independientes. Este in tervalo es una funeion del elTor {ipieo del modele de regresion. la di slancia a la que se enc uenlran los valores de Xj de sus medias muestral es individuales y la corre lacion entre las variables Xj uti lizadas para aju star el modelo. El intervalo de prediccion -Pl- es un intervalo para un unieo valor observado. Por 10 tanto, incluye Ja variabilidad del valor esperado mas la variabilidad de un unico punlo en tome al valor predicho.
EJERCICIOS
Ejercicios basicos 13.49. Dada la ecuaci6n de regresi6n multiple estimada
y = 6 + 5xI + 4X2 + 7X3 + 8X4 calcular el valor predicho de Y cuando a) XI = lO, x2 = 23 , x3= 9, x4= 12 b) XI = 23, X2= IS, X3 = lO, x4 = II c) XI = 10, -'"-2 = 23 , x )= 9, X4= 12 d) Xl = -10, X2 = 13, x 3 = - 8, X4 = - 16
Ejercicios aplicados 13.50. Utilizando In informaci6n del ejercicio 13.9. prediga el aumento de peso de un estud iante de primer ano que come una media de 20 comidas a la scmana, hace ejcrcicio durante una media de 10 horas a 1a semana y consume una media de 6 cervezas a la semana. 13.51. Utilizanda la informaci6n del ejercicio 13.8. prediga cl consumo semanal de lechc de una fami lia de cuatro personas que (iene una renta de 600 $ a la semana. bo = 0,578
13.52, En la regresi6n del esfuerzo de diseno de aviones de! ejercicio 13.6, la ordenada en e! origen estimada era 2,0. Prediga el esfu erzo de diseno de un avi6n que iiene una velocidad maxima de mach I,D pesa 7 toncladas y tiene un 50 por ciento de piezas en comlin con otros modelos.
13.53. Una agencia inmobi li aria afi rma que en su ciudad el precio de venta de una vivienda en d61ares (y) ~epende de su lamana en metros cuadrados de superficie (Xl), el tamano del solar en metros cuadrados (~) , el numero de dormilorio~ (X.3 ) y cl numero de cuartos de bano (X4). Basandosc en una muestra aleatoria de 20 vcnlas de vivicndas, sc obluvo el siguienle modela esti mado por minimos cuadrados:
y=
1.998,5
+ 22,352x 1 + (2,5543)
1,468~+6.767 , 3x3 ( 1.4492)
( 1820,8)
+ 2.70 1,lX4 (1996. 2)
R2 =
0,9843
Los numeros entre parentesis situados debajo de los coefi cientes son los errores t(picos de los coelicientes estimados. a) Interprete en el contexto de este modelo el coeficiente estimado de x2. b) Intcrpretc el cocficiente de determi nacion. c) Suponicndo que el modelo esta especificado correctamente, contrasle al nivel del 5 por ciento la hipotesis Ilula de que. manteniendose todo 10 demas conS(antc, el precio de venta no depende del numero de cuartos de banD frente a la hip6tesis alternariva unilateral adecuada. d) Estime el precio de venia de una vivienda de 1.250 metros cuadrados de superficie, un solar de 4.700 metros euadrados, 3 dormitorios y un cuarto de bano y medio.
13.7. Transformaciones de modelos de regresion no lineales Hemos visto como puede utili zarse el anali sis de regresion para eSli mar relaciones lineales que predicen una variable dependiente en funcion de una 0 mas variables independientes. Estas aplicaciones son muy importanlcs. Sin embargo, hay, ademas, algunas relaciones economicas y empresarial es que no son estrictamente lineales. En este apartado desalToll a-
536
Estadistica para administraci6n y economia
mos metodos para modificar algunos fonnatos de los lllodcJos no lineales con eI fin de poder utili zar los rnetodos de regrcs i6n mult iple para estimar los coeficientes del mocleln. POI' 10 tanto, eI objeli vo de los apartados 13.7 y 13.8 es am pli ar la variedad de problemas que puedcn adaptarse a un amilisis de rcgresi6n. De esta forma vemos que el amilisis de regresi6n tiene aun mayores apl icaciones. Examinando el algoritmo de mfn imos cuadrados. vcmos que maniplilando con ellidado los modelos no linea les, es posible ulili zar los mfn imos euadrados en un eonjulllO mas am. plio de problemas aplicados. Los supuestos sobre las variables independientes en la regresi6n multipl e no son muy restrietivos. Las variables independientes definen puntos en los que medimos un a variable aleatoria Y. Suponemos que hay una relaci6n li neal entre los ni veles de las vari ables independientes Xj , do nde j = I, ... , K, y e l valor csperado de la variable dependiente Y. Podemos aproveehar eSla libertad para ampii ar el conjunto de modclos que pueden estimarse. POI' 10 tanto, podemos ir mas alia de los modelos lineales en nuestras apli cac iones del anal isis de regresi6n multiple. En la Fi gura 13. 13 se muestran Ires ejempJos: (a) (b) (c)
Las funeiones de ofena pueden no ser lineales. EI aumen lo de la produce i6n total con un au menlo del nu mero de trabajadorcs puede ser cada vcz menor a medi da que se anaden mas trabajadorcs. EI eOSle med io pOl' uni dad producida a menudo se minimi za en un ni vel de prodllcc i6 n intermedio. >-
o
>-
-ri
-ri
C
:Q
u c
• c u•
• ,
, 0 0
"
0
u
~
•
0
~
~
" 0
u Precio, P
(,I
Numero de trabajadores, Xl (b)
Figura 13.13.
Producci6n total, Xl (0)
Ejemplos de funciones cuadraticas.
Transformaciones de model os cuadraticos Hemos ded ieado bastante liempo al desarro llo del anali sis de regres io n para esti mar eeuaciones lineales que rcprcsentan di versos procesos cmpresariales y econ6micos. Tam bien hay muchos procesos que pueden representa rse mejor mediante ecuaciones no li neales. EI ingreso total tiene una re laci6n cuadralica con el prcc io y el ingreso maxi mo se obliene en un ni vel intermedin de precios si la funci6 n de demanda tiene pendiente negativa. En muchos casos, el coste min imo de prod uec i6n pOl' unidad se obti ene en un nivel de producci6n inlermedio y cl coste por unidacl es decreciente a medida que nos aproximamos al coste mfnimo pa r unidad y despues aumenta a partir de ese coste minima par unidad. Podemos anali zar algun us de estas relaciones econ6 micas y cmpresaria les utili zando un modela cuaddtico: y = Po + p,X, + P,xi + ,
Capitulo 13.
Regresi6n multiple
537
Para eslimar los coe ricientes de un modele clladrati co para apl icac iones de este tipo, podemos transfonnar 0 modificar las variab les, co mo muestran las ec uHciones 13.26 y 13.27. De esta forma. un modelo cuadrat ico no li neal se convierte en un modele que es lineal en un conjunlo modifi cado de variabl es.
Transformaciones de modelos cuadraticos La funci6n cuadratica
y ~
Po+ /J,X, + p,X; + ,
(13.26)
puede transformarse en un modelo lineal de regresi6n multiple definiendo nuevas variables:
y despues especificando el modele
(13.27) que es lineal en las variables transformadas. Las variables cuadraticas transformadas pueden combinarse can olras variables en un modelo de regresi6n multiple. Por 10 lanto, podemos ajustar una regresi6n cuadratica multiple ulilizando variables transfonnadas. EI objetivo es encontrar modelos que sean lineales en otras formas matematicas de una variable.
Transfo nnando las variables. podemos estimar un modelo lineal de regresi6n multiple y utilizar los resultados como un mode lo no lineal. Los melodos de inferencia para los modclos elladdli cos transformados son los mi smos que hemos desarrollado para los modelos lineales. De esta fo rma, evitamos la confusi6n que se tendr!a si se utili zaran llnos metodos eSladfslicos para los rnodelos lineales y oLres para los mode los cli adrat icos. Los coefic ientes dcben combinarse para poder interprctarlos. Asi, si tenemos un modelo cuadra Ii co, e l efeeto de una variable. X. es ind icado por los cocficientes tanlo de los tenninos lineal es como de los termi nos cuadnitieos. Tambi en realizamos un scncill o contraste de hi p6tesis para averi guar s i un modelo cuadralico es una mejora can respecto a un modelo !inc.1!. La variable ~ 0 no es mas que una variable ad icional cuyo coefic iente puede contrastarse - Ho: {J2 = 0-- utili zando la / de Student co nd icionada 0 el estadfstico F. Si un modelo cuadratico se ajusta a los datos mejor que un modelo lineal , el coefi ciente de la variable cuadratica -~ = sera sign ifi cati vamen te diferente de O. EI melodo es e l mis mo si tenemos variables como 23 = X~ 0 2 4 = XTX2 .
xi
xi-
EJEMPLO 13.11. Costes de produccion (estimaclon de un modelo cuadratico)
Prod uction
Cost
Arnold Sorenson, director de producc i6n de New Front iers Instruments Inc., tenia interes en estimar la relaci6 n matema.tica entre el numero de montajes eleetro nicos producidos en un tu rno de 8 horas y el coste medio pOl' montaje. Esta funci6n se utilizarfa despues para estimar el coste de varios pedidos de producci6n y averiguar el ni vel de producci6n que minimizaria el cosle med io. Los datos se encllentran en el fi chere de datos Production Cost.
538
Estadistica para administraci6n yeconom fa
Solucion Arnold recogi6 datos de nueve turnos duran te los cual es el numero de monlajes oscil6 enlre 100 y 900. Tambien obluvo en el departamento de contabilidad eJ coste medio pa r un idad en que se incuni6 durante esos dlas. Estos datos se presentan en un diagrama de puntos dispersos realizado por media del programa Excel y mostrado en la Figura 13.14. Sus estudios de economfa y su exper ienc ia 10 !levaron a sospechar que la funci6n podr!a ser cuadr.:itica can un coste media min ima intennedio. Diseii6 Sll amil isis para cOlls iderar tanto lIna funci6n de cosle media de producci6n lineal como lI na cuadratica. La Figura 13.15 es la regresi6n si mple del cosLe como una funci6n lineal del nume· ro de unidades. Vemos que la relaci6n lineal cs cas i plana, 10 que indica que no ex iste un a relaci6n linea! entre el coste medio y e l numero de unidades producidas. Si Arno ld hubiera utili zado simplemente esta relaci6 n, habr!a cometido graves errores en sus me· todos de estirnaci6n del coste. La Fi gura 13.16 presenta la regresi6n cuadratica que muestra el coste media por unidad como una funci6n no lineal del numero de unidades producidas. Observese que b2 es diferente de 0 y, por 10 tanto, debe inclui rse en el modelo. Observese tambie n que el R2 del modelo cuadriitico es 0,962. mientras que en el modelo lineal es 0,174. Utilizan· do eJ modelo cuadnitico, Arnold ha elaborado un modelo de coste media mucho mas uti!. Numero de Coste med io Un idades por unidad
5,5 ~
100 210 290 415 509 613 697 806 908
5, 11 4,42 4,07
3,52 3,33 3,44
3,77 4,07
•
•
5
~
,
c
" 4,5
0
0.
•
0
'5
•E
4
~
•
3,5
"
3
•
•
•
0
4,28
•
o
200
600
400
800
1.000
Numero de unidades
Figura 13.14. Coste media de producci6n en funci6n del numero de unidades. Regression Analysis: Mean Cost per Unit versus Number of Units
The regress i on equation is Mean Co s t per Unit = 4 . 43 - 0 . 000 855 Numbe r of Units
Pred ictor Constant Numbe r of Un i t s
5 • 0.547614
Cocf 4 . 4330 -0 . 0008547
SI> Coe f 0 . 399 4 0 . 0007029
R- Sq = 17 .4\
R-Sq( a dj)
•
T
P
11.10 -1.22
0 . 000 0 . 263
5.6\
Analysis of varia n ce Source Regression Res i d u a l Error Tota l
DF 1
7 8
55 0 .44 33 2 . 0992 2.5425
M5
F
P
0 . 4 4 33 0 . 299 9
1 .48
0 . 263
Figura 13.15. Regresi6n linea! del coste medio en funci6n del numero de unidades (salida Minitab).
Capitulo 13.
Regresi6n multiple
539
Regression Analysis: Mean Cost per Unit versu s Number of Units, No Units Squared
The regression 0qu3tion is Mean Cost per Unit = 5 . 91 - 0.000884 Number of Units No Units Squ3red Predictor coef Const3nt 5.9084 Number of Units -0 .0088415 No Units Squared -0.00000793
SE Coef T 0.1614 36 . 60 0 . 0007344 - 12 . 0 4 0 . 00000071 11 . 15
S = 0 . 125875
R-Sq(adj)
R- Sq = 96.2\
0
+
0 . 000008
P
0.000 0.000 0.000
94 . 9%
Analysis o f Variance Sourc e Regress ion Residual Error Total
Figura 13.16.
,
OF
SS
MS
F
P
1 . 2230
75.97
O. 000
6
2 .44 59 0 . 0955 2.5425
8
0 . 0151
Modelo cuadratico del coste media en juncian del numero de unidades (salida Minitab).
Transformaciones logarftmicas Algunas relaciones econ6m icas pueden anali zarse mediante fu nciones exponenciales. Por ejcmplo, si la variaci6n porcentual de la cantidad vend ida de bienes varfa linealmente en respuesta a las variaciones porcentuales del precio, la funci6n de demanda tendnl una forma exponencial:
donde Q es la cantidad demandada y P es el precio por unidad. Las funciones de demanda exponenciaies tienen elasticidad constante y, pOl' 10 tanto, una variaci6n del prccio de un 1 pm ciento provoca la misma variaci6n porcentual de la cantidad demandada en todos los niveles de precios. En cambio, los modelos lineales de demanda indican que una variac i6n unitaria de la variable del preeio provoea la mi s ma variaci6n de la canlidad demandada en todos los nive les de precios. Los modelos exponenciales de demanda se ulilizan mucho en el amilisi s de la conducta del mercado. Una importante caracterfstica de estos modelos es que el coeficiente [lr es la c1asticidad constante, e, de la demanda Q con respecto al prec io P:
JQIQ
e= - =p, aplP Este resultado se desarrol1a en la mayorfa de los iibros de texto de microeconomfa. Los coeficientes del modelo exponenciai se estiman utili zando transformaciones logarft micas, como muestra la ecuac i6n 13.29. La transformaci6n logarftmica supone que el tennillo de error aleatorio multi plica el verdadero valor de Y para obtener el va lor observado. Por 10 tan to, en el mode lo exponen cial el error es un porcen taje del verdadero valor y la varianza de la distribuci6n de l error au menta cuando aumenta Y. Si este resu ltado no es cierto, la lrans rormacion logarft mica no es correcla. En ese caso, debe utili zarse una lecni ca de esti maci6n no lineal mucho rmis comp leja. Estas tecni cas eSlan fu era del alcance de este li bro.
540
Esladislica para administracion y economia
Transformaciones de model os exponenciales Los coeficientes de los modelos exponenciales de la forma
(13.28) pueden estimarse tomando primero el logaritmo de los dos miembros para obtener una ecuacion que es lineal en los logaritmos de las variables:
log (l') = log (Po)
+ fl,
log (X,)
+ II, log (X, ) + log (,)
(13.29)
Utilizando esla forma, podemos hacer una regresion del logaritmo de Y con respecto a los 10garitmos de las dos variables X y obtener estimaciones de los coeficientes PI y IJ 2 directamente del anal isis de regresi6n. Dado que los coeficientes son elasticidades, muchos economistas utilizan esla forma del modele en la que pueden suponer que las elasticidades son constantes en el rango de los datos. Observese que esle metoda de estimaci6n requiere que los errores alealorios sean multiplicativos en el modelo exponencial original. Par 10 tanto, el termino de error, c, sa 9xprasa como un aumento 0 una disminucion porcentual y no como la adici6n 0 la sustracci6n de un error aleatorio, como hemos vislo en los modelos lineales de regresi6n.
Otra importante aplicaci6n de los mode los exponenciales es la funci6n de producci6n Cobb-Douglas, que tiene la forma
donde Q es la cantidad producida, L es la cantidad utilizada de trabaja y K es la canLidad de capita l. PI Y P2 son las contribuciones relativas de las variaciones del tTabajo y de las variac iones del capital a las variaciones de la cant idad producida. En un caso especial, eorrespondiente a los rendimientos constan les de escala , sc plantea la restrieei6n de que la su ma de los coefic ientes sea igual a I. En ese caso, 111 Y 112 son las conlribuciones porcentualcs del lrabajo y cl capilal al au mento de la produclividad. La estimac i6n de los coeficientes cuando su suma cs iguaJ a I es un ejemp lo de est imaci6n rcstringida en los modelos de regrcsi6n. La ecuaci6n 13.29 es modificada par la restricc i6n fl, + #, = I y, pOl' 10 tanto, se incluye la sust ituci6n de la fo rma
II,
fl,
= I -
y la nueva ecuae i6n de estimaci6n se conv ierte en log(y) = log ({30) log(Y) - log (X, ) = log ({Io) log (;,) = log (Po)
+ /I,log(X,) + ( I - P,) log(X, ) + log (F.) + fl, [log(X,) -log(X, )] + log(") + p,log
G:)
+ log (to)
(13.30)
Vemos , pues, que el coeficiente PI se obticne haciendo una regres i6n de log (Y/X2 ) con respecto a log (X I/X2). A con linuaci6n , se calcu la 132 reSlando PI de 1,0. Todos los buenos paquetes estadfsticos pucden calc ular faci lmcnte las transformaciones necesarias de los 'datos para los modelos logarftmicos. En el ejemplo siguicntc utilizamos el programa Mi nitab, pero podrfan obtenerse resultados sim ilares ulilizando olros muchos paquetes.
Capitulo 13.
EJEMPLO
Regresi6n multiple
541
13.12. Funcion de produce ion de Minong Boat Works (estimacion del modelo exponencial)
Minong Boat Works comenz6 a producir pequcnos barcos de pesca a principios de la decada de 1970 para los pescadores del norte de Wisconsin. Sus propietarios desarro!Jaron un metoda de producci6n de bajo coste para producir barcos de cali dad. Como consecuenci a, ha aumentado Sli demanda con el paso de los aoos. EI metoda de producci6n utili za una terminal de trabajo con un conjunlo de planlill as y herramientas electrieas que pueden ser manejadas por un numero variable de trabajadores. EI numero de tenn inales (unidades de capital) ha aumentado can cl paso de [os anos de 1 a 20 para sati sfaeer la demanda de barcos. Al mismo tiempo, la plantilla se ha incrementado de 2 trabajadores al ailo a 25. Ahara los propietarios estan eonsiderando la posibi lidad de aumentar sus ventas en olros mereados de Michi gan y Minnesota. Por 10 tanto, neeesi[an saber cminto tienen que aumentar el numero de terminales y el numero de trabajadores para iograr diversos aumentos del nivel de producci6n.
Soluci6n
Boat Prodm:tion
Su hija, licenciada en economfa, sugiere que estinien una funci6n de producci6n CobbDouglas restringida utili zando datos de alios antcriorcs. Explica que esta fu nci6n de produccion les permilira predecir el numero de barcos producidos can diferentes ni ve les de term inales y de trabajadores. Los propielarios estan de acuerdo en que esc anal isis es una buena idea y Ie piden que 10 realice. Comienza el amili sis recogiendo los datos hi stOl'icos de produccion de la empresa, que se encuentran en el fichero de datos Boat Production. Para estimar los coeficientes, primero debe transformar la especificaci6n original del model a en una forma que pueda estimarse mediante una regresion par mInimal' cuadrados. EI modelo de la runcion de producci6n Cobb-Douglas es
can la restricci6n P2~ I - P,
donde Yes el numero de bareos prod ucidos al ana, K es el numero de terminales (uni dades de capital) ulili zadas cada ano y L es e[ numero de trabajadores utili zados cada ana . La funci6n de produccion Cobb-Douglas restringida se transforma en la forma de est imacio n:
para hacer una estimacion par mfnimos cuadrados. La est imaci6n del modelo de regresi6n se nluestra en la Figura 13.17 y la ecuacion resullanle es:
log
G) ~
3,02
+ 0,84510g (~)
(13.31)
En este resultado, vemos que el coeficiente del modelo estimado, bb es 0,845. Por 10 tanto, b2 = 1 ~ 0.845 = 0, 155. Par Ultimo, log (b o) = 3,02. Este ana li sis muestra que el 84,5 pOl' ciento del valor de la produccion procede del trabajo y el 15,5 por ciento del
542
Estadistica para administraci6n y economia
The regression equation is logbotunit 3 . 02 ~ 0 . 845 logworunit Predictor Constant logworun
Coef
SE Coef
T
p
3 . 02325 0 . 81\479
0 . 04387 0 . 09062
68.92 9.32
0 . 000 0 . 000
R- Sq", 79 . 8\
S " 0 . 1105
R-SQ(adj)
'" 78.9t;
Analysis of Variance Source Regression Residual Er r or Total
OF 1
SS 1 . 0618
22 23
0 . 2688 1.3306
MS
F
P
1 . 0618 0 . 0122
86.90
0 . 000
Figura 13.17. AnAlisis de regresi6n de la fu nci6n de producci6n restringida (salida Minitab).
capital. Tras rea lizar las oportunas transformaciones algebraicas, cl modele de la Fun ~ ci6n de producci6n es Y - 20.49K"·'4> LO.,,, (13.32) Esta Funci6n de producci6n puede util izarse para predecir la prod ucci6n esperada lItil i~ zando diversos niveles de capital y de tTabajo. La Fi gura 13. 18 muestra una comparaci6n del ntimero observado de barcos y el nil· mere predicho de barcos a partir de Ia ecuaci6n de regres i6n transformada. EI numero predi cho de barcos se ha calculado utili za ndo la ecuaci6n 13.32. Ese amllisis tambien indica que el R"l de In regresi6n del m1mero de barcos Con respecto al numero predicho de barcos es 0.973. Este R2 puede interpretarse exaclamente igual que el R2 de cualquier modelo de regresi6n lineal y, por 10 tanto, vemos que el mlmero predicho de barcos conslituye un buen aj uste de los datos observados sabre la producci6n de barcos. El R2 de los datos de la regresion transFormada de la Fi gura 13. 17 no puede interpretarse fucilmenle como un indicador de la relaci6n entre el numero de barcos producidos y las variabl es independientes del trabajo y el capital , ya que las unidades estan expresadas en logaritmos de cocientes. Number of Boats
= 11.82 + 1.199 Forecast Number of Boats
500
5 R·Sq
:
R-5q(adj)
400
.••• ~
• 300
~
...••E , z
•
200
•
••
•
•
• 100
•
••
0 0
100 200 300 Forecast Number of Boats
400
Figura 13.18. Comparaci6n de la producci6n observada y la predicha.
25.t 9t6 9 7.3%
97.2%
Capitulo 13,
543
Regresi6n multiple
EJERCICIOS
Ejercicios basicos 13.54. Considcrc las dos ccuaeiones siguienles eslimadas utilizando los tnelodos desarrollados en eSle apartado.
i. Yi
Segun los esludios recientes de una consultora nacionaI. los eoefieientes del modelo deben lener la siguiente restricei6n:
fl, + ii, ~ 2
= 4x u
ii. Yi = I
+ lx i + ~
Calcule los valores de y,. cuanda 8, 10.
Xi
= I, 2, 4, 6,
13.55. Considere las dos ecuaciancs siguientcs eSlimadas utilizando los mciodos desarrollados en este apanado. i. Yi = 4xl.~ ii. Yi = I + 2rj +2xt Calcule los valores de Yi cuando xi = 1, 2, 4, 6, 8, 10.
13.56. Considcre las dos ecuaciones siguientes estimadas utilizando los melodos desarrollados en este apartado. i. Yi = 4xu ii. Yi = 1 + lxi + 1,7x~ Ca1cule los valores de y,. cuando Xi = I, 2, 4, 6, 8, 10. 13.57. Considere las dos eeuaeiones siguientcs cSTimadas uti li zando los melodos desarrollados en este apartado. i. Yi = 3Xl ,2 ii. Yi = 1 + 5Xi + 1,5x~ Calcu le los valorcs dc Yi cuando Xi = 1, 2, 4, 6, 8, 10.
Ejercicios aplicados 13.58. Describa un ejempJo ex trafdo de su experiencia en el que un modelo cuadn'it ico sea mejor que un modelo lineal. 13.59. Juan Sanchez. presidcnte de Estudios de Mercado, S.A. , Ie ha pedido que estime los eoeficienles del modelo
Y = {Jo
+ {J1Xl + {J2X~ + {J1X2
donde Y son las vcntas esperadas de sumi nistros de oficina de un gran distribuidor minorisla de sum inistros de ofieina, X l es la renla total dispDnible de los residentes que viven a menos de 5 kil6metros de la tienda y X2 es eJ nutnero 10tal de personas cmpleadas en empresas euya actividad se basa en la informacion que se eneuentran a menos de 5 ki l6metros de la tienda.
Dcscriba como eSlimarfa los coeficientes de! mode!o utilizando el metodo de minimos cuadrados. 13.60. En un estudio de los dctcrminanles de los gastos de los hogares en viajes de vacaciones, se obtuvieron datos de una muestra de 2.246 hogares (vease la refcrencia bibliografiea). EI mode10 estimado era logy
=
- 4,054+ 1, 155610gxl -0,440Slogx2 (0.0546)
(0.0490)
R' ~ 0,168 donde Y = gasTo en viajes de vaeaciones = gasto total anual de eonsumo X 2 = numero de miembros del hogar
XI
Los nutneros entre paremcsis que se encucnlran debajo de los eocficientes son los errores tfpicos de los eoefidcntcs csti mad os. a) Interprete los coeficientes de regrcsi6n esti-
mados. b) imerprete el coeficiente de determinacion. c) Manteniendosc todo 10 demas eonstante, halie el intervalo de confianza al 95 par demo del aumento poreentual de los gastos en viajes de vacacioncs provocado por un aumenlo del gasto anual tolal de consumo de un I por eiento. d) Suponiendo que cl modelo eSla especificado correetamente, eonlraSle al nivel de significaei6n del I por ciento la hip6tesis nula de que, manteniendosc todo 10 demas constante, el numero de miembros de un hogar no afccta a los gastos en viajes de vacaciones fre nle a In hipotesis alternaliva de que cuanto mayor es el numero de miembros del hogar, menor es el gasto en viajes de vaeaciones. 13.61. En lin estud io. se estim6 el siguiente modelo para una muestra de 322 supermcrcados de grandes zonas metropolitanas (vease la referencia bibliografica 3):
Logy = 2,921
+ 0,680 logx (0.077)
f(2 =
0,19
544
Estadistica para adminlstracion y economia
glas- que prediga el numero de mi cro procc~a_ dores producidos por un fabricante. Y. Cll fUIl _ ci6n de las unidades de capital. Xl: las unidade~ de trabajo, X2, y el numero de informaticos que rcu1i7..un investi gaci6 n basica. X). Especifique la forma del modclo e indique con cuidado y exhausl ivamcntc c6mo estimarfa los coeficientes. Hugalo utilizando primcro un modelo sin rcstricciones y a conlinuaci6n incluyendo la restricci6n de que los cocficicntcs de las Ires vari ablcs deben sumar I.
donde y = tamai\o de la tienda x = renta mediana del distrito poslal cn el que se encuentm la tienda Los numeros entre parenlesis que figurnn dcba~ jo de los coefic ienles son los errores Ifpicos de los coeficientes eSlimados. a) interprcle el coeficienle estimado de log x. b) Contraslc la hip61csi s nula de que la renta no infiuye en el tamano de In ticnda frcntc a la hip6Lcs is al lernaLiva de que un aurnento de la ['emu tiende a ir acompufiado de un aume nto del tamano de la tienda.
13.64. Considere el sigui ente modelo no lineal COn crrores multiplicativos.
13.62. Un economisU\ agrfcola cree que la canti dad consumida de carne de vacuno (y) en toncladas al ano en Estados Unidos depende de su precio (XI) en d61ares por ki lo, del prccio de la carne de porci no (X2) en d61ares por kilo, del prccio del polio (x) en d61ares por kilo y de la renla por hagar (X4) en mi les de d6lares. Se ha oblenido la siguientc regrcsi6n muestrol POI' mfnimos cuadrados utili zando 30 observacioncs anuales:
y = fJoXf'X~XglXh;
p, + p,
+ O,416 10gx4
(0. 103)
1
113+P4 ~ 1
a) Muestre c6mo obrendria estimaciones de los cocfi cicnles. Deben satisfacerse las restricdalles de los coeficienles. Muestre lodo 10 que hace y explfq uelo. b) loCual es la elasticidad constanle de Y con rcspecto a X4 ?
Logy= - 0,024 - 0,529 10gx, + 0,217 logx2+ 0,193 logx3 (0.168)
~
(0.\06)
Sc rccom ienda que los siguiemcs cjercieios se resuelvan con la ayuda de un computador.
R2 = 0,683
(0. 163)
Los numerus entre parcntesis que se encuentran debajo de los cocfi cientes son los errores I{picos de los coeficientes estimados. Intcrprctc cI eocfici ente de log X I ' b) Interprete el coefic iente de log x2' c) Contraste al nivel de significac ion del I POI' d ento la hip61esis nula de que el coeficiente de logx4 en la regresi6n poblacional es 0 frente a la hip61esis altemativa de que e..<; positivo. d ) Contrastc la hip61esis nul a de que las cuatro variables (logxl' logx2' log x), logx4 ) no liencn, en conjunto, ninguna influencia lineal en logy. e) Al econom isla lambicn Ic prcocupa que la crec ienle concienciaci6n de las consecucncias del consumo frecuente de came roja para la salud pueda haber influ ido en !a demanda de carne dc vacuno. Si eso es asf, loc6mo influ irfa en su opini6n sobre la regresi6n eslimada original?
.1)
13.63. Le han pedido que desarrolle una funci6n de produccion cxponenci al -forma Cobb-DoLL-
13.65. , j Angclica Chandra, presidenta de Benefi ts Rescarch Inc., Ie ha pedido que esludie la estructura snlnri al de su emprcsa. Benefits Research ofrece consu ltoria y gcsli6n de los programas de seguro medico y de jubi laci6n para los empleados. Sus cJienles son grandes y medianas cmprcsas. Primero Ie pide que desarrotlc Ull modclo de rcgrcsi6n que eSlime el salario es-. perado en funci6n de los anos de cxpcricncia en la empresa. Debe examinar modelos lineales. cuadraticos y cubicos y averiguar CUll l es mas adccuudo. Eslime modclos de regresi6n adecuados y cscriba un breve informe quc rccomiende el mejor modelo. Uli lice los dulOS del fi chero Benefi ts Research. 13.66.
#. EI
fic hero de duloS German Im ports muesIra las importaciones real es alemanas (y). el consuillo privado real (XI) y el tipo de cambio rcal (x2) en d61ares estadouni dcnses pOl' marco de un periodo de 3 1 arios. Esli me el modelo
y escriba un informe sobre sus resultados .
Capitulo 13.
Regresi6n multiple
545
13.8. Utilizacion de variables ficticias !In modelos de~gresion En el amllis is de la regresi6n multiple, hemos supuesto hasta ahora que las variables independ ientes, xj , ex istfan en un rango y conten fan muchos valorcs difcrcnles. Sin embargo, en los supuestos de ]a regres i6n multiple la unica restricc i6n a la que estan sujems las variab[es independientes es que son valores fijos. Por 10 Ian to, podrfamos tener una variable independiente que tamara solamente dos valores: Xj = 0 Y .lj = [. Esta cstructura se denomina normalmcntc variable fieficia, y veremos que co nstituye un val ioso instrumento para aplicar la regresi6n multiple a situaciones en [as que hay variab les categ6ricas. Un importante ejemplo es una funci6 n lineal que varIa en respuesta a alguna innuencia. Consideremos primero una ecuaci6n de regresi6n simple: y ~
(iu+ (i,X,
Supongamos ahora que introducimos una variable fictic ia, Xl' que toma los valores 0 y I Y que la ecuaci6n resultante es y~
fJo + /J,X, + (i,X2
Cuando X 2 = 0 en esla ecuaci6 n, la constante es f3l), pero cuando X 2 = 1, la constanle cs flo + fl2· Yemos, pues, que [a variable fict icia desplaza la relaci6n lineal entre Y y X] en el valor del coefic iente f32. De esta forma, podcmos representar el efecto de los desplazamienlOS en nuestra ecuaci6n de regresi6n. Las variables ficticias tambien se [Iaman va riables de illdicador. Comenzamos nuestro ana lisis con un ejemp lo de una importante aplicaci6n.
EJEMPLO
13.13. Amilisis de la discriminacion salarial (eslimacion de un modelo utilizando variables ficlicias)
Gender and Salary
EI pres idente de Investors LLd. quiere averiguar si existe alguna plUeba de la presencia de discriminaci6n salarial en los salarios de las mujeres y los hombres anali stas financieros. La Figura 13. 19 muestra un ejemplo de los salarios anuales de los analistas en relaci6n con sus anos de experiencia. Yease el fich ero de datos Gender and Salary. Solucion
Examinando los datos y el grMico, vemos dos subconjuntos diferentes de salarios y parece que los sa larios de los hombres son uniformemente mas attos cualesquiera que sean los anos de experiencia. Este problema puede anali zarse estimando un modelo de regresi6n multiple del salario, Y, en funci6n de los anos de experiencia, Xl> con una segunda variable, X2 , que lOrna dos valores:
o
Mujeres analistas Hombres analistas
El modelo de regresi6n multiple resullante
puede analizarse ulili zando los metodos que hemos aprendido, senalando que el coeticiente b] es una estimaci6n del aUlllent.o anual esperado del salario par ana de experien-
546
Esladislica para administraci6n y economia
Scatterplot of Annual Salary (Y) vs Years Experience (Xl) 110000
"""""
• 100000
)C
• •
90000
(X2)
O=fema le i - Male
• •
0
1
~
..
•.,i:" ,•<
80000
'"
60000
<
• •
70000
• •
•
•
50000 40000
•
•
• 5.0
7.5
10.0 12.5 Yers Experience (Xl)
15.0
175
Figura 13.19. Ejemplo de una paula de datos que indica la existencia de discriminaci6n salarial.
cia y b2 cs el au mcnto que experimenta eI salario medio cuando el analisla es un h OIl1~ bre en Jugar de una mujer. Si b2 es positivo, eso indica que los salarios de los hombres SOil un iformemenle mas altos. La Figura 13.20 presenta el anali sis de regresi6n multiple de Minitab para este pro~ blema. En este an6. li sis vemos que el coeficiente de Xl -gender- tiene un eSladfstico t de Student igual a 14,88 y un p-valor de 0, 10 que nos Ileva a rechazar la hi pOles is nul a de que el codiciente es igual a O. Este resu hado indica que los salarios de los hombres son sign ificati vamente mas altos. Tambien vemos que b2 = 4.076,5, 10 que indica que el valor esperado del aumento 8nual es 4.076,50 $ Y que b l = 14.638,7, 10 que indica que los salarios de los hombres son, en promedio, 14.683,70 $ m~1s altos. Este tipo de amilisis se ha util izado con exilo en algunos juicios sobre discriminaci6n salarial, por 10 que la mayoria de las empresas realizan anali sis parecidos a este para averiguar si existe algun a prueba de discriminaci6n salaria!. Esle tipo de ejemplos tiene numerosas apl icaciones en algunos problemas entre los que se encuenlran los sigu ientes:
1. 2.
3. 4.
Es probable que la relaci6n entre el numero de unidades vendidas y el precio se desplace si entra un nuevo competidor en el mercado. La relaci6n entre el consumo agregado y la renia di sponible agregada puede desplazarse en tiempos de guerra 0 como consecuencia de algun otro gran acon~ tecimi ento nacional. La relaci6n entre la producci6n total y el numero de trabajadores puede desplazar~ se como consecuencia de la introducci6n de una nueva tecnologia de produccion. La funci6n de demanda de un produclo puede variar como consecuencia de una nueva campana publicitaria 0 de la publi caci6n de una nOlicia relativa al producto.
Este anali sis ha in Lroducido el concepto de regresi6n l1ti lizando variables ficticias como un metodo para ampliar nueslra capacidad de anal isis. El metodo se resume a continuaci6n.
Capitulo 13.
Regresi6n multiple
54 7
The regression equation is Annual Salary (Y) = 23608 + 14684 Gender (X2) O=Fema l e l=Male + 4076 Years Experience (Xl) Predictor Constant Gender (X2) O=Female l =Male Year Experience (Xl)
S = 1709.48
R-Sq = 99 . H
Coef
T
p
1434 16.46 987 . 0 14.88 121.3 33 . 61
0 . 000 0 . 000 0 . 000
S8 Coef
23608 14683 . 7 407 6 . 5
R-Sq (adj) = 99.2%
Analysis of Variance Source Regression Residual Error Total
Figura 13.20.
DP 2 9 11
SS 39 4824096 26300913 3974541710
MS 1974120398 2922324
P 675 . 53
P 0 . 000
Analisis de regresion del ejemplo de la discriminacion salarial: salario anual en relacion can los anos de experiencia y el sexo (salida Minitab).
Analisis de regresi6n utilizando variables ficticias La relaci6n entre Y y X,
puede desplazarse en respuesta a un cambio de una determinada condicion. EI etecta del desplazamiento puede estimarse utilizando una variable ficticia que tiene el valor 0 (no se cum pie la condici6n) y 1 (se cumple la condicion). Como muestra la Figura 13.19, lodas las observaciones del conjunto superior de puntos de dalos lienen la variable ticlicia x2 = 1, Y las observaciones de los puntos inferiores tienen la variable ficlicia x2 = O. En estos casos, la relaci6n entre Y y X, es especificada por el modelo de regresion multiple
(13.33) EI coeficiente b2 represenla el desplazamiento de la funcion entre el conjunto de puntos inferior de la Figura 13.19 y el superior. Las funciones de cada conjunto de puntos son
y=
bo + bXI
cuando
Xl
=
0
y
cuando
X2
=
1
En la primera funci6n, la constante es bo' mientras que en la segunda es b o + b 2 • En el Capitulo 14 mostramos c6mo pueden utilizarse las variables ficticias para analizar problemas que lienen mas de dos categorfas discretas.
Esla sencilla espec ificaci6n del modelo de regresi6n lineal es un instrumento muy poderoso para resolver los problemas que implican un desplazamiento de la funci6n linea l provocado por factores discretos identificables. Ademas, la eSlruClura de regres i6n mUltiple es un metoda directo para realizar un contraste de hip6tcs is, como hemos hecho en el cjemplo 13.13. El contraste de hip6tesis es Ho: p, ~
0 III, '" 0 H,:P2",OIII, ,,, O
548
Esladfslica para adminislraci6n y econom(a
EI rechazo de la hipolesis nula, Ho, !leva a la conclusi6n de que la con stante de los dos subconjuntos de dalos es diferente. En el ejemplo 13. 13 hemos visto que esta difercncia entre las constantes lIevaba a la conclusion de que existia una diferencia sign ifica liva entre los salarios masc ulinos y los feme ni nos una vez eliminado e l efecto de los ailos de expe~ riencia.
Diferencias entre las pendientes Podemos utilizar variables ficticias para analiza!' y con lraSlar las diferenc ias entre las pen~ dientes aiiad iendo una variable de interacci 6n . La Figura 13.21 muestra un ejemplo repre~ se nlalivo. Para con trastar tanlo las diferenc ias enlre las constantes como las di ferenc ias e n ~ Ire las pendiellles, utili zamos un modelo de regres i6 n mas complejo. Gender (><2) Experience Years Annual times Experience Salary O=Female Gender (X I) l =Male (V) 0 0 5 $36,730
0 0 0 0 0 1 1 I I 1 I
0 0 0 0 0 5 7 9 10 14 17
7 9 10 14 17 5 7 9 10 14 17
Annual Salary vs Years of Experience for Male and Female Engineers
140,650 $46,820 150 ,149 $59,679 167,360 151,535 162,2ffi 172,486 175,022 193,379 $105,979
1120,OCXl 11 00 ,OCXl ~
11:1
•
$00 ,(xx)
•
•• ••
5
10
~
'"•
..c c
160,000
540,000
•
•
•
I
520,000 10
o
15
20
Years of Experience
Figura 13.21.
Datos salariales anuales de Systems Inc.
Regresi6n utilizando variables ficticias para contrastar las diferencias entre las pendientes Para averiguar sl existen diferencias significativas entre las pendientes de dos condiciones discretas, hay que expandir nuestro modelo de regresi6n a una forma mas compleja:
(13,34) Ahora vemos que la pendiente de x, conliene dos componentes, /3, Y fJaX2. Cuando X2 es igual a 0, la pendiente es el /1, habitual. Sin embargo, cuando X2 es igual a 1, la pendienle es igual a la suma algebraica de {Jl + {l3' Para estimar 81 modelo, necesitamos en realidad crear un nuevo conjunto de variables transformadas que sean lineales. Por 10 tanto, el modelo utilizado realmente para la estimacion es
(13,35)
Capitulo 13.
Regresion multiple
549
EI modelo de regresion resullanle ahora es lineal con Ires variables. La nueva variable, X 1X2 ' a menudo se llama variable de interacci6n. Observese que cuando la variable ficticia x2 = 0, esla variable liene un valor de 0, pera cuando x2 = 1, esla variable Ilene el valor de Xl' EI coeficienIe b3 es una eslimacion de la diferencia entre et coeficienle de X 1 cuando x2 = 1 Y el coeficienIe de X1 cuando x2 = O. Por 10 lanlo, puede utitizarse el estadfslico t de Siudent de b3 para contrastar las hipotesis
Ho:{!, ~ Ol/!, #0. {!, # 0 H , : ii,
'" 0 I{!, '" O. ii, '" 0
Si rechazamos la hipotesis nula, concluimos que existe una diferencia entre las pendientes de los dos subgrupos. En muchos casos, nos interesara tanto la diferencia entre las constantes como la diferencia entre las pendientes y contrastaremos las dos hip6tesis presentadas en esIe apartado.
EJEMPLO 13.14. Modelo de los salarios para Systems Inc. (estimacion de un modelo utilizando variables ficticias) EI presidente de Systems Inc. esta interesado en saber si las subidas salariales anuales de las ingenieras de la empresa han sigo iguales que las de los ingenieros. Ha habido algunas quejas tanto de los ingenieros como de las ingenieras de que los salarios de cstas no han subido al mismo ritmo que los de aqucllos. Solucion
La Figura 13.2 1 mueSlra los datos de ]a empresa y un diagrama de puntes disperses. EI diagrama sugiere que la pendiente es nuts alta en el caso del subgrupo superior, que representa a los ingenieros. En la Figura 13.22 presentamos el amllisis de regresi6n multiple realizado con el programa Excel, que puede utilizarse para contrastar la hip6tesis de que las tasas de subida de los dos subgrupos de ingenieros son iguales. En este amilisis vemos que la experiencia multiplicada pOl' el sexo ticne un estadfstico I de Stu;
; , Ii
;
Gender and Salary Increase
i nmultip le
0,,""
;
0,,""
G"d.,
,
,
S"m,
I,,;~;
F
,
"
d. F
, (
;
,
Figura 13.22.
,
I
,
Am'ilisis de regresi6n del salario anual en relaci6n con la experiencia y el sexo (salida Excel).
550
Esladislica para adminislracion y econom ia
dent de 14,20 Y Ull p-valor de O. Rechazamos la hip6tesis nu la de que, a medida que aumenta la experienc ia, los salarios de los ingenieros y de las in genieras han subido al mismo rilmo. Por 10 tanto, sera importante lomar medidas para abordar la discrimina_ ci6n salarial que es cvidenle en los dalos. Los datos se encueniran en el fichero Gender and Salary Increase.
EJERCICIOS
Ejercicios basicos 13.67. l,Cuul es la constante del modelo cuando la variable fictic ia es igual a I en las siguientes ecuacioncs, donde Xl es una variable continua y X2 es una variable fi cticia que toma un valor de 00 I ? a) ; = 4 + 8Xl + 3X2 b) = 7 + 6x 1 + 5x2 c) = 4 + 8.Xl + 3x2 +
4X jX2
13.68. ;..Cm"il es la con sta nte del modele y el coeficienIe de la pendiente de Xj cuando la variable ficticia es igual a I en las siguientes ecuaciones, donde x. es una variable continua y X2 es una variable ficticia que toma un valor de 0 0 I?
Y= 4 + 9xj +
1,78x2 +
3 ,09xjX2
y= -3 + 7xl + 4 , 15x2+ 2,5Ix.X2 y = 10 + 5x. + 3,67x2 + 3,98x1X2
Ejercicios aplicados 13.69. EI siguiente modelo se ajusl6 a las obscrvaciones de 1972- 1979 en un intento de explicar la conducta de la fijaci6n de los prccios. ; = 37xI
y=
-1 .264
+ 5,22t2
(0.029)
(0.50)
donde y = diferencia entre el precio del ano actual y cl pretio del ano anterior en d61ares por barril XJ = diferentia enlre el precio 01 contado en el ana actual y el precio al contado en el ano anterior X2 = variable fic licia que lama el valor I en 1974 y 0 en los demas. para representar el cfcC10 cspecffico del embargo del petr6leo de esc ano Los nlllneros entre parentesi.s situados dcbajo de los coeficientes son los errores tfpicas de los coc fi cicntcs estimados. Intcrprete vcrbal y grtificamente el coefi cieotc estimado de In variable fiC licia.
+ 48, 18xl + 3.382\"2 (0.91)
(S IS)
+ 3.2 19x4 + 2.005xs (947)
Y y
a) b) c)
.13.70. Sc ha ajuslado cl siguiente modelo para expli car los precios de venta de los pisos de una muestra de 8 15 ventas.
(768)
ff2
- 1.859x) (488)
= 0,86
donde = precio de venlu del piso, en d61ares Xl = melros cuudrados (itiles X2 = tamana del gamje en mlmero de autom6viles x ) = antiguedud del pi so en anos x" = variable fic ticia que toma e1 valor I SI el piso tiene ch imenca y 0 en caso contrario Xs = variable fic licia que lorna el valor I si el piso liene suelos de madern y 0 si liene suclos de vi Ili 10 a) lnlerprete el coeficiente estimado de X4' b) Interprete el cocfici ente estimado de Xs. c) Halle el interva lo de confianza al 95 por cicnto del efecto de una chimenea en cl precio de venia, manteniendose todo 10 dcmas constante. d) Contmste la hip6tcsis nula de que el tipo de sueIo no afecta al pretio de venta frente a la hip6tesis altcrnativa de que, manleniendosc todo 10 demas constantc, los pisos con suc lo de madera tienen un precio de venta mas al to que los pises con sue lo de vinila.
y
13.71. Se ha ajustado el siguietlte modele a datos sobre 32 compafifas de seguros. ; = 7,62 - 0, 16x. (0.008)
+
1,23x2
R2 = 0,37
(0.496)
donde y = relaci6n preeio-benefi cios Xl = volumcn de activos de las compafifus de seguros, en miles de milloncs de d61ares x2 = variable fi cticiu que toma el valor 1 en el caso de las companfas regionales y 0 cn c1 de las nacionales.
Capitulo 13.
Los numeros en!re parcntesis siwados debajo de los coeficie ntes son los errores tfpicos de los coeficientcs estimados.
.y XI
riable fieticia. b) Contraste la hip6tesis nula de que el verdadero coeficiente de [a variable ficticia cs 0 frente a la hip6tcsis alternaLiva bilateral. c) Contraste al nivel del 5 por ciento la hip6lesis nula #1 = (J2 = 0 e interprete su resultado.
a
.\"3
res
x~
= variable fieticia que lorna el valor I 5i los
del estado
x6
+ (J IX] i + {JzX2i + {J:'x3i + I:;
a) Interprete el coefi cienle esri mado de In variable ficticia X5. b) Interprete el coeficiente estimado de la va· riable fie ticia x6. c) Contraste al nivel del 5 pOI" cienlo la hi p6tesis nula de que el verdadero coeficientc de la variable ficlicia Xs es frente a la hipotesis alternativa de que es posilivo. d) Controste al nive[ del 5 por cic nto la hi p6lesis nul a de qLle el verdadero coeficiente de la variabl e ficticia X6 es frente a la hip6te~ sis alternativa de que cs negativo. c) Hall e e interprete un nivel de confianza del 95 por cienlo del para metro Pl .
Utilice la parte de la salida de la regresi6n esti· mada mostrada aquf para escribir un informe que resuma los resultados de este estudio.
MODEL
3
ERROR
"
CORRECTED
TOTAL
49
PARAMETER
641 .
"
MEAN SQUARE
FVALUE
R-SQUARE
7.13.68
8.48
.356
1159 . 66
6 . 51.2
INTERCEPT
3 . 502 0 .4 91 10 .3 27
x3
,
1. 45 . 59 2 . 45
STD. ERROR OF ESTIMATE
2 . 419
0 .1 07 4 . 213
13.73. EI siguiente modelo se ajust6 a datos de 50 estados de Estados Unidos.
y=
13.472 + 547xI (124.3)
- 3.IOOX6 ( 1.761)
°
1800 . 70
ESTIMATE
Xl X2
°
25.21
T FOR HO: PARAMETER '" 0
+ 5,48x2 + 493x3 + 32,7x4 + 5.793x5 (1.858)
R2 = 0,54
(208.9)
(234)
(2.897)
magistrados del tribunal supremo del esta~ do pueden ser cesados por el gobcrnador, par el consejo del poder judicial 0 mediante una votaci6n por mayorfa del tribunal supremo y 0 en casu conlrario = variable ficticia que lama el valor I si los magislrados del tribunal su premo son dcsignados tras unas elecciones en las que inLervienen los partidos poHticos y 0 en caso contra rio
Los numeros entre parcntcsis situados debajo de los coeficientcs son los errores tfpicos de los coeficienles estimados.
°
SUMOF SQUARES
miles de d61ares nlimero de leyes aprobadas en la [cgislalllra anterior = numero de acluaciones de los tribunales de los estados que dieron lugar a una anulaci6n de legislacion en los 40 anos anterio= duraci6n del mandalo del fisca l general
Yi = ealificaci6n que rdleja el rendimiento glo~ bal de los estudiantes en sus eSludios de postgrado en derecho Xli = calificaci6n media de los estudios de grado X 2i = ca[ ificac ion ell el examen de aceeso a la universidad x3i = variable ficlicia que toma el valor I si las cartas de recomendaci6n del eSLUdiante son excepcionalmente buenas y en caso contrario
DF
sueldo anual del fiscal general del estado
.\"4
donde
SOURCE
=
= sueldo anual medio de los abogados en
X2 =
13.72. EI deeano de una facultad de derecho querra eval uar la importancia de factores que podrfan ayudar a predecir el exito en los estudios de postgrado en dcrecho. Sc obtuvieron datos de una muestra aleatoria de 50 estudianles cuando lerminaron SLIS eswdios de poslgrado en derecho y se ajust6 el siguiente modelo: =
551
donde
a) Interpretc el coeficicn lc estimado de la va-
Yi
Regresi6n multiple
13.74. Un grupo consultor ofreee cu rsos de gesti6n financiera para los ejecutivos. Al final de estos cursos, los participanles deben hacer una valoracion global del valor del curso. Se estim6 para una muestra de 25 cursos In siguiente regresian por mfnimos cuadrados .
y=
42,97
+ 0,3&.1."] + O,52x2 (0.29)
R2
(0.21)
- 0,08X3 (0.1 J)
+ 6.21x4 (0.359)
0,569
=
donde y
=
va loraci6n media realizada POI" los parlici panIcs en el curso
552
Esladfslica para administraci6n y economia
porcentaje del tiempo de l curso dedicado a scsiones de discusi6n en grupo = dinero, en d6larcs, par miembro del curso decl ieados a prcparnr el malerial del curso = dinero, en d6lares, por miembro del curso gaslado en comida y bcbida = variable fic ticia que toma el valor I 51 in lerviene en el curso un profesor visitantc y 0 en caso contra rio.
XI =
xl x~
X2
Los mimeros entre parenlesis sllUados debajo de los coeficicntcs son los errores tfpicos de los coeficientcs eSli mados. a) Interpretc cI cocfi ciente eSlimado de x 4 . b) Contraste la hip6tesis nu la de que el verda-
dero coeficiente de X4 cs 0 frenle a la hip6lesis alternativa de que es positi vo. c) Interprete el coerieiente de determi naci6n y ulilfcelo para eontrastar la hip6tesis nula de que las cuatro variables indepcndientes. consideradas en conjunto. no influyen li nealmenle en la variable dependiente. d) Halle e interprele el intervalo de con fi anza al 95 por ciento de P2' 13.75. En un estud io, se estimo un modelo de regresi6n para camparaI' el rcndimiento de los estudiantes que asistfan a un eurso de estadfslica para los negocios: un eurso normal de 14 $Cmanas 0 un curso intensivo de 3 semanas. Se estim6 el siguienle modelo a parti r de las obscrvaciones sobre 350 cSludianles (vease la rcfereneia bi bJiografica 5):
y= -
0.7052
+ 1.4170x I + 2, I 624x2 + 0.8680x) (0.4568)
+
1,0845x4 (0.3766)
(0.3287)
(0.4393)
+ 0,4694xs + 0.OO38x6 + O.0484x7 (0,0628)
(0.0094)
(0,0776)
R2 = 0,344 donde y = culi fi euci6n obtcnida en un examen norm(lliz(ldo sobre los conocimientos de cstadisliea despues de asisti r al curso XI = variable fiClicia que lOrna el valor I si se asisti6 a un curso de 3 sem.mas y 0 Sl se asisti6 a un curso de 14 semanas X 2 = calificaci6n media del estudiante Xl = variable fi eticia que toma el valor 0 0 I, dependiendo de ellal dc dos profesorcs imparliera el curso .1"4 = variab le fi cticia que toma el valor I si el cstud iante es varon y 0 si es mujer Xs = cali ficac i6n oblenida en un examen nor-
X6
.1"7
malizado sobre los conoci mienlos de matematieas antes de ;lsiSl ir al eurso = numero de creditos semcslrales que hubi:! completado el eSl udi unte = edad del estudiante
Los numeros entre parentcsis situados debajo de los coefieienles son los errores tfp icos de los coe fici entes eSlimados. Escriba un infomle analizando 10 que pucdc aprenderse con csta regresi6n ajustada. Se recom ienda que los sigu ientcs ejercieios se rcsuelvan con In ayuda de un compulUdor. 13.76. f .. En un estudio de 27 estudiantcs de la Universidad de lllinoi s sc obtu vieron resultados sobre la calificaci6n med ia 0'), c1 numero de horus scmanalcs dedi cadas a eSiudiar (XI), c l nuI11cro medio de horas dcdicadas a eSIt:d iar pura los examenes (X2), el numero de horas scmtlnaIcs pasadas en los b:lres (x)). el hecho de quc los CSludiantes tomcn nOlas 0 subrayen cuando Iccn los libras de texto (X4 = I si sf, 0 si no) y el numcro medio de ered itos realizados par semestre (xs) . Estime In rcgresi6n de la ca lifieaci6n media con rcspeclo a las cinco vari ables independicntcs y escriba un infonnc sabre sus resultados. Los dalOS se cncucnlran en el lichero de datos Student Perrormance de su disco de dmos. 13.77. ~ -t Lc han pediclo que desarrolle un modelo para anali zar los salarios de una gran empresa. Los datos para desarrollarlo se encuentran en el fichero llamado Salorg. a) Utili zando los datos del fichero. desarrolle un modelo de regresi6n q ue prediga el salario en funei6n de las variables que se lecc ione. Ca1cule los eSladisricos F y t condicionudos del eoe lieienle de cada variable de predicci6n inc1 uid:l en el modelo. MuCSlre lotio 10 que hace y explfquelo minuciosamente. b) Conrraste la hipOtcs is de que las mujcres tienell un salario anual mt'is bajo condieionado :I I:ls variables de su modclo. La v:lriable «Gendec I F» toma el valor I en el caso de las mujeres y 0 en el de los hombres. c) Contrasle la hip6tesis de que la I:lsa de subida salafial de las mujeres ha sido mas baja condicionada a las variables del modelo desarrollado en el apanado (b).
Capitulo 13.
13.9.
Cotton
M~todo
Regresi6n multiple
553
de aplicacion del analisis de regresion multiple
En este apanado presentamos un exten so caso pn"ict ico que indica como se rea lizarfa un estudio estadfstico. EI eSlud io detenido de este ejemp lo pucde ayudar a utili zar muchos de los melodbs prescntados en este capitulo y en los anteriores. EI objelivo de este estudio es desarrollar un Illodelo de regresion mult iple para predeci r las ventas de teji do de al godon. Los datos para el proyecto proceden del fichero de datos Cotton, que se encuentra en el disco de datos de estc libro. Las variables de l fich ero de datos son quarter year cotton q whoprice impfab ex prab
Trimestre del ano ano de observacion canli dad de tejido de algod6n producida indice de precios al por mayor ean tidad de tej ido importado cantidad de teji do exportado
Especificacion del modelo EI pri mer paso para desarroll ar el rnodelo es seleccionar Lln a tcoria cconomica adeeuada que sirva de base para el amll isis del modelo. Este proeeso de identi ficac ion de un eonjunto de variables de pred iccion probables y la rorma matematica del rnodelo se co noce call e l Ilombre de espec{{tcacion del mode/a. En este caso, la teorfa adecuada se basa en la de los modcl os economieos de demanda. La teorfa economica ind ica que cl precio debe producir un importante efecto: una sub ida del preeio reduce la can tidad demandada. Es probable que tam bien haya Qt.-as variables que infl uyan en la eantidad demandada de algodo n. Es de esperar quc la cantidad importada de tejido de algod6 n redllzca la demanda de tejido interi or y que la cant idad exportada de tejido de algodon aumente la demanda de tej ido in terior. En el lenguaje econ6m ico, las importaciones y las exportaciones de tejido desplazan la runcion de demanda. Basandonos en este antil isis, nuestra especiricacion inicial incluye el preeia con un eoefie ien te negalivo, el tej ido exportado con un cocficientc posi tivo yel tej ido im portado con un coet'iciente ncgativo. Se especifica ini cialmente que todos los coeficientes tienen efeetos li nea les. Por 10 tanto, e l modelo ticne la forma
da nde XI es el prec io al par mayor, Xl es la cant idad de tej ido importado y x 3 es la cantidad de tejido ex portado. Tambien ex iste la posih il idad de que la cantidad demandada vade con el tiempo, y, por 10 tanto, el mode lo debe incl uir la posibi lidad de Ll na variable temporal para reducir la variabilidad no expl icada. Para este antilisis queremos uti lizar una variable que represente el tiempo. Como el tiempo es indicado por una combi naci6n de ano y trimestre, ut ilizamos la tran sformaci6n Time = Year + O.2S*Quarter
para producir una nueva variabl e de l tiem po que sea eonlinuamenle creciente. EI paso siguiente en el amllisis es hacer una descri pci6n cstadfs tiea de las variables y de sus relaciones. Excl uimos el ano y el trimes tre de este anali sis porq ue han sido sustitu idos par el tiempo y Sll incl usion s610 introduci rfa confusion en el amilisis. Utili zamos cI
554
Esladislica para administraci6n y economia
programa Min itab para oblener medidas do la tendeno ia central y de la dispersion y lalll. bien para oomprender al go la pauta de las observaciones. La Figll ra 13.23 contienc la sa li. da Min itab. E1 cxa men de la media, la desv iacion tfpica y el mlnimo y el maximo indi ca la region pOlencial de apl icaoion del modelo. EI modele de regresi6 n estimado siempre pasa por la medi a de las variables del modelo. Los valorcs predichos de la variable dependicnte, «cottonq», pueden utili zarse dentro del rango de las variables independientes. EI paso siguicnte es examinar las rclaciones simples existentes entre las variables utili zando tanto la matri z de correlaciones como la opcio n de los graJicos matriciales. Estes deben examinarse conj untamente para averiguar la fuerza de las relaciones lineales (corre. laciones) y para averiguar la rorma de las re laciones (gn'ifico matricial ). La Figura 13.24 con tiene la matriz de correlaciones de las variables del estudio elabo. rada utili zundo Minitab. EI p-valor mostrado con cada correlaci6n indi ca la probabilidad de que la hip6tesis de la correlaci6n 0 entre las dos variab les sea verdadera. Utili zando nuestra regia de seleccion basada en el conlraste de hip6tesis, podemos concl ui r que un p_ valor de menos de 0,05 es una prueba de la exislencia de una estrecha re laci6n lineal entre las dos variables. Examinando la primera colu mna, observamos que cxisten estrechas relndones lineales entre «cottonq}} y tanto «whoprice» como «time». L1 variable «expfab}} ti ene una posi ble relaci6n simple marginulmentc significativa. Una buena regia practica, mostrada en 01 apartado 12. 1, para examin ar los coeficientcs de correlac ion es que cl valor Figura 13.23. Esladislicos descriplivos de las variables del mercado del algod6n (salida Minitab).
Results for : Cotton.MtW Descripti ve Statistics: cottonq, w hoprice, impfab, expfab, time Variable cottonq whoprice impfab expfab time Variable cottonq whoprice imp[ab expfab time
Figu ra 13.24. Correlaciones de las variables del mercado del algodon (salida Minitab).
N 28 28 28 28 28
N' 0 0 0 0 0
Mean 1779.8 1 06 .81 7 . 52 274 . 0 69 . 625
SR Mean 54 . 9 1.16 1. 38 20 . 3 0 . 389
StDev 290 . 5 6.11 7 . 33 107 . 7 2 . 056
Minimum 1277.0 98 . 00 1.30 80 . 0 66 . 250
Maximum 2287 .0 115.80 27.00 4 77.0 73.000
Correlations: cottonq, w hoprice, impfab, expfab, time
whop rice
cottonq whoprice -0 . 950 0 . 000
imp fab
i mpfab
0.291 0.133
- 0 .4 39 0 .019
expfab
0.3 7 0 0 . 052
- 0 . 285 0 . 142
0.18 1 0 . 357
-0.950 0 . 000
0 . 992 0 . 000
-0 . 392 0 . 039
time
Ce ll Con tents : Pearson correlat i on P-Value
expfab
- 0 . 238 0 . 222
Q1 1535.3 100.45 2.78 190.5 67.813
Median 1762 . 5 107 .4 0 4 . 85 277 . 1 69 . 625
Q3 2035.0 11 2.20 9 . 05 358.1 71.438
Capitulo 13.
Regresion multiple
555
abso luto de la corre laci6n debe ser superior a 2 di vidido por la ralz cuadrada del tamano de la muestra, II. En esle problema, cI valor de sclecei6n es 21fo = 0.38. La segunda tarea es averiguar si cx isten estrechas relaciones simples entre los pares de variables de predicci6n posibles. Vemos una estreehfsima correlaci6n entre ~~ Iime» y «whopricc» y relaciones significati vas entre «impfab» y tanto «timc}) como «whopricc». Estas elevadas correlaci ones hacen que la varian za de los estimadores de los coeficientes tanto de «lime) como de «whoprice» sea alta si se incl uyen ambos como variables de pre· dicci6n. Tambi en podemos cxaminar [as relaciones entre las variables utili zando [os gr<'ificos matriciales mostrados en la Figura 13.25. Los diagramas de puntas dispersos individuales mueslran si mu ltancamente las relaciones entre d iFerentes variables. Constituyen, pues, un tipo de presentaei6n parecido a una matriz de correlae iones. La ventaja del diagrama de PUlltos dispersos radiea en que incluye todos los puntos de datos. Tambien se puede vel', pues, si cx iste una relaci6n no lineal simple entre las variables yJo si ex iste algun agrupa· miento ex lrano de obscrvaciones. Todas las variables, excepto «year» y «quartef», estan incluidas en el mismo orden que en In matriz de corre laciones , POI' 10 que hay una comparac i6n direcla entre la matriz de correlaciones y los gn'ificos matri cia1es. Observese la eorrespondencia entre las eorrelaciol1es y los diagramas de puntos d ispersos. Tanto «whoprice» como (
Figura 13.25.
Graticos matriciales de las variables del estlJdio (salida Minilab).
112
"..
.. ." ~
....
.~
:
.......
whoprice
,, +-----,--'-~I-~~--~
• •
20
• • ••
••
e· ...
hlplab • • .. i"-.~.=:~..~~-'~!c-~',',-'r.'>c'~-~'~'~~= ~'~'~'~'+-..---------. • 10
e. e.. , • " -. _.. ....- .... .... . .,.... ... . .... ..... ... . _.
•
...
...
100 • • 72
"
•••
••
-
•
e -..
••
._
•
•• •
I............. • ... -'
...."... •..
.'..
~
,,~.:.
1'....
..
• rxpfab
.. ..... .. . . .... . .. . . . . .. ... ... ·
~<---r--.--~'~'~'~~--~---.--~~'-"~-'~r---~-"'~~'~----i ISOO 1$00 2 100
96
1M
112
0
10
20
100
300
500
Regresion multiple El paso sigui ente consiste en esti mar el primer modelo de regresi6n multiple. La tcorfa econ6mi ca para cste amllisis sug iere que la cantidad produeida de lejido de algod6n debe estnr relacionada in versamcnte con el precio y con la canlidad importada de tejido y relacionada directamente can la cantidad exportada de tejido. Ademas, la eslrecha correlaci6n
556
Estadisiica para administraci6n y economia
entre el tiempo y la producci6n de tej ido de algod6n indica que la producc i6n dis minuyt> lineal mente con e l paso del liempo, pero que el precio a[ por mayor lambien subi6 lin eal~ mente con el paso del tiempo. La estrec ha correlaci6 n positiva resultante entre cI ticmJXl y cl preci o a[ por mayor influye en ambos coefi cicnles en una ecuaci6n de regresi6n rn(ih i~ pi c. Seleccionamos «cQ((Qnq» como variab le depend iente y «wllOprice}}, «impfab », «ex p ~ rab» y «ti me», por ese orden, como variables independientes . E[ primer amili sis de rcgre~ si6n multiple sc muestra en In Fi gura 13.26. EI aTUl li sis de los cstad fsticos de la regrcsi6n ind ica que e[ valor de R2 es alto y el error tfpico de [a estimaci6 n (5) es igual a 78,91 , en eomparaci6 n con la desv iaci6n tipica de 290,5 (Fi gura 13.23) de «cottonq », cuando se considera de forma ais lada. Las variables «irnpbaf;} y «expfnb» son ambas significativas y licncn s ignos que corres ponden a In teoria econ6 mica. Los pequeiios estadfsticos I de St udent de «whoprice)} y «time» indi can que, en realidad , existe un grave problema. A mbas variables no pueden incJ uirse co mo predictorcs porque representan el mismo efecto. Las reglas para eli minar variables se basan en una combinaci6n tanto de las teorras INTlRPRETACION subyacentes al modelo como de indicadores estadfsticos. La regia estadfsti ca serfa elim inar 13 variable que tiene el menor t de St udent absoluto, es deci r, «tim e». La teorra economi ca defenderfa la in clusi6n de una variable del precio en un modelo para predecir la cantidad producida 0 la cantidad demandada. Vemos que en este caso ambas reg las !levan a la mi srna conclusi6 n. No siempre oellrre asf, por 10 que cs muy importante va [orar bien los reS ll l~ tados y tener daros los objetivos del modelo. Figura 13.26.
Modelo inicial de regresion multiple (salida Minitab) .
Regressio n Analvsis: cottonq versus whopric e, impfab, expfab, time
The regression equation is cottonq =8876 - 24.3 whoprice - 5 . 57 impfab + 0 . 376 expfab - 65 . 5 time Predictor Constant whoprice impfab expfab time
Coef 8876 -24 . 31 -5 . 565 0.3758 -65 . 51
S = 78.9141
SE Coef 2295 24 . 45 2.527 0.1595 70.24
R- Sq = 93.7\
•
T
3.87 - 0.99 - 2 .20 2.36 -0.99
0.001 0.331 0.03 8 0.027 0.361
R-Sq (adjJ
~
92.6\
Analysis of Variance Source DF Regression 4 Residual Error 23 Tota l 27 ource whoprice impfab expfab time
DF 1 1 1 1
SS 2134572 143231 2277803
MS 533643 6227
F 85 . 69
P
0.001
Nota Esta tabla indica la variabilidad explicada co ndicionada de cada variable, dado el orden de entrada utilizado para esle analisis de regresion .
Seq S5 2055110 44905 29141 5417
Unusual Observations Obs Whoprice 18 110
Cottonq Fit 1810.0 1663.3
5E Fit 29.6
Residual 146.7
se Resid 2.DOR
R denotes an observation with a large standardized residual .
Capitulo 13.
Regresion multiple
557
Es impo rtante fonnular claramente las razones por las que se seleccionan las vari ables antes de examinar los resultados. En los modelos eeon6micos de demanda 0 de oferta como el que examinamos aquf, desearfamos fervie nlemente seguir la teorla eeon6mica e in clui r cI preeio, a menos que los resultados estad fsticos fueran mlly contrarios a esa decisi6n previa. POI' ejemplo , si eI va lor absoluto de l eSladfslico 1 de Student del liempo ruera superior a 2,5 0 3 y el valor absoluto del estadfstico f de Student del prccio al pa r mayor fuera inferior a I, habrfa prucbas contundentes en contra de la teorla de que el prec io es una importante variab le. Basandose en este anali sis, se estima un segundo moclelo de regresi6n , mostrado en la Figura 13.27, en eI que se excluye el liempo como variable de prediceion. Ahara vemos que la variable «whopricc» cs muy significaliva y que los estadfsti cos s y R2 son esencial mente iguales que los del primer Hllalisi s de regresi6n (Figura 13.26). Observese tambiell que 1a su ma de los cuadrados de la regres i6n explicada (SCR) y 1a suma de los cuadrados de los errores residua les (SCE) son esencialmen te iguales. La dcsviac i6n tfpica del coefi ciente de ({whoprice» ha disminu ido de 24,45 a 2,835 y, como consecuencia, la t de Student es con siderab lemen re mayor. Como hemos vista en el apartaelo 13.4, euando exislen eorrelaciones estrechas entre variables independientes , las varianzas de los estimadores de los coeficientes son mucho mayores. Vemos aquf ese efecto. Observesc tambien que en este modelo de regresi6n, la estimaci6 n del coeficien te del precio al por mayor cambia de - 24,31 a - 46,956. En cI apartado 13.2 hemos visto que las correlaciones entre variables de pred icci6n producen un comp lejo cfccto en las estirnaciones de los coe fi cientes, par 10 Figura 13.27. Mode lo final del an
Regres~ion Analy~i~:
cottonq
ver~u~
whoprice, impfab. expfab. time
The regression equation is
Predictor Coef Constan t 6757 . 0 whoprice -16 . 956 impfab -6 . 5 1 7 expfab 0 . 3190 5
.
SE Coef 322 . 2
P 0 . 000 0 . 000 0 . 009
2.835 -16 . 56 2 . 306 -2 . 83 0 . 1471 2 . 17
R-Sq
78 . 6998
T 20 . 97
0.040
R-Sq(adj)
93 . 5%
•
92 . 7%
Analysis of Variance Source Regression Residual Error Total Source wh oprice impfab expfab
OF 3 24 27
55
MS
F
P
2129156 148648 2277803
709719 6194
111 . 59
0 . 000
OF
Seq 55
1 1 1
2055110 44905 29141
Nota Estas sucesivas sumas de los
,14-------1 cuadrados explicadas condicionadas son iguales
que las de la regresi6n de la Figura 13.26. que incluian el tiempo como variable de prediccion.
Unusual Observations Obs 18
Whoprice
Cottonq
Fit
SE Fit
Residual
St. Res i d
110
1810 . 0
1642 . 0
18.7
168 . 0
2 . 20R
R denotes an observat ion wi th a large standardized residual.
558
Esladislica para administraci6n yeconomfa
que no siempre ex iSle una direrenc ia tan grande. Sin embargo, Ins correlnciones enlre variables independientes sicmpre aumentnn el e rror tfpico de los coeficicnte5. Los errores Ifpicos de los Olros dos coeficientes no han cmnbiado significati va rnente, debido a que las correlac iones con el tiempo no eran gra ndcs. EI programa Minitab tambi en conti ene una lista de observaciones con residuos extremos. Vemos en la observaci6n 18 que eI valor observado de ( cottonq» es muy superior al valor que predice la ecuacion. En estc caso, podrfamos decidir volver a los datos origi nales y tratar de averi guar 5i hay un error en los dalos del fi chero. Esa in vestigacion tam bie n podrfa ayudar a cornprender el proceso estudiado utilizando la regres i6n multip le.
Efecto de la eliminacion de una variable estadisticamente significativa
~
INTERPRETACION
En este apartado examinamos el decLo de la eliminaci6n de una vari able significativa del modelo de regresi6n. En la Figura 13.27 hemos visto que «cx pfnb» es una predictor estadfsticamente signifi cati vo de la canlidnd producida de algod6n. Si ll embargo, el ami.li sis de regresi6n de la Fi gura 13.28 ha eli minado «cxpfab» del modelo de regresi6n de la Figura 13.27. Observese que, como consccuencia de la eliminac i6n de «cx pfab» , eI error tfpico de In estimaci6n ha aumcntado de 78,70 a 84,33 y R2 ha disminuido del 93,5 al 92,2 por cie nto. Estos res ultados indican que el termino de error del modelo ahora es mayor y, por 10 tanto, ha empeorado la calidad del mOOelo. EI cstadfstico F cond icionado de (ex prah» puede calcularse uli li z..1ndo las tablas del anal isis de la varianza de los modelos de las Figuras 13.27 y 13.28. En la sigui ente eeuaci6n , defi nimos la regresi6n lineal a partir de la Figura 13.27 como modelo 1 y la regresi6n de la Fi gura 13.28, eliminado «exprab», como modelo 2. Ut il izando estas convenc iones, cI estad fsti co F cond icionada de la variable «expfab}), X3 , en la hip6les is nula de que su coeficiente es 0, puede calcularse de la forma siguientc:
I' =
SCR, - SCR,
s;
.1)
Figura 13.28. Ana!isis de regresi6n con la eliminaciOn de! tejido exportado (salida Minitab).
=
(2. 129. 156 - 2. 100.0 15) = 4705 6.194 '
Regress ion Analysis: cottonq versus whoprice, impfab, expfab, time 'I'he regression equation is cottonq = 5995 - 48.4 whoprice Predictor Coef Constant 6994 . 8 whoprice - 48.388 impfab -6.195 S
= 84.3299
6 . 20 impfab
SE Coef T 324 . 6 21 55 2 . 955 -16.38 2 .4 65 -2.51
R-Sq
= 92 . 2\
p
0 . 000 0.000 0.0 19
R- Sq(adjJ
= 91.6\
An"lysis of Variance Source Regress ion Residual Error Total
,
OF
25 27
MS SS 2100015 1050007 177788 7112 2277803
F 147 65
P
0.000
Capitulo 13.
Regresi6n multiple
Tambi en podcmos calcular cl cSlad fsti co I de Student cond icionado de la variable mando la ralz cuadrada de la F~-.1 condic ionada: IX) =
J4,705
559
x ]
10-
2, 169
=
y, natural mente, vemos que es igual que el estadfstico ( de Student de la vari able «expfab» F cond icionado de una unica variable independiente siempre es exaetamente igual que el F eondieionado, ya que una F con I grado de libertad en el numerador es exactamente igual a ,2.
(x3) de la Figura 13.27. EI contrasle
Analisis de los residuos Despues de aj ustar el modelo de regresi6n, cs util examinar los residuos para avcriguar e6. mo se aj usta real mente el modelo a los datos y los supuestos de la regresi6n. En ·el apanado 12.7, examinamos el analisis de los casas atfpicos y los puntas extremos en la regres ion simple. Esas ideas tambien se aplican direclame nle a la regres ion mult iple y deben formar parte del anal isis de los residuos . Recuerdese que los res iduos se calculan de la forma sigui ente: ei = Yi - Yi
Con el programa Minitab 0 con eualquier olro buen paquetc estadfstico se puede calcular una variable que contenga los residuos de un anal isis de regres i6n. Se ha hecho para el modelo final de regresi6n de la F,igura 13.27. EI primer paso eonsiste en exam inar la paUla de los residuos eonstruyendo un hi stograma, como el de 1a Figura 13.29. Vemos que la di stribuei6n de los rcsiduos es aprox im adamente simctrica. La di stribuei6n tambicn parcee alga uniforme. Observese que se debe en parte al pequeno tamano de la muestra utilizada para construir eI histograrria.
Histogram of RESI1
Figura 13.29. Histograma de los residuos del modelo final de reg resi6n .
Normal 9 8 7
~ 5
.,. ~
~ 4 3 2
1
o
~
I
t;' 6
V -150
\
V -1 00
\ -50
o RESI1
~
'i-50
100
150
560
Esladfslica para adminislraci6n y economfa
"
Figura 13.30.
Gr.1fico de probabilidad normal de los residuos del modelo.
•
95
•
90
/" •
BO ~
C
••u • "-
lO
GO
so
.,'
<0
"
••
20
•
'"
•••
•
•
•
5
• 1
-200
a
-100
100
200
Residual
La realizaci6n de un gnlfico de probabjlidad normal , como el de la Figura 13.30, es util para averiguar la paula de los residuos. EI gn'ifico indica la existencia de una relaci6n lineal aproximada y, par 10 tan to, no es posib le rechazar cl supuesto de que los residuos sigucn una di stribuci6n normal. Tambien es bueno representar los residuos en relaci6n co"n cada una de Jas variables independiemes incluidas en eJ anaiisis. Eso permite comprobar que 110 hab ra ullas cuan tos puntos de datos excepc ionalcs 0 una campJeja re laci6 n no lineal condicionada de una de las variab les independientes. Si el model o se ha ·especificado y se ha estimado correclamente, espe ramos que no exisla ninguna pauta de relaci6n entre las variables indepen dienles y los residuos. La Figura 13.31 muestra cI grMico de los residuos en relaci 6n can la variable del prccio al por mayor. No observamos ninguna paura excepcional en estc gn'ifico, salvo el elevado caso atfp ico posi tivo cu:ando el precio al por mayor es aproximadamente 110. En la Figura 13.32 moslramos el grMico de los residuos en relaci6n con el teji do im portado. Una vez mas, no vemos ninguna paUla excepcional de los residuos, pero sf observamos que la mayorfa de las importaciones estan concentradas entre 0 y 10. Par 10 tan to, 200
Figura 13.31.
Diagrama de puntos dispersos de los residuos en relaci6n con el precio.at por mayor.
•
ISO 100 ~ ~
~
#
•
SO
w
"
• •
••
•
• •
a -50
•
• •
• • 100
104
•
•
•
•
•
•
-100
•
•
•
•
•
• 108
whoprice
112
116
Capitulo 13.
Regresi6n multiple
561
200
Figura 13.32. Diagrama de puntas dispersos de los residuos en relacion can el tejido importado.
•
150
•
100
-" ~
50
•
w
~
a -50
•
•
• •
.'•
•
• • •
•
•
• •" •
-100
•
•• •
• •
0
5
10
30
2S
20
15 impfab
los valores mas altos del tej ido importado podrfan producir un gran efecto en el coeficiente de la pendi enle de la recta de regresi6n. Por ul timo, en la Figura 13.33 vemos un gnirico de los residuos en relaci6n con cl tcj ido expollado. De nuevo, la pau la de los residuos no sugiere L1n a alternativa a Ja relaci6n lineal. EI ana lisis final de los residuos exa min
200
•
150 100
"
~
so
w
~
•
,
•
•
•
.'
•
-so
•
•
-100 100
• • 200
•
•
•
a
•
•
•
•
• •
•
• •
•
• 300 expfab
400
SOO
562
Estadislica para administraci6n y economfa
Figura 13.34. Diagrama de puntos dispersos de los residuos en relacion con el valor observado del algod6n.
200 ,------------------------------------------,
•
150 100
•
..
•
•
• •
50
•
•
•
•
•
0t-----------------------------------••----------1 •
•
-50
•
•
•
•
-100
• 1200
• •
1600
1400
•
• • • 2000
1800
• 2200
2400
cottonq
Figura 13.35. Diagrama de puntas dispersos de los residuos en relaci6n can el valor predicho del algodon.
200 ,-------------------------------------------, •
150 100 50
•
.
• •
• •
• • • • 0t---------------------------------------••------~ • • • • • • -50 • • • • • • -100 • •
•
1400
1600
1800 Fitted Va lue
2000
2200
En el Capftulo 14 ulili zaremos el analisis de los res iduos para identificar dos situaciones del modelo de regresi6n, la heterocedasticidad y la aUlocorrelaci6n, que violan el supuesto del ana li sis de regresi6n de que la vari anza de los errores es la mi sma en el rango del modelo.
EJERCICIOS
Ejercicios basicos 13.78. Suponga que se incluyen dos variables independi entes como variables de predicci6n en un amilisis de rcgrcsi6n multiple. l,C6mo cabe esperar que afecle a los cocficienles de la pendiente estimados cuando estas dos variables lienen una cOiTeluci6n igual a a) Q,78?
b) 0,08? c) Q,94?
d) D,33?
13.79. Considere un umilisis de regresi6n con II = 34 Y cualro variables independientes posibles. Suponga que una de las variables independientes liene una correlaci6n de 0,23 con la variable depcndicllIc. i,Impli ca eso qlle esta variable independi enle tendr:\ un estadfst icQ I de Student muy pequeno en el amilisis de regresi6n con las cuatro variables de predicti6n? 13.80. Considere un anal isis de regresi6n con II = 47 Y Ires variables independicnles posibles. Suponga que una de las variables independientes tiene
Capitulo 13.
una correlaci6n de 0,95 con la variable dcpendienle. i,lmpliea eso que esta variable indepen diente tcndra un esladlslico f de Student muy grande en el amilisis de regresi6n con las tres variables de predicci6n? 13.81. Considere ll11 anal isis de regresion can 1/ = 49 y dos variables indepcndientcs posibles. Suponga que una de las variables independientes liene una correlaci6n de 0,56 con la variable dependiente. i,lmplica eso que eSla variable independienle lendni un estadfsli co t de Studenl muy pequeno en el amllisis de regresi6n con las dos variables de predicci6n?
Regresion multiple
13.83. Sc pidi6 a una mueSlra alealoria de 93 estudiantes universitarios de primer ario de la Universidad de Illinois que valoraran en una escala de r (baja) a 10 (alta) su opini6n general sobre la vi~ da en la residencia universitaria. Tambien se les pidi6 que valoraran su nivel de satisfaccion con los compaficros, con la planta, con la residencia y con el director de la residencia (se ObluvO informacion sobre la satisfacci6n con la habitacion. pero 6sta sc dcscano mas tarde, porque no sumi nistrnba mas informaci6n para explicar la opinion general). Se estim6 cl siguiente modelo:
y = Po + PIX! + P~2 +
pyX]
+ PttX4 + G
donde
Ejercicios aplicados
Y = opini6n general sobre la residencia = satisfacci6n con los compafieros
-1,3.82. Para averiguar c6mo influye en un eSlado el po-
Xl
del' econ6mico de una compafifa de seguras de accidentes en su poder polflico, se desarro1l6 cl siguiente modelo y sc ajust6 a los datos de los 50 estados de ESlados Unidos.
X2
= satis l~'lcci6n
x3
= satisfaccion con la residencia
X4
=
dos de este estudio.
Y = cociente entre el pago de los impuesLos
=
x2 =
x] =
x4 =
x., =
AquI se muestra parte de ]a salida informatica de la regresi6n eSlimada. Realiee un infon.n c que resuma los resultados de cste cstudio. «-SQUARE = 0.5L5
Parameter Intercept Xl
X3 X4 X5
Student's t for HO: Std. Error Estimate Parameter '= 0 of Estimate 10.60 -0.90 - 13.85 0.080 O.tOO
2.41 -0.69 -2.83 0.50 5.00
4.40 1.3 1 4.1 8 0.160 0.020
sat isfaccion con cl director de la residen-
Utilice la parte de la salida informatica de la regrcsion es(imada que se muestra a continuaci6n para realiwr un informe que resuma los resulta-
donde estatales y locales de la empresa, en miles de d6lares, y los ingresos fiscales eSlalales y locales totales en millones de d61ares coeficicnte de concentraci6n estatal de las companlas de seguras (que mide la concenrracion de los recursos bancarios) renla per capita del eSlado en miles de d6lares cociente entre la renla no agricola y la suma de la renta agrfcola y no agrfcola cociente entre la reola neta despues de impuestos de la compafiia de seguras y las reservas de segura (multiplicado POl' 1.000) media de las reservas de seguro (dividida PO' lO'(JOO)
con la plama
om
y= Po + P!Xl + fJ~ + pyX] + P.p4 + P.,xs + f'.
XI
563
DEPENDENT VARIABLE, Y OVl':RALL OPINION
SOURCE
DF
MODEL ERROR TOTAL
88
4
92
SUN OF SQUARES
37 . 016 81 . 780 118 . 79
~~
SOUAAE
FVALUE
R~SOUAAE
9.2540 0 . 9293
9 958
0 . 312
PARAMETER
ESTIMATE
STUDENT'S t FOR HO: PARAMETER = 0
INTERCEP'l'
3 . 950 0.106 0 122 0 . 092 0 . 1 69
5 . 84 1. 69 1. 70 1.75 2.64
Xl x2 x3 X4
STD. ERROR OF ESTIMATE
0 . 676 0 .063 o. 072 0 053 0 064
"'------=-"-------'-------'--13.84. En un estudio, se ajusl6 el siguiente modele a 47 obscrvaciones mensuales e n un intento de ex plicar la diferencia entre los tipos de los certificados de dep6sito y los tipos del papel comercial: y = Po
+ PIX! + P1h + e
donde y ~ tipo de los cenificados de dep6sito mcnos tipo del papc1 comcrcial XI = tiro del papel comercial X2 = cociente e ntre los prestamos y las invcrsiones y·el capital
564
Esladfslica para administracion y economfa
Utilicc la IXlrtc de la sa lida informatica de la rc~ gresi6n estimada que se muestra a continuaci 6n para escribir un informe que resuma los resultados de este estudiu. R-SQUARE - 0 .7 30 STUDENT'S t; FOR HO: PARAMETER '" 0
STD. ERROR OF ESTIMATE
0 . 1 86
- 4 . 14 5 . 64
0 . 45 0
2 . 08
1. 343 0 . 0 33 0 . 216
PARAMETER
ESTIMATE
INTERCE PT
- 5.55 9
Xl X2
13.85. (i., Se Ie ha pcdido quc dcsarrolle un modelu de regresi6n multiple para predeci r el numero anual de muertes en carrctcra en Estados Unidos en funci6n del rotal de millas recorridas y de la velocidad media. EI fichcro de datos Trame Death Rate contiene 10 anos de datos anuales sabre las tasas de mortalidad pur 100 millones de millas-vchfculo (y), la distancia total reconida en miles de millones de millas-vehfculo (xd Y la velocidad media en millas por hora de todos los vehfculos (x2)' Ca1cu1c la regresi6n mu ltiple de y con respeclo a XI Y X1 Y rea lice un informe que anal ice sus resultados.
13.86.
El fichero de datos Household Income cuntiene datos de los 50 est ados de Estados Vll idos. Las variables incluidas en el fichero son el porcentaje de mujeres que partieipan en la poblaci6n nctiva (y) , la mediana de la renin personal de los hugares (Xl), el nt' mero med io de anos de
(i
estudios de las mujeres (x2) Y la lasa de dese m_ pleo de las mujercs (x)). Calcu[e la regresi6n multiple de y con respeeto a X I ' X l YX ) Y realiee Ull in forme sobre sus resultados. 13.87. ( ) Le han pedido que desarrolle un modelo de regresi6n multipl~ que prediga la ofen a monetaria real de Alemania en funci6n de la rcnta y del tipo de interes. El fichero de datos Real Money eontiene 12 observaeiones anllales sobre cl dinero real pe r capita (y). la renta real per capita (X I) Y los lipos de interes (x2) de Alemania. Utilkc estos datos para desarrollar un modclo que prediga el dinero real per c:"ipita en funei6n de la renla per capita Y del tipo de interes y realice un informc sobre sus resultados.
13.88. ~ oj L"1s Naeiones Unidas Ie han conlralado como consultor para ayudar a identiticar Ius faetores que predigan el crecirniento dc [n industria manufacturera de los pafses en vias de desarrollo. Ha decidido utilizar una regresi6n multiple para desarrollar un modelo e identificar las variables importames que prediccn c[ credmiento. Ha rccugido los datos de 48 pafse~ en el Fichera de datos Developing Country. Las variables inclllidas son cl crecimiento porcentual de la in dustria manufactllrera (y), cl crccimiento agrfcola porcentual (XI ) ' el crecimicnto porcentual de las exportacioncs (x2) Y la tasa porcentual de intlaei6n (x)) de 48 pafses en vfas de desarrollo. Desarrolle un modelo de regresi6n multiple y escriba un informe sobre sus resultados .
.
RESUMEN En este capftulo hemos sentado las bases necesarias para cornprender Y ap[icar los metodos de regresi6n multiple. Hemos cumenzado analizando delalladamente Ius supuestos del modelo y las consecuencias de esos supuestos. A partir de ahf, hemos presenlado el metodo de mfn imos cuadrados y los metodos para obtener estimaciones de los coeficientes. Con esas bases, hemos desarrollado metodos para averiguar e6mu se ajusta el tlludelo de regresi6n a los datos observados, 10 ellal nos ha llevado a desarrollar los melodos clasicos de inferencia para contraSfar hip6tesis sobre Ius eoeticientes Y para eonstruir intervalos de confianza. Eso nos ha llevado a presentar metodos para realizar predieciones de la variable (\t;pendiente a partir del modelo e inferencias sobre los valores predichos.
Con estas bases y comprendiendo el modele basico, hemos pllsadu a examinar algunas tecnieas impOrlanles. Hemos presentado mcrodos para transformar model os cuadn:lticos en funciones lineales. Tambien hemos desarrollado trans formaciones para modelos lineales logarftmicos. Por ultimo, hemos come{lzado a presentar metodos para utilizar varinb[es f"ieticias para represenlar variables de predicci6n categ6rieas. El capItulo termina can Ull extenso modelo de aplicaci6n que muestra c6mo rcalizarfa un analista todo el proceso de desarrollo del modelo de regresi6n. Este proceso eomienza can sencillos estadfsticos descriptivos, teenicas grufieas Y la aplicaci6n de metodos de rcgresi6n Y termina con un analisis de los residuos para cxaminar [a compatibilidad del modelo con los datos y los supuestos del modelo.
Capitulo 13.
Regresi6n multiple
565
TERM IN OS CLAVE anal isis de regresi6n utilizando variables fictic ias, 547 base para ]a infel'enci[l sobre la regresi6n pob[acional. 513 cocfi cientc de cOl"l'clacic'in Illultiple, 509 coefici ente de determinaci6n ajustado, 509 conlraste de un subconjunto de los par:illletros de regresic'in, 529 contraste de todos los parametros de un modele de regresi6n, 527 contrastes de hip6tesis de los coeficientes de regresi6n, 515
descomposici6n de la suma de los cuadrados y coeficiente de detcrrninaci6n, 505 error tfpico de la estimaci6n. 506 est imaci6n JXlr millimos cuadrados y regrcsi6n muestral multip[e, 498 estimaci6n de [a varianz[l de los errores, 506 intervalos de confianza de los coeficicntes de regres i6n, 5 [3 mode[o de regresi6n poblacional multiple, 494
objctivos de la regresi6n, 49 [ prcdicci6n a part ir de modclos de rcgresi6n multiple, 533 rcgrcsi6n utilizando vari:,b[es ficticias para contraSlar las diferencias emre pendientes, 548 supuCSIOS habituales de [a regresi6n mUltiple, 497 transformaciones de modelos cuadnllicos, 537 trans formac iones de mode[os exponenciales, 540
EJERCICIOS V APLICACIONES DEL CAPiTULO 13.89. EI mctodo de mlnimos cuadrados se utili za
mu~
cho mas a menudo que cllalquier Olro para esti~ mar los parfimelros de un modelo de regresi6n multiple. Explique la bast! de este metoda de estimrtei6n y explique por que se utili za tanto. 13.90. Es habitual caleular una labia de l amilisis de la varianza junto con una regresi6n multipl e est imada. Exptique detenidamente que informacion puede extraerse de esa tabla. 13.91. lndique si eada una de las afirmaeiones siguienles es verdadera 0 fa[ sa.
13.93, Se haee una regresi6n de una variable depend iente can respecto a dos variables indcpcnd ie ntes. Es posib[e que no puedan rechazarse las hip6tesis Ho: [31 = 0 Y Ho: [32 = 0 a nive!es bajos de significac i6n y, sin embargo, pucda rcchazarse [a hipotesis No: PI = fl2 = 0 a un Il ivel muy bajo de significacion. i,En quc c ircunstan e ias podrfa darse este resultado? 13.94. [Para Iweer eSle ejereicio es necesario lIaber fefdo el apindice del capillllol Suponga que se esti ma el modelo de rcgrcs i6n por mfnimos (;uadrados:
a) La suma de los cuadrados de los crrorcs de-
YI
be ser menor que la suma de tos cuadrados de 1.1 reg resi6n . b) En lugar de realizar una regresi6n multiple, podemos obtener la mi sma informacion a partir de regresiones lineales simples de la variable dependiente con respccto a cada variable independiente. c) EI coetieiente de determinaci6n no pucdc ser negativo. d) EI coeficiente de determi naci6 n ajustado no puede seT negativo. c) El coeficie n ~e de correlaci6n multip[e es la raiz euadrada del eoeficiente de determinac ion. 13.92. Si se aiiadc una variable independiente mas, por irrelevante que sea, a un modelo de regresi6n multiple, la suma de [os cuadrados de [os errores es menor. Expl ique por que y anatice las consecuencias para 1.1 intcrpretaci6n del coeficiente de d eterminaci6n.
=
Po + PIX I; + {J~2; +
C;
Dcmucstre que [os residuos, e;, del modele ~ustado suman O. 13.95. Se realizo un cscudio para evaluar [a influencia de algunos faetores en [a ereaci6n de nuevas empresas e n [a industria de chips de computa.dor. Se estim6 el siguiente modelo para ull a mucstra de 70 paises :
y=
- 59,31
+ 4,983x, + 2,1 98x 2 + 3,8 [6x3 ( 1.156)
- O,886x5 (3,055)
(0.210)
+ 3,2 l5x6 + O,085X7 (1.568)
(2.063)
-
0 ,3 [OX4 (0,]]0)
R2 = 0,766
(0.354)
dande
y
=
Xl =
X2
=
x)
=
X4
=
c rcaeio n de nuevas empresas en la industria poblacion e n millones tamafio de 1.1 industria medida de la calidad de vida econ6mica medida de 1.1 calidad de vida polftica
566
Estadfstica para administraci6n y economfa
medida dc la calidad dc vida medioambiental = Illcd ida de In calidad de vida san itaria y cd ucmiva = medida de la calidad de vida social
Xs = x6
X1
a) Interprelc los cocfic ientes de regresi6n cstimados. b) Intcrpretc el coeficientc de determ inacion. c) Contrasle al nivcl de signifi caci6n del I par cienlo lu hip6lcsis nula de que las dos variables indepcndic111es, consideradas en conjun. to, no innuyen lineal mente en la tasa de rcspuestu. d) Halle e intcrpretc cl intervalo de confianza al 99 pOl' ciento de (ll ' e) Contrnste In hip6tcsis nula
Los nUlllcros entre pare ntcsis s ituados debajo de los coeficientes son los errores tfpicos de los coeticicntcs estimados.
a) Interprete los cocfi cien tes de regresi6n esti-
mados. Interprele el coe fi cien tc de delenninaci6n . Halle cl intervalo de con fi anza al 90 pur dcnto del aumento de la e reaci6n de empre· sas provocudo por un aumenlO de la calidad de vida ccon6mica de I unidad, manteniendose toelas las dcmas variables constanles. COlllrasle al nivel del 5 par cie nto la hip6tesis nula de que, manteniendose todo 10 demas eonslantc, la caUdad de vida medioambienlal no innuye en la creac i6n dc cmpresas fren te a la hi p6tesis altcmati va bilateral. Contraste al ni vel del 5 par dento 1a hip6tesis nulu de que. munleniendose todo 10 de· mas conSlanle, la ca lidad de vida sanitaria y educuti va no innuye en la crcaci6n de empresas frentc a la hip6tesis alternali va bilateral. Contrasle In hip61csis nula de que eSlas siCle 'llilriables indepcndientes, considcradas en conjunto, no inn uyen en la creaci6n de empresns.
b) c)
d)
e)
f)
frente a la hip6tesis alternativa
H I :(l2
e interprete sus resu ltados. 13.97. Una consultora ofrece cursos de gesti6n fin anciera para ejecutivos. AI final de estos cursos. se pide a los participanles que hagan una valo· racion global del valor de l curso. Para ver c6mo innuycn algunos factores en las valoraciones, se ajust6 el modelo
Y=
Po + /JJxJ + {J~2 + P}-l:J + C
para 25 cursos, donde
Y = va loraci6n media realizada por los participantes en el curso XI
X2
13.96. Una Cmprcsa de sondcos realiza habituahnente estudi o~ sobre los ~ogaJ'es pOl' medio de cuesli onartos por correo y liene intcrcs en com>ccr los factores que innuycn en la tasa de respuesta. En un expcrimento, se cnviaron 30 jucgos de cueslionarios a posibles encuestados. EI modelo de rcgrcsi6n ajustado al conjunto de datos resultanles era
x)
= po rccnluje del cursa dedicado a reulizar sesiones de di scusi6n en grupo = ell nlidnd de dinero (en d6lares) por asis-
tetHe al curso ded icndo a la pre paraci6n del material del curso = cuntidad de dinero por asistente al cursa dcdicado a la provisi6n de material no reIndonado con el cursu (comida, bcbidas, etc.)
A conlinuaci6n SC' mueslra una pane de la salida del progruma SAS dc la regresi6n ajustada. R- SQUARE - 0.5 7 9
donde Xl X2
= numero de preguntas realizadas = longitud dcl cuestionario en numero de paINTERCEPT
labras
A continuuci6 n se muestra una parte de la salida del programa SAS de la regresi6n cstimada.
ESTIMATE
ERROR OF ESTiMATE
42.9712 0 . 381 7 0.5 112 0 . 0 15 )
1. 69 2.64 1 . 09
0 . 2018 0 1957 0 0693
Xl X2
ESTiMATE 7 L 3652 - 1 . 6345 - 0.0162
X)
a) Interprete los coeficicntes de regresi6n esti-
R-SQUARE - 0.637
PARAMETER INTERCEPT
Xl X2
s=.
S'l'UDEN'l" S t FOR HOI PARAM!:'l'!:R - 0
Y = porcenlaje de respuestas rccibidas
STUDENT'S t FOR HO: PARAMETER - 0
STD. ERROR OF ESTIMATE
- 2.89 -1 . 78
0 . 6349 0 .0091
mados. b) Interprete el coefi ciente de delerm inaci6n. c) Contraste al nivel de signifi caci6n del 5 par dento la hip6tcsis nula de que las Ires variables indepcndicntes, considcradas en conj un-
Capitulo 13
10, no infillyell linealmenle en la valoraci6n de! clIrso. d) Halle e inlerprele el inlervalo de confianza al 90 por cienlo de !JI' c) COlltraste la hip6tesis nula
frente a la hip6tesis alternativa
H I :P2> O e interprete su resullado. f) Contraste al nivel del 10 por dento la hip6-
tesis nllia
Ho:fh=O frente a la hip6tesis alternaliva
Regresi6n multiple
567
-'"5 = tasa de accioncs disciplinarias .\"(, = lasa de absent ismo de los trabajadores
par hora x7 = attitudes de los trabajadores asalariados, desde baja (in satisfechos) hasta alta, medidas par media de un cuestionnrio. x8 = porcenlaje de (rabajadorcs par hom que haeen al menos una sugereneia en un ana al programa de sugerencias de la planta. Tambien se obtuvo por mfllimos cuadrados un modelo ajustado a partir de estos datos: y= 9 ,062 - 10,944xl + 0,320-"'2 +0,01 9X3
R2= 0,242
Las variables X4' -"'5' X6' X7 YX8 son medidas de los resultados de un sistema de relacioncs laborales de la planta. Contraste al nivcl del I por eiento la hip6tesis nula de que no contribuyen a explicar la eficiencia dirccta del trabajo, dado que tambien se utili zan XI ' x2 Y x3-
e interprete su resu ltado. 13.98. , . Al final de las dases, los profesores sao evaluados por sus estudiantes en una escala de I (malo) a 5 (excelellte). Tambiell se les pregunta a los esludiantes que ealifieaci6n csperan oblener y eSlas se codifiean de la forma siguiente: A = 4, B = 3, etc. EI fichero de datos Teacher Rating coilliene las evaluaciones de los profesores, las calificaciones medias esperadas y el numero de estudiantes de las clases de una muestra aleatoria de 20 clases. Calcule la rcgresi6n multiple de la evaluaci6n con respecto a la califieaci6n esperada y eJllumero de estudiantes y realice un informe sobre sus resultados.
13.99. Sistemas Informiiticos Voiadores, S.A., quiere saber c6mo afectan algullas variables a la eficiencia del Irabajo. Basandose en una muestra de 64 observaci ones, cstim6 ci siguicnlc mode10 por mfnimos cuadrados:
y= - 16,528 + 28.729xl + 0,022X2 -
0,023x) - 0,054x4 - 0,077X5 +0,411-"'6 + 0,349x7 + 0,028x 8 R2=0,467 donde y = fndiee de efieiencia directa del trabajo en la planta de produeci6n X l = eociente entre las homs extmordinarias y las horas ordinarias realizadas por todos los obreros -"'2 = numero medio de trabajadores por hora en la planta x ) = porcemaje dc asalariados que palticipan en algun programa de calidad de vida laboral X4 = numero de reclamaciones recibidas por cada 100 trabajadores
13.100. Basandose en las calificaciones obtenidas por 107 esrudiantes en el pri mer examen de un eurso de estadfstica para los ncgocios, se esti m6 el siguiente modelo por minimos cuadrados: y=2, 178+0,469x l + 3,369x2 + 3,054x3 (0.090)
(0.456)
(1.457)
donele y = calificaci6n efectiva del estudiante en el examen Xl = calificaci6n csperada por el estudiante en el examen X2 = hams semana1es dedicadas a estudiar para el curso xJ = ealifieaci6n media del estudianle
Los numeros entre parentesis situados debajo de los eoctieicnles son los errores t(picos de los eoeficientes estimados. a) Interprete la estimaci6n de (JI' b) Halle e inlcrprcte el inlervalo de confianza al 95 par ciento de P2' e) Contraste la hip6tesis nu la de que fh es 0 frellte a una hip6tesis altemati va bilateral e interprete Sll resultado. d) Interprete el eoeficiente de detenninaci6n. e) Contraste la hip6tesis nula de que
f) Halle e interprete el coeficiente de correla-
ci6n multiple. g) Prediga la califieaci6n de un estudiante que espera una calificaci6n de 80, estudia 8 horas a la semana y tiene una calificaci6n media de 3,0.
568
Esladislica para adminislracioo y economia
13.101. Basandose en 25 alios de datos aouales, se inlent6 cxplicar el uhorro en la India . EI modclo ajustado era
Yi = {Jo
+ fJlXli + rJ~2j + f:i
donde
y = variaci6n del tipo real de los dep6si tos XI = variaci6n de la renta real per capita X2 = variaci6n del ti po de intercs real Las estimaciones de los para metros por mfnimos cuadrados (con los crrores tfpicos entre parentesis) eran (vease la referencia bibliognifica I) b,
~
b,
0,0974(0,02 15)
~
0.374(0,209)
El coefici ente de dcterminaci6n corrcgido era
iP =
°
13.102. Basandose en datos de 2.679 j ugadorcs de balonceslo de centros de cnselianza secundaria, sc ajust6 el siguiente modclo: {J2-'f2i
+ ... + P9-'C91
+C
j
dondc y = minutos j ugados en 13 tcmporada XI = porcentaje de li ros de 2 puntos convertidos Xi = porecmaje de ti ros Iibres X3 = rebotes por minuto . 1."4 = puntos por minulo x~ = raltas por min u\o X6 = robos de bal6n por minuto X7 = lapones por mi nu to XII = perdidas de bal6n por minulo X9 = asistencias por minuto Las eSli maciones de los panl.metros por mfni mos cuadrados (con los errores Ifpicos entre parcnlcsis) son bo ~ b, ~ b, ~ b, ~ b, ~
358,848 (44,695) 0,2855 (0,0388) 504,95 (43,26) 480,04 (224,9) -89 1,67 (180,87)
b,
~
bJ ~ bs ~ b, ~ b, ~
R2 = 0,5239 a) Halle e inlcrprcte el inrervalo de confianl.:t al 90 por cienlo de (J6. b) Halle e interprete cl illlervalo de con fi:lIlz:I al 99 por ciento de (J7. c) COlllraste la hip6tesis nula de que /18 es 0 frente a 1a hip6tesis alteOlativa de que es negativo. Interprctc Sll resultado. d) Conlraste la hip6lcsis nula de que fi9 es 0 frente a b hip6tesis alLCrnativa de que e~ positivo. Intcrprete su resultado. e) Interprele el eocfieiente de determinaci6n. f) Halle e interprete el cocficienle de cOlrelilci6n multiple. 13.103. Basandosc en datos de 63 regiones, se cstim6 el siguientc modelo por mfnimos cuadrados:
0,9 1
a) Halle e interprete el intervalo de con fia nza al 99 POI" cicnto de [JI. b) Contrasle la hip61esis nula de que P2 es frenle a la hip6tcsis alternativa de quc cs positivo. c) Halle el coeficiente de delerminaci6n. d) Contrasle In hip6tesis nula de que Ii, ~ p, ~ O. e) Halle e interprete el coeficicntc de cOlrelaei6n multiple.
Yj = {Jo + PIXI; +
EI coef"icicnte de determinacion es
0,6742 (0,0639) 303 ,8 1 (77,73) - 3.923,5 ( 120.6) 1.350,3 (2 12.3) 722.95 ( 110,98)
y=
0,58 - 0,052x 1 - 0,005..1."2 (0,U I 9)
RZ = 0.1 7
(0.042)
donde y = tasa de crec imi enlo del produclo in terior bruto real XI = renta real per capita X2 = lipo impositivo medio en porcentaje del producto naciona l bruto
Los m"imeros entre parenlesis situados debajo de los coeficienles son los errores tfpicos de los coeficientcs est imados. a) Contraste la hip6tesis nula de que PI es 0 frent e a una hip6tesis alternativa bilatcral. Interprete Sll resultado. b) Contraste la hip6lesis nu la de que (J2 es 0 frente a una hip6tesis alternati va bilateral. Interprete su resultado. c) Inlerprete el cocficienle de determ inaci6n . d ) Halle e interprctc cl coefi cicntc de correlacion multiple . 13,104, En un cstudio, se ajust6 el siguicllte modelo de regresi6n a los datos de 60 golfi stas amateurs:
y=164.683 +34 1, IOX I + 170,02xz + 495,19x) -4,23x-I (10059)
( 167, t8)
(305.48)
- 136.04Oxs - 35.549x6 + 202,52x7 (25.634)
(16.240)
(90.0)
iP =0,5 16
( 106.20)
donde y = ganancias por torneo en d61arcs Xl = longitud med ia del golpe . 1."2 = porcentaje de veccs en que el golpe acuba en la pisla X3 = porccntajc de vcces en que se llega cn buena posici6n al ((green» (<
Capitulo 13.
x" = Xj
.\"6
.\"7
porcent[lje de veces en que se consigue e l par despues de haber cafdo en zona de arena = niimero media de «putts» reali zados en los «greens» a los que se ha lIegado en buena posicion = numero medi o de «putLs» rcalizados en los «greens» a los que no se ha lIegado en buena posici6n = numcro dc anos quc lleva jugando c\ golfista amateur.
Los numeros entre pantntesi s situados debajo de los coefic ientes wn [Of; errores tfpicas de los coeficienles estimados. Realice un infonne que reSllma 10 que ha aprcndido con CSIOS resultados.
13.105. f.1 EI Departamento de Economfa quiere desan'ollar un modelo de regresi6n multiple para predecir la calilicaci6n media (GPA) de los estudiantes en los cursos de economfa. El profesorado del departamento ha reunido datos de 112 licenciados, que contienen las variables CPA de economfa. SAT verbal, SAT de matcmaticas, ACT de ingles, ACT de cicncias 50ciales y puesto oblenido en el bachillemto (I'allk). Los dato~ sc encuentmn en el fichero de datos llamado Student GPA de su disco de datos. El apendice conticne una descripci6n de las variables. a) Uti lice las variables SAT y «rank» para averiguar eutil es el mcjor modclo de predicci6n. Elimine las variables independientes que no scan significativas . i,Cuales son los coeficientes, Sll estadfstico , de Student y el modelo? b) Utilice las variables ACT y «rank» para avcriguar cwll es cl mejor modcl0 de prcdicci6n. Elimine las variables indcpcndientes que no scan sigll ifi cati vas. i,Cuales son los coeficientes. su cstadfstico I de Student y el modelo? c) i.Que madelo predice mejor la GPA de economfa? Aporte pruebas para apoyar su conclusion .
13.106. ( ... EI fichero de datos Salary Model contiene una variable dependiente y siete variables independientes. Tiene que desarrollar el «mejol"» modelo de regresi6n que prediga Yen funei6n de las siete variables independientes. Los datos se encuentran en su disco de datos. La variable dependi enle se llama {
Regresi6n multiple
569
tienen Sli propio nombre. Util iee un anal isis dc regresi6n para averi guar que variables dcbcn eslal" en el modelo final y para estimar los coeJi cientes. Mueslrc el conlraste P eondicionado y el contraSle t condicionada de cualqui er variable eliminada. Analice los residuo.'> del modelo por medio dc grMicos. Mueslre SllS resul tados y anal ice SliS canclusiones. Transfonne las variables si los residuos indican una relaci6n no lineal. Presente claramente su modelo final , mOSlrando los coeficienles y los estadfslieos I de SllIdent de los coeficientes. 13.107. ~. I Uti lice los datos del fichero Citydat para estimar una ccuaci6n de rcgrcsion que pueda utilizarsc para avcriguar cI cfccto marginal que produce el porcentaje de locales comerciales cn c1 valor dc mcrcado por vivicnda ocupada por su propietario. IncJlIya en Sll eCllaci6n de regresi6n multiple el porcentaje de viviendas ocupadas por Sli propietario, cl porcentajc dc locales ind ustriales, el numero mediano de habitaciones par vivienda y la renta per capita como variables de predicci6n adicionales. Las variables estrin en Sll disco de datos y se describen en el apendice . Indique cuales son significativas. Sll eeuaci6n fina l debe incluir un icamente las variables significativas. Analice e inlerprele su modelo final de regresi6n e indique c6mo seleecionaria una ciudad para comprar Sll vivienda.
13.108.
Los rcsponsables de la National Hi ghway Traffic SafclY Administralion (NHTSA) de Estados Unidos quieren saber si los diferentes tipas de vehfculos de un estado tienen relaei6n con la (asa de mOltalidad en carretera del estado. Le han pedido quc dcsarrollc varios anal isis de regresi6 n multiple para averiguar si el peso medio de los vehfculos, el porcelllaje de vehfculos importados, el porcentaje de camiones ligeros y la antigiiedad media de los autom6viles estan relacionados con las muen es en accidente ocu rridas en autom6v iles y camionetas. Los datos del anatisis se encuentran en el fichero de datos Ilamado Crash. que esta en su disco de datos. (0,
a) Prepare lIna malriz de correlaciones de las muertcs ell accidentc y las variables de prcdicci6n. Observe las rclaeioncs si mples entre las muertes en accidente y las variables de predicci6n. lndique ademas Tualquier problema posible de multicolinealidad entre las variables de predicei6n.
570
Estadfstica para administracion y economia
a) Caleule la matriz de carrelaciones y eSI
b) Realice un ,malisis de regrcsion multiple de las muertes en accidentc con rcspccto a las variables de prcdiccion posibles. Elimine en el modelo de regresi6n eualquier variable de prediccion no significativa, una dc cada vez. Indique su mejor modelo final. c) Exponga las conclusiones de su anal isis y anal ice la importancia condi cionada dc las variables desde el punto de vista de su relacion COIl las muenes en accidente. 13.109. , If El Departamento de Transporte de Estados Unidos qui ere saher 5i los estados que tienen un porcentaje mayor de poblacion urbana tienen una lasa mas alia de rnuenes totales en accidente ocurridas en automoviles y camionetas. Tambien quiere saber si la vcloc idad media a la que se conduce par las CUlTeteras rurales 0 el porcentaje de carreteras rurales que esta asfaltado estan relacionados con las tasas de muertes en accidente, dado el porcenlaje de ]loblacion urbana. Los datos de este estudio se encuemran en el fichero de datos Crash almacenado en su disco de datos. a) Prepare una malriz de conelaciones y estadfsticos descriptivos de las muertes en accidente y las variables de prediccion posi bles. Senale las relaciones y cualquier problema posib le de multicolinealidad. b) Realice un anfilisis de regresion mulliple de las muertes en aceidcnle con respeeto a las variables de prediccion posibles . Averigiie euales de las variables deben mantenerse en el modelo de regresion porque tienen una relaci6n sign iricativa. c) Muestre Ins resultados de su analisis desde el punta dc vista de su modelo rinal de regresion. Indique que variable ... son signifi cali vas.
13.110.
) Un econom isia desea predecir el valor de mercado de las viviendas de pequenas ei udades del Media Oeste ocupadas por sus propietarios. Ha reunido un cooj uoto de datos de 45 pcquenas ciudades que se refieren a un periodo de dos anos y quiere que los utilice como fuente de datos para el antilisis. Los datos se encuentmn en el fiehero Citydat, que est:! en su disco de datos. Quiere que desarrolle una ecuacion de prediccion basada en una regresion multiple. Las variables de prediccion posibles son el tamano de la vivienda, el lipo itll positivo, eI porcentaje de loca les comerciales, la renta per capita y el gasto publico municipal total.
13.111.
f,
Stuart Wainwright, vicepresidente de compms para una gran cadena nacionaJ de licndas de ESlados Unidos, Ie ha pedido que realice un anal isis de las ventas al por menor por estados. Quiere saber si el porcentaje de descmpJcados o la renla personal per capita esttin relacionados con las ventas al por menor per ca pila. Los datos para realizar este estudio se encuentran en cl fich ero de datos Ilamada Retail, que esla almacenado en su disco de datos. a) Prepare una matriz de correlaciones, calcuIe los estadfsticos descri ptivos y realice un anal isis de regresion de las vcntas al por menor per capila can rcspccto al porcentaje de desempleados y a la renta personal. Calcule intervalos de confianZil al 95 por cien\0 de los coericientes de la pendiente de cada ecuaci6n de regresi6n. b) ,;,Cu{Ll es el erecto condieionado de una disminuci6n de la renta per capita de 1.000 $ en las venlas per capita? c) i, Mejorarfa la ecuacion de prediccion aiiadiendo la poblacion de los estados como una variable de prediecion adicional?
13.112.
i ~ Un importanle provecdor nacional de materiales de construccion para la construccion de vi viendas eSla prcocupado por las ve nta ~ tolales del pr6ximo ano. Es bien sabido que las ventas de la empresa est{1Il relacionadas di rectamente con la inversion nacional total en
Capitulo 13.
viviendu. Algunos banqueros de Nueva York estan prediciendo que los tipos de intcrcs subiran alredcdor de 2 puntos porccntuales el pr6ximo ano. Le han pedido que realice un analisis de regresi6n para podcr predecir el cfecto de las vnl'iacioncs de los tipos de intcres en la inversi6n en viviendu. Usted cree que, adcmas del !ipo de interes, el PNB, In oferta monClaria, cl gnslo publico y el fndicc de precios de los bienes ucabados podrfall scr prediclores de la inversi6n en vivienda. por 10 que llega a la conclllsi6n dc que ncccsi!
t
La Congrcssional Budget Office (e BO) de Estados Unidos tiene intercs en saber 5i las tasas de mortalidad infantil de los eslados esttUl relacionadas con el ni ve l de rec ursos medicos de que dispone cada uno. Los datos para el estudio se encuentran en el fi chero dc datos lIamado State, que esta almacenado en SlI disco de datos. L. .I medida de la mortalidad infantil SUIl las mucrtes de ninos de menos de I ario por cada tOO nacidos vivos. EI conjunto de variables de pred icci6n pasibles son los medicos por 100.000 habitantes. la renla personal per capita y los gastos totales de los hospitales (esta variable debe expresarse en magnitudes per capi ta dividicndo por la poblaci6n del estado). a) Reulice un amilisis de rcgrcsi6n mutt iple y avcrigi.ie que variables de predicci6n deben incluirse en cI modelo de regresi6n multi -
Regresi6n multiple
571
pie. Interprete su modelo final de regrcsi6n y anal ice los cocficiente5, sus estudfsticos I de Student. el error tfpieo de 1a cstimac i6n y cI R2. b) JdenLitique dos variables mas que pod rian ser predictores adicionalcs si se anadieran al modelo de regresi6n multiple. Contraste su erecto en un anali sis de regresi6n multi ple e indique si sus sospcchas iniciales cran corrcctas. 13.11 4. f" Desarro lle un modelo de regresion multi ple para predccir cI salario en funci6n de otras variables independientes utilizando los datos del fich ero Salary Model. que se encuentra en su disco de datos. Para eSle problema no utilice los :tfios de expcriencia sino la edad como sucedaneo de la experiencia. a) Describa los pasos scguidos para obtcner el modclo final de regres i6n. b) Contnlstc la hip6tcsis de que la lasa de variaci6n de los salarios femeninos en fun ci6n de la edad es menor que la lasa de variad6n de los salarios masculinos en rutlci6n de la edad. Debe formular su contraste de hip6tesi s de manera que aporte pruebas conlundemes de la ex istencia dc di scrimi naci6n de las mujeres [nora: las mujcres se indic:m mcdiante un <
572
Estadistica para administraci6n y economia
adici6n del porectltaje dc locales comerciales y del poreentaje de locales industriales afeeta a la variabil idad en estos modelos de regresi6n. EI modelo b:lsieo para predecir el valor de mcrcado de las viviendas (e 10) incluye como variables indcpcndientes el lamano de la vivicnda (c4), el tipo impositivo (e7), la renta per capita (e9) y el porcentajc de viviendas ocupadas por sus propietarios (e I2). EI modelo basico para predcc ir cl tipo imposi ti vo (e7) incluye como variables indepcndientes el valor cat:lstral (c6), los gaslos municipales actuales per capita (c5/ c8) y el porcentaje de viviendas ocupadas por sus propielarios (e I2). Averiglie si el porccnlaje de locales comerciales (cI4) y el porcentaje de locales industriales (e [5) mejoran la variabilidad explicada en cada uno de los tlos mOOclus. Realice Ull contraste F condicionado de cada una de estas variables adicionales. Primero estime el cfeclo eondicionado del porcentajc de locales comerciales par 5i so lo y. a cont inuaci6n, el de locales industriales por sf solo. Explique delen idamente los resultados de su analisis. Incluya en su infonne una explicaci6n de por que cs importunte inc1uir todas las demas variables en el rnodelo de regresi6n en lugar de exmninar simplerncnte el efecto de la rclaci6n directa y s irnpic entre el poreentaje de locales comerciales y el de locales industriales en el tipo imposit ivo y en e[ valor de mcrcado de la vivienda.
13.116. f. Utiliee los datos del fi chcro de datos lIamado Student GJ'A. que se cncuentra en Sil disco de dalos y se describe en el apend ice. a fin de desarrolluf un modelo para prcdecir In calificaci6n media (O r A) de ecollornfa de un estudiantc. ComiCllcc con las variables «ACT scores», «gender» y «H Spcl».
a) Ut il ice metodos cstadfsticos adecuados para elegir un subconjunlo de variables de prediccion cst:ldisticamente significlilivas. Describa su estrategia y defina minuciosamente su modelo final. b) Explique c6mo podrfa utilizar la cornisi6n de adrnisiones de la un iversidad eSlc mode10 para tamar sus decisiones. 13.117. Un economista estim6 para una mucstm aleatoria de 50 observaciones cl modelo de regresi6n
+ fJ1 logX 1i + IJ2 10gX21 + Ih log:r)/ + (J;J log X4i + f;i
Log,V; = cr: donde
y = ingresos brutos generados pOl' una practiea medica Xli = niirnero medio de horas trabajadas par los medicos en la praclica X 2i = numero de medicos en la praetica x )/ = niimero de personal sanitario auxiliar (como cn fenneras) cmpleado en la praclica X 4 1 = numero de habitaciones util izadas en la practica Uti li ce In parte de In salida informatica mastrada aquf para realizar un informe sobre estos resultados. R- SQUAR£ - 0 .927
PARAMETER
ESTUIATE
INTERCE I?'!'
2 . 347
LOG X,
0 .239 0 . 673
="
x,
LOG " LOG
0.279 0.082
STUDENT'S t
STD.
F OR HOI
ERROR OF
PARAMETER ... 0
ESTIMATE
3.27 8.31 6 . 64 1.61
0.013 0 . 081 0.042 0.051
Apendice 1. Obtencion de los estimadores por mfnimos cuadrados Los esl imadorcs de los coeficientes de un mo de le con dos variab les de pred icci6n sc obtienen de la forma sig uientc:
Capitulo 13.
Regresion multiple
573
Sc minimi za
seE ~
I" [Vi -
(bo + b,xli
+ b,x2,)12
i- I
Aplicando el calculo diferencial, obtenemos un conjunlo de Ires ecuaciones normales que pucdcn resol verse para hallar los eslimadores de los coe ricientes:
oseE
--~ O
abo
I"
2
IYi - (b o + b,"1i
+ b,x,,)]( - 1)
~ 0
i '" I
"
"
" "
"
"
oseE
-- ~O
ob ,
I"
2
IYi - (b o + b ,"1i
+
b,x2i)]( - Xli) ~ 0
i= J
" "
"
"
"
"
"
X li X2i
=
"
L
X 2iYi
i- I
oseE
--~O
8b,
I"
2
o '"x li + b,",,)]( - X2,) ~ 0
[Yi - (b +
i- I
"
" "
bo
"
"
"
L.
X 2i
+ b,
i_ I
L
/I
X l i X 2i
+
b2
i- I
L
'\~i
/I
=
i- I
L
X 2iYi
i- I
Como consecuencia de la aplicacion del algoritmo de los minimos cuadrados, tenemos un sistema de tres ec uaciones lineales con tres incognilas, bo, hi Y h2 : nbo + b l
"
bo
I ;=1
bo
L"
i- I
"
"
"
"
"
I Xli + b 2 iI- I X2i = iI- I Yi i- I "
Xli
+ hi
I xt + b2 iI= 1 X l i X 2i = iI'" I XliYi ;= 1
X2i
+ bl
L
"
i- I
X li X 2i
+
b2
"
L. 4
i- I
=
"
L
i- I
X2iYi
574
ESladistica para adminislraci6n y economia
Se rcs llclven las ecuaciones normales para obtencr los coeficientes deseados ea lcuJanclo pri mero los distintos clladrados de X e Y y los terminos que incluyen los productos entre eHas. El tennino de la ordenada en el origen sc est ima de la forma siguiente:
2. Variabilidad total explicada EI termino SCR de la variabi lidad explicada e n la regresi6n mu ltiple es mas complejo que el term inG SCR caJculado en la regresi6n simple. En el modele de regresi6n con dos vari ab les independi entes
y
~
Po + /J,X, + p,X,
observamos que SCR
"'" (Yi. - y,""
~ L.
i- I
~
I"
[b o + b,xli
+ b,x" - (ho + h,;, + h,",,)J'
i- I
Vemos que la variabil idad explicada tiene Ulla parte relacionada directamente con cada LIlla de [as variab les independi enles y L1na parte relacionada con la correlaci6 n entre las dos variables.
Bibliografia Ghatak. S. y D. Deadman, «Money, Prices and Stabilization Policies in Some Developing Countries», Applied Economics. 21, 1989, pags. 853 -865. 2. Hagermann. R. P., «The Determ inants or Household Vacation Travel: Some Empirical Evidence», Applied Ecollomicl', 13, 198 1, pags. 225-234. 3. MacDonald, J. M. Y P. E. Nelson. «Do the Poor Still Pay More? Food Price Variations in Large Metropolitan Areas», loumal of Urban Economics, 30. 1991. pags. 344-359. 4. Spellman, L. J., «Entry and Profitabi lity in a Rnte·free Savings and Loan Markel), Quarterly Review oj Economics alld Business, 18. n." 2, 1978, pags. 87-95. 5. Van Scyoc, L. J. Y J. Gleason, «Traditional or Intensive Course Lcnghts? A Comparison of Outcomes in Economics Learning», 101/I'llal oj ECOllomic Educatioll, 24, 1993, pags. 15-22. I.
Otros temas del analisis deregresi6n /
Esquema del capituw 14.1.
14.2. 14.3. 14.4. 14.5. 14.6. 14.7.
Metodologia para la construccion de modelos Especificacion del modele Estimacion de los coeficientes Verificacion del modele Interpretacion del modele e inferencia Variables ficticias y diseno experimental Modelos de diseno experimental Val ores retardados de las variables dependientes como regresores Sesgo de especificacion Multicolinealidad Heterocedasticidad Errores autocorrelacionados Estimacion de las regresiones con errores autocorrelacionados Errores autocorrelacionados en los modelos con variables dependientes retardadas
Introducci6n En los Capltulos 12 y 13 presentamos la regresion simple y la regresion multiple como
instrumentos para estimar los coeficientes de modelos lineales para aplicaciones empresariales y economicas. Ahora comprendemos que el fin de ajustar una ecuacion de regresion es utilizar la informacion sobre las variables independientes para explicar la conducta de las variables dependientes y para hacer predicciones de la variable dependiente. Los coeficientes del modelo tambien pueden utilizarse para estimar la tasa de variacion de la variable dependiente como consecuencia de las variaciones de una variable independiente, siempre y cuando el conjunto especffico de otras variables independientes incluidas en el modelo se mantenga fijo. En este capitulo estudiamos un conjunto de especificaciones alternativas. Consideramos, ademas, situaciones en las que se violan los supuestos basicos del anal isis de regresion. EI lector puede seleccionar los temas de este capitulo para complementar su estudio del anal isis de regresion. A casi todo el mundo Ie interesara el analisis de la construccion de modelos del apartado siguiente. EI proceso de construccion de modelos es fundamental para todas las aplicaciones del anal isis de regresion , por 10 que comenzamos con esas ideas. EI apartado sobre las variables ficticias y el disefio experimental contiene metodos para extender las aplicaciones de los modelos. Los apartados como el de la heterocedasticidad y las autocorrelaciones indican como se aborda la cuestion de las violaciones de los supuestos.
576
Estadfstica para administracion y economfa
Se desarrollan modelos de regresion en aplicaciones empresariales y econ6micas para aumentar la comprensi6n y servir de orientaci6n para tomar decisiones. Para desarrollar estos modelos, es necesario comprender bien el sistema y el proceso estudiados. La teorfa estadfstica sirve de nexo entre el proceso subyacente y los datos observados en ese proceso. Esta relacion entre el contexto del problema y un buen anal isis estadfstico normalmente requiere un equipo interdisciplinar que pueda aportar sus conocimientos sobre todos los aspectos del problema. Los auiores piensan por experiencia que estos equipos s610 tend ran exito cuando todos sus miembros aprendan unos de otros: los expertos en producci6n deben tener unos conocimientos basicos de los metodos estadfsticos y los estadfsticos deben comprender el proceso de producci6n.
14.1. Metodologfa ara la construccion de modeloS Aquf desarrollamos una estrategia general para construir modelos de regresion. Vivimos en un mundo complejo y nadie cree que podamos recoger exactamente las complejidades de la conducta economica y empresarial en una 0 mas ecuaciones. Nuestro objetivo es utilizar un modele relativamente sencillo que refleje la compleja realidad con la suficiente precision como para que aporte utiles ideas. EJ arte de la construccion de modelos reconoce la imposibilidad de representar todos los facto res que influyen en una variable dependiente y trata de seleccionar las variables mas influyentes. A continuacion, es necesario formular un modele para representar las relaciones entre estosfactores. Queremos construir un sencillo modele que sea facil de interpretar, pero no tan excesivamente simplificado que no tenga en cuenta las influencias importantes. El proceso de construccion de modelos estadfsticos depende de cada problema. Nuestro enfoque depende de la informacion de que se dispone sobre la conducta de las cantidades estudiadas y de los datos existentes. En la Figura 14.1 presentamos las distintas fases de la construccion de modelos. Figura 14.1. Fases de la construcci6n de modelos estadfsticos.
Especificacion del mOdel~__
J
1 •Estimacion de los coeficientes 1
_________._.__1
1 Verificacion del modelo
I
i
---~
1infer~ncia I
Interpretacion e
Capitulo 14.
Otros temas del anal isis de regresion
577
Especificacion del modelo El amilisis comienza con el desarrollo de la especificacion del modelo. Comprende la seleccion de la variable dependiente y de las variables independientes y la forma algebraica del modelo. Buscamos una especificacion que represente correctamente el sistema y el proceso estudiados. Los ejemplos de los Capftulos 12 y 13 que se refieren a las ventas al por menor, la rentabilidad de las asociaciones de ahorro y credito inmobiliario y la produccion de algodon postulaban todos ellos una relacion lineal entre la variable dependiente y las variables independientes. Los model os lineales a menudo reflejan bien el problema de interes. Pero no siempre es as!. La especificacion del modelo comienza con la comprension de la teorfa que constituye el contexto para el modelo. Debemos estudiar detenidamente la literatura existente y enteramos de que se sabe sobre la situacion de la que tratamos de desarrollar un modelo. Este estudio debe incluir la realizacion de consultas a los que. conocen el contexto, a los que han hecho investigaciones sobre el tema y a los que han desarrollado model os parecidos. Cuando se trata de estudios aplicados, tambien debe entrarse en contacto con los profesionales con experiencia que conocen en la pnictica el sistema que se pretende estudiar. La especificacion del modelo normal mente exige un profundo estudio del sistema y del proceso que subyace al problema. Cuando tenemos complejos problemas en los que intervienen varios factores, es importante que el equipo interdisciplinario analice minuciosamente todos los aspectos del problema. Puede ser necesario realizar mas investigaciones y quiza incluir a otros que tengan ideas importantes. La especificacion requiere un estudio y un anaIisis serios. Este tambien es el momenta en el que es necesario decidir los datos necesarios para el estudio. En muchos casos, eso puede significar decidir si los datos existentes - 0 los que podrfan obtenerse- seran adecuados para estimar el modelo. Si no sabemos 10 que queremos hacer 0 no comprendemos el contexto del problema, hay sofisticados instrumentos analfticos y analistas competentes que nos daran la mejor respuesta po sible. Los analistas sin experiencia a menu do realizan calculos por computador antes de analizar minuciosamente el problema. Los analistas profesionales saben que con ese enfoque se obtienen resultados inferiores.
Estimacion de los coeficientes Un modelo estadfstico, una vez especificado, normalmente tiene algunos coeficientes desconocidos, llamados parametros. EI paso siguiente del ejercicio de construccion de un modelo es emplear los datos de los que se dispone en la estimacion de estos coeficientes. Deben realizarse estimaciones puntuales y estimaciones de intervalos para el modelo de regresion multiple
Desde el punto de vista estadfstico, los objetivos del modelo de regresion pueden dividirse en la prediccion de la media de la variable dependiente, Y, 0 la estimacion de uno 0 mas de los coeficientes individuales, fJj" En muchos casos, los objetivos no son totalmente independientes, pero estas alternativas identifican importantes opciones. Si el objetivo es la prediccion, queremos un modelo en el que el error tipico de la estimacion, Se' sea pequeno. No nos preocupa tanto que las variables independientes esten correlacionadas, porque sabemos que la precision de la prediccion sera la misma con una serie de diferentes combinaciones de variables correlacionadas. Sin embargo, necesitamos
578
Estadfstica para administracion y economfa
saber si las correlaciones entre las variables independientes continuanin cumpliendose en futuras poblaciones. Tambien necesitamos que las variables independientes tengan una amplia dispersion para que la varianza de la prediccion sea pequefia en el rango deseado de la aplicacion del modelo. Si el objetivo es la estimacion, la estimacion de los coeficientes de la pendiente nos lleva a considerar una variedad mayor de cuestiones. En la desviacion tipica estimada, s", de los coeficientes de la pendiente influye directamente el error tipico del modelo e inve~ samente la dispersion de las variables independientes y las correlaciones entre las variables independientes, como se observa en el apartado 13.4. La multicolinealidad -las correlaciones entre variables independientes- es una cuestion fundamental, como veremos en el apartado 14.5. Tambien veremos en el apartado 14.4 que cuando no se incluyen importantes variables de prediccion, el estimador de los coeficientes de las variables de prediccion incluidas en el modelo es un estimador sesgado. Estos dos resultados llevan a un problema estadistico clasico. (,Incluimos una variable de prediccion que esta estrechamente correlacionada con las demas para evitar una estimacion sesgada de los coeficientes pero aumentamos tambien considerablemente la varianza del estimador de los coeficientes? (,0 excluimos una variable de prediccion correlacionada para reducir la varianza del estimador de los coeficientes pero aumentamos el sesgo? La seleccion del equilibrio adecuado entre el sesgo del estimador y la varianza a menudo es un problema en la construccion de un modelo aplicado.
Verificaci6n del modelo Cuando desarrollamos la especificacion del modelo, incorporamos ideas sobre la conducta del sistema y el proceso subyacentes. Cuando se trasladan estas ideas a formas algebraicas y cuando se seleccionan datos para estimar el modelo, se realizan algunas simplificaciones y se postulan algunos supuestos. Como algunos pueden resultar insostenibles, es importante comprobar la adecuacion del modelo. Despues de estimar una ecuacion de regresion, podemos observar que las estimaciones no tienen sentido, dado 10 que sabemos del proceso. Supongamos, por ejemplo, que el modelo indica que la demanda de automoviles aumenta cuando suben los precios, 10 cual es contrario a la teoria economica basica. Ese resultado puede deberse a que los datos no son adecuados 0 a que existen algunas correlaciones estrechas entre el precio y otras variables de prediccion. Estas son las razones por las que el signo de los coeficientes puede ser incorrecto. Pero el problema tambien puede deberse a que el modelo no se ha especificado correctamente. Si no se incluye el conjunto adecuado de variables de prediccion, los coeficientes pueden estar sesgados y los signos ser incorrectos. Tambien es necesario verificar los supuestos postulados sobre las variables aleatorias del modelo. Por ejemplo, los supuestos basicos del analisis de regresion establecen que los terminos de error tienen todos ellos la misma varianza y no estan correlacionados entre sf. En los apartados 14.6 y 14.7 vemos como pueden comprobarse estos supuestos utilizando los datos existentes. Si obtenemos resultados inverosimiles, tenemos que examinar nuestros supuestos, la especificacion del modelo y los datos. Eso puede llevarnos a considerar otra especificacion del modelo. Asi, en la Figura 14.1 10 indicamos con una flecha de retroalimentacion en el proceso de construccion de modelos. A medida que adquiramos experiencia en la construccion de modelos y en la resolucion de otros dificiles problemas, descubriremos que estos procesos tienden a repetirse y que se vuelve a fases anteriores hasta que se desarrolla un modelo satisfactorio y se soluciona el problema.
Capitulo 14.
Otros temas del anal isis de regresi6n
579
Interpretacion del modelo e inferencia Una vez que se ha construido un modelo, puede utilizarse para obtener alguna informaci6n sobre el sistema y el proceso estudiados. En el analisis de regresi6n, puede significar buscar intervalos de confianza para los parametros del modelo, contrastar hip6tesis de interes o predecir los futuros valores de la variable dependiente, dados los val ores supuestos de las variables independientes. Es importante reconocer que este tipo de inferencia se bas a en el supuesto de que el modelo esta especificado y estimado correctamente. Cuanto mas graves son los errores de especificaci6n 0 de estimaci6n, menos fiables son las inferencias realizadas a partir del modelo estimado. Tambien deberiamos reconocer que algunos resultados de nuestro analisis bas ado en los datos existentes pueden no estar de acuerdo con 10 que se sabia hasta entonces. Cuando eso ocurre, es necesario comparar minuciosamente nuestros resultados con 10 que se sabia hasta entonces. Las diferencias pueden deberse a que la especificaci6n del modelo es diferente 0 incorrecta, a errores de los datos 0 alguna otra deficiencia. Pero tambien podriamos descubrir algunos importantes resultados nuevos debido a que la especificaci6n del modelo es mejor 0 a nuevos datos que representan un cambio del contexto estudiado. En cualquier caso, debemos estar dispuestos a hacer correcciones 0 a presentar nuestros nuevos resultados de una manera 16gica.
J4.2. Variables ficticias y disefio experimental En el apartado 13.8 introdujimos las variables ficticias en aplicaciones en las que habia modelos de regresi6n aplicados ados subconjuntos diferentes de datos. Por ejemplo, vimos c6mo podrfan utilizarse para averiguar la existencia de discriminaci6n sexual en el ejemplo de los salarios. En este apartado ampliamos las aplicaciones potenciales de las variables ficticias. En primer lugar, presentamos una aplicaci6n en la que se aplica un modelo de regresi6n a mas de dos subconjuntos de datos. A continuaci6n, mostramos c6mo pueden utilizarse las variables ficticias para estimar los efectos estacionales en un modelo de regresi6n aplicado a datos de series temporales. Por ultimo, mostramos c6mo pueden utilizarse las variables ficticias para analizar datos de situaciones experimentales, definidas por variables categ6ricas que contienen multiples niveles.
EJEMPLO 14.1. Demanda de productos de lana (analisis del modelo utilizando variables ficticias) Un analista de marketing para la Asociaci6n de Fabricantes de Productos de Lana tiene interes en estimar la demanda de productos de lana en algunas ciudades en funci6n de la renta total disponible de la ciudad. Se han recogido datos de 30 areas metropolitanas seleccionadas aleatoriamente. En primer lugar, el analista especifica un modelo de regresi6n de la relaci6n entre las ventas y la renta disponible:
donde Xl es la renta disponible anual per capita de una ciudad e Y son las vent as per capita de productos de lana en la ciudad. Tras algunas conversaciones mas, el analista
580
Estadistica para administraci6n yeconomia
se pregunta si los niveles totales de ventas varian de unas regiones geogrMicas a otras: norte, centro y sur.
Solucion El amllisis comienza colocando cada una de las ciudades en una de las tres regiones. La Figura 14.2 es un diagrama de puntos dispersos de las ventas per capita en relaci6n con la renta disponible. Los datos parecen estar divididos en tres subgrupos que cOlTesponden a las regiones geogrMicas. Se uti Ii zan dos variables ficticias para identificar cada una de las tres regiones siguientes: Norte Centro Sur
X2 X2 X2
= 0, = 1, = 0,
X3 X3 X3
=1 =0 =0
700 -
19
:g. 600 -
• • • •
t.l ~
QJ
c. 500 C1l
c
..':':! QJ
400 -
"D I/)
19 300 c ~ 200
•
• •
• •
• • • • • • • • • • • • • • • • • • • • •
8.000
9.000 10.000 11.000 12.000 13.000 Renta dispon i ble
Figura 14.2.
Ventas per capita de lana en relacion con la renta disponible per capita.
En general, pueden identificarse perfectamente k regiones 0 subconjuntos con k - 1 variables ficticias. Si tratamos de utilizar k variables ficticias para representar k subgrupos distintos, obtenemos una relaci6n lineal entre las variables de predicci6n y es imposible estimar los coeficientes, como se sefial6 en el apartado 13.2. Eso a veces se denomin a «trampa de las variables ficticias». Los desplazamientos de la constan~e del modelo podrfan estimarse utilizando el modelo
Aplicando este modelo al norte, se convierte en y = f30 =
(f3o
+ f32(0) + f33(l) + f3 ,X ,
+ f33) + f3,X,
En la regi6n central, observamos que
+ f32(l) + f33(0) + f3I X I (f3o + fJ2) + f3,X,
y = f30 =
Capitulo 14.
Otros temas del analisis de regresion
581
Por ultimo, en el caso de la region meridional el modelo es Y = {30
+ /32(0) + /J 3(0) + {31X 1
= {30 + {3)X) Resumiendo estos resultados, las constantes de las distintas regiones son: Norte Centro Sur Esta f()rmulacion define el sur como la con stante «base»; {33 y {32 definen el desplazamiento de la funcion de las ciudades del norte y el centro, respectivamente. Podrfan utilizarse contrastes de hipotesis, utilizando el estadfstico t de Student de los coeficientes, para averiguar si hay diferencias significativas entre las constantes de las diferentes regiones en comparacion, en este caso, con la constante de la region del sur. Podrfan obte. nerse constantes para mas regiones utilizando variables ficticias que continuen esta pautao Podrfamos especificar las variables ficticias de manera que cualquier nivel fuera el nivel base conel que se comparan los demas niveles. En este problema, la especificacion del sur como condicion base es natural, dados los objeti vos .del problema. EI modelo en el que se incJuyen diferel1cias entre los coeficientes de la pendiente y las constantes es
Y = {30 + {32 X 2 + {33X3 + ({3) + /34X2 + {33 X3)Xj =
{30
+ {32X2 + {33X3 + {3)X) + {34 X2 X ) + {3SX3X )
Aplicando este modelo a Ia region del nOlte, vemos que
Y
= {30 + {32(0) + {33(1) + ({3) + {34(0) + {3s(1))X) = ({30 + {33) + ({3) + {3s)X 1
En el caso de ia region central, el modelo es
Y = {30 + {32(1) + {33(0) + ({31 + {3il) + {3s(O))X) =
({30 ~ {32)
+ ({31 + {34)X I
Por ultimo, en el casQ de la region del sur
Y = {30 + {32(0) + {33(0) + ({31 + {34(0) + {3s(O))Xj
= {30 +
{3I X j
EI coeficiente de la pendiente de Xl de las ciudades de diferentes regiones es: Norte Centro Stir
582
Estadfstica para adrilinistracion y economfa
Una vez mas, el sur es la condici6n base que tiene la pendiente fJ /. Pueden utilizarse contrastes de hip6tesis para averiguar la significaci6n estadfstica de las diferenci as entre los coeficientes de la pendiente y la condici6n base, que en este caso es la regi6n del sur. Utilizando este modelo de regresi6n que contiene variables ficticias , el analista puede estimar la relaci6n entre las ventas y la renta disponible por regiones. Utilizando la muestra de 30 areas metropolitanas divididas por igual entre las tres regiones geogrMicas, se estim6 un modelo de regresi6n multiple con varfables ficticias utilizando Minitab. Los resultados se muestran en la Figura 14.3. A partir del modelo de regresion podemos averiguar las caracterfsticas de las pautas de compra de lana: Pueden utilizarse contrastes de hipotesis condicionados de la forma
° fJz i= 0, l = 1, .. ., K, l i= H I : fJj i= °I fJz i= 0, l 1, ... , K, l i= Ho: fJj =
I
=
j j
para averiguar los efectos condicionados de los distintos factores en la demand a de lana. El coeficiente de la variable ficticia X3 , fJ3 = 138,46, indica que las personas del norte gastan una media de 138,46 $ mas que las del sur. Asimismo, las personas de la region central gas tan una media de 96,33 $ mas que las del sur. Estos coeficientes son significativos. El coeficiente de la renta disponible es 0,0252, 10 que indica que, en el caso de las personas del sur, cada dolar de aumento de la renta per capita incrementa la compra de productos de lana en 0,025, y este resultado es significativo. En el caso de las personas del norte, cada dolar de aumento de la renta incrementa el gasto en productos de lana en 0,042 (0,0252 + 0,0168) y la diferencia entre los aumentos de la pendiente es significativa. La tasa estimada de aumento de la compra por dolar de aumento de la renta tambien es mayor en el caso de las personas que viven en la region central que en el de las que viven en la region del sur. Sin embargo, esa diferencia no es significativa. Utilizando estos resultados, las ventas por regi6n pueden predecirse con mayor precision que con un modelo que combine todas las regiones y solo utilice la renta per capita. The regression equation is Per Capita Wool Sales = 12.7 + 138 North X3 + 96 . 3 Central X2 + 0 . 0252 Disposable Income + 0.0168 NorX3Inc + 0.00608 CentX2Inc
Predictor Constant North X3 Central X2 Disposab NorX3 Inc CentX2 In
Coef 1 2.73 138.46 96.33 0 . 025231 0.016839 0.006085 R-Sq = 99 . 4%
S = 12 . 17
StDev 27.74 39 . 22 39 . 22 0.002680 0.003790 0.003790
T 0 . 53 3.53 2 . 46 9.42 4 . 44 1. 61
P 0.600 0 . 022 0.002 0 . 000 0.000 0.121
R-Sq (adj) = 99.2%
Analysis of Variance Source Regression Residual Error Total
Figura 14.3.
DF 5 . 24 29
SS 553704 3555 557259
MS 110741 148
F 747.71
P 0.000
Modelo de regresion multiple utilizando variables ficticias par estimar el consumo de lana per capita (salida Minitab).
Capitulo 14.
EJEMPLO
Otros temas del analisis de regresion
583
14.2. Predicci6n de las ventas de productos de lana (variables ficticias estacionales)
Tras acabar el amllisis de las ventas regionales, el analista decidio estudiar la relacion entre las ventas y la renta disponible utilizando datos de series temporales. Tras realizar algunos analisis, se dio cuenta de que las ventas varian de unos trimestres a otros. Por ejemplo, durante el cuarto trimestre son altas en prevision de los regalos de Navidad y de la bajada de la temperatura. Le ha pedido que 10 ayude a realizar el estudio.
Solucion Tras analizar el problema, Ie recomienda que represente los cuatro trimestres de cada ano por medio de tres variables ficticias. De esta fonna, puede utilizarse el modelo de regresion multiple para estimar las diferencias entre las ventas de los diferentes trimestres. Concretamente, Ie propone una estructura similar a la del modelo de variables ficticias regionales: Primer trimestre: Segundo trimestre: Tercer trimestre: Cuarto trimestre:
0, = 1, = 0, = 0,
0, = 0, = 1, = 0,
X2 =
X3 =
X4 =
X2
X3
X4 =
X2 X2
X3 X3
°°
°
X4
=
X4
=1
Los coeficientes de las variables ficticias son estimaciones de los desplazamientos de la fundon de con sumo de lana entre los trimestres en el modelo de los datos
don de Y son las ventas totales de productos de lana y Xl es la renta disponible. Las constantes de los distintos trimestres son: Primer trimestre: Segundo trimestre: Tercer trimestre: Cuarto trimestre:
Modelos de diseno experimental Los metodos de diseno experimental han sido una importante area de investigacion y practica estadfsticas durante algunos anos. Los primeros estudios se referian a investigaciones agricolas. Los esfuerzos realizados por estadisticos como R. A. Fisher y O. L. Davies en Inglaterra durante la decaca de 1920 sentaron las bases de la metodologfa del diseno experimental y de la practica estadfstica en general. Los experimentos agrfcolas requieren una temporada entera de cultivo para obtener datos. Era, pues, importante desarrollar metodos que pudieran dar respuesta a una serie de cuestiones y conseguir una gran precision. Ademas, la mayorfa de los experimentos definfan la actividad utilizando variables con niveles discretos en lugar de continuos. Los metodos de diseno experimental tambien se han utilizado mucho para estudiar la conducta humana y para realizar algunos experimentos industriales. El enfasis reciente en la mejora de la cali dad y la productividad ha aumentado la actividad en esta area de la estadfstica con importantes aportaciones de grupos como el Center for Quality and Productivity de la Universidad de Wisconsin.
584
Estadfstica para administracion y economfa
Diseiio experimental La regresion utilizando variables ficticias puede emplearse como instrumento en los estudios de disefio experimental. Los experimentos tienen una unica variable de resultado, que contiene todo el error aleatorio. Cada resultado experimental corresponde a una combinaci6n discreta de las variables experimentales (independientes), >So Existe una importante diferencia de filosoffa entre los disefios experimentales y la mayorfa de los problemas que hemos examinado. EI disefio experimental intenta identificar las causas de las variaciones de la variable dependiente, especificando previamente combinaciones de variables independientes discretas cuyos valores se utilizan para medir la variable dependienteo Un importante objetivo es elegir puntos experimentales, definidos por variables independientes, que constituyan estimadores de las varianzas mfnimas. EI orden en el que se realizan los experimentos se elige aleatoriamente para evitar sesgos introducidos por variables no incluidas en el experimento.
Los resultados experimentales, Y, corresponden a combinaciones espedficas de niveles de las variables de tratamiento y de bloqueo. Una variable de tratamiento es una variable cuyo efecto tenemos interes en estimar con una varianza minima. Por ejemplo, podrfamos querer saber cwil de cuatro maquinas de producci6n es mas productiva por hora. En ese caso, el tratamiento son las maquinas de producci6n representadas por una variable categ6rica de cuatro niveles, Zj" Una variable de bloqueo representa una variable que forma parte del entorno y, por 10 tanto, no puede preseleccionarse el nivel de la variable. Pero queremos incluir el nivel de la variable de bloqueo en nuestro modelo, con el fin de eliminar la variabilidad de la variable de resultado, Y, que esta relacionada con los diferentes niveles de las variables de bloqueo. Podemos representar una variable de tratamiento 0 de bloqueo de K niveles utilizando K - 1 variables ficticias . Consideremos un sen cillo ejemplo que tiene una variable de tratamiento de cuatro niveles, ZI ' Y una variable de bloqueo de tres niveles, Z2. Estas variables podrfan representarse por medio de variable& ficticias, como se muestra en la Tabla 14.1. A continuaci6n, utilizando estas variables ficticias, podrfa estimarse el modele de disefio experimental mediante el modelo de regresi6n multiple
Tabla 14.1.
Ejemplo de especificaci6n de las variables ficticias para las variables de tratamiento y de bloqueo
Zl
Xl
Xz
X3
0 0
1
0
2
1
3 4
0 0
1
0 0 0
0
1
Zz
X4
Xs
1 2
0 1 0
0 0
3
1
En este modelo, por ejemplo, el coeficiente f33 es una estimaci6n de la cantidad en la que la productividad del nivel de tratamiento 4 es mayor que la del nivel de tratamiento 1, para la variable de tratamiento categ6rica, Z t. Naturalmente, si f33 es negativo, sabemos
Capitulo 14. Otros temas del analisis de regresi6n
585
que el nivel de tratamiento 1 tiene una productividad mayor que el 4. Siguiendo la 16gica de la regresi6n multiple, sabemos que las variables X4 y Xs explican parte de la variabilidad de Y y, por 10 tanto, el estimador de la varianza es menor. Este modelo puede expandirse facilmente para incluir varias variables de tratamiento simultaneamente con algunas otras variables de bloqueo. Ademas, S1 hay una variable continua -por ejemplo, la temperatura ambiente- que afecta a la productividad, esa variable tambien puede anadirse directamente al modelo de regresi6n. En much os casos, se replica varias veces el disefio basico para obtener suficientes grados de libertad para el error. Este proceso se muestra en el ejemplo 14.3.
EJEMPLO
14.3. Programa de formacion de los trabajadores (especificacion del modelo utilizando variables ficticias)
Marfa Cruz es la directora de producci6n de una gran fabrica de piezas de autom6vil. Tiene interes en saber c6mo afecta un nuevo program a de formaci6n a la productividad de los trabajadores. Existen muchas investigaciones que apoyan la conclusi6n de que en la productividad influyen el tipo de maquina y la cantidad de formaci6n que ha recibido el trabajador.
Soluci6n Marfa define las siguientes variables para el experimento:
Y El numero de unidades producidas por turno de 8 horas Zl El tipo de formaci6n 1. 2.
Clase tradicional en un aula y presentaci6n de pelfculas Ensefianza interactiva asistida por computador (CAl)
Z2 Tipo de maquina 1.' Maquina de tipo 1 2. Maquina de tipo 2 3. Maquina de tipo 3
Z3 Nivel de estudios de los trabajadores 1. Nivel de estudios secundarios 2. AI menos un ano de estudios postsecundarios La variable ZI se llama variable de tratarniento pOl"que el principal objetivo del estudio es evaluar el programa de formaci6n. Las variables ~ y Z3 se lIaman variables de bloqueo porque se incluyen para' ayudar a reducir 0 bloquear parte de la variabilidad sin explicar. De esta forma se reduce la varianza y el contraste de los principales efectos del tratamiento tiene mayor potencia. La expresi6n variable de bloqueo proviene de los experimentos agricolas en los que las parcel as se dividfan en pequefios bloques, cuyo suelo tenIa unas condiciones que variaban de unos a otros. Tambien es posible estimar el efecto de estas variables de bloqueo. Por 10 tanto, no se pierde informaci6n llamando a ciertas variables «variables de bloqueo» en lugar de «variables de tratamiento». Las observaciones del disefio experimental se definen previamente utilizando las variables independientes. La Tabla 14.2 contiene una lista de las observaciones, en la que cada observaci6n se designa utilizando los niveles de las variables Z. En este diseno, que se llama disefio factorial completo, hay 12 observaciones, una para cada combina-
586
Estadfstica para administracion y economfa
Tabla 14.2.
Disefio experimental para el estudio de la productividad.
Produccion Y
Formacion Zl
Maquina Z2
Nivel de estudios Z3
Y1 Y2 Y3 Y4 Ys Y6 Y7 Ys Y9
1
1 1 2 2
2 1 2
3 3
2
YlO
Yll Y12
2 2 2 2 2 2
2 2 2 3 3
2 1 2
cion de las variables de tratamiento y de bloqueo. Las Yi observaciones representan las respuestas medidas en cada una de las condiciones experimentales. En los datos, el modelo Yi contiene el efecto de las variables de tratamiento y de bloqueo mas un error aleatorio. En muchos disefios experimentales, esta pauta de 12 observaciones se replica (se repite) para obtener mas grados de libertad para el error y estimaciones mas bajas de las varianzas de los efectos de las variables de disefio. Este disefio tambien puede analizarse utilizando los metodos del analisis de la varianza. Sin embargo, aquf mostramos como puede realizarse el analisis recurriendo a la regresion basada en variables ficticias. Los niveles de cada una de las tres variables de disefio -Z[, Z2 y Z3- pueden expresarse como un conjunto de variables ficticias. Defin(,lmos las siguientes variables ficticias: Z[
ZI
= 1 -+X[ = 0 = 2 -+X[ = 1
Z2 = Z2 = Z2
=
Z3 = Z3
=
1 -+ X2 2 -+ Xz 3 -+ Xz 1 -+ X4 2 -+ X4
0 & X3 = 0 = 1 & X3 = 0 = 0 & X3 = 1 = 0 = 1 =
Utilizando estas relaciones, el modelo de disefio experimental de la Tabla 14.2, que utiliza las variables Z, puede representarse por medio de variables ficticias, como muestra la Tabla 14.3. Utilizando estas variables ficticias, podemos definir un modelo de regresion multiple:
Los coeficientes de regresion se estiinan utilizando las variables especificadas previamente. Los 12 experimentos u observaciones definidos en las Tablas 14.2 y 14.3 son una replica del disefio experimental. Una replica contiene todos los experimentos individuales que se incluyen en el disefio experimental. A menudo se realizan varias replicas del disefio para estimar con mayor precision los coeficientes y obtener suficientes grados de libertad para estimar la varianza. En el modelo basado en variables ficticias, esti-
Capitulo 14.
Tabla 14.3.
Otros temas del anal isis de regresion
587
Diseno experimental para el estudio de la productividad utilizando variables ficticias.
Productividad Y
XI
X2
X3
X4
Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9
0 0 0 0 0 0 1
0 0
0 0 0 0 1 1 0 0 0 0
0 1 0 1 0 1 0
YIO Y11 Y12
1 1 1 1 1
1 1
0 0 0 0 1 1 0 0
1 1
1
0 1 0 1
mamos cuatro coeficientes y una con stante y quedan n - 4 - 1 grados de libertad para estimar la varianza. Con una replica, n = 12 Y tenemos 7 grados de libertad para estimar la varianza. Con dos replicas del disefio, 11 = 24 Y tenemos 19 grados de libertad para estimar la varianza, y con tres replicas tenemos 31 grados de libertad. Normalmente, se necesitan al menos 15 0 20 grados de libertad para obtener estimaciones estables de la varianza. Utilizando las definiciones de las variables ficticias, observamos que los coeficientes de regresion estimados se interpretan de la forma siguiente:
1. 2.
3. 4.
b l es el aumento de la productividad provocado por el nuevo tipo de formacion CAl en comparacion con la formacion tradicional en el aula. b2 es el aumento de la productividad provocado por la maquina de tipo2 en comparacion con la de tipo 1. b3 es el aumento de la productividad provocado por la maquina de tipo 3 en comparacion con la de tipo 1. b4 es el aumento de la productividad provocado por la educacion postsecundaria en comparacion con la secundaria solamente.
Cualquiera de estos «aumentos» podria ser negativo, 10 que implica una disminucion. La importancia de cada uno de estos efectos puede contrastarse utilizando nuestros metodos tradicionales de contraste de hipotesis. Observese que si se pierde 0 falla una observacion experimental, puede seguir utilizandose el mismo modele de regresion para estimar los coeficientes. Sin embargo, en ese caso tenemos una varianza mayor y, pOI' 10 tanto, los contrastes de hipotesis tienen menos potencia. Tambien es po sible afiadir al modelo variables continuas u otras variables relacionadas. Supongamos que Marfa sospecha que el mimero de afios de experiencia de los trabajadores y la temperatura ambiente tambien influyen en la productividad. Se pueden medir estas dos variables continuas para cada experimento y afiadir al modelo de regresion basado en variables ficticias. EI modele de regresion se convierte entonces en
Capitulo 14.
Otros temas del analisis de regresion
589
EJERCICIOS
Ejercicios basicos
Ejercicios aplicados
14.1. Farmule la especificaci6n de un model a y defina las variables de un modeJo de regresi6n multiple para predecir la calificaci6n media obtenida en la universidad en funci6n de la nota media obtenida en el bachillerato y del ano de estudios universitarios: primer ano, segundo ano, tercer ano, cuarto ano .
14.5. Sharon Parsons, presidente de Gourmet Box Mini Pizza, Ie ha pedido ayuda para desarrollar un modele que prediga la demanda de la nueva pizza llamada Pizzal. Este producto compite en el mercado con otras tres marcas que Ilamaremos B2, B3 y B4. Actualmente, los productos son vendidos por tres gran des cadenas de distribuci6n llamadas 1, 2 y 3 para identificarlas. Estas tres cadenas tienen diferentes cuotas de mercado y, por 10 tanto, es probable que las ventas de cada distribuidar sean diferentes. EI fichero de datos Market contiene datos semanales recogidos en las 52 ultimas semanas en las tres cadenas de distribucion. A continuaci6n, se definen las variables del fichero de datos . Utilice la regresi6n multiple para desarrollar un modele que prediga la cantidad de PizzaJ vendida a la semana par cada distribuidor. El modele s610 debe contener variab les de predicci6n importantes.
14.2. Formule la especificaci6n del modele y defina las variables de un modele de regresi6n multiple para predecir los salarios en d6Jares estadounidenses en funci6n de los anos de experiencia y del pais de empleo (Alemania, Gran Bretana, Japan, Estados Unidos y Turqufa). 14.3. Formule la especificaci6n del modele y defina las variables de un modelo de regresi6n multiple para predecir el coste por unidad producida en funci6n del tipo de fabrica (tecnologia clasica, maquinas controladas par computador y manipulaci6n del material control ada por computador) y en funci6n del pals (Colombia, SudMrica y Japan). 14.4. Un economista quiere estimar una ecuaci6n de regresi6n que relacione la demanda de un producto (Y) con su precio (X ,) y la renta (X 2 ). Tiene que basarse en 12 an os de datos trimestrales. Sin embargo, se sabe que la demanda de este producto es estacional, es decir, es mayor en unos momentos del ano que en otros . a) Una posibilidad para tener en cuenta la estacionalidad es estimar eJ modele Yl =
f30
+
+
f3SXSI
f3 , X'1
+
+
+ + el
f32 x 21
f36 x 6,
f3 3 x 3,
+
f34 X 4,
donde X31' X41' XS 1 Y X61 son val ores de las variables ficticias , siendo X 31
Weeknum Sales Pizzal Price Pizza l Promotion
Sales B2 Price B2 Sales B3
= 1 en el primer trimestre de cada ano, 0
X41 = XS 1 = X61 =
en el resto 1 en el segundo trimestre de cada ano, 0 en el resto 1 en el tercer trimestre de cada ano, 0 en el resto 1 en el cuarto trimestre, 0 en el resto
Explique par que este modele no puede estimarse por minimos cuadrados. b) Un modele que puede estimarse es y, =
Distribuidor Identificador numerico del distribuidor
f30
+ f3,xl! + f32 X 21 + f3 3 x 31 + f34 X 41 + f3SXS l + e,
Interprete los coeficientes de las variables ficticias de este modelo.
Price B3 Sales B4 Price B4
Numero secuencial de la semana en la que se recogieron los datos Numero de unidades de Pizza I vendidas por el di stribuidor durante la semana Precio al pOl' menor de Pizza I cobrado por el distribuidor durante esa semana Nivel de promoci6n de la semana: 0 significa Ninguna promoci6n; 1 significa Anuncios en televisi6n; 2 significa Exposici6n en las tiendas; 3 significa Anuncios en la televisi6n y Exposici6n en las tiendas Numero de unidades de la marca 2 vendidas por el distribuidor durante la semana Precio al por men or de la marca 2 cobrado por el distribuidor dm'ante la semana Numero de unidades de la marca 3 vendidas pOl' el clistribllidor durante la semana Precio al par menor de la marca 3 cobrado por el distribuidor durante la semana Numero de unidades de la marca 4 vendidas pOI' el dist.ribuidor durante la semana Precio al. por menor de la marca 4 cobrado por el. distribllidor durante la semana
14.6. Le han pedido que desarrolle un modele de regresi6n multiple para predecir las ventas per capita de cereales de desayuno en las ciudades de mas de 100.000 habitantes. En primer lugar, celebra una reuni6n con los principales directivos de marketing que tienen experiencia en la venta de cereales. En esta reunion, descubre que se es-
590
Estadfstica para administraci6n y economfa
pera que en las ventas per capita influ yan el precio de los cereales, el precio de los cereales rivales, la renta media per capita, el porcentaje de titulados universitarios, la temperatura anual media y la pluviosidad anual media. Tambien se entera de que la relaci6n lineal entre el precio y las ventas per capita se espera que tenga una pendiente diferente en las ciudades que se encuentran al este del rfo Misisipi. Se espera que las ventas per capita sean mayores en las ciudades que tienen una renta per capita alta y baja que en las ciudades que tienen una renta per capita intermedia. Tambien se espera que las ventas per capita sean diferentes en los cuatro sectores siguientes del pals: noroeste, sudoeste, noreste y sudeste. Formule una especificaci6n del modelo cuyos coeficientes puedan estimarse por medio de la regresi6n multiple. Defina cada variable completamente e indique la forma matematica del modelo. Analice su especificaci6n, indique que variables espera que sean estadfsticamente significativas y explique las razones por las que 10 espera. 14.7. Maximo Marquez, presidente de Piezas Buenas, S.A., Ie ha pedido que desarrolle un modele que prediga e l n(imero de piezas defectuosas por turno de 8 horas de su fabrica. Cree que existen diferencias entre los tres turnos diarios y entre los cuatro proveedores de materias primas. Ademas, se piensa que cuanto mayor es la producci6n y mayor el numero de trabajadores, mayor es el numero de piezas defectuosas. Maximo visita la fabrica varias veces en los tres turnos para observar las operaciones y dar consejos. Le ha facilitado una lista de los turnos que ha visitado y quiere saber si el numero de piezas defectuosas aumenta 0 disminuye cuando visita la fabrica. Describa por escrito como desarrollarfa un modele para estimar y contrastar los distintos factores que pueden influir en el numero de piezas defectuosas producidas por turno. Defina detenidamente cada coeficiente de su modele y el contraste que utilizarfa. Indique como recogerfa los datos y como definirfa cada variable utilizada en el modelo. Analice las interpretaciones que haria a partir de su especificacion del modelo. 14.8. Maderas de Calidad, S.A., lleva 40 afios en el sector. Hace muebles de madera de encargo de alta calidad e interiores de armarios y trabajos de madera de interiores de muy buena calidad para viviendas y oficinas caras. La empresa ha tenido mucho exito debido en gran parte a la elevada cualificacion de los artesanos que disefian y
producen sus productos en consulta con sus clientes. Muchos de sus productos han recibido premios nacionales por la calidad de su disefio y el trabajo bien hecho. Cada producto hecho de encargo es producido por un equipo de dos artesanos 0 mas que primero se reunen con el cliente, realizan un primer disefio, 10 revisan con el cliente y despues fabrican el producto. Los clientes tam bien pueden reunirse con los artesanos varias veces durante la produccion. Los artesanos tienen una buena formacion y han adquirido excelentes cualificaciones en el trabajo de la madera. La mayorfa tienen tftulo universitario y se han formado con artesanos cualificados. Los empleados se clasifican en tres niveles: I. Aprendiz, 2. Profesional y 3. Maestro. Los salarios de los niveles 2 y 3 son mas altos y los trabajadores normal mente ascienden con forme adquieren experiencia y cualificacion. Actualmente, la empresa tiene una plantilla diversa, en la que hay trabajadores blancos, negros y latinos y tanto hombres como mujeres. Cuando comenzo hace 40 afios, todos los trabajadores eran blancos. Hace unos 20 afios, comenzo a contratar artesanos negros y latinos, y hace unos 10 afios contrato artesanas. Los trabajadores blancos varones tienden a estar sobrerrepresentados en las clasificaciones de los puestos de trabajo mas altas debido en parte a que tienen mas experiencia. Actualmente, la plantilla tiene un 40 por ciento de hombres blancos, un 30 por ciento de hombres negros y latinos, un 15 por ciento de mujeres blancas y un 15 por ciento de mujeres negras y latinas. Recientemente, algunos han expresado su preocupacion por la discriminacion salaria!. Concretamente, dicen que las mujeres y los que no son blancos no estan recibiendo una remuneracion acorde con su experiencia. La direccion de la empresa sostiene que todas las personas cobran en funcion de los afios de experiencia, del nivel de clasificacion del puesto de trabajo y de la capacidad personal. Sostiene que no existen diferencias salariales basadas en la raza 0 el sexo por 10 que se refiere al salario base 0 al incremento por cada afio de experiencia. Explique como realizarfa un analisi s para averiguar si la afirmacion de la direccion es ciertao Muestre los detalles de su analisis y razonelos claramente. Indique los datos que deben recogerse y los nombres y las descripciones de las variables que utilizara en el anaLisis . Indique claramente los contrastes estadfsticos que utilizarfa
Capftulo 14.
para averiguar cmil es la verdadera situacion e indique las reglas de decision basadas en los contrastes de hipotesis y los resultados de los datos. 14.9. Le han pedido que haga de consultor y de testigo experto en un juicio por discriminacion salaria!. Un grupo de mujeres latinas y negras ha demandado a su empresa, Distribuidores Reunidos, S.A. Las mujeres, que tienen entre 5 y 25 aiios de antigliedad en la empresa, alegan que su subida salarial anual media ha side significativamente menor que la de un grupo de hombres blancos y un grupo de mujeres blancas. Los puestos de trabajo de los tres grupos contienen diversos componentes administrativos, analiticos y directivos. Todos los empleados tenian titulacion universitaria de primer ciclo cuando empezaron a trabajar y los aiios de experiencia son un importante factor para predecir el rendimiento y la productividad de los trabajadores. Le han facilitado el salario mensual actual y el numero de aiios de experiencia de todos los trabajadores de los tres
Otros temas del analisis de regresion
591
grupos. Ademas, los datos indican los miembros de los tres grupos que tienen un master en administracion de empresas. Observe que en este problema no realiza ningun analisis de los datos. a) Desarrolle un modele y un analisis estadfsticos que permitan analizar los datos . Indique los contrastes de hipotesis que pueden utilizarse para aportar pruebas contundentes de la existencia de discriminacion salarial si es que existe. La compaiifa tambien ha contratado a un estadfstico como consultor y testigo experto. Describa su analisis de una forma exhaustiva y clara. b) Suponga que sus contrastes de hipotesis aportan pruebas contundentes que apoyan la tesis de sus clientes. Resuma brevemente las observaciones clave que hara en su comparecencia en el juicio. Es de esperar que el abogado de la empresa Ie contrainterrogue con la ayuda de su estadfstico, que enseiia estadfstica en una prestigiosa universidad.
14.3. Valores retardados de las variables dependientes como regresores En este apartado examinamos las variables dependientes retardadas, un importante tema cuando se analizan datos de series temporales, es decir, cuando se realizan mediciones de las cantidades a 10 largo del tiempo. Por ejemplo, podemos tener observaciones mensuales, observaciones trimestrales u observaciones anuales. Los economistas normalmente utilizan variables de series temporales como los tipos de interes, medidas de la inflaci6n, la inversi6n agregada y el con sumo agregado para realizar anaIisis y desarrollar modelos. Especificamos las observaciones de series temporales utilizando el subfndice t para indicar el tiempo en lugar de la i que empleamos para indicar los datos de corte transversal. Por 10 tanto, un modelo de regresi6n multiple serfa
En muchas aplicaciones de series temporales, la variable dependiente en el periodo t a menudo tam bien est<'i relacionada con el valor que tom6 esta variable en el periodo anterior, es decir, con Yt- I' El valor de la variable dependiente en un periodo anterior se llama variable dependiente retardada.
Regresiones que contienen variables dependientes retardadas Consideremos el siguiente modele de regresi6n que relaciona una variable dependiente, Y, con K variables independientes:
(14.1 )
592
Estadfstica para administraci6n y economfa
don de fi o' IJ1 ,
. .. ,
fi K , y son coeficientes fijos.
Si se generan datos con este modelo:
a) Un aumento de la variable independiente X de 1 unidad en el periodo t, manteniendose fijas todas las demas variables independien'tes, provoca un aumento esperado de la variable dependiente de (i. en el periodo t, fJ ·y en el periodo (t + 1), fJ ·y2 en el periodo (t + 2), fJ j / en el period6 (t + 3), etc. EI aufnento total esperado en t6dos los periodos actuales y futuros es
[3.I. (l - y) b) Los coeficientes fJo' fi 1, ... , 13K, y pueden estimarse por minimos cuadrados como siempre. c) Pueden calcularse intervalos de confianza y contrastes de hip6tesis para los coeficientes de regresi6n exactamente igual que en el modele de regresi6n multiple ordinario (en rigor, cuando la ecuaci6n de regresi6n contiene variables dependientes retardadas, estos metodos s610 son aproximadamente validos. La calidad de la aproximaci6n mejora, manteniendose todo 10 demas constante , cuando aumenta el numero de observaciones muestrales) . d) Cuando se utilizan intervalos de confianza y contrastes de hip6tesis con datos de series temporales, hay que tener cautela. Existe la posibilidad de que los errores de las ecuaciones, ei , ya no sean independientes entre sf. En el apartado 14.7 sobre las autocorrelaciones examinamos esta cuesti6n. En particular, cuando los errores estan correlacionados, las estimaciones de los coeficientes son insesgadas, pero no eficientes. Por 10 tanto, los intervalos de confianza y los contrastes de hip6tesis ya no son validos. Los econ6metras han desarrollado metodos para hacer estimaciones en estas condiciones, que se introducen en el apartado 14.7.
Para ilustrar el calculo de las estimaciones y de la inferencia basada en la ecuaci6n de regresi6n ajustada cuando el modelo contiene variables dependientes retardadas, examinamos el extenso ejemplo 14.4 (v ease la referencia bibliografica 1). EJEMPLO
14.4. Los gastos publicitarios en funcion de las ventas al por menor (modelo de regresion con variables retardadas)
Un investigador tenia interes en predecir los gastos publicitarios en funci6n de las ventas al por menor, sabiendo que la publici dad del ano anterior tambien habia influido.
Solucion Se crda que la publicidad local por hogar dependfa de las ventas al por men or por hogar. Ademas, como los publicistas pueden no querer 0 no poder ajustar sus planes a los cambios repentinos del nivel de ventas al por menor, se anadi6 al modelo el valor de los gastos publicitarios locales pOI' hogar del ano anterior. Por 10 tanto, los gastos publicitarios de este ano estan relacionados con las ventas al por menor (x,) de este ano y con los gastos publicitarios (Yt - I) del ano anterior. EI modelo que hay que ajustar es, pues,
don de Yt = publicidad local por hogar en el ano t
x,
= ventas al pOI' menor por hogar en el ano t
Capitulo 14. Otros temas del analisis de regresi6n
>;
i
Advertising Retail
593
Los datos sobre la pubJicidad y las ventas al por menor se encuentran en un fichero de datos Minitab lIamado Advertising Retail. EI valor retardado Yt- I puede generarse en Minitab utilizando la funcion retardo (lag) en las rutinas de la calcuJadora y en todos los demas buenos paquetes estadisticos utilizando procedimientos similares. Despues de realizar la transformacion del retardo, el fichero de datos incluye la variable retardada. La observaci6n 1 de la variable retardada es inexistente, por 10 que el conjunto de datos solo tiene 21 observaciones. Siempre sera asf cuando se creen variables retardadas. Naturalmente, podrfamos tener acceso a datos del ano anterior -del ano en este ejemplo- y ese valor podrfa sustituir al valor que faltaba. Ahora ya estan listos los datos para realizar una regresion multiple utilizando los comandos convencionaJes de Minitab. La Figura 14.4 muestra la salida del analisis de regresion resultante.
°
The regression equation is Advertising y(t) = -43.8 + 0 . 01 88 Retail Sales X(t) + 0 . 479 lag advertising 21 cases used 1 cases contain missing values Predictor Cons t ant Retai l S lag adve S
=
Coef -43.766 0.018777 0.47906
3 . 451
SE Coef 9 . 843 0 . 002855 0 . 08732
=
R- Sq
96 . 3%
T
P
-4.45 6 . 58 5 . 49
0.000 0 . 000 0.000
R-Sq(adj)
=
95.9%
Analysis of Variance Source Regression Residual Error To t al Source Retail S lag adve
DF 2 18 20 DF 1 1
SS 5559.1 214 . 3 5773.4
MS 2779.5 11. 9
F
P
233.43
0.000
SE Fit 1.222 1.774
Residual 6 . 504 - 6 . 483
Seq SS 5200.7 358.4
Unusual observations obs Retail S Adv ertis 4 5507 119.220 20 6394 145 . 3 7 0
Fit 112 . 716 151.853
St Resid 2.02R -2.19R
R denotes an observation with a large standardized residual
Figura 14.4.
Gastos publicitarios en funci 6n de las ventas al par menor y de los gastos publicitarios retardados (salida Minitab).
La regresion resultante de este problema (con la ausencia de la primera observacion) es ~
Yt = - 43,8
+ 0,0188xt + 0,479Yt - I (0,0029)
(0,087)
Los numeros que figuran debajo de los coeficientes de regresion son las desviaciones tfpicas de los coeficientes. EI estadistico t de Student de cada coeficiente es bastante alto y los p-valores resultantes son 0,00, 10 que indica que podemos rechazar la hipotesis nula de que los coeficientes son 0. Con 18 grados de libertad para el error, el valor crftico del estadfstico t de Student de una hipotesis de dos colas suponiendo que (X = 0,05 es t = 2,101.
594
Estadfstica para administraci6n y ecanamfa
:~
INTERPRETACION
En los modelos de series temporales, el coeficiente de determinacion R2 puede ser algo enganoso. Por ejemplo, el elevado valor de R2 = 96,3 por ciento del presente problema no indica necesariamente que exista una estrecha relacion entre la publicidad local y las ventas al por menor. Es un hecho empfrico perfectamente conocido que los gnificos de much as series temporales empresariales y economicas muestran una pauta evolutiva bastante uniforme a 10 largo del tiempo. Este mero hecho es suficiente para que el coeficiente de determinacion tenga un valor alto cuando se incluye una variable dependiente retardada en el modelo de regresion. A efectos pnkticos, aconsejamos al lector que preste relativamente poca atencion al valor de R2 en esos modelos. La regresion estimada para este problema puede interpretarse de la siguiente manera. Supongamos que las ventas al por menor por hogar aumentan 1 $ este ano. EI efecto esperado en la publici dad local por hogar es un aumento de 0,0188 este ano, otro aumento de (0,479)(0,0188) = 0,0090 $ el proximo ano, otro aumento de
(0,479i (0,0188) = 0,0043 $ dentro de dos anos, y as! sucesivamente. El efecto total en los futuros gastos publicitarios totales por hogar es un aumento esperado de 00188 1 ~ 0,479 = 0,0361 $ Vemos, pues, que el efecto esperado de un aumento de las ventas es un aumento inmediato de los gastos publicitarios, un aumento menor durante el proximo ano, un aumento Min men or dentro de dos alios, etc. La Figura 14.5 ilustra este efecto geometricamente decreciente de un aumento de las ventas este ano en la publicidad de futuros anos.
~
0,018
"0
m
"0
:~
.0 ::J
0.
~
0,012
OJ
"0
o
"0
~
OJ
0.
~
0,006
.8c OJ
E ::J
«
°
I
I
I I 234567 Numera de arias en el futuro
Figura 14.5.
Aumentos futuros esperados de la publicidad local por hogar.
Capftulo 14.
Otros temas del analisis de regresion
595
EJERCICIOS
Ejercicios basicos 14.10. Considere los siguientes modelos estimados utilizando un analisi s de regresi6n aplicado a datos de series temporales. i,Que efecto produce a largo plazo un aumento de x de 1 unidad en el periodo t?
+ 2x, + 0,34Yt _ 1 10 + 2,5x, + 0,24Yt _ I 10 + 2xt + O,64Yt - 1 10 + 4,3xt + 0,34Yt _ 1
14.13. f lI! Utilice el fichero de datos Money UK, que contiene observaciones del Reino Unido sobre la cantidad de dinero, en millones de libras (Y); la renta, en mill ones de libras (X I); y el tipo de interes de las autoridades locales (X2 ). Estime el modelo (vease la referencia bibliografica 5) Yt
a) Yt = 10
b) Yt
=
c) Yt = d) Yt =
=
50,72
+ 0,1 42x lt + 0,027x2t + 0,432Yt- I (0,047)
(0,021)
(0,136)
donde Y = gasto por estudiante, en d61ares, en ropa XI = renta disponible por estudiante, en d6lares, tras el pago de la matrfcula, las tasas y la manutenci6n X2 = fndice de publicidad sobre ropa destinada al mercado estudiantil Los numeros entre parentesis que se encuentran debajo de los coeficientes son los errores tfpicos de los coeficientes. a) Contraste al nivel del 5 por ciento la hip6tesis nula de que, manteniendose todo 10 demas constante, la publici dad no afecta a los gastos en ropa en este mercado frente a la hip6tesis alternativa unilateral obvia. b) Halle el intervalo de confianza aJ 95 por ciento del coeficiente de XI de la regresi6n poblacional. c) Manteniendo fija la publicidad, i,cual serfa el efecto esperado con el paso del tiempo de un aumento de la renta disponible por estudiante de 1 $ en el gasto en ropa?
f 11 Uti lice los datos del fichero Retail Sales para estimar el modele de regresi6n Yt
=
f30
+
+ f31 XIt + f32 X2t + YYt - 1 + 8t
14.14. ~!I El fichero de datos Pension Funds contiene datos sobre el rendimiento de mercado (X) de las acciones y el porcentaje (Y) que representan las acciones ordinarias aJ valor de mercado a finales de ano en la cartera de los fondos privados de pensiones. Estime el modele y,
=
f30
+ f3 lx , + YYt - 1 + 8,
y escriba un informe sobre sus resultados.
14.15. ,. ~ El fichero de datos Income Canada muestra observaciones trimestrales sobre la renta (Y) y sobre la oferta monetaria (X) de Canada. Estime el modele (vease la referencia bibliogrMica 3) y, = f30
+ f3I Xt + YYt - 1 + 8 t
y realice un informe sobre sus resultados.
14.16.
€ i!f El
fichero de datos Births Australia muestra observaciones anuales sobre el primer parto de un nacido vivo del matrimonio actual (Y) y el mimero de primeros matrimonios (de mujeres) registrado en el ano anterior (X) en Australi a. Estime el modele (vease la referencia bibliografica 4) Yt
=
f30
+ f3I Xt + YYt - 1 + 8,
y real ice un informe sobre sus resultados.
14.17.
t, El fichero de datos Pinkham Sales muestra observaciones anuales sobre las ventas unitarias (Y) y sobre los gastos publicitarios (X), ambos en miles de d61ares, de Lydia E. Pinkham. Estime el modele log y, = f30
+
f311ogx,
+ y lOgYt - l + 8t
y realice un informe sobre sus resultados (vease la referencia bibliografica 2).
Ejercicios aplicados 14.12.
f30
y realice un informe sobre sus resultados.
14.11. Un analista de mercado tiene interes en saber cual es la cantidad media de dinero que gas tan al ano los estudiantes universitarios en ropa. Basandose en 25 anos de datos anuales, se ha obtenido la siguiente regresi6n estimada por mfnimos cuadrados : Yt
=
f31X,
+ YY, - I + 8 t
y contraste la hip6tesis nula de que Y = 0, donde y, = ventas al por menor por hogar X t = renta disponible por hogar
14.18. , ~ El fichero de datos Thailand Consumption muestra 29 observaciones anuales sobre el consumo privado (Y) y la renta disponible (X) de Tailandia. Ajuste el modelo de regresi6n log Yt = f30
+
f3llogxlt
+ Y2 10g Y, - 1 + 6,
y realice un informe sobre sus resultados .
596
Estadfstica para administracion y economfa
La especificacion de un modele estadfstico que describa correctamente la conducta del mundo real es una tarea delicada y diffcil. Sabemos que ningun modele sencillo puede describir perfectamente la naturaleza de un proceso y los determinantes de sus resultados. El objetivo de la construccion de modelos es descubrir una formulacion sencilla que ref1eje correctamente el proceso subyacente para las cuestiones de interes. Sin embargo, tambien debemos sefialar que hay algunos casos en los que existe una divergencia considerable entre el modelo y la realidad que puede lIevar a extraer conclusiones seriamente erroneas. Hemos visto anteriormente algunas tecnicas para especificar un modelo que refleje mejor el proceso. Nuestro uso de variables ficticias en los apartados 13.8 y 14.2 Y las transformaciones de model os no lineales en lineales en el 13.7 son importantes ejemplos. En este apartado examinamos las consecuencias de no incluir importantes variables de prediccion en nuestro modele de regresion. Para formular un modelo de regresion, un investigador intenta relacionar la variable dependiente de interes con todos sus determinantes importantes. Por 10 tanto, si adoptamos un modelo lineal , queremos incluir como variables independientes todas las variables que podrfan influir considerable mente en la variable dependiente de interes. Para formular el modelo de regresion
suponemos implfcitamente que el conjunto de variables independientes, Xl' X 2 , ... , X K , contiene todas las cantidades que afectan significativamente a la conducta de la variable dependiente, Y. Sabemos que en cualquier problema aplicado real hay otros factores que tambien afectan a la variable dependiente. La influencia conjunta de estos factores se absorbe dentro del termino de error, e;. Puede plantearse un grave problema si se omite una variable importante de la lista de variables independientes.
Sesgo provocado por la exclusion de variables de prediccion importantes Cuando se omiten en el modelo variables de predicci6n importantes, las estimaciones de coeficientes por minimos cuadrados incluidas en el modelo normalmente estan sesgadas y las afirmaciones inferenciales habituales basadas en los contrastes de hip6tesis 0 en los intervalos de confianza pueden ser seriamente engafiosas. Ademas, el error del modelo estimado incluye el efecto de las variables omitidas y, por 10 tanto , es mayor. En el raro caso en el que las variables omitidas no estan correlacionadas con las variables independientes incluidas en el modelo de regresi6n, no existe este sesgo en la estimaci6n de los coeficientes.
Examinemos un sencillo ejemplo sobre el mercado al por menor de gasolina. Supongamos que somos propietarios de la estacion de servicio A, que vende gasolina, y que la estacion de servicio B, que se encuentra a 100 metros de distancia, tambien vende gasolina. Creemos firmemente que si bajaramos el precio, las ventas unitarias aumentarfan y que si 10 subieramos, las ventas unitarias disminuirfan. Pero si la estacion B subiera y bajara su precio, este precio tambien influirfa en la variacion de nuestras ventas unitarias. Por 10 tanto, si no tenemos en cuenta el precio de la estacion B y solo consideramos nuestros pre-
Capftulo 14.
Otros temas del analisis de regresi6n
597
cios cuando intentamos predecir las ventas un itarias, normalmente cometeremos graves elTores en nuestra estimacion de la relacion entre nuestro precio y nuestras ventas unitarias. A continuacion, mostramos este resultado matematicamente. Mostramos como se produce el sesgo en la estimacion de los coeficientes de regresio n mostrando el efecto de la omision de una variable en un modelo con dos variables independientes:
Supongamos que en esta situacion el analista excluye la variable el modelo de regresion
X2
y estima, en su lugar,
Observese que hemos utilizado dos sfmbolos diferentes para hacer hincapie en el hecho de que los estimadores de los coeficientes senin diferentes. En el modelo de regresion simple, el estimador del coeficiente de x I es II
~ i= j IX 1 = n --
- --
'\' L. (Xli
-
X-)2
;= 1
Sustituyendo el modelo conecto con dos variables de prediccion y determinando el valor esperado, observamos que 1/
i= 1 n
1/
=E
;= 1 n
i= 1
i= 1
Cuando calculamos el valor esperado, observamos que n
L
(Xl i -
XI)X 2i
i=1 n
i=l
Vemos, pues, que el coeficiente de la variable Xl esta sesgado a menos que la conelacion entre XI y X2 sea O. Los resultados matematicos anteriores muestran el sesgo de las estimaciones de los coeficientes que se produce cuando se omite una variable importante. En el Capitulo 13 mostramos matematicamente y de una forma intuitiva que en las estimaciones de los coeficientes de un modelo de regresion multiple influyen todas las variables independientes incluidas en el modelo. Por 10 tanto, si omitimos una variable independiente importante, los coeficientes estimados del resto de las variables seran diferentes. El ejemplo 14.5 muestra este resultado numericamente y debe estudiarse atentamente.
598
Estadfstica para administracion y economfa
EJEMPLO
14.5.
Modelo de regresion de las asociaciones de ahorro y credito inmobiliario con una variable omitida (error de especificacion del modelo)
Consideremos el ejemplo de las asociaciones de ahorro y credito inmobiliario uti lizado en el CapItulo 13. En ese ejemplo se hacfa una regresion del margen porcentual anual de beneficios (Y) de las asociaciones de ahorro y credito inmobiliario con respecto a sus ingresos porcentuales netos por dolar depositado (XI) y el numero de oficinas (X2 ). En el ejemplo 13.3 estimamos los coeficientes de regresion y observamos que el mode10 era
y=
(0,0556)
Savings and Loan
R2 = 0,865
1,565 + 0,237xl - 0,000249x2 (0,0000321)
Una de las conclusiones de este am'ilisis es que, dado un numero fijo de oficinas, un aumento de los ingresos netos por dolar depositado de 1 unidad provoca un aumento esperado del margen de beneficios de 0,237 unidades. i,Que ocurrirfa si hicieramos una regresion del margen de beneficios unicamente con respecto a los ingresos netos por dolar depositado utilizando los datos almacenados en el fichero Savings and Loan? Solucion
Utilizando los datos, hemos hecho una regresion del margen de beneficios (Y) con respecto a los ingresos netos por dolar depositado (Xl) Y hemos observado que el modelo era
y = 1,326 -
0,169x]
R2
=
0,50
(0,036) ~
INTERPRETACION
Comparando los dos modelos ajustados, observamos que una de las consecuencias de omitir X2 es que la variabilidad porcentual explicada, R2, disminuye considerablemente. La omision produce, sin embargo, un efecto mas serio en el coeficiente de los ingresos netos. En el modelo de regresion multiple, un aumento de los ingresos netos de 1 unidad elevo los beneficios en 0,237, mientras que en el modelo de regresion simple el efecto fue una disminucion de 0,169. Este resultado va claramente en contra de la intuicion: no es de esperar que un aumento de los ingresos netos reduzca el margen de beneficios. En los dos modelos, rechazarfamos la hipotesis nula de que no existe una relacion. AquI vemos el resultado del estimador sesgado del coeficiente que se obtiene cuando no se incluye una variable importante, X2 , en el modelo. Sin incluir el efecto condicionado del numero de oficinas, obtenemos un estimador sesgado.
Este ejemplo ilustra magnfficamente la cuestion. Si no se inclUye una variable explicativa importante en el modelo de regresion, cualquier conclusion que se extraiga sobre los efectos de otras variables independientes puede ser seriamente enganosa. En este caso, hemos visto que la introduccion de otra variable relevante mas podrfa muy bien alterar la conclusion de la existencia de una relacion negativa significativa y sustituirla por la conclusion de la existencia de una relacion positiva significativa. Observando los datos de la Tabla 13.1, es posible obtener mas informacion. En la segunda parte del periodo, al menos, el margen de beneficios disminuyo y los ingresos netos aumentaron, 10 que sugiere la existencia de una relacion negativa entre estas variables. Sin embargo, los datos revelan un aumento del numero de oficinas durante ese mismo periodo, 10 que sugiere la posibilidad
Capitulo 14.
Otros temas del anal isis de regresi6n
599
de que este factor fuera la causa de la disminuci6n del margen de beneficios. La (mica forma legftima de distinguir los efectos de estas dos variables independientes en la variable dependiente es analizarlas conjuntamente en una ecuaci6n de regresi6n. Este ejemplo muestra la importancia de utilizar el modelo de regresi6n multiple en lugar de la ecuaci6n de regresi6n lineal simple cuando hay mas de una variable independiente relevante.
EJERCICIOS
Ejercicios basicos
ra realizar este estudio se encuentran en el fichero de datos Motors y la variable dependiente esta en millas por gal6n -milpgal- conforme a la certificaci6n del Departamento de Transporte. a) Formule una ecuaci6n de regresi6n que utilice la potencia de los vehfculos -horsepower- y el peso de estos -weight- como variables independientes. Interprete los coeficientes. b) Formule una segunda regresi6n sesgada que no incluya el peso de los vehfculos. i,Que conclusiones puede extraer sobre el coeficiente de la potencia?
14.19. Suponga que el verdadero modelo lineal de un proceso era
y
=
f30
+ f3I XI + f32 X2 + f33 X3
y que ha estimado incorrectamente el modelo y
= lXo
+
IX I X2
Interprete y contraste los coeficientes de X2 estimados en los dos modelos. Muestre el sesgo que se produce utilizando el segundo modelo. 14.20. Suponga que una relaci6n de regresi6n viene dada por y= f30 + f3I X ) + f32 X2 + I::
Si se estima la regresi6n lineal simple de Y con respecto a Xl a partir de una muestra de 11 observaciones, la estimaci6n resultante de la pendiente f31 generalmente esta sesgada. Sin embargo, en el caso especial en el que la correlaci6n muestral entre XI y X2 es 0, no ocurre asL De hecho, en ese caso la estimaci6n es la misma independientemente de que se incluya o no X2 en la ecuaci6n de regresi6n. a) Explique verbal mente por que es cierta esta afirmaci6n. b) Demuestre algebraicamente que esta afirmaci6n es cierta.
Ejercicios aplicados 14.21. ~; Transportation Research Inc. Ie ha pedido que formule algunas ecuaciones de regresi6n multiple para estimar el efecto de algunas variables en el ahorro de combustible. Los datos pa-
14.22.
f. Utilice
los datos del fichero Citydat para estimar una ecuaci6n de regresi6n que perrnita averiguar el efecto marginal del porcentaje de locales comerciales en el valor de mercado por vivienda ocupada por su propietario (Hseval). Incluya en su ecuaci6n de regresi6n multiple el porcentaje de viviendas ocupadas por sus propietarios (Homper), el porcentaje de locales industriales (Indper), el numero mediano de habitaciones por vivienda (sizehse) y la renta per capita (Incom72) como variables de predicci6n adicionales. Las variables estan incluidas en su disco de datos. Indique que variables son significativas. Su ecuaci6n final debe incluir solamente las variables significativas. Haga una segunda regresi6n excluyendo el numero mediano de habitaciones por vivienda. Interprete el nuevo coeficiente del porcentaje de locales comerciales que se obtiene en la segunda regresi6n. Compare los dos coeficientes.
14.5. Multicolinealidad Si se especifica correctamente un modelo de regresi6n y se satisfacen los supuestos, las estimaciones por minimos cuadrados son las mejores que pueden lograrse. No obstante, en algunas circunstancias j pueden no ser mu y buenas!
600
Estadfstica para administraci6n y economfa
Para ilustrarlo supongamos que queremos desarrollar un modelo para predecir las ventas unitarias en funcion de nuestro precio y del precio del competidor. Imaginemos ahora que estamos en la afortunada posicion del cientifico de laboratorio, que somos capaces de disenar el experimento para estudiar este problema. El mejor enfoque para seleccionar las observaciones depende algo de los objetivos del amilisis, pero hay mejores estrategias. Existen, sin embargo, opciones que no elegiriamos. Por ejemplo, no elegiriamos los mismos valores de las variables independientes para todas las observaciones. Tampoco seleccionarfamos variables independientes que esten muy correlacionadas. En el apartado 13.2 vimos que serfa imposible estimar los coeficientes si las variables independientes estuvieran perfectamente correlacionadas. Y en el 13.4 vimos que la varianza de los estimadores de los coeficientes aumenta a medida que la correlacion se aleja de O. En la Figura 14.6 vemos ejemplos de correlacion perfecta entre las variables Xl y X 2 • En estos graficos vemos que las variaciones de una variable estan relacionadas directamente con las variaciones de la otra. Supongamos ahora que estuvieramos intentando utilizar valores de las variables independientes como estos para estimar los coeficientes del modelo de regresion
La inutilidad de esa tare a es evidente. Si Xl varia al mismo tiempo que X 2 , no podemos saber cual de las variables independientes esta relacionada realmente con la variacion de Y. Si queremos evaluar los efectos de cada variable independiente por separado, es esencial que no vaden exactamente al unisono en el experimento. Los supuestos habituales del ana!isis de regresion multiple excluyen los casos de correlacion perfecta entre variables independientes. Figura 14.6. Dos disefios con correlaci6n perfecta.
X2i
•
• 7 .900
7.900
•
•
•
• 7.700
•
7.700
•
•
• 7.500
7 .500
• 3,0
3,2
3,4 (a)
X1i
• 3,0
3,2
3,4 (b)
El uso de las variables independientes en la Figura 14.6 seria una mala eleccion. La 14.7 muestra un caso algo menos extremo. Aqui los puntos del disefio no se encuentran en una unica lfnea recta, pero casi. En esta situacion, los resultados suministran alguna informacion sobre la influencia de cada variable independiente, pero no mucha. Es posible calcular estimaciones por minimos cuadrados de los coeficientes, pero estas estimaciones tendrian una elevada varianza. Como consecuencia, los coeficientes estimados no seran estadisticamente significativos, incluso aunque las relaciones sean muy estrechas. Este fenomeno se llama multicolinealidad. En el Capitulo 13 analizamos extensamente los efectos de las variables independientes correlacionadas.
Capitulo 14.
Figura 14.7. Dos disenos con una elevada corre lac i6n.
Otros temas del anal isis de regresion
7.900
7.900
7.700
7.700
7 .500
7.500
3,0
3,2
3,4 (a )
3,0
3,2
601
3,4 (b )
En la inmensa mayorfa de los casos practicos relacionados con el mundo de la empresa y la economfa, no podemos controlar la elecci6n de las observaciones de las variables sino que nos vemos obligados a trabajar con el conjunto de datos que el destino nos ha dado. En este contexto, pues, la multicolinealidad es un problema que no se debe a que se hayan elegido mal los datos sino a los datos de que se dispone para hacer el amilisis . En el ejemplo de las asociaciones de ahorro y credito inmobiliario del Capftulo 13, habfa una elevada correlaci6n entre las variables independientes, pero esa era la realidad del contexto del problema. En terminos mas generales, en las ecuaciones de regresi6n en las que hay vadas variables independientes, el problema de multicolinealidad se debe a la existencia de pautas de estrechas intercorrelaciones entre las variables independientes. Quiza el aspecto mas frustrante del problema, que puede resumirse en la existencia de datos que no surninistran much a informaci6n sobre los parametros de interes, radique en que normal mente es poco 10 que se puede hacer para resolverlo. Sin embargo, aun asf es importante ser conscientes del problema y vigilar por si se plantea. Hay algunos elementos que indican la posibilidad de que haya multicolinealidad. En primer lugar, siempre debe examinarse, por supuesto, una matriz de correlaciones simples de las variables independientes para averiguar si cualquiera de ell as esta correlacionada individualmente, como hicimos en el extenso ejemplo del apartado 13.9. Otra indicaci6n de la probable presencia de multicolinealidad es que parezca que un conjunto de variables independientes consideradas como un grupo ejerce una influencia considerable en la variable dependiente y que cuando se examinan por separado, por medio de contrastes de hip6tesis, parezca que todas son individualmente insignificantes. En este caso, podrfa utilizarse una funci6n lineal de las distintas variables para calcular una variable que sustituya a las distintas variables correlacionadas. Otra estrategia es hacer una regresi6n de las variables individuales independientes con respecto a todas las demas variables independientes del modelo. Eso puede mostrar complejas situaciones de multicolinealidad. Dada la presencia de multicolinealidad, en estas circunstancias serfa imprudente extraer la conclusi6n de que una determinada variable independiente no afecta a la variable dependiente. Es preferible reconocer que el grupo en su conjunto es claramente influyente, pero los datos no son 10 suficientemente informativos para poder distinguir con precisi6n los efectos de cada uno de sus miembros por separado. Existe otro problema relacionado con este si se incluyen en un modelo variables de predicci6n redundantes 0 irrelevantes. Si estas variables innecesarias estan correlacionadas con las demas variables de predicci6n -y a menudo 10 estan-, la varianza de las estima-
602
Estadfstica para administraci6n y economfa
ciones de los coeficientes de las variables importantes aumentani, como se sefiala en el apartado 13.4. Como consecuencia, disminuini la eficiencia global de las estimaciones de los coeficientes. Debe tenerse cui dado de no incluir variables de prediccion inelevantes. En las situaciones en las que la multicolinealidad es un problema, pueden utilizarse diversos enfoques. En todos ellos, es necesario analizar y valorar atentamente los objetivos del modelo y el entorno del problema que representa. En primer lugar, se puede eliminar una variable independiente que esta estrechamente correlacionada con una 0 mcis variables independientes. Eso reducira la varianza de la estimacion de los coeficientes, pero, como se muestra en el apartado 14.4, se podrfa introducir un sesgo en la estimacion de los coeficientes si la variable omitida es importante en el modelo. Se podria construir una nueva variable independiente que fuera una funcion de varias variables independientes estrechamente correlacionadas. Se podria sustituir por una nueva variable independiente que represente la misma influencia, pero no este conelacionada con otras variables independientes. Ninguno de estos enfoques es siempre la solucion perfecta. La multicolinealidad y las variables omitidas del apartado anterior son cuestiones que requieren una buena especificacion del modelo basada en una buena valoracion, en la experiencia y en la comprension del contexto del problema. EJERCICIOS
Ejercicios aplicados 14.23. En el modele de regresi6n Y = fJo
+ fJIX I + fJ2X2 + 8
es posible averiguar en que medida existe multicolinealidad hallando la correlaci6n entre XI Y X2 en la muestra. Explique por que es as!. 14.24. Un economista estima el modele de regresi6n Y;
=
fJo
+ fJjX li + fJ2 X 2; + 8;
Las estimaciones de los parametros fJ j Y fJ2 no son muy grandes en comparaci6n con sus errores tfpicos respectivos. Pero el tamano del coeficiente de determinaci6n indica la existencia de una relaci6n bastante estrecha entre la variable dependiente y el par de variables independientes. Una vez obtenidos estos resultados, el economista tiene firmes sospechas de la presencia de multicolinealidad. Como 10 que mas Ie interesa es saber c6mo influye XI en la variable dependiente, decide que evitara el problema de multi coline ali dad haciendo una regresi6n de Y
con respecto a XI solamente. Comente esta estrategia. 14.25. Basandose en los datos de 63 pafses, se estim6 el siguiente modelo por mfnimos cuadrados:
y = 0,58 -
0,052x I
-
(0,0 19)
R2 = 0,17
0,005X2 (0,042)
donde y = tasa de crecimiento del producto interior bruto real XI = renta real per capita X2 = tipo impositivo medio en porcentaje del producto nacional bruto Los numeros situados debajo de los coeficientes son los errores tfpicos de los coeficientes. Una vez eliminada en el modele la variable independiente X I' la renta real per capita, se estim6 la regresi6n de la tasa de crecimiento del producto interior bruto real con respecto a X 2 , el tipo impositivo medio, y se obtuvo el modele ajustado
y=
0,060 - 0,074x2
R2
=
0,072
(0,34)
Comente este resultado.
14.6. Heterocedasticidad El metodo de estimacion por rninimos cuadrados y sus metodos inferenciales se basan en los supuestos tradicionales del amilisis de regresion . Cuando se cumplen estos supuestos, la regresion por mfnimos cuadrados proporciona un poderoso conjunto de instrumentos analf-
Capitulo 14.
Otros temas del analisis de regresion
603
ticos. Sin embargo, cuando se viola uno 0 mas de estos supuestos, los coeficientes estimados pueden ser ineficientes y las inferencias realizadas pueden ser enganosas. En este apartado y en el siguiente, consideramos los problemas que plantean los supuestos relacionados con la distribuci6n de los terminos de elTor Cj en el modelo
Concretamente, hemos supuesto que estos errores tienen una varianza uniforme y no estan cOlTelacionados entre sf. En el siguiente apartado, examinamos la posibilidad de que existan elTores correlacionados. Aqui analizamos el supuesto de la varianza uniforme. Existen muchos ejemplos que sugieren la posibilidad de que la varianza no sea uniforme. Consideremos una situaci6n en la que nos interesa conocer los factores que afectan a la producci6n de una industria. Recogemos datos de varias empresas que contienen medidas de la producci6n y otras posibles variables de predicci6n. Si estas empresas son de diferente tamafio, la producci6n total varia. Es probable, ademas, que la varianza de la medida de la producci6n sea mayor en las gran des empresas que en las pequenas. Eso se debe a la observaci6n de que hay mas factores que afectan a los terminos de error en una empresa grande que en una pequefia. Por 10 tanto, los terminos de elTor seran mayores tanto en los terminos positivos como en los negativos. Se dice que los modelos en los que los terminos de elTor no tienen todos la misma varianza muestran heterocedasticidad. Cuando este fen6meno esta presente, el metoda de minimos cuadrados no es el mas eficiente para estimar los coeficientes del modelo de regresi6n. Ademas, los metodos habituales para obtener intervalos de confianza y contrastes de hip6tesis de estos coeficientes ya no son validos. Necesitamos, pues, metodos para averiguar si existe heterocedasticidad. La mayoria de los metodos habituales comprueban el supuesto de la varianza constante de los elTores frente a alguna alternativa razonable. Podemos observar que la magnitud de la varianza de los elTores esta relacionada directamente con una de las variables de predicci6n independientes. Otra posibilidad es que la varianza aumente con el valor esperado de la variable dependiente. En nuestro modelo de regresi6n estimado , podemos obtener estimaciones de los valores esperados de la variable dependiente utilizando
Y podemos estimar, a su vez, los terminos de error,
ei'
mediante los residuos
A menudo observamos que las tecnicas graficas son utiles para detectar la presencia de heterocedasticidad. En la practica, trazamos diagramas de puntos dispersos de los residuos en relaci6n con las variables independientes y los valores predichos, Yi' de la regresi6n. Consideremos, por ejemplo, la Figura 14.8, que muestra posibles graficos del residuo, ej, en relaci6n con la variable independiente X l i' En la parte (a) de la figura, vemos que la magnitud de los errores tiende a aumentar conforme mayores son los valores de Xl' 10 que indica que las varianzas de los errores no son constantes. En cambio, la parte (b) de la figura muestra que no existe una relaci6n sistematica entre los elTores y Xl' Por 10 tanto, en la parte (b) no existen pruebas de que la varianza no sea uniforme. En el Capitulo 13 desarrollamos un modelo de regresi6n por minimos cuadrados para estimar la relaci6n entre el margen de beneficios de las asociaciones de aholTo y credito
604
Estadistica para administraci6n y economia
Figura 14.8. Graticos de los residuos en relaci6n can una variable independiente.
ei
•
•
•
• • • • • • •• • • • • • • • • • • • • • • •
• •
ei
• X1i
•
• •
•
•
•
• • •
•
•
•
•
• •
•
•
•
• X1i
• •
•
(b) Ninguna heterocedasticidad evidente
(a) Heterocedasticidad
inmobiliario (Y) y los ingresos netos por d61ar depositado (X ,) y el numero de oficinas (X2 ) por medio del modelo
Consideremos el modelo de regresi6n estimado de la Figura 13.3. Calculamos los residuos de todas las observaciones utilizando el metodo expuesto en el extenso problema del apartado 13.9. En las Figuras 14.9 y 14.10 presentamos diagram as de puntos dispersos de los residuos en relaci6n con los ingresos por d61ar depositado y en relaci6n con el numero de oficinas. El examen de estos diagramas indica que no parece que exista ninguna relaci6n entre la magnitud de los residuos y cuaiquiera de las dos variables independientes. La Figura 14.11 presenta un diagrama de puntos dispersos de los residuos en relaci6n con el valor predicho de la variable dependiente. De nuevo, no parece que exista ninguna relaci6n entre el valor predicho de Y y la magnitud de los residuos. Basandonos en el examen de los graficos de los residuos, no encontramos pruebas de la existencia de heterocedasticidad. A continuaci6n, examinamos un metodo mas formal para detectar la presencia de heterocedasticidad y para estimar los coeficientes de los modelos de regresi6n cuando se tienen firmes sospechas de que se viola el supuesto de las varianzas constantes de los en·ores. Hay muchos tipos de heterocedasticidad que pueden detectarse por medio de diversos metodos. Examinaremos uno de ellos que puede utilizarse para detectar la presencia de heterocedasticidad cuando la varianza del termino de error tiene una relaci6n lineal con el valor predicho de la variable dependiente .
•
0.1 -
0.1 -
•
• • • ••
U5 0 .0 w
• • • •• • •
0:::
••
• • •
••
•
-0.1 -
3
U5 0 .0 w
•
0:::
• • ••• •
•
4
X1 revenue Figura 14.9. Gratico de los residuos en relaci6n can los ingresos par d61ar depositado.
,, • • •
••
• •
•
••
•
•
-0.1 5
•
6500
7500
8500
• 9500
X2 offices
Figura 14.10. Gratico de los residuos en relaci6n con el numero de oficinas.
Capitu lo 14.
Figura 14.11.
60S
•
0.1 -
Dos diseiios con una elevada correlaci6n.
Otros temas del analisis de regresion
• •
• • • •• • •• • • •• • • •• •
•
(j)
w 0.0 -
•
0:::
•
•
•
-0 .1 0.4
0.5
0 .6
0.7
0.8
FITS1
Contraste de la presencia de heterocedasticidad Consideremos un modelo de regresion
Yi =
f30
+ f31Xli + f3 2 X 2i + ... + f3KXKi + e i
que relaciona una variable dependiente con K variables independientes y se bas a en n conjuntos de observaciones. Sean bo' b 1 , ... , b K la estimacion por mfnimos cuadrados de los coeficientes del modelo, con los valores predichos
Yi =
bo
+ b1x li + b 2 X 2i + ... + bKxKi
y sean los residuos del modelo ajustado
Para contrastar la hipotesis nula de que los terminos de error, ci ' tienen todos ellos la misma varianza frente a la alternativa de que sus varianzas dependen de los valores esperados
estimamos una regresion simple. En esta regresion, la variable dependiente es la rafz cuadray la variable independiente es el valor predicho, Yi , da de los residuos -es decir,
Eif-
(14.2) Sea R 2 el coeficiente de determinacion de esta regresion auxiliar. En ese caso, en un contraste de nivel de significacion (J., la hipotesis nula se rechaza si nR2 es mayor que x~.~ , donde X~,a es el valor crftico de la variable aleatoria ji-cuadrado con 1 grado de libertad y una probabilidad de error (J..
Pondremos un ejemplo de este contraste utilizando el ejemplo de las asociaciones de ahorro y credito inmobiliario. La Figura 14.12 muestra un subconjunto de la salida Minitab del amilisis de regresi6n. Se emple6 el programa Minitab para calcular los cuadrados de los residuos y se realiz6 una regresi6n de los residuos con respecto al valor predicho. A partir de la regresi6n de los cuadrados de los residuos con respecto a los valores predichos, obtenemos el modelo estimado
e2
=
0,00621 + 0,00550; (0,00433)
R2 = 0,066
606
Estadfstica para administracion y economfa
Figura 14.12. Reg resion de los cuadrados de los residuos con respecto al valor predicho (salida Minitab).
The regression equation is ResSquared 0.00621 - 0.00550 FITSI Predi ctor Cons tant FITS1 S
Coef 0.006 211 -0.005503
= 0.002742
R-Sq
=
SE Coef 0.002 970 0 . 004327 6.6%
T
P
2.09 -1 .2 7
0 . 048 0.216
R-Sq(adj)
= 2.5%
Analysi s of vari ance Source Regression Re sidual Erro r Total
DF 1 23 24
SS 0.00 00 12158 0.000172939 0 .000 185 09 7
MS 0 . 000 01 2158 0.000007519
F 1.62
P 0.216
La regresion contiene n = 25 observaciones y, por 10 tanto, el estadfstico del contraste es
nR2
=
(25)(0,066)
=
1,65
En la Tabla 7 del apendice observamos que para un contraste al nivel de significacion del 10 por ciento
Xf,O,lO
=
2,71
Por 10 tanto, no podemos rechazar la hipotesis nula de que en el modelo de regresion los valores predichos tienen una varianza uniforme. Eso confirma nuestras conclusiones iniciales basadas en el examen de los diagramas de puntos di spersos de los residuos de las Figuras 14.9, 14.10 Y 14.11. Supongamos ahora que hubieramos rechazado la hipotesis nul a de que la varianza era uniforme. En ese caso, el metoda ordinario de mfnimos cuadrados no serfa el me to do de estimacion adecuado para el modelo inicial. Existen varias estrategias de estimacion dependiendo de como sean de poco uniformes los errores. La mayorfa de los metodos implican la transformacion de las variables del modelo de manera que los terminos de error tengan una magnitud uniforme en el rango del modelo. Consideremos el ejemplo en el que la varianza de los terminos de error es directamente proporcional a] cuadrado del valor esperado de la variable dependiente. En este caso, podrfamos expresar aproximadamente el termino de error del modelo de la forma siguiente:
donde (ji es una variable aleatoria que tiene una varianza uniforme en el rango del modelo de regresion. Utilizando este termino de error, el modelo de regresion serfa
En esta aproximacion, el termino de error aumenta linealmente con el valor esperado, 10 cual implica que la varianza aumenta con el cuadrado del valor esperado. Aquf podemos obtener un termino de error cuya magnitud es uniforme en el modelo dividiendo cada termino de los dos miembros de la ecuacion por Yi' Cuando se parte de esta forma concreta,
Capitulo 14.
Otros temas del amilisis de regresion
60 7
se utiliza un sencillo metodo de dos etapas para estimar los parametros del modelo de regresi6n. En la primera etapa, se estima el modelo por mfnimos cuadrados de la forma habitual y se registran los valores predichos, y;, de la variable dependiente. En la segunda etapa, se estima la ecuaci6n de regresi6n
con un termino de error que satisface los supuestos habituales del amilisis de regresi6n. En este modelo,hacemos una regresi6n de yJy; con respecto a las variables independientes 1!'y[, x li /Y1- x2 ;!Y!> ... , xK;!Y,. Este modelo no incluye una constante y la mayorfa de los paquetes estadfsticos tienen una opci6n que calcula estimaciones de los coeficientes excluyendo el terminG constante. Los coeficientes estimados son las estimaciones de los coeficientes del modelo original. Existen otros muchos metodos en cualquier buen libro de econometrfa en el apartado dedicado a los «minimos cuadrados ponderados». Tambien pueden aparecer errores heterocedasticos si se estima un modelo de regresi6n lineal en circunstancias en las que es adecuado un modelo logarftmico-lineal. Cuando el proceso es tal que es adecuado un modelo logarftmico-lineal, debemos hacer las transformaciones y estimar un modelo logarftmico-lineal. Tomando logaritmos, disminuye la influencia de las gran des observaciones, sobre to do si estas se deben al crecimiento porcentual con respecto a momentos anteriores: una pauta de crecimiento exponencial. El modelo resultante a menu do parecera que esta libre de heterocedasticidad. Los modelos logarftmico-lineales a menudo son adecuados cuando los datos estudiados son series temporales de variables econ6micas, como el consumo, la renta y el dinero, que tienden a crecer exponencialmente con el paso del tiempo.
EJERCICIOS
Ejercicios aplicados 14.26. En el Capitulo 12, se estimo por minimos cuadrados la regresion de las ventas al por men or por hogar con respecto a la renta disponible por hogar. Los datos se encuentran en la Tabla 12.1 y la 12.2 muestra los residuos y los valores predichos de la variable dependiente.
a) Averigiie graficamente si existe heterocedasticidad en los errores de regresion. b) Averigiie si existe heterocedasticidad utilizando un contraste formal. 14.27. Considere un modelo de regresion que utiliza 48 observaciones. Sea e i los residuos de la regresion ajustada e Yi los valores predichos de la variable dependiente dentro del rango de la muestra. La regresion por minimos cuadrados
e;
de con respecto a Yi tiene un coeficiente de determinacion de 0,032. (,Que conclusiones puede extraer de este resultado? 14.28. '" El fichero de datos Household Income contiene datos de 50 estados de Estados Unidos. Las variables incluidas en el fichero son el porcentaje de mujeres que participan en la poblacion activa (y), la mediana de la renta personal de los hogares (Xl)' el numero medio de afios de estudios de las mujeres (X2 ) y la tasa de desempleo de las mujeres (X3).
a) Calcule la regresion multiple de Y con respecto a Xl> X2 Y X3 · b) Compruebe graficamente la presencia de heterocedasticidad en los errores de regresion. c) Utilice un contraste formal para detectar la presencia de heterocedasticidad.
608
Estadfstica para adl11inistracion y econol11fa
14.7. Errores autocorrelacionados En este apartado, vemos que ocurre con el modele de regresi6n si los terminos de error estan correlacionados entre sf. Hasta ahora hemos supuesto que los errores aleatorios de nuestro modelo son independientes. Sin embargo, en muchos problemas empresariales y econ6micos utilizamos datos de series temporales. Cuando se analizan datos de series temporales, el termino de error representa el efecto de todos los factores, salvo las variables independientes, que influyen en la variable dependiente. En los datos de series temporales, la conducta de muchos de estos factores puede ser bastante parecida en varios periodos de tiempo y el resultado seria una correlaci6n entre los terminos de error que estan cerca en el tiempo. Para hacer hincapie en el hecho de que las observaciones son observaciones de series temporales, colocamos el subindice t y formulamos el modelo de regresi6n de la siguiente manera: En la regresi6n multiple, los contrastes de hip6tesis y los interval os de confianza suponen que los errores son independientes. Si no 10 son, los errores tfpicos estimados de los coeficientes estan sesgados. Por ejemplo, puede demostrarse que, si existe una correlaci6n positiva entre los terminos de error de observaciones de series temporales adyacentes, la estimaci6n del error tipico de los coeficientes por minimos cuadrados es demasiado pequena. Como consecuencia, el estadfstico t de Student calculado para el coeficiente es demasiado grande. Eso puede llevarnos a concluir que algunos coeficientes son significativamente diferentes de 0 -rechazando la hip6tesis nula Pj = 0- cuando, en realidad, no debe rechazarse. Ademas, los intervalos de confianza estimados serfan demasiado estrechos. Es, pues, fundamental en las regresiones con datos de series temporales contrastar la hip6tesis de que los terminos de error no estan correlacionados entre sf. El hecho de que los errores de primer orden esten correlacionados a 10 largo del tiempo se conoce con el nombre de problema de errores autocorrelacionados. Cuando estudiamos este problema, es util tener presente alguna estructura de correlaci6n. Un modelo atractivo es que el error en el peliodo t, 8 t , este estrechamente correlacionado con el error del periodo anterior, 81 _ I ' pero menos correlacionado con los errores de dos 0 mas periodos anteriores. Definimos
don de p es un coeficiente de correlaci6n y, por 10 tanto, su range es de - 1 a + 1, como vimos en el Capitulo 12. En la mayorfa de las aplicaciones, nos interesan sobre to do los valores positivos del coeficiente de correlaci6n. En el caso de los errores que estan separados por I periodos, la autocorrelaci6n puede definirse de la siguiente manera: Corr(8 p
81 -
/)
= /
Como consecuencia, la correlaci6n disminuye rapidamente a medida que aumenta el numero de periodos de separaci6n. Vemos, pues, que la correlaci6n entre los errores que estan separados en el tiempo es relativamente debil, mientras que la correlaci6n entre los errores que estan pr6ximos en el tiempo posiblemente sea bastante estrecha. Ahora bien, si suponemos que los errores 8 t tienen todos ellos la misma varianza, es po sible demostrar que la estructura de autocorrelaci6n corresponde al modele
Capitulo 14.
Otros temas del anal isis de regresion
609
°
donde la variable aleatoria U t tiene una media de y una varianza constante (J2 y no esta autocorrelacionada. Este modelo de conducta autocorrelacionada se denomina modelo autorregresivo de primer orden. Examinando esta ecuaci6n, vemos que el valor que toma el error en el periodo t, 8" depende de su valor en el periodo anterior (el grado de dependencia depende del coeficiente de correlaci6n p) y de un segundo termino aleatorio {it. Este modelo se muestra en la Figura 14.13, que contiene gnificos temporales de errores generados por el modelo para valores de p = 0, 0,3, 0,6 y 0,9. EI caso p = corresponde a la ausencia de autocorrelaci6n de los errores. En la parte (a) de la figura podemos ver que no existe una pauta evidente en la progresi6n de los errores a 10 largo del tiempo. El valor que toma uno no influye en los valores de los demas. A medida que pasamos de una autocorrelaci6n relativamente debil (p = 0,3) a una autocorrelaci6n bastante estrecha (p = 0,9), en las partes (b), (c) y (d), la pauta que muestran los errores a 10 largo del tiempo es cada vez menos irregular, de manera que en la parte (d) esta bastante claro que es probable que el valor de un error este relativamente cerca de su vecino inmediato.
°
t
(a) p
=
°
(b) p
= 0,3
(d) p
= 0,9
t
(c) p
Figura 14.13.
= 0,6
Graticos temporales de los residuos de regresiones cuyos terminos de error siguen un proceso autorregresivo de primer orden.
El examen de la Figura 14.13 sugiere que los metodos graficos pueden ser utiles para detectar la presencia de errores autocorrelacionados. Lo ideal serfa poder representar graficamente los errores del modelo, 8" pero estos son desconocidos, por 10 que normalmente examinamos el grafico de los residuos del modelo de regresi6n. En concreto, podrfamos examinar un grafico temporal de los residuos como el que muestra la Figura 14.14 en el caso de la regresi6n de las asociaciones de ahorro y credito inmobiliario. Este grafico de series temporales se ha realizado utilizando el programa Minitab.
610
Estadfstica para administraci6n y economfa
Figura 14.14. Grafico de series temporales de los residuos de la regresion de las asociaciones de ahorro y credito inmobiliario.
0.1
-0.1 ' -_ _,--_ _.---_-,-_ _-,--_ _..-' Index
5
10
25
20
15
Examinando el gnlfico de series temporales de la Figura 14.14, no vemos ninguna autocorrelacion de los residuos sino la pauta irregular de la Figura 14.13(a). Esta es una prueba en contra de la existencia de autocorrelacion. Sin embargo, como el problema es tan importante, es deseable tener un contraste mas formal de la hipotesis de que no existe ninguna autocorrelacion en los errores de un modelo de regresion. EI contraste que m:ls se utiliza es el contraste de Durbin-Watson, basado en los residuos del modelo, et • El estadistico del contraste, d, se calcula de la siguiente manera: n
L d
(e , - e, _ 1)2
= _1=_2_ _ __ __ Il
y el metodo de contraste se describe a continuacion. Podemos demostrar que el estadistico de Durbin-Watson puede expresarse aproximadamente de la forma siguiente: d = 2(1 - r)
don de r es la estimacion muestral de la correlacion poblacional, p, entre los errores adyacentes. Si los errores no estan autocorrelacionados, entonces r es aproximadamente 0 y d es aproximadamente 2. En cambio, con una correlacion positiva los valores de d son bajos y 0 es el limite inferior y con una correlacion negativa, los valores de d son altos y 4 es el limite superior. Hay una dificultad teorica cuando se basan los contrastes de los errores autocorrelacionados en el estadistico de Durbin-Watson. EI problema estriba en que la distribucion muestral efectiva de d, incluso cuando la hipotesis de la ausencia de autocorrelacion es ·verdadera, depende de los val ores de las variables independientes. Es evidentemente inviable calcular la distribucion con·espondiente a todos los conjuntos posibles de val ores de las variables independientes. Afortunadamente, se sabe que cualesquiera que sean las variables independientes, la distribucion de d se encuentra entre las distribuciones de otras dos variables aleatorias cuyos puntos porcentuales pueden calcularse. La Tabla 12 del apendice muestra los puntos de corte de estas variables aleatorias en el caso de los contrastes a niveles de significacion dell y el 5 por ciento. La tabla indica los valores de d L Y d u correspondientes a divers as combinaciones de n y K. Se rechaza la hipotesis nula de que no existe ninguna autocorrelacion frente a la hipotesis alternativa de que existe una autocorrelacion positiva si el valor calculado de d es menor que el de d v Se acepta la hipotesis nul a si el valor de d es mayor que el de d u y menor que 4 - du, mientras que el
Capitulo 14.
Otros lemas del analisis de regresi6n
611
contraste no es concluyente si d se encuentra entre d L y duo Por ultimo, si el estadfstico d es mayor que 4 - dv concluirfamos que no existe ninguna autocorrelaci6n negativa. Esta compleja pauta se muestra en la Figura 14. 15. Figura 14.15. Regia de decision para el contraste de Durbin-Watson.
~
p=o
p
~A~
~__-,A~__--.,
________
_________
d
o
o
4-
Contraste no concluyente
4
Contraste no concluyente
Contraste de Durbin-Watson Consideremos el modelo de regresion
basado en conjuntos de n observaciones. Nos interesa averiguar si los terminos de error estan autocorrelacionados y siguen un modelo autorregresivo de primer orden
donde ut no esta autocorrelacionado. EI contraste de la hipotesis nula de que no existe autocorrelacion
se basa en el estadistico de Durbin-Watson : n
L d
(e t
-
et - 1)2
= _t=_2_________ n
(14.3)
L e;
t= 1
donde los et son los residuos cuando la ecuaci6n de regresion se estima por minimos cuadrados. Cuando la hip6tesis alternativa es que existe una autocorrelacion positiva de los errores, es decir,
H1 : p > 0 la regia de decision es la siguiente: Rechazar Ho si d < dL Aceptar Ho sj d > du Contraste no concluyente Sl dL < d < d u don de dL y du corresponden a los valores de n y K Y los niveles de signiticaci6n del 1 y el 5 por ciento que se encuentran en la Tabla 12 del apendice. A veces queremos hacer un contraste trente a la hipotesis alternativa de que existe una autocorrelacion negativa, es decir,
HI:p <0
612
Estadfstica para administraci6n y economfa
En ese caso, la regia de decision es la siguiente: Rechazar He si d > 4 - dL Aceptar He si d < 4 - d u Contraste no concluyente si 4 - dL > d > 4 - d u
La mayorfa de los program as informaticos calculan opcionalmente el estadfstico d de Durbin-Watson como parte de la estimacion de la regresion. La Figura 14.16 muestra la salida Minitab del ejemplo de las asociaciones de ahorro y credito inmobiliario con el estadfstico d de Durbin-Watson calculado. Este es igual a 1,95 y en el apendice vemos que cuando IX = 0,01, k = 2 y n = 25, los valores crfticos son d L = 0,98 Y d u = 1,30. Por 10 tanto, Ho: P = no puede rechazarse, por 10 que concluimos que los terminos de error no estan autocorrelacionados.
°
Figura 14.16. Calcu lo del estadfstico de Durbin-Watson d (salida Minitab).
The regression equation is Y prof i t = l. 56 + 0.237 Xl rev enue -0.000249 X2 of fi ces Predictor Coef Constant 1.56450 0.2 3720 Xl reven X2 offit -0.00024908 S
= 0.05330
R- Sq
=
StDev 0.07940 0.05556 0.00003205 86 .5 %
p
T 19 . 70 4.27 - 7.77
R-Sq(adj)
=
0.000 0 .000 0 . 00 0 85 . 3%
na lysis of Variance Source Regression Residua l Error To ta l
DF 2 22 24
SS 0 .40 1 51 0 .0 6250 0.46402
Durbin-Watson statistic
MS 0 . 200 76 0 .00 284
F 70 . 66
0.000
1.95
Estimacion de las regresiones con errores autocorrelacionados Cuando concluimos, basandonos en el contraste de Durbin-Watson, que tenemos en-ores autocorrelacionados, hay que modificar el metoda de regresion para eliminar el efecto de estos errores autocorrelacionados. Normalmente, se hace mediante una transformacion adecuada de las variables utilizadas en el metodo de estimacion de la regresi6n. Desarrollamos el metodo basi co en los pasos siguientes. En primer lugar, consideramos un modelo de regresi6n multiple con errores autocorrelacionados:
El mismo modele de regresi6n en el periodo
t -
1:
Multiplicando los dos miembros de esta ecuaci6n por p, la correlaci6n entre los errores adyacentes nos da PYt - l =
{30 +
{3IPXl,t - 1
+ {32PX2 ,t - 1 + ... + {3k P X k,r - 1 +
pCt- 1
Capitulo 14. Otros temas del analisis de regresi6n
613
A continuaci6n, restamos esta ecuaci6n de la primera para obtener Yt -
PYt~ I = f3o(l - p)
+ ... +
+ f3I(Xt; -
f3k(X kt -
pxl.t~ I)
Pxk.t ~ l)
+
f32(X2t -
PX2,t~ I)
+ Ilt
donde Ut = 8t -
p8 t ~ I
y la variable aleatoria ut tiene una varianza uniforme y no esta autocorrelacionada. Vemos que ahora tenemos un modelo de regresi6n que relaciona la variable dependiente (Yt - PYt~ I) Y las variables independientes (x lt - PXI.t ~ I), (X2t - PX2.t~ I), ... , (x kt - Xk.t~ 1)' Los parametros de este modelo son exactamente los mismos que los del modelo original, salvo que e\ termino constante es f3o(l - p) en lugar de 130' Mas importante es el hecho de que en este modelo los errores no estan autocorrelacionados y, por 10 tanto, puede utilizarse el metodo de regresi6n multiple por mfnimos cuadrados para estimar los coeficientes del modelo. Los metodos inferenciales por mfnimos cuadrados para hallar intervalos de confianza y realizar contrastes de hip6tesis son adecuados para este modelo transformado. Basandonos en este analisis, vemos que el problema de los errores autocorrelacionados puede evitarse estimando la regresi6n por mfnimos cuadrados utilizando la variable dependiente (Yt - PYt~ I) Y las variables dependientes (Xli - PXI.t ~ I), (X2t - PX2.t~ I), ... , (Xkt - PXk. t ~ I)' Desgraciadamente, este enfoque plantea un problema en la practica porque no conocemos el valor de p. En diferentes program as informiiticos se utilizan distintos metodos para estimar p. Aquf, mostramos un sencillo metodo en el que utilizamos
r
=
1
d 2
para estimar p.
Estimacion de modelos de regresion con errores autocorrelacionados Supongamos que queremos estimar los coeficientes del modele de regresi6n
cuando el termino de error 8 t esta autocorrelacionado. Podemos estimarlos en dos etapas de la forma siguiente:
1.
Estimamos el modelo p~r minimos cuadrados, obteniendo el estadistico de DurbinWatson y, por 10 tanto, la estimaci6n
d
r=l--
2
2.
(14.4)
del parametro de autocorrelaci6n. Estimamos por minimos cuadrados una segunda regresi6n en la que la variable dependiente es (Yt - ryt - 1 ) y las variables independientes son (Xlt - rXI.t ~ 1)' (X21 -
rX2.t ~ 1)' ... , (Xkt -
rXk.t ~ I)·
Los parametros [31' [32' ... , [3k son los coeficientes de regresi6n estimados en este segundo modelo. Se obtiene una estimaci6n de [30 dividiendo la constante estimada en el segundo modelo por (1 - r). Los contrastes de hip6tesis y los intervalos de confianza de los coeficientes de regresi6n pueden realizarse utilizando los resultados de la segunda regresi6n.
614
Estadfstica para administracion y economfa
EJEMPLO
14.6. Modelo de regresion de series temporales (analisis de regresion con errores correlacionados)
En este ejemplo extenso, mostramos c6mo se realiza un amilisis de regresi6n, utilizando el program a Minitab, cuando los errores esUin autocorrelacionados. En este ejempl0, queremos desalTollar un modelo que prediga el con sumo agregado de bienes duraderos en funci6n de la renta disponible y del tipo de interes de los fondos federales. Solucion Los datos de este proyecto se encuentran en un fichero llamado Macro2003. Las variables de este fichero se describen en el apendice del capitulo. Utilizamos las variables Macro2003
CDR YPDR FFED
Gastos person ales de consumo: bienes duraderos (d6lares reales de 1996) Renta personal disponible (d6lares reales de 1996) Tipo efectivo de los fondos federales
El fichero de datos contiene datos trimestrales desde el primer trimestre de 1946 hasta el segundo de 2003, pero queremos estimar el modelo utilizando datos del periodo comprendido entre el primer trimestre de 1980 y el segundo de 2003. Por 10 tanto, nuestra primera tarea es obtener un subconjunto de estos datos utilizando el programa Minitab. A continuaci6n, hacemos la regresi6n multiple y mostramos la salida en la Figura 14.17. Regression Analysis: CDH versus VPDH, FFED
The regression equation is CDH = - 654 + 0 . 224 YPDH + 6 . 71 FFED Predictor Constant YPDH FFED
Coef -653.52 0.224220 6 . 709
8 = 41.4305
8E Coef 46.4 7 0.006785 1. 893
R-Sq = 96.3%
T -14 . 06 33 . 05 3 . 54
P 0 . 000 0.000 0.001
R-8q(adj) = 96.2%
Analysis of Variance Source Regression Residual Error Total
DF 2 92 94
Durbin - Watson statistic
Figura 14.17.
MS 2069718 1716
88 4139436 157917 4297352
=
F 1205.7 9
P 0.000
0 . 284994
Regresion multiple para predecir el consumo de bienes duraderos: datos originales (salida Minitab).
EI estadlstico de Durbin-Watson de este modelo es 0,28, 10 que indica que existe una autocorrelaci6n positiva. Por 10 tanto, es necesario utilizar transformaciones para obtener variables apropiadas para realizar la regresi6n. Se calcula un valor estimado de la correlaci6n serial, r, utilizando la relaci6n de la ecuaci6n 14.4:
r= 1-
d
2=
0,28
1 - - 2- = 0,86
Capitulo 14.
Otros temas del anal isis de regresi6n
615
A continuaci6n , se calculan las variables transformadas en el programa Minitab utilizando el valor estimado r = 0,86. Como la transformaci6n utiliza un valor retardado de cada variable, perdemos la primera observaci6n del conjunto de datos. Esa es la raz6n por la que incluimos el cuarto trimestre de 1979 en el conjunto de datos seleccionados. La Figura 14.18 presenta el modelo de regresi6n preparado utilizando las variables modificadas. Regression Analysis: cdhadj versus ypdhadj, FFEDadj The regression equation is cdhadj = -68.2 + 0.201 ypdhadj - 1.78 FFEDadj 94 cases used, 1 cases contain missing values Predictor Constant Ypdhadj FFEDadj S
Coef -68.21 0.20060 - l. 777
= 19.5675
R-Sq
SE Coef 11.13 0.01318 1.886
= 74.3%
T -6 . 13 15.22 -0.94
R-Sq (adj)
P 0.000 0.000 0.349
= 73 . 7%
Analysis of Variance Source Regression Residual Error Total
DF 2 91 93
SS 100696 34843 135538
Durbin-Watson statistic
=
MS 50348 383
F
P
131.50
0 . 000
2 .38 972
Figura 14.18. Regresion multiple para predecir el consumo de bienes duraderos: variables transformadas sin autocorrelacion (salida Minitab).
La comparaci6n de las salidas de las Figuras 14.17 y 14.18 indica claramente los problemas que plantean los modelos de regresi6n que tienen errores autocorrelacionados. EI primer analisis de regresi6n es CDH
=
-654 + 0,224 YPDH + 6,71 FFED (0,006785)
R2
=
0,963
(1 ,893)
d = 0,28
Observese que los numeros que figuran debajo de los coeficientes son los errores estadfsticos de los coeficientes. La primera regresi6n tiene un estadfstico d de Durbin-Watson de 0,28, 10 que indica que existe una fuerte autocorrelaci6n positiva. Basandonos en los estadfsticos de los coeficientes estimados concluimos que tanto la renta disponible (b l = 0,224) como el tipo de interes de los fondos federales (b 2 = 6,71) son predictores estadfsticamente significati vos de los gastos de con sumo en bienes duraderos. Sin embargo, el segundo analisis de regresi6n -basado en datos del modelo sin errores autocorrelacionados- lleva a una conclusi6n diferente: CDHadj = -68,2
+ 0,201
YPDHadj - 1,78 FFEDadj
(0,01318)
R2 = 0,743
d = 2,39
(l,886)
616
Estadfstica para administraci6n y economfa
Observese que los nombres de las variables se han modificado para retlejar el hecho de que se han transformado en variables que produciran un modelo que no tendra autocorrelacion. Observese tambien que el estadistico d de Durbin-Watson es 2,39, 10 que indica que no existe autocorrelacion. Vemos que el coeficiente estimado de la renta disponible, b l = 0,201, es similar al de la primera regresion y que el error tfpico del coeficiente es 0,01318. El estadfstico t de Student resultante, 15,22, nos lleva a conduir que la renta disponible es un predictor importante del consumo de bienes duraderos. En cambio, el coeficiente del tipo de interes de los fondos federales es b2 = -1,78 con un estadfstico t de Student de - 0,94. Por 10 tanto, no podemos rechazar la hipotesis nula de que el coeficiente del tipo de los fondos federales es y de que debemos eliminar esa variable como predictor en el modelo de regresion. En este ejemplo, hemos visto que la autocorrelacion lleva a extraer una conclusion incorrecta sobre la importancia del tipo de interes de los fondos federales. Sin ajustar los datos para eliminar la correlacion, habrfamos utilizado el estadfstico t de Student del modelo con los datos originales y ese estadfstico t de Student de la regresion sin ajustar sobreestima el estadfstico t de Student de la regresion ajustada. El estadfstico t de Student del coeficiente de la renta disponible de la primera regresion tambien esta sobreestimado. Sin embargo, tras realizar los ajustes pertinentes para obtener el estimador correcto, observamos que el coeficiente sigue siendo considerablemente diferente de 0.
°
Algunos paquetes estadfsticos como Eviews3 y SAS, que estan pensados para trabajar con datos de series temporales, tienen rutinas que estiman automaticamente el coeficiente de autocorrelacion y realizan los ajustes necesarios para tener en cuenta la autocorrelacion. Muchas de estas rutinas tienen rutinas de calculo iterativas, por 10 que generan estimaciones de los coeficientes y de las varianzas del modelo mejores que con la rutina mostrada aquf. Asi pues, si el lector tiene acceso a un program a de ese tipo, Ie resultara mas facil la estimacion que con el Minitab 0 el Excel. En general, esos otros programas informaticos obtienen estimaciones mas eficientes de los coeficientes.
Errores autocorrelacionados en los modelos con variables dependientes retardadas Cuando tenemos un modelo de regresion con variables dependientes retardadas en el segundo miembro y tambien tenemos errores autocorrelacionados, los metodos habituales de mfnimos cuadrados pueden plantear problemas incluso mas graves. Ademas de los problemas habituales que plantea la estimacion de los errores de los coeficientes, tambien sabemos que los estimadores de los coeficientes estan sesgados y no son consistentes, debido a que existe una correlacion entre el error del modelo y una variable de prediccion y eso introduce un sesgo en la estimacion de los coeficientes. Desgraciadamente, en esta situacion en que hay variables dependientes retardadas, los metodos antes analizados para detectar la presencia de errores autocorrelacionados no son validos, por 10 que presentaremos brevemente un metodo adecuado. Consideremos el modelo
Capitulo 14.
Otros temas del analisis de regresi6n
617
Supongamos que se ajusta este modelo a n conjuntos de observaciones muestrales por mfnimos cuadrados. Sea d el estadfstico de Durbin-Watson habitual con r = 1
y sea
d
2
la desviacion tfpica estimada del coeficiente estimado y de la variable dependiente retardada. Nuestra hipotesis nula es que el panimetro autorregresivo P es 0. Un contraste de esta hipotesis, aproximadamente valido en las gran des muestras, se basa en el estadfstico h de Durbin: Sc
h
=
rJn/O - ns~)
En la hipotesis nula, este estadfstico tiene una distribucion de la que la distribucion normal estandar es una buena aproximacion cuando las muestras son grandes. Asf, por ejemplo, se rechaza la hipotesis nula de que no existe autocorrelacion frente a la hipotesis alternati va de que P es positivo al nivel de significacion del 5 por ciento si el estadfstico h es superior a 1,645 . Si el error autorregresivo es
entonces, utilizando una modificacion del metodo antes desarrollado para el ajuste para tener en cuenta la autocorrelacion, podemos desarrollar el siguiente modelo: Y, = PY, - I = fJoO - p)
+ fJk(Xkl
+ fJl(X 11 -
- PXk,I- I)
PX1 ,(- I)
+ Y(Yt -
+
fJi X21 - PX2,I - I)
I - PY, - 2)
+
+ 6,
Uno de los enfoques posibles para estimar los parametros, que solo requiere un programa ordinario de estimacion por mfnimos cuadrados, es introducir, a su vez, en la ecuacion anterior los valores posibles de P, par ejemplo, 0,1, 0,3, 0,5, 0,7 Y 0,9. En ese caso, la regresion de la variable dependiente (Yt - PY, - I) Y las variables independientes (XII - PXI ,I- I), (X21 - PX2 " (- I), ... , (Xkt' - PXk , , (- I), ' (Yt - I - PYt - 2) se ajusta par minimos cuadrados para cada valor posible de p. El valor de P elegido es aquel con el que la suma resultante de los cuadrados de los en'ores es menor. La inferencia sobre fJj se basa entonces en la regresion ajustada correspondiente,
EJERCICIOS
Ejercicios basicos 14.29. Suponga que se realiza una regresi6n con tres variables independientes y 30 observaciones. EI estadfstico de Durbin-Watson es 0,50. Contraste la hip6tesis de que no hay autocolTelaci6n. Calcule una estimaci6n del coeficiente de autocorrelaci6n si los datos indican que hay autocon'elaci6n . a) Repita con un estadfstico Durbin-Watson igual a 0,80.
b) Repita igual a c) Repita igual a d) Repita igual a
con un estadfstico Durbin-Watson 1,10. con un estadfstico Durbin-Watson 1,25. con un estadfstico Durbin-Watson 1,70.
14.30. Suponga que se realiza una regresi6n con tres variables independientes y 28 observaciones. El estadfstico de Durbin-Watson es 0,50. Contraste la hip6tesis de que no hay autocorrela-
618
Estadfstica para administracion yeconomfa
cion. Calcule una estimacion del coeficiente de autocorrelacion si los datos indican que hay autocorrelacion. a) Repita con un estadfstico Durbin-Watson igual a 0,80. b) Repita con un estadfstico Durbi n-Watson igual a 1,10. e) Repita con un estadfstico Durbin-Watson igual a 1,25. d) Repita con un estadfstico Durbin-Watson igual a 1,70.
Ejercicios aplicados 14.31. En una regresion basada en 30 observaciones anuales, se relaciono la renta agricola de Estados Unidos con cuatro variables independientes: las exportaciones de cereales, las subvenciones federales , la poblacion y una variable ficticia de los alios de mal tiempo. EI modelo se aj usto por mfnimos cuadrados, 10 que dio como resultado un estadfstico de Durbin-Watson con respecto a Yi dio de 1,29. La regresion de un coeficiente de determinacion de 0,043. a) Realice un contraste de la heteroscedasticidad. b) Realice un contraste de la existencia de errores autocorrelacionados.
et
14.32. Considere el modele de regresion y, =
Po + PIXI, + P2 X2, + ... + PKXK, + s,
Demuestre que si Var(s)
=
Kx;
(K > 0)
entonces
var(~) =
K
Analice la posible relevancia de este resultado en el tratamiento de un tipo de heterocedasticidad.
14.33. Vuelva al ejercicio 14.13. Sea ei los residuos de la regresion ajustada e y, los valores predichos dentro del rango de la muestra. La regresion por mlnimos cuadrados de ef con respecto a Yi tiene un coeficiente de determinacion de 0,087. i,Que conclusion puede ex traer de este resultado? 14.34. (i ~ Vuelva al ejercicio 14.13 sobre la oferta monetaria del Reino Unido. i,Que conclusion puede ext:raer del estadfstico de Durbin-Watson de la regresion ajustada? (Fichero de datos, Money UK).
14.35. (, Vuelva al ejercicio 14.18 sobre el consumo en Tailandia. Contraste la hipotesis nula de que no existen errores autocorrelacionados frente a la aJternativa de que existe una autocorrelacion positiva (fichero de datos, Thailand Consumption). 14.36. Un empresario crefa que sus costes de produccion unitarios (y) dependfan del salario (XI), de los costes de otros factores (X2), de los costes generales (X3) y de los gastos publicitarios (X4)' Se obtuvo una serie de 24 observaciones mensuales y se realizo una estimacion por mfnimos cuadrados del modele que dio los siguientes resultados: y, = 0,75
+ 0,24xl' + 0,56x21 (0,07)
R2
(0, 12)
0,79
=
0,32x3' (0,23)
d
=
+ 0,23x4' (0,05)
0,85
Las cifras entre parentesis situadas debajo de los coeficientes estimados son sus errores tfpicos estimados. i,Que conclusiones puede extraer de estos resultados?
14.37. ( J El fichero de datos Advertising Retail muestra 22 alios consecutivos de datos sobre las ventas (y) y la publicidad (x) de una empresa de bienes de consumo. a) Estime la regresion y, = Po
+ f3lx, + s,
b) A verigiie si hay errores autocorrelacionados en este modelo. e) Si es necesario, estime de nuevo el modelo, teniendo en cuenta la posible existencia de errores autocorrelacionados.
14.38. La omision de una variable independiente importante en un modele de regresion de series temporales puede provocar la aparicion de errores autocorrelacionados. En el ejemplo 14.5, hemos estimado el modele y,
=
f30 + PIXI, + s,
que relaciona el margen de beneficios con los ingresos netos basandose en nuestros datos de las asociaciones de ahorro y credito inmobiliario. Realice un contraste de Durbin-Watson de los residuos de este modelo. i,Que puede inferir de los i'esultados?
14.39. Vuelva al ejercicio 14.11 sobre el dinero que gas tan los estudiantes en ropa. El estadfstico de Durbin-Watson del modelo de regresion ajustado es 1,82. Contraste la hipotesis nula de que no hay en'ores autocOiTelacionados frente a la alternativa de que hay una autocorrelacion positiva.
Capitulo 14.
Otros temas del analisis de regresion
619
RESUMEN En este capitulo hemos mostrado que la construccion de modelos de regresion consiste en algo mas que en los metodos basicos presentados en los Capftulos 12 y 13. En la practica, la construccion de un buen modele tiene mucho de arte y exige hacer un detenido analisis. En particular, no deben dejarse de lade importantes variables explicativas. Algunos problemas exigen la utilizacion de variables ficticias 0 de variables independientes retardadas. Recuerdese que en el CapItulo 13 mostramos que tambien pueden utili zarse modelos transformados que incluyan formas cuadraticas y formas logarltmico-lineales. Como hemos visto, debemos comprobar tambien, en la medida de 10 posible, cualquier supuesto postula-
do sobre la conducta de los terminos de error. Pueden realizarse contrastes de heterocedasticidad y en'ores autocorrelacionados si se sospecha que existe alguno de los dos problemas. Y si ex isten, es necesario estimar de nuevo el modele utilizando metodos adecuados desarrollados en este capItulo y en textos avanzados . Aquf hemos analizado algunas de las circunstancias posibles en las que es deseable desviarse del an
TERMINOS CLAVE contraste de Durbin-Watson, 610 contraste de la presencia de heterocedasticidad, 605 disefio experimental, 584 errores autocorrelacionados, 608 errores autocorrelacionados con variables dependientes retardadas, 616 especificacion del modelo, 577
estimacion de coeficientes, 577 estimacion de modelos de regresion con errores autocorrelacionados, 613 heterocedasticidad, 603 interpretacion del modelo e inferencia, 578 multicolinealidad, 600
regresiones que contienen variables dependientes retardadas, 591 sesgo provocado por la exclusion de variables de prediccion importantes, 596 variables ficticias, 579 verificacion del modelo, 578
EJERCICIOS V APLICACIONES DEL CAPiTULO 14.40. Escriba breves informes con ejemplos explicando como se utilizan en la especificaciOri de los modelos de regresion de: a) Las variables ficticias b) Las variables dependientes retardadas c) La transformacion logaritmica 14.41. Considere el ajuste del modele
y = f30
+ f3I XI + f32 X2 + f33 X3 + 8
donde Y = ingresos fiscales en porcentaje del producto nacional brute de un pafs X I = exportaciones en porcentaje del producto nacional bruto del pais X2 = renta per capita del pafs X3 = variable ficticia que toma el valor 1 si el pais participa en algun tipo de integracion economica y 0 en caso contrario. Esta es una forma de tener en cuenta los efectos que produce en los ingresos fiscales la partici-
pacion en aIgun tipo de integracion economica. Otra posibilidad serfa estimar la regresion
Y = f30
+ f3I XI + f32X2 + 8
por separado para los palses que participan y no participan en algun tipo de integracion economica. Explique en que se diferencian estos enfoques del problema.
14.42. Analice la siguiente afirmaci6n: «En muchos problemas practicos de regresi6n, la multioolinealidad es tan grave que serfa mejor realizar regresiones lineales simples independientes de la variable dependiente con respecto a cada variable independiente». 14.43. Explique la naturaleza de cada uno de los siguientes problemas y las dificultades que plantean: a) La heterocedasticidad b) Los errores autocorrelacionados
620
Estadfstica para administraci6n y economfa
14.44. Se ha ajustado eI siguiente modelo a los datos de 90 empresas qufmicas alemanas:
51 = 0,819 + 2 ,llxj + 0,96x2 ( 1,79)
+ 0,00226xs
(1 ,94)
0,059x3 + 5,87x4 (0, 144)
(4,08)
R 2 = 0,410
(0,00115)
donde los numeros entre parentesis son los errores tfpicos de los coeficientes estimados y precio de la acci6n beneficios por acci6n X2 = flujo de fondos por acci6n X 3 = dividendos por acci6n X4 = valor con table por acci6n Xs = medida del crecimiento y
=
XI
=
a) Contraste al nivel del 10 por ciento la hip6tesis nula de que el coeficiente de XI es 0 en la regresi6n poblacional frente a la hip6tesis alternativa de que el verdadero coeficiente es positivo. b) Contraste al nivel del 10 por ciento la hip6tesis nula de que el coeficiente de x2 es 0 en la regresi6n poblacional frente a la hip6tesis alternativa de que el verdadero coeficiente es positivo. c) La variable X2 se ha eliminado del modelo original y se ha estimado la regresi6n de Y con respecto a (XI> X 3 , X 4 , Xs). El coeficiente estimado de XI es 2,95 con un error tfpico de 0,63. i,C6mo puede conciliarse este resultado con la conclusi6n del apartado (a)? 14.45. Se ha ajustado el siguiente modelo a los datos de 28 paises correspondientes a 1989 para explicar el valor de mercado de su deuda en ese momenta:
y = 77,2 - 9,6xl - 17,2x2 - 0,15x3 + 2,2x4 (8,0)
(2,73)
(0,056)
(1,0)
R2 = 0,84
donde y = precio en el mercado secundario, en d61ares, en 1989 de 100 $ de deuda del pais XI = 1 si los reguladores bancarios de Estados Unidos han obligado a los bancos de Estados Unidos a amortizar los activos que tienen del pafs, 0 en caso contrario X2 = 1 si el pafs suspendi6 el pago de los intereses de la deuda en 1989, 2 si suspendi6 el pago de los intereses de la deuda antes de 1989 y aun sigue suspendido y 0 en caso contrario X3 = cociente entre la deuda y el producto nacional bruto
X4 =
tasa de crecimiento del producto naci onal bruto real, 1980-1985
Los numeros entre parentesis situados debajo de los coeficientes son los errores tfpicos de los coeficientes. a) Interprete el coeficiente estimado de X I' b) Contraste la hip6tesis nul a de que, manteniendose todo 10 demas constante, el cociente entre la deuda y el producto nacional bruto no influye linealmente en el valor de mercado de la deuda de un pafs frente a la alternativa de que cuanto mas alto es este cociente, menor es el valor de la deuda. c) Interprete el coeficiente de determinaci6n. d) La especificaci6n de la variable fictici a x2 no es ortodoxa. Una alternativa seria sustituir X2 por el par de variables (xs, X6): Xs = 1 si el pais suspendi6 el pago de los
X6 =
intereses de la deuda en 1989, 0 en caso contrario 1 si el pais suspendi6 el pago de los intereses de la deuda antes de 1989 y aun sigue suspendido, 0 en caso contrario
Compare las implicaciones de estas dos especificaciones alternativas. 14.46. Se ha intentado construir un modele de regresi6n que explique las calificaciones obtenidas por los estudiantes en los cursos de economia intermedia (vease la referencia bibliografica 6). El modelo de regresi6n poblacional suponia que Y = calificaci6n total de los estudiantes en los cursos de economfa intermedia XI = calificaci6n en matematicas en el examen normalizado SAT X2 = calificaci6n en lengua en el examen normalizado SAT X3 = calificaci6n obtenida en algebra en la universidad (A = 4, B = 3, C = 2, D = 1) X4 = calificaci6n obtenida en la asignatura de principios de economfa de la universidad Xs = variable ficticia que toma el valor 1 si el estudiante es mujer y 0 si es hombre X6 = variable ficticia que toma el valor 1 si el profesor es hombre y 0 si es mujer X7 = variable ficticia que toma el valor 1 si el estudiante y el profesor son del mismo sexo y 0 en caso contrario
Este modelo se ajust6 con datos de 262 estudiantes. A continuaci6n, indicamos los estadisticos t; que son el cociente entre la estimaci6n de
Capitulo 14. Otros temas del anal isis de regresion
f3i Y su error tfpico estimado correspondiente. Estos cocientes son
= 2,89
tl =
4,69
t2
t5 =
0,13
t6 =
t3
-1,08
= 0,46 t7 =
t4
= 4,90
14.47. Se ha ajustado la siguiente regresion por minimos cuadrados a 32 observaciones anuales sobre datos de series temporales: log Yt
=
4,52 - 0,62 log XII (0,28)
+ 0,92 log X21 + 0,6110gx31 (0,38)
(0,21)
+ 0,1610gx41 (0,12)
iP =
0,683
14.48. Se ha ajustado la siguiente regresion por mlnimos cuadrados a 30 observaciones anuales sobre datos de series temporales: logy,
= 4,31 + 0,2710gXII + 0,5310gx2t
0,88
El objetivo de este estudio era evaluar la influencia del sexo del estudiante y del profesor en el rendimiento. Realice un breve informe esbozando la informacion que ha obtenido sobre esta cuestion.
d = 0,61
donde Y, = cantidad de trigo exportada por Estados Unidos XII = precio del trigo de Estados Unidos en el mercado mundial X2t = cantidad cultivada de trigo en Estados Unidos x31 = medida de la renta en los pafses que impartan trigo de Estados Unidos X4t = precio de la cebada en el mercado mundial
Los numeros situ ados debajo de los coeficientes son los errores tipicos de los coeficientes. a) Interprete el coeficiente estimado de 10gXII en el contexte del modelo supuesto. b) Contraste al nivel del 5 por ciento la hipotesis nula de que, manteniendose to do 10 demas constante, la renta de los pafses que importan trigo no influye en las exportaciones de trigo de Estados Unidos frente a la hipotesis altemativa de que un aumento de la renta eleva las exportaciones esperadas (no tenga en cuenta de momenta el estadfstico d de Durbin-Watson). c) i,Que hipotesis nula puede contrastarse por medio del estadfstico d? Realice este contraste en el presente problema, utilizando un nivel de significacion dell por ciento. d) Dados los resultados obtenidos en el apartado (c), comente sus conclusiones del apartado (b). i,Como contrastaria la hipotesis nul a del apartado (b)?
621
(0,17)
- 0,8210gx31
(0,21)
(0,30)
iP = 0,615 d = 0,49 donde Y, = numero de quiebras de empresas XII = tasa de desempleo X21 = tipo de interes a corto plazo X31 = valor de los nuevos pedidos realizados Los nlImeros situados debajo de los coeficientes son los errores tfpicos de los coeficientes. a) Interprete el coeficiente estimado de log X31 en el contexto del modelo supuesto. b) i,Que hipotesis nula puede contrastarse par medio del estadfstico d? Realice este contraste en el presente problema utilizando un nivel de significacion del 1 por ciento. c) Dados los resultados del apartado (a), i,es posible contrastar con la informacion dada la hipotesis nula de que, manteniendose todo 10 demas constante, los tipos de interes a corto plazo no influyen en las quiebras de empresas? d) Estime la correlacion entre los terminos de error adyacentes en el modele de regresion. 14.49. Un corredor de bolsa tiene interes en saber cuales son los factores que influyen en la tasa de rendimiento de las acciones ordinarias de los bancos. Se ha estimado por minimos cuadrados la siguiente regresion con una muestra de 30 bancos: Y
= 2,37 + 0,84xl + 0,15X2 (0,39)
(0,12)
- 0,13x3 + 1,67x4 (0,09)
(1 ,97)
R2 = 0,317 donde y = tasa porcentual de rendimiento de las acciones ordinarias del banco XI = tasa porcentual de crecimiento de los beneficios del banco X2 = tasa porcentual de crecimiento de los activos del banco X3 = perdidas por prestamos en porcentaje de los activos del banco X4 = 1 si la central del banco esta en Nueva York y en caso contrario Los numeros situados debajo de los coeficientes son los errores tfpicos de los coeficientes. a) Interprete el coeficiente estimado de X4' b) Interprete el coeficiente de determinacion y utilfcelo para contrastar la hipotesis nula de
°
622
Estadfstica para administraci6n y economfa
que las cuatro variables independientes, consideradas en conjunto, no influyen linealmente en la variable dependiente. c) Sea ei los residuos de la regresi6n ajustada e ? los valores predichos de la variable dependiente dentro del rango de la muestra. La regresi6n de minimos cuadrados de e~ con respecto a? gener6 un coeficiente de determinaci6n de 0,082. l,Que conclusiones pueden extraerse de este resultado?
14.50. Un analista de mere ado esta interesado en saber cua! es la cantidad media de dinero que gastan anualmente los estudiantes en ocio. Se ha estimade por minimos cuadrados la siguiente regresi6n con datos anuales de 30 afios: = 40,93
Yt
+ 0,253x + 0,546YI_I I
(0,106)
d
=
1,86
(0,134)
donde YI XI
= =
gasto por estudiante, en d6lares, en ocio renta disponible por estudiante, en d6lares, una vez pagada la matrfcula, las tasas y la manutenci6n
Los numeros situados debajo de los coeficientes son los errores tfpicos de los coeficientes. a) Halle el intervalo de confianza al 95 por ciento del coeficiente de X, en la regresi6n poblacional. b) l, Que efecto es de esperar que produzca a 10 largo del tiempo un aumento de la renta disponible por estudiante de 1 $ en el gasto en ocio? c) Contraste la hip6tesis nula de que no existe ninguna autocorrelaci6n en los errores frente a la hip6tesis alternativa de que existe una autocon'elaci6n positiva.
14.51. A una empresa local de servicios publicos Ie gustarfa ser capaz de predecir la factura mensual media en electricidad de una vivienda. EI estadistico de la empresa ha estimado por minimos cuadrados el siguiente modelo de regresi6n:
donde Y
=
Xl =
X2
=
factura mensual media en electricidad, en d6lares factura bimestral media en gasol ina para autom6viles numero de habitaciones de la vivienda
EI estadistico obtuvo la siguiente salida SAS basandose en una muest:ra de 25 viviendas:
PARAMETER
ESTIMATE
INTERCEPT Xl X2
- 10 . 80 30 - 0. 0247 10. 94 0 9
STUDENT'S t FOR HO: PARAMETER = 0
STD. ERROR OF ESTIMATE
-0 . 956 18 . 51 7
0 . 0259 0. 5909
a) Interprete, en el contexte del problema, la estimaci6n por minimos cuadrados de f32' b) Contraste la hip6tesis nula
Ho:f31 = 0 frente a la hip6tesis alternativa bilateral. c) El estadfstico esta preocupado por la posibilidad de que exista multicolinealidad. l,Que informaci6n se necesita para evaluar la posible gravedad de este problema? d) Se sugiere que la renta de los hogares es un importante determinante de la cuantfa de la factura de electricidad. De ser eso cierto, l,que puede decirse sobre la regresi6n estimada por el estadfstico? e) Dado el modele ajustado, el estadfstico obtiene las facturas predichas de electricidad, y los residuos, e. A continuaci6n, hace una regresi6n de e2 con respecto a y observa que la regresi6n tiene un coeficiente de determinaci6n de 0,0470. Interprete este resultado.
y,
y,
14.52. ~ VEl fichero de datos Indonesia Revenue muestra 15 observaciones anuales de Indonesia sobre los ingresos fiscales totales, salvo los generados por el petr61eo (y), la renta nacional (Xl) y el valor afiadido por el petr6leo en porcentaje del producto interior bruto (X2)' Estime por minimos cuadrados la regresi6n 10gYI = fJo
+
fJllogXlt
+
fJ210gx2t
+ G,
Realice un informe que resuma sus resultados, incluido un contraste de la existencia de heterocedasticidad y otro de la existencia de errores autocorrelacionados.
14.53. f. .'ll EI fichero de datos German Income muestra 22 observaciones anuales de la Republica Federal de Alemania sobre la variaci6n porcentual de los sueldos y salarios (y), el crecimiento de la productividad (Xl) y la tasa de inflaci6n (X2) medida por medio del deflactor del producto nacional bruto. Estime por minimos cuadrados la regresi6n Yt
=
fJo
+ fJIXI I +
fJ2 X2t
+ GI
Escriba un informe que resuma sus resultados, incluido un contraste de la existencia de heterocedasticidad y un contraste de la existencia de errores autocorrelacionados.
Capftulo 14. Otros temas del anal isis de regresion
14.54.
EI fichero de datos Japan ImpOits muestra 35 observaciones trimestrales de Japon sobre la cantidad de importaciones (y), el cociente entre los precios de las importaciones y los precios interiores (XI) y el producto nacional bruto real (X2)' Estime por minimos cuadrados la regresion
('i
10gYt= f30 +
f3l
lo g x lt + f32 10g x 2t + Ylog Y, - I + Sf
Realice un informe que resuma sus resultados, incluido un contraste de la existencia de errores autocorrelacionados. 14.55. Se ha realizado un estudio sobre los costes por hora de trabajo de las auditorfas realizadas a los bancos por el banco central. Se han obtenido datos sobre 91 auditorfas. Algunas han sido realizadas directamente por el banco central y en otras han intervenido auditores externos. Los allditores han calificado la direccion de los bancos de buena, satisfactoria, correcta 0 insatisfactoria. EI modelo estimado es logy = 2,41 +0,367410gxI + 0,221710gx2+ 0,080310gx3 (0,0477)
(0,0628)
(0,0287)
- 0,1755x4 + 0,2799xs + 0,5634x6 - 0,2572x7 (0,2905)
(0,1044)
(0,1657)
(0,0787)
R2 = 0,766 donde Y = horas de trabajo de los auditores del banco central XI = total de activos del banco X2 = numero total de oficinas del banco X3 = cociente entre los prestamos clasificados como dudosos y los prestamos totales del banco X4 = 1 si la valoracion de la direccion es «buena» y 0 en caso contrario Xs = 1 si la valoracion de la direccion es «correcta» y 0 en caso contrario x6 = 1 si la valoracion de la direccion es «i nsatisfactoria» y 0 en caso contrario X7 = 1 si la auditorfa se realizo conjuntamente con auditores extemos y 0 en caso contrario Los numeros entre parentesis situados debajo de los coeficientes son los errores tfpicos de los coeficientes. 14.56. fliJ EI fic hero de datos Britain Sick Leave muestra datos de Gran Bretafia sobre el numero de dias de baja por enfermedad por persona (Y), la tasa de desempleo (Xl)' el cociente entre las prestaciones y los ingresos (X2 ) y el salario real (X3 ) . Estime el modelo 10gYt = f30 +
f31 10gx I' + f3210gX2f + f3310gX3f + s,
y realice un informe sobre sus resultados. 1ncluya en su amllisis una comprobacion de la po-
623
sibilidad de que haya errores autocorrelacionados y, si es necesario, una correccion para resolver este problema. 14.57. f..; EI Departamento de Comercio de Estados Unidos Ie ha pedido que desarrolle un modelo de regresion para predecir la inversion trimestral en prodllccion y eqllipo dllradero. Las valiables de prediccion sugeridas son el PIB, el tipo de interes preferencial, el fndice de precios de las mercancfas industriales y el gasto publico. Los datos de su amilisis se encuentran en el fichero de datos Macro2003, que esta aim acenado en su disco de datos y se describe en el diccionario de datos del apendice de este capftulo. Uti lice datos del periodo de tiempo comprendido entre el primer trimestre de 1976 y el segundo de 2003. a) Estime un modelo de regresion utilizando solamente el tipo de interes para predecir la inversion. Utilice el estadfstico de DurbinWatson para contrastar la existencia de autocorrelacion. b) Halle la mejor ecuacion de regresion multiple para predecir la inversi6n utilizando las variables de predicci6n indicadas anteriormente. Utilice el estadistico de Durbin-Watson para contrastar la existencia de autocorrelacion. c) i,Que diferencias hay entre los model os de regresion de los apartados (a) y (b) desde el punto de vista de la bondad del ajuste, la capacidad de prediccion, la autocorrelacion y la contribucion a comprender el problema de inversion? 14.58. I ~ Un economista Ie ha pedido que desarrolle un modelo de regresion para predecir el consumo de servicios en funci6n del PNB y de otras variables importantes. Los datos para hacer el aniilisis se encuentran en el fichero de datos Macro2003, que estan almacenados en su disco de datos y se describen en el apendice del capitulo. Utilice datos del periodo comprendido entre el primer trimestre de 1003 Y el cuarto de 2000. a) Estime un modelo de regresion utilizando solamente el PIB para predecir el consumo de servicios. Contraste la existencia de autocorrel aci6n utilizando el estadistico de Durbin-Watson. b) Estime un modelo de regresion multiple utilizando el PNB , el consumo total retardado 1 periodo y el tipo de interes preferencial como predictores adicionales. Contraste la existencia de autocorrelaci6n. i,Reduce esta
624
Estadistica para administracion y economia
regresi6n multiple el problema de la autocorrelacion? 14.59. , ~ Jack Wong, inversor de Tokio, esta considerando la posibilidad de establecer una planta de acero primario en Japon. Tras revisar la propuesta inicial, Ie preocupa la combinacion propuesta de capital y trabajo. Le ha pedido que formule varias funciones de produccion utilizando algunos datos historicos de Estados Unidos. El fichero de datos Metals contiene 27 observaciones de la produccion, medida por el valor afiadido, de la cantidad de trabajo y del valor bruto de la planta y equipo de cada fablica. a) Utilice una regresion mUltiple para estimar una funci6n de producci6n lineal haciendo una regresion del valor afiadido con respecto al trabajo y el capital. b) Represente graficamente los residuos en relacion con el trabajo y el equipo. Sefiale las pautas excepcionales que pueda haber. c) Utilice una regresion mUltiple con variables transformadas para estimar una funcion de produccion Cobb-Douglas de la forma
y=
f3 od 'KfJ2
donde y es el valor afiadido, L es la cantidad de trabajo y K es la cantidad de capital. d) Utilice una regresion multiple con variables transformadas para estimar una funci6n de producci6n Cobb-Douglas con rendimientos constantes de escala. Observe que esta funci6n de produccion tiene la misma forma que la funcion estimada del apartado (c), pero tiene la restricci6n adicional de que f3 , + /32 = 1. Para desarrollar el modele de regresion transform ado, exprese /32 en funci6n de /31 y convierta la expresi6n a un formato de regresion. e) Compare las tres funciones de producci6n utilizando graficos de los residuos y un error tipico de la estimacion expresado en la mis-
rna escala. Tendra que convertir los valores predichos de los apartados (c) y (d) (que estan en logaritmos) en las unidades originales. A continuaci6n, puede restar los valores predichos de los valores originales de Y para obtener los residuos. Utilice los residuos para calcular errores tfpicos comparables de la estimacion. 14.60.
f Ij Las autoridades de una pequefia ciudad Ie han pedido que identifique las variables que influyen en el valor medio de mercado de las viviendas de las ciudades pequefias del Medio Oeste. El fichero de datos Citydat contiene datos de algunas pequefias ciudades. Las variables de predicci6n candidatas son el tamafio medio de la vivienda (sizehse), el tipo del impuesto sobre bienes inmuebles (taxrate) (el impuesto dividido por el valor catastral total), los gastos totales en servicios municipales (totexp) y el porcentaje de locales comerciales (comper). a) Estime el modele de regresi6n multiple utilizando todas las variables de prediccion indicadas. Selecciones unicamente las variables estadisticamente significativas para formular su ecuacion final. b) Segun un economista, como los datos proceden de ciudades que tienen diferente numero de habitantes, es probable que su modelo contenga heterocedasticidad. Sostiene que los precios medios de las viviendas de las ciudades mayores tendrfan una varianza menor, ya que el numero de viviendas utilizadas para calcular los precios medios de la vivienda serfa mayor. Realice un contraste de la existencia de heterocedasticidad. c) Estime la ecuaci6n de regresi6n mUltiple utilizando minimos cuadrados ponderados con la poblacion como variable de ponderacion. Compare los coeficientes de los modelos de regresion multiple ponderado y no ponderado.
Apendice Diccionario de datos del fichero de datos Macro2003 El fichero de datos contiene datos trimestrales que van del primer trimestre de 1946 al segundo de 2003. Salvo que se indique 10 contrario, los datos estin expresados en d61ares de 1996 utilizando el nuevo indice de precios encadenado. Algunas series no comienzan en 1946, 10 cual se indica diciendo que tienen menos de 218 observaciones.
Capitulo 14.
Otros temas del anal isis de regresion
625
FM2
serie
M
Cantidad de dinero: M2 (desestacionalizada, mm $)
FFED
serie
M
Tipo [efectivo] de los fondos federal es (% anual)
FBPR
serie
M
Tipo preferencial de los prestamos bancarios (% anual)
CDH
serie
Q
Gastos personales de consumo: bienes duraderos (TAD -tasa anual desestacionalizada-, mm $ de 1996 encadenados)
CNH
serie
Q
Gastos personales de consumo: bienes no duraderos (TAD, mm $ de 1996 encadenados)
CSH
serie
Q
Gastos personales de consumo: servicios (TAD, mm $ de 1996 encadenados)
CH
serie
Q
Gastos person ales de consumo (TAD, mm $ de 1996 encadenados)
Q
CDH + CNH + CSH
Chtot FNH
serie
Q
Inversi6n no residencial fija privada (TAD, mm $ de 1996 encadenados)
FRH
serie
Q
Inversi6n privada fija en viviendas (TAD, mm $ de 1996 encadenados)
VH
serie
Q
Variaci6n de las existencias de las empresas (TAD, mm $ de 1996 encadenados)
IH
serie
Q
Inversi6n bruta interior privada (TAD, mm $ de 1996 encadenados)
Q
FNH + FRH + VH
IHTOT XH
serie
Q
Exportaciones de bienes y servicios (TAD, mm $ de 1996 encadenados)
MH
serie
Q
Importaciones de bienes y servicios (TAD, mm $ de 1996 encadenados)
GH
serie
Q
Gasto publico de consumo/inversi6n (TAD, mm $ de 1996 encadenados)
GDPH
serie
Q
Producto interior bruto (TAD, mm $ de 1996 encadenados) CHTOT + IHTOT + GH + XH - MH
IGDP
serie
Q Q
YP
serie
Q
Renta personal (TAD, mm $ de 1996)
YPD
serie
Q
Renta personal disponible (TAD, mm $ de 1996)
YPDH
serie
Q
Renta personal disponible (TAD, mm $ de 1996 encadenados)
YPSV
serie
Ahorro personal (TAD, mm $ de 1996)
YPO
serie
Q Q
Gdphtot
bruta
Producto interior bruto: fndice de precios encadenado (desestacionalizado, 1996 = 100)
Gasto personal (TAD, mm $ de 1996)
626
Estadfstica para administracion y economfa
Bibliografla 1.
2. 3. 4. 5. 6.
Dhalla, N. K., «Short-Term Forecasts of Advertising Expenditures», Journal of Advertising Research, 19, n.o I, 1979, pags. 7-14. Erikson, G. M., «Using Ridge Regression to Estimate Directly Lagged Effects in Marketing», Journal of American Statistical Association, 76, 1981, pags. 766-773. Hsiao, c., «Autoregressive Modeling of Canadian Money and Income Data», Journal of American Statistical Association, 74, 1979, pags. 553-560. McDonald, J., «Modeling Demographic Relationships: An Analysis of Forecast Functions for Australian Births», Journal of the American Statistical Association, 76, 1981, pags. 782-792. Mills, T. c., «The Functional Form of the UK Demand for Money», Applied Statistics, 27, 1978, pags. 52-57. Waldauer, c., V. G. Duggal y M. L. Williams, «Gender Differences in Economic Knowledge: A Further Extension of the Analysis», Quarterly Review of Economics and Finance, 32, n.o 4, 1992, pags. 138-143.
Estadistica no parametrica //
/ "//
/
Esquema del capitulo 15.1.
15.2.
15.3. 15.4. 15.5.
Contraste de signos e intervale de confianza Contraste de signos de muestras pareadas 0 enlazadas Aproximaci6n normal Contraste de signos de una mediana poblacional Intervalo de confianza de la mediana Contraste de W ilcoxon basado en la ordenaci6n de las diferencias Minitab (contraste de Wilcoxon) Aproximaci6n normal Contraste U de Mann-Whitney Contraste de la suma de puestos de Wilcoxon Correlaci6n de orden de Spearman
Introducci6n En el Capftulo 2 vimos que los datos se clasifican en numericos y cualitativos. Los metodos estadfsticos que hemos estudiado hasta ahora requieren el uso de datos numericos. En el caso de esos datos, las medias, las varianzas y las desviaciones tfpicas tienen sentido. Sin embargo, en el de los datos cualitativos (nominales u ordinales), no pueden aplicarse los metodos parametricos. En este capftulo introducimos contrastes no parametricos que suelen ser el metoda necesario para extraer conclusiones inferenciales sobre datos nominales u ordinales. A menudo se obtienen datos de ese tipo en muchos contextos, como los estudios de mercado, las encuestas a empresas y los cuestionarios. En los Capftulos 10 Y 11 introdujimos algunos contrastes de hip6tesis que dependfan del supuesto de la normalidad de las distribuciones poblacionales. EI supuesto de la normalidad a menudo es razonable. Ademas, en virtud del teorema dellfmite central, muchos de estos metodos de contraste siguen siendo mas 0 menos validos cuando las muestras son grandes aunque la distribuci6n poblacional no sea normal. Si embargo, puede darse el caso de que en las aplicaciones practicas sea insostenible el supuesto de la normal idad. En estas circunstancias, es deseable basar las inferencias en contrastes no parametricos que son validos en una amplia variedad de distribuciones de la poblaci6n subyacenteo Esos contrastes suelen denominarse contrastes que no dependen de fa distribuci6n. En este capftulo describimos algunos de los contrastes no parametricos que son adecuados para analizar datos nominales, datos ordinales 0 datos numericos cuando no puede postularse el supuesto de la normalidad de la distribuci6n de probabilidad de la poblaci6n. En capftulos posteriores analizamos otros contrastes no parametricos. No es nuestro objetivo aquf intentar describir toda la amplia variedad de metodos no parametricos que existen. Nuestra aspiraci6n es mas modesta: que el lector se haga una idea de algunos metodos no parametricos, entre los que se encuentran el contraste de signos, el contraste de Wilcoxon basado en la ordenaci6n de las diferencias, el contraste U de Mann-Whitney, el contraste de la suma de puestos de Wilcoxon y el contraste de correlaci6n de orden de Spearman. Estas son alternativas no parametricas a los distintos metodos introducidos antes en el libro.
628
Estadfstica para administraci6n y economfa
15.1. Contraste de signos e intervalo de confianza El contraste no parametrico mas sencillo de realizar es el contraste de signos. Se utiliza principal mente para contrastar hipotesis sobre la posicion central (mediana) de una di stribucion poblacional 0 para analizar datos de muestras pareadas. El contraste de sign os se emplea en los estudios de mercado para averiguar si los consumidores prefieren uno de dos productos. Dado que los encuestados manifiestan simplemente su preferencia, los datos son nominales y se prestan a metodos no parametricos.
Contraste de signos de muestras pareadas 0 enlazadas Supongamos que se toman muestras pareadas 0 enlazadas de una pohlacion y se descartan las diferencias iguales a 0, por 10 que quedan n observaciones. El contraste de signos puede utilizarse para contrastar la hipotesis nula de que la median a poblacional de las diferencias es 0 (10 que serfa cierto, por ejemplo, si las diferencias procedieran de una poblacion cuya distribucion fuera simetrica en torno a una media de 0). Sea + una diferencia positiva y - una diferencia negativa. Si la hipotesis nula fuera verdadera, nuestra secuencia de diferencias + y - podrfa concebirse como una muestra aleatoria extrafda de una poblacion en la que las probabilidades de + y - fueran cada una de 0,5. En ese caso, las observaciones constituirfan una muestra aleatoria extrafda de una poblacion binomial en la que la probabilidad de + serfa de 0,5. Por 10 tanto, si P representa la verdadera proporcion de + que hay en la poblacion (es decir, la verdadera proporcion de diferencias positivas), la hipotesis nula es simplemente
Ho:P = 0,5 El contraste de signos se basa entonces en el hecho de que el numero de observaciones positivas, S, que hay en la muestra sigue una distribucion binominal (donde P = 0,5 segun la hipotesis nula).
Contraste de signos de muestras pareadas Supongamos que se toman muestras aleatorias pareadas 0 enlazadas de una poblacion y que se descartan las diferencias iguales a 0, por 10 que quedan n observaciones. Cal cui amos la diferencia para cad a par de observaciones y anotamos el signo de esta diferencia. EI contraste de signos se utiliza para contrastar
Ho:P = 0,5 donde Pes la proporcion de observaciones no nulas en la poblacion que son positivas. EI estadfstico del contraste S para el contraste de signos de muestras pareadas es simplemente
S = mimero de pares que tienen una diferencia positiva donde S sigue una distribuci6n binomial, donde P = 0,5 Y n = numero de diferencias no nulas.
Tras contrastar la hipotesis nula y la hipotesis alternativa y hallar un estadfstico del contraste, el paso siguiente es calcular el p-valor y extraer conclusiones basadas en una regIa de decision.
Capitulo 15.
Estadistica no parametrica
629
Calculo del p-valor de un contraste de signos EI p-valor de un contraste de signos se halla utilizando la distribuci6n binomial con n = numero de diferencias no nulas, S = numero de diferencias positivas y P = 0,5.
En un contraste de la cola superior
a)
HI:P
b)
> 0,5
p-valor = P(x
~
S)
(15.1 )
p-valor = P(x ::s;; S)
(15.2)
En un contraste de la cola inferior
HI:P
< 0,5
En un contraste de dos colas
c)
HI:P"# 0,5
EJEMPLO
2(p-valor)
(15.3)
15.1. Preferencia por un producto (contraste de signos)
Un restaurante italiano cercano a un campus universitario esta considerando la posibilidad de utilizar una nueva receta para hacer la salsa que echa a las pizzas. Se elige una muestra aleatoria de ocho estudiantes y se pide a cada uno que valore en una escala de 1 a 10 su opinion sobre la salsa original y sobre la salsa propuesta. La Tabla 15.1 muestra las valoraciones obtenidas en la comparacion; los numeros mas altos indican que gusta mas el producto. lIndican los datos una tendencia general a preferir la nueva salsa a la original?
Solucion La Tabla 15.1 tambien muestra las diferencias de valoracion de los estudiantes y los signos de estas diferencias. As!, se asigna un + si se prefiere la salsa original, un - si se prefiere la nueva y si se valoran los dos productos por igual. En este experimento, dos estudiantes prefieren la salsa original y cinco la nueva; uno las valora por igual.
°
Tabla 15.1.
Valoraci6n de la salsa de pizza por parte de los estudiantes. Valoracion
Estudiante
A B C D E F
G H
Producto original
Producto nuevo
Diferencia (original-nuevo)
Signo de la diferencia
6 4 5 8 3 6 7 5
8
-2 -5
-
1 1 -6 -3 0 - 4
+ +
9
4 7 9 9
7 9
-
-
0 .-
La hipotesis nul a de interes es que en la poblacion en general no hay una tendencia general a preferir un producto al otro. Para evaluar esta hipotesis, comparamos los numeros .que expresan una preferencia por cada producto, descartando los que valoran los
630
Estad fstica para adm inistrac ion y econom fa
productos por igual. En este ejempl o, los valores del estudiante G se omiten y el tamano efectivo de la muestra se reduce a n = 7. La unica informacion muestral en la que se basa nuestro contraste es que dos de los siete estudiantes prefieren el producto original. Por 10 tanto, el estadfstico del contraste es S = 2. La hipotesis nula puede concebirse como la hipotesis de que la mediana poblacional de las diferencias es 0. Si la hipotesis nula fuera verdadera, nuestra secuencia de diferencias + y - podria concebirse como una muestra aleatoria extrafda de una poblacion en la que las probabilidades de + y - son 0,5 cada una. En ese caso, las observaciones constituirian una muestra aleatoria extrafda de una poblacion binomial en la que la probabilidad de + es 0,5 . Por 10 tanto, si P representa la verdadera proporcion de + que hay en la poblacion (es decir, la verdadera proporcion de la poblacion que prefiere la salsa original), la hipotesis nul a es simplemente
Ho: P
=
0,5
No hay una tendencia general a preferir uno de los productos al otro
Se utiliza un contraste de una cola para averiguar si existe una tendencia general a preferir la nueva salsa a la original. La alternativa de interes es que la mayoria de la poblacion prefiere el nuevo producto. Esta alternativa se expresa de la forma siguiente: HI:P < 0,5
La mayorfa prefiere el nuevo producto (0 menos del 50% prefiere el producto original)
A continuacion, haHamos la probabilidad de observar en la muestra un resultado tan extremo 0 mas que el que se obtendrfa si la hipotesis nula fuera, en realidad, verdadera. Este valor es e! p-valor del contraste. Si representamos por medio de P(x) la probabilidad de observar x «exitos» (+) en n = 7 pruebas binomiales, cada una con una probabilidad de exito de 0,5, entonces la probabilidad binomial acumulada de observar dos o menos + puede obtenerse utilizando la formula binomial, una tabla binomial 0 un programa informatico como Microsoft Excel. El p-valor se halla por medio de la ecuacion 15.2: P-valor = P(x ~ 2) = P(x = 0) + P(x = 1) + P(x = 2) = 0,0078 + 0,0547 + 0,1641 = 0,2266 Con un p-valor tan grande, no podemos rechazar la hipotesis nula y concluimos que los datos no son suficientes para sugerir que los estudiantes prefieren la nueva salsa. Asimismo, podrfamos haber dicho que si adoptamos la regIa de decision «rechazar Ho si hay dos 0 menos + en lamuestra», entonces la probabilidad de que la hipotesis nula se rechace cuando en realidad es verdadera es 0,2266. Por 10 tanto, ese contraste tiene un p-valor de 22,66 por ciento. Dado que el p-valor es el nive! de significacion mas bajo al que puede rechazarse la hipotesis nula, en este ejemplo la hipotesis nula puede rechazarse al 22,66 por ciento 0 mas . Es improbable que alguien estuviera dispuesto a aceptar un nivel de significacion tan alto. Una vez mas, concluimos que los datos no son estadfsticamente significativos para recomendar un cambio de salsa. Quiza nuestra decision se debe a que tenemos un pequeno numero de observaciones muestrales. Para ilustrar un contraste de dos colas, supongamos que queremos averiguar si hay en la poblacion una preferencia general por cualquiera de los dos productos. En ese caso, H I : P =F 0,5 y, por la ecuacion 15.3, el p-valor = 2P(x ~ 2) = 2(0,2266) = 0,4532.
Capitulo 15.
631
Estadistica no parametrica
Observese tambien que p-valor = P(x
~
2)
+ P(x
~
+ P(l) + P(2) + P(S) + P(6) + P(7) =
S) = P(o)
0,4S32
Ese elevado p-valor sugerirfa que los datos no son suficientes para pensar que los estudiantes prefieren una de las salsas a la otra. Solo podrfamos rechazar la hipotesis nula y concluir que se prefiere una de las salsas con un nivel de significacion del 4S,32 por ciento.
Aproximacion normal Como consecuencia del teorema del lfmite central, puede utilizarse la distribucion normal como aproximacion de la distribucion binomial si la el tamano de la muestra es grande. Los expertos discrepan sobre la definicion exacta de «grande». Sugerimos que la aproximacion normal es aceptable si el tamano de la muestra es de mas de 20. Un factor de correccion de continuidad del estadfstico del contraste compensa la estimacion de datos discretos con una distribucion continua y permite aproximarse mas al p-valor.
EI contraste de signos: aproximacion normal (grandes muestras) Si el numero n de observaciones muestrales no nulas es grande, el contraste de signos se basa en la aproximacion normal de la binomial de media y desviaci6n tfpica:
Media:
J,l
= nP = O,Sn
Desviacion tfpica:
(J
=
J nP(l -
P) =
J 0,2Sn = O,S vrn
EI estadfstico del contraste es
S* - J,l Z=-- -
S* - O,Sn
(J
(15.4)
O,Svrn
donde S* es el estadfstico del contraste corregido para tener en cuenta la continuidad y se define de la forma siguiente: a)
En un contraste de dos colas
S* = S b)
+ O,S
si S <
J,l
0
S* = S - O,S
si S >
J,l
(15.5)
En un contraste de la cola superior
S* = S - O,S
(15.6)
S* = S + O,S
(15.7)
En un contraste de la cola inferior
EJEMPLO
15.2.
EI helado (contraste de signos: aproximacion normal)
Se ha pedido a una muestra aleatoria de 100 ninos que comparen dos nuevos sabores de helado: mantequilla de cacahuete y chicle. Cincuenta y seis miembros de la muestra prefieren el helado de mantequilla de cacahuete, 40 el de chicle y 4 no manifiestan ninguna preferencia. Utilice la aproximacion normal para averiguar si existe una preferencia general por cualquiera de los dos sabores. Compare su resultado con las probabilidades binomiales obtenidas utilizando tanto Excel como Minitab.
632
Estadfstica para adm inistracion y economfa
Solucion Para contrastar si existe en esta poblacion una preferencia general por uno de los dos sabores, las hipotesis son
Ho: P HI: P
= oj:
0,5 0,5
Los nifios no tienen ninguna preferencia par ninguno de los dos sabores Los nifios tienen preferencia par uno de los dos sabores
Sea P la proporcion de la poblacion que prefiere el helado de chicle, por 10 que S = 40 (P tambien podria haber sido la proporcion de la poblacion que prefiere el helado de mantequilla de cacahuete; en ese caso S = 56). Utilizando las ecuaciones 15.4 y 15.5, fl = nP = 0,5n = 0,5(96) = 48 / (J
= 0,5 j% = 4,899 S* - 'i 405 - 48
Z=
r'
4,899
(J
- 1,53
~yL
dado que 40 < 48, S* = 40,5 ?~ r
De la distribucion normal estandar se deduce que el p-valor aproximado = 2(0,0630) = =0,126. Por 10 tanto, puede rechazarse la hipotesis nula a todos los niveles de significacion superiores a 12,6 por ciento. Si no se utiliza ningun factor de coneccion de continuidad, el valor Z se convierte en Z = - 1,633, 10 que da un p-valor algo men or: 0,1024. Minitab y Excel (contraste de signos) Dado que el contraste de signos se basa en la distribuci6n de probabilidad binomial, el uso de Minitab 0 de Excel es sencillo. En la salida Minitab (Figura 15.1A) se observa que el p-valor = 2(0,0626728) = 0,1254 Y en la salida Excel (Figura 15.lB) se observa que el p-valor = P(x :s; 40) + P(x ~ 56) = = 0,0626728 + 0,0626728 = 0,1253456. Los dos p-valores son cercanos al p-valor de 0,126 obtenido utilizando las ecuaciones 15.4 y 15.5. Los datos no son suficientes para sugerir que los nifios tienen una prefercncia general pOl' uno de los sabores 0 por el otro.
Figura 15.1A.
x
p(
40,0
0,0626728
X
<=
X
)
Ejemplo del helado: n = 96, P = 0,5, S = 40 (salida Minitab).
= 0.002672849 Retuns
the Incllvici.:al term binomial distrlrutloo prcbabllity.
Cumulative Is a logical value : fef the cumulJtlve dlstributiw ft.n:t1cn, use TRLE; fer !he probability mass n.rrtioo. use FALSE.
Formula result = Help 00 ibis fi n:tjoo
Figura 15.1B.
0 .062672849
a<
II
Cancel
I
Ejemplo del helado: n = 96, P = 0,5, S = 40 (salida Excel).
Capftulo 15.
Estadfstica no parametrica
633
Contraste de signos de una mediana poblacional El contraste de signos tambien puede utilizarse en el caso de una muestra para contrastar la hipotesis de que la mediana es un valor dado.
EJEMPLO 15.3. Ingresos iniciales de personas recien licenciadas (contraste de signos) El decano de la facultad de administracion de empresas de una universidad querrfa tener informacion sobre los ingresos iniciales de las personas recien licenciadas. Estos son los sueldos iniciales de una muestra aleatoria de 23 licenciados: 29250 34800 32890
Income
29900 42100 36000
28070 33200 35000
31400 36000
311 00
c
29000
658q(1' 34000
33000 29900
50000 32000
28500 31500
31000 29900
i,Indican los datos que la mediana de los ingresos iniciales es diferente de 35.000 $? Los datos para hacer este problema se encuentran en el fichero de datos Income.
Solucion Dado que la distribucion de los ingresos a menudo esta sesgada, se utilizara el contraste de signos. La hlpotesis nula y la hipotesis alternativa son
Ho: Mediana
= 35.000 $
HI : Mediana
# 35.000 $
Aquf contrastamos la hipotesis nula utilizando una distribucion binomial en la que P
= 0,50. Primero obtenemos una respuesta aproximada utilizando las ecuaciones 15.4
y 15.5. Observese que hay 17 estudiantes que indicaron que tenian unos ingresos iniciales de mas de 35.000 $, 5 que ten fan unos ingresos iniciales de menos de 35.000 $ y 1 que tenia unos ingresos iniciales de 35.000 $. El tamaDO de la muestra se reduce a n = 22 Y S = 17. Se observa que la media y la desviacion tfpica son
Dado que S = 17 >
f.l =
J1.
=
(J
= 0,5
nP
=
0,5n
= 0,5(22) = 11
fo = 2,345
11, el estadfstico de contraste de la aproximacion normal es
Z=
16,5 - 11 2,345 = 2,35
Utilizando la tabla de la distribucion normal estandar, el p -valor aproximado es 2(0,0094) = 0,0188. La Figura 15.2 muestra los resultados obtenidos utilizando el programa Excel para resolver este problema: P(X ~ 51 n
= 22,
P
= 0,5) =
P(X ~ 17 In
= 22,
P
= 0,5) = 0,0845
En este ejemplo, que es de dos colas, el p-valor = 2(0,00845) = 0,0169 (algo menor que el p-valor de 0,0188 obtenido por medio del metodo de la aproximacion normal).
634
Estad fstica para ad ministracion y economfa
-., '~:-~ ~~~=.~~=~~·~3ji~":§~'*1~ B!I'-()'4)IST
i
Number _s :? Probabi lity_s jO.5 Cumulat ive! TRLE =
Of.o84 ~27
Retl.l1ls the IrdivldJal term binomial distribution p-cbebllity .
Cumu lative Is a logical value : for the cumulative distrirutlon fLJl':tion, use TRLE, for
the p--cbcttill':y mass fLnCtlan, use FAlSE
Formula result :: ~JQ
!
O . 0084~27
o
en jhis fl(lCUrQ
Figura 15.2. Ejemplo de los ingresos iniciales (salida Excel).
La Figura 15.3 muestra la salida Minitab de este ejemplo. Sign test of median = 350 00 versus not
N
Below
23
17
Figura 15.3.
Equal
Above
p
0. 0169
= 35000
Median 3200 0
Ejemplo de los ingresos in iciales (salida Minitab).
Tanto Excel como Minitab calculan el p-valor utilizando las probabilidades binomiales. Si n > 50, entonces Minitab calcula el p-valor utilizando la aproximacion normal.
Intervalo de confianza de la mediana Pa.ra calcular intervalos de confianza. de Ia. mediana basados en el contraste de signos puede utilizarse el program a Minitab. Consideremos los ingresos iniciales que se indican en el ejemplo 15.3 y se encuentran en el fichero de datos Income. Observese que en la salida Minitab de la Figura 15.4 se incluyen tres intervalos de confianza. La primera fila indica el nivel de confianza obtenido (0,9069) justo por debajo del deseado (0,95); la tercera indica el nivel de confianza alcanzable (0,9653) justo por encima del deseado (0,95). «EI caIculo del primero y el tercer intervalo se realiza con un metoda parecido al de los signos que se emplea cuando se hace un contraste de hip6tesis de la medi ana. Primero se orden an las observaciones. EI intervalo que va de la d-esima observaci6n mas pequefia a la d-esima observacion mas grande tiene una confianza de 1 - 2P(X < d) utili zando la distribuci6n binomial en la que P = 0,5. Los intervalos que tienen coeficientes de confianza justo por encima y por debajo del deseado son los que se seleccionan. Solo raras veces puede lograrse la confianza deseada con estos intervaIos» (vease la referencia bibliografica 7). En nuestro ejemplo, el intervalo que va de la octava observaci6n mas pequefia a Ia octava mas grande tiene un nivel de confianza de 0,9069, donde X sigue una distribuci6n binomial, siendo n = 23 Y P = 0,5. EI intervalo intennedio establece que los ingresos medianos se encuentran entre 30.393 $ y 34.442 $ con una confianza del 95 por ciento. Asimismo, el intervalo que va de la septima observaci6n mas pequefia a la septima mas grande tiene un nivel de confianza de 0,9653, donde X sigue una distribuci6n binomial, siendo n = 23 Y P = 0,5 .
Capitulo 15.
Figura 15.4. Intervalo de confianza del ejemplo de los ingresos iniciales (salida Minitab) .
Estadlstica no parametrica
635
S i gn confidence interval fo r median Achieved
N 23
Incomes
Median 32000
Con f ide nce 0.906 9
Confidenc e interva l 31000, 34000 ) 30393, 29900 ,
0.9500 0 . 9653
Pos ition
34442) 34800)
NLI 7
Hettmansperger y Sheather desarrollaron el me to do de interpolaci6n no lineal utilizado por Minitab para hallar el intervalo de confianza intermedio (vease la referencia bibliognifica 3). Tambien se obtienen de una manera parecida otros intervalos de confianza para metodos no parametricos analizados en este capitulo.
EJERCICIOS \"Ejer~cios
aplicados
\ 15.1. S~ pide a una muestra aleatoria de 12 analistas ',~ancieros que predigan cUlinto subin'in en terminos porcentuales los precios de las acciones ordinarias de dos em pres as el proximo ano. La tabla muestra los resultados obtenidos. Utilice el contraste de signos para contrastar la hipotesis nul a de que en la poblacion de analistas no hay una preferencia general por la sub ida del precio de las acciones de una de las empresas 0 por la subida del precio de las acciones de la otra.
B C D E
F
6,8 9,8 2,1 6,2 7,1 6,5
7,2 12,3 5,3 6,8 7,2 6,2
G H
K L
9,3 1,0 -0,2 9,6 12,0 6,3
10,1 2,7 1,3 9,8 12,0 8,9
69
F
72
G H
61 63 59 87 98
E
I \
15.2. Una organizacion ofrece un program a destinado a aumentar el nivel de comprension de los estudiantes cuando leen trabajos tecnicos nipidamente. Se da a cada uno de los miembros de una muestra aleatoria de 10 estudiantes 30 minutos para leer un articulo. A continuacion, se realiza un contraste del nivel de comprension logrado. Este proceso se repite una vez que estos estudiantes terminan el programa. La tabla adjunta muestra los niveles de comprension obtenidos antes y despues de asistir al programa. Utilice el contraste de signos para contrastar la hipotesis nula de que en esta poblacion no hay una mejora general de los niveles de comprension despues de asistir al programa.
Despues
A B C D
Analista Accion 1 Accion 2 Analista Accion 1 Accion 2 A
Estudiante Antes Despues Estudiante Antes 62 63 84 70 60
80 70 69
I J
53 49 58 83 92
15.3. Se pregunta a una muestra de II encargados de supermercados que tienen una caja nipida si sus clientes tienen una actitud positiva hacia la caja nipida. Siete contestan «sf» y cuatro contestan «no». Contraste la hipotesis nula de que, en la poblacion de encargados, las respuestas se repar~ ten por igual entre «sf» y «no» frente a la hipote\ SiS alternativa bilateral. 15.4. ~e ha examinado una muestra de 60 empresas que recompraron franquicias. En estos casos, los rendimientos de las acciones ordinarias en torno . a la fecha de anuncio de la recompra fueron positivos 39 veces, negativos 18 y cero 3. Contraste la hipotesis nula de que los rendimientos positivos y los negativos son igual de probables frente a la hipotesis alternativa de que los positivos son mas probables (vease la referencia bibliografica 2).
.J
15.5. En una muestra aleatoria de 130 votantes, 44 eran partidarios de una subida de los impuestos para aumentar los gastos en educacion, 68 eran contrarios y 18 no manifestaron su opinion. Contraste la hipotesis nula de que los votantes estin repartidos por igual en esta cuestion frente a una hip6tesis alternativa bilateral. 15.6. Se ha pedido a una muestra aleatoria de 60 economistas profesionales que predigan si la tasa de inflacion sera el proximo ano mas alta, mas baja
636
Estadfstica para administracion y economfa
o mas 0 menos igual que la de este ano . Los resultados se muestran en la tabla adjunta. Contraste la hip6tesis nula de que los economistas estan divididos par igual en esta cuesti6n.
Prediccion Mas alta Mas baja Mas 0 menos igual
Numero
20 29 11
15.2. Contraste de Wilcoxon basado en la ordenaci6n de las diferencias Uno de los inconvenientes del contraste de signos es que solo tiene en cuenta una cantidad muy reducida de informacion, a saber, los signos de las diferencias. Por ejemplo, en la Tabla 15.1 el contraste de signos indica simplemente que producto se prefiere y no tiene en cuenta el grado de preferencia. Cuando el tamano de la muestra es pequeno, es de esperar, pues, que el contraste no sea muy poderoso. El contraste de Wilcoxon bas ado en la ordenacion de las diferencias es un metoda para incorporar informacion sobre la magnitud de las diferencias entre pares enlazados. Sigue siendo un contraste que no depende de la distribucion. Al igual que muchos contrastes no parametricos, se basa en las ordenaciones.
EI contraste de Wilcoxon en el caso de muestras pareadas EI contraste de Wilcoxon puede emplearse cuando se dispone de una muestra aleatoria de pares enlazados de observaciones. Supongamos que la distribuci6n poblacional de las diferencias· en estas muestras pareadas es simetrica y que queremos contrastar la hip6tesis nula de que esta distribuci6n esta centrada en O. Descartando los pares entre los que la diferencia es 0, ordenamos las n diferencias absolutas restantes en sentido ascendente; en caso de empate, el puesto asignado es la media de los puestos que ocupan en la ordenaci6n. Se calc ulan las sumas de los puestos correspondientes a las diferencias positivas y negativas y la menor de estas sumas es el estadfstico de Wilcoxon, T, es decir, (15.8)
donde suma de los puestos correspondientes a diferencias positivas suma de los puestos correspondientes a diferencias negativas n = numero de diferencias no nulas
T+ T_
= =
Se rechaza la hip6tesis nula si T es menor
EJEMPLO
15.4.
0
igual que el valor de la Tabla 10 del apendice.
Preferencia por un producto (contraste de Wilcoxon)
Resuelva el ejemplo 15.1 de la valoracion de una salsa de pizza utili zan do el contraste de Wilcoxon.
Solucion Prescindimos, al 19ual que en el contraste de signos, de cualquier diferencia de 0, por 10 que eliminamos el estudiante G del estudio y el tamano de la muestra se reduce a n = 7. A continuacion, ordenamos en sentido ascenden.te las diferencias absolutas no nulas. Es decir, asignamos un «1» al valor absoluto mas bajo. Si dos 0 mas valores son iguales, se les asigna la media de los puestos correspondientes. En nuestro ejemplo, las
Capitulo 15.
Estadistica no parametrica
637
dos diferencias absolutas mas pequefias son iguales. Por 10 tanto, el puesto que les asignamos es la media de los puestos 1 y 2, es decir, 1,5. Asignamos el 3 al siguiente valor absoluto, y asf sucesivamente. Ordenamos todas las diferencias y obtenemos la Tabla 15.2. Tabla 15.2.
Calculo del estadfstico de contraste de Wilcoxon para los datos sobre las preferencias. Puesto (+)
Puesto ( - )
Estudiante
Diferencia
A B C
-2
3
-5 1 1
6
D
E F
1,5 1,5
-6
7
-3
4
G
0
H
-4
Suma de los puestos 3 Estadistico T de Wilcoxon = minimo (3, 25)
5 25 = 3
Los puestos de las diferencias positivas y negativas se suman por separado. La menor de estas sumas es el estadfstico T de Wilcoxon. En este ejemplo, T = 3. A continuaci6n, suponemos que la distribuci6n poblacional de las diferencias pareadas es simetrica. La hip6tesis nula que vamos a contrastar es que el centro de esta distribuci6n es 0. En nuestro ejemplo, pues, suponemos que las diferencias de valoraci6n de los dos productos siguen una distribuci6n simetrica y queremos contrastar si esa distribuci6n esta centrada en 0, es decir, si no hay ninguna diferencia entre las valoraciones. Sospecharfamos de la hip6tesis nula si la suma de los puestos correspondientes a diferencias positivas fuera muy diferente de la suma de los puestos correspondientes a diferencias negativas. Por 10 tanto, se rechazara la hip6tesis nula en el caso de los valores bajos del estadfstieo T. Los puntos de corte de la distribuci6n de esta variable aleatoria se encuentran en el apendice y se refieren a los contrastes de que la distribuci6n poblacional de las diferencias pareadas esta centrada en algun numero mayor que 0 en algun numero menor que frente a la hip6tesis alternativa unilateral. Cuando el tamafio de la muestra es n, la tabla muestra el numero Ta tal que peT < Ta) = (X correspondiente a distintas probabilidades IY.. Por ejemplo, si suponemos que (X = 0,05, vemos en la tabla que cuando n = 7, peT ~ 4) = 0,05. Como el estadfstico del contraste de Wilcoxon es T = 3, se rechaza la hip6tesis nula frente a la hip6tesis alternativa unilateral al nivel del 5 por ciento. Es probable que, en conjunto, las valoraciones del nuevo producto sean mayores.
°
°
Minitab (contraste de Wilcoxon) Para realizar un eontrastc de Wilcoxon puede utilizarse el program a Minitab. Consideremos de nuevo las valoraciones que hacen los estudiantes de una salsa de pizza y que se muestran en la Tabla 15.1 (ejemplo 15.1) y se repiten aquf: Estudiante Valoraci6n (original) Valoraci6n (nueva)
A 6 8
B 4 9
C 5 4
D 8 7
E 3 9
F 6 9
G 7 7
H 5 9
638
Estadfstica para administraci6n y economfa
En el caso de las muestras pareadas, se introducen los datos de cada par en columnas separadas en una hoja de trabajo de Minitab y se utiliza Calc para obtener las diferencias entre las columnas 0 se introducen simplemente las diferencias de las dos column as si se dispone facilmente de elIas. La Figura 15.5 muestra la salida Minitab del contraste de Wilcoxon. En este caso, el p -valor es 0,038 para un contraste unilateral de la cola inferior. Observese que la informaci6n adicional que suministran los paquetes informaticos permite rechazar la hip6tesis nula a un nivel de significaci6n mucho mas bajo que el que es posible con el contraste de signos. Sabemos que aunque el programa informatico suministra informaci6n como el p-valor, la interpretaci6n correcta es responsabilidad del lector. Este es frecuentemente el caso en los estudios que se publican en revistas de investigaci6n (vease la referencia bibliografica 4). La interpretaci6n correcta es fundamental. Figura 15.5. Ejemplo de la salsa de pizza (salida Minitab).
Wilcoxon Signed Rank Test for Pizza Sauce Example Test of median
Pizza Sauce
N 8
=
0.000000 versus median N for Test 7
wilcoxon Statistic 3.0
0 . 000000
<
P 0 . 038
Estimated Median -2.250
Aproximacion normal Cuando el numero n de diferencias no nulas en la muestra es grande (n > 20), la distribuci6n normal constituye una buena aproximaci6n del estadfstico de Wilcoxon T en el caso de la hip6tesis nula de que las diferencias poblacionales estan centradas en O. Cuando esta hip6tesis es verdadera, la media y la varianza de esta distribuci6n se hallan por medio de las ecuaciones siguientes.
Contraste de Wilcoxon: aproximacion normal (grandes muestras) En la hip6tesis nula de que las diferencias poblacionales estan centradas en 0, el contraste de Wilcoxon tiene una media y una varianza que vienen dadas por
E(T) =
n(n
=
{IT
+
-4-
1)
(15.9)
y
Var (T) =
2 UT =
n(n
+ 1)(2n +
1)
---2-4 - - -
(15.10)
Entonces, cuando el tamafio de la muestra, n, es grande, la distribuci6n de la variable aleatoria, Z, es aproximadamente nQrmal estandar donde
Z=
T - II
rT
uT
(15.11)
Si el numero, n, de diferencias no iguales a cero es grande y T es el valor observado del estadfstico de Wilcoxon, los siguientes contrastes tienen un nivel de significaci6n (J..
1.
Si la hip6tesis alternativa es unilateral, se rechaza la hip6tesis nula si
T-
{IT
< -z'"
Capftulo 15. Estadfstica no parametrica
2.
639
Si la hipotesis alternativa es bilateral, se rechaza la hipotesis nula si
EJEMPLO
15.5. Metodos de postauditorla (contraste de Wilcoxon)
En un estudio se compararon empresas que tenfan sofisticados metodos de postauditorfa y empresas que no ten fan metod os de ese tipo. Se examino una muestra de 31 pares de empresas. Se calcul6 el cociente entre la valoracion de mercado y los costes de reposicion de los activos de cada una y se utilizo como medida de los resultados de las empresas. En cada uno de los 31 pares, una de las empresas utilizaba un sofisticado · metodo de postauditorfa y la otra no. Se calcularon las 31 diferencias entre los cocientes y se ordenaron las diferencias absolutas. La menor de las sumas de los puestos, 189, correspondio a los pares en los que el cociente era mayor en el caso de la empresa que carecfa de sofisticados metodos de postauditorfa. Contraste la hipotesis nula de que la distribucion de las diferencias entre los cocientes esta centrada en 0 frente a la hipotesis alternativa de que tiende a ser menor en las empresas que carecen de sofisticados metodos de postauditorfa (v ease la referencia bibliografica 8). Solucion Dada una muestra de n = 31 pares, el estadfstico de Wilcoxon tiene, seg(m la hipotesis nula, la media IlT =
+ 1)
n(n
4
(31 )(32) =
=
4
248
y la varianza Var (1) =
2
=
ClT
n(n
+
1)(2n
+ 1)
24
=
(31)(32)(63) = 2.604 24
por 10 que la desviacion tfpica es ClT
=
51,03
El valor observado del estadfstico es T = 189. Se deduce de las ecuaciones 15.9-15.11 que se rechaza la hipotesis nula frente a la hipotesis alternativa unilateral si
Z=
T-
ClT
Suponiendo que
(J.,
/I
rT
189 - 248
-59
51,03
51,03
- 1,16
= 0,05 Zo: =
-1,645
EI resultado del contraste no es suficiente para rechazar la hipotesis nula. Utilizando la distribucion nOlmal estandar, la hipotesis nula puede rechazarse a todos los niveles de significacion de 12,3 por ciento 0 mas.
640
Estadfstica para administracion y economfa
EJERCICIOS
Ejercicios aplicados 15.7. Irvine y Rosenfeld (vease la referencia bibliografica 4) estudiaron «Ia influencia de la emisi6n de Monthly Income Preferred Stock (MIPS) en los precios de las acciones ordinarias de las empresas emisoras». EI fisco ha permitido deducir de los impuestos los dividendos de las MIPS desde el momento en que las introdujo por primera vez Goldman Sachs en 1993 . Por 10 tanto, «Ia emisi6n de MIPS permite a la empresa aumentar su capital social con un coste despues de impuestos casi igual al de la deuda a largo plazo». Uno de los aspectos de su estudio es una comparaci6n de algunas caracterfsticas financieras de las empresas que habfan emitido MIPS (un total de 185) con las de empresas similares que no hablan emitido MIPS antes dell de enero de 1999. Las empresas emisoras de MIPS tambien se dividieron entre empresas industriales que cotizan en bolsa y empresas de servicios publicos, como las telef6nicas, las electricas, las de gas y las de agua. La tabla adjunta es una lista parcial de algunos resultados de este estudio: Contraste de la Media diferencia N de las drlas de empresas cmpresas Empresas Contraste ordena· MIPS MIPS similares de signos ciones Actiros IOtales (miles de mil/olles) Todas las empresas que emiren MIPS Empresas de servicios pliblicos Empresas industriales Cobertllta de illtere,es Todas las empresas que emiten MIPS Emprcsas de servicios pilblicos Empresas industriales Coeiellte entre de.do a corta plaza y actiws totales (%) Todas las empresQs que emiten MIPS Empresas de scrvicios publicos Empresas industriales
_
185 83 102
26,47 10,45 39,60
19,42 8,65 28,26
0,01 0,01
164 83 81
5,53 4,44 6,63
7,71 5,15 10,25
0,04 0,01 0,06
om
185 83 102
23,5 32,6 16,1
21,4 29,3 14,9
0,06 0,Q3 0,19
0,03 0,01 0,28
am
0,oI 0,01 0,01 0,01
A
2
B C
3
D
8 7
6 5 6 8 5
7
E
F G H I
4 3 4 5
8 9
6 4 9
6
15.9. Dieciseis estudiantes universitarios de primer ano se agruparon en ocho pares de tal forma que los dos miembros de cada par fueran 10 mas parecidos posibles en 10 que se referfa a su expediente academico -medido par medio de las calificaciones obtenidas en la ensenanza secundaria y en el examen de acceso a la uni versidad- y a sus orfgenes sociaJes . La principal diferencia existente dentro de los pares era que uno de los estudiantes procedfa de la regi6n en la que estaba la universidad y el otro no. Al final del primer ano de universidad, se registraron las calificaciones medias obtenidas por estos estudiantes; los resultados se muestran en la tabla. Utilice el contraste de Wilcoxon para analizar los datos. Analice las implicaciones de los resultados del contraste.
Par A B C D
De la De fuera region de la region Par 3,4 3,0 2,4
3,8
2,8 3,1 2,7 3,3
E F G H
De la De fuera region de la region 3,9 2,3
2,6 3,7
3,7 2,8 2,6 3,3
0,01
Analice los resultados de esta parte del estudio.
~f pide a una muestra aleatoria de 10 estudiantes
',,-
Estudiante Nacional Importada Estudiante Nacional Importada
~e valoren en una cata a ciegas la calidad de / dos marcas de cerveza, una nacional y una im'.-~ portada. Las valoraciones se basan en una escala de I (mala) a 10 (excelente). La tabla adjunta muestra los resultados. Utilice el contraste de Wilcoxon para contrastar la hip6tesis nula de que la di stribuci6n de las diferencias pareadas esta centrada en 0 frente a la hip6tesis alternativa de que la poblaci6n de todos los estudiantes bebedores de cerveza prefiere la marca importada.
15.10. En un estudio se pidi6 a una muestra aleatoria de 40 estudiantes de administraci6n de empresas que acababan de cursar las asignaturas de introducci6n tanto de estadfstica como de contabilidad que valoraran el interes de cada una en una escala de 1 (nada interesante) a 10 (muy interesante). Se calcularon las 40 diferencias entre los pares de valoraciones y se ordenaron las diferencias absolutas. La suma menor, que era la de los estudiantes que pensaban que la asignatura de contabilidad era la mas interesante, era 281. Contraste la hip6tesis nula de que la poblaci6n de estudiantes de administraci6n de empresas valorarfa estos cursos por igual frente a la hip6tesis alternativa de que el curso de estadfstica se considera el mas interesante.
Capitulo 15.
15.11. Un consultor tiene interes en saber como afecta la introduccion de un programa de gestion total de la calidad a la satisfaccion de los trabajadores en el trabajo. Se pide a una muestra aleatoria de 30 trabajadores que evalue el nivel de satisfaccion en una escala de 1 (muy insatisfecho) a 10 (muy satisfecho) tres meses antes de que se introduzca el programa. Se pide a los miembros de esta misma muestra que hagan esta evaluacion de nuevo tres meses despues de la introduccion del programa. Se calculan las 30 diferencias entre los pares de valoraciones y se ordenan las diferencias absolutas. La suma menor de todas las sumas de los puestos, que es la de los que estan mas satisfechos antes de la introduccion del progra-
Estadistica no parametrica
641
rna, es de 160. ~Que conclusiones pueden extraerse de este resultado?
15.12. Se toma una muestra aleatoria de 80 propietarios de magnetoscopios. Se pide a cada uno de los miembros de la muestra que valore la cantidad de tiempo que dedica al mes a ver los programas de television que ha grabado y a ver las cintas alquiladas. A continuacion, se calculan las 80 diferencias entre las cantidades de tiempo y se ordenan sus val ores absolutos. La menor de las sumas de los puestos correspondientes a los programas de television grabados es de 1.502. Analice las implicaciones de este resultado.
15.3. Contraste U de Mann-Whitney En el Capitulo 11 vimos como podfa compararse la posicion central de dos distribuciones poblacionales cuando se disponfa de una muestra aleatoria de datos pareados. En este apartado introducimos un contraste del mismo problema cuando se toman muestras aleatorias independientes de las dos poblaciones, el contraste U de Mann-Whitney. La distribucion del estadfstico de Mann-Whitney, U, se aproxima a la distribucion normal a un ritmo bastante nipido a medida que aumenta el numero de observaciones muestrales. La aproximacion es adecuada si cada muestra contiene al menos 10 observaciones. Por 10 tanto, solo consideraremos aquf las muestras en las que n[ ~ 10 y n2 ~ 10. Para contrastar la hipotesis nula de que la posicion central de las dos distribuciones poblacionales es igual, suponemos que, aparte de la existencia de cualquier po sible diferencia entre las posiciones centrales, las dos distribuciones poblacionales son identicas.
Estadfstico U de Mann-Whitney Supongamos que, aparte de la existencia de posibles diferencias entre las posiciones centrales, las dos distribuciones poblacionales son identicas. Supongamos que se dispone de n1 observaciones de la primera poblacion y n2 observaciones de la segunda. Se juntan las dos muestras y se ordenan las observaciones en sentido ascendente, aSignando, en caso de empate, la media de los puestos correspondientes. Sea R1 la suma de los puestos de las observaciones de la primera poblacion. En ese caso, el estadfstico U de Mann-Whitney se define de la forma siguiente:
(15.12)
Puede demostrarse entonces que, si la hipoteslS\nUla es verdadera, la variable aleatoria U tiene la media y la varianza definidas en las ecu~ciones 15.13 y 15.14.
642
Estadfstica para administracion y economfa
Contraste U de Mann-Whitney: aproximacion normal Suponiendo como hipotesis nula que las posiciones centrales de las dos distribuciones poblacionales son iguales, el estadistico U de Mann-Whitney tiene la media y la varianza siguientes: (15.13)
(15.14) Entonces, cuando las muestras son de gran tamano (ambas son como minimo de 10), la distribucion normal es una buena aproximacion de la distribucion de la variable aleatoria
U - J1 Z= . v
(15.15)
Uu
Las reglas de decisi6n del estadfstico del contraste de Mann-Whitney, U, se indican en las ecuaciones 15 .16 a 15.18.
Reglas de decision del contraste U de Mann-Whitney Se supone que las dos distribuciones poblacionales son identicas, aparte de las diferencias que puedan existir entre sus posiciones centrales. Para contrastar la hipotesis nula de que las dos distribuciones poblacionales tienen la misma posicion central, las reglas de decision para un nivel de significacion dado son las siguientes: 1.
Si la hipotesis alternativa es la hipotesis de la cola superior unilateral, la regia de decision es
U - J1u
Rechazar Ho si 2.
U - flu
(15.17)
> z"
Si la hipotesis alternativa es la hipotesis bilateral, la regia de decision es
Rechazar Ho si
EJEMPlO
Hours
(15.16)
Si la hipotesis alternativa es la hipotesis de la cola inferior unilateral, la regia de decision es
Rechazar Ho si 3.
< -z"
15.6.
U-fl
___ u Uu
< -
Z,,/2
0
Rechazar H 0 si
U - flu Uu
>
Z,,/2
(15.18)
Horas de estudio (contraste U de Mann-Whitney)
La Tabla 15.3 muestra el numero de horas semanales que los estudiantes afirman que dedican a estudiar las asignaturas de introducci6n a la economfa financiera y a la contabilidad. Los datos proceden de muestras aleatorias de 10 estudiantes de economfa finan ciera y 12 de contabilidad. (,Indican los datos la existencia de una diferencia en el numero mediano de horas seman ales que dedican los estudiantes a estudiar las asignaturas de introducci6n a la economfa financiera y a la contabilidad? EI fichero de datos se llama Hours.
Capitulo 15.
Tabla 15.3.
Estadistica no parametrica
643
Numero de horas seman ales dedicadas a estudiar las asignaturas de economia financiera y de contabilidad.
Economia financiera Contabilidad
10 13
6 17
8 14
10 12
12 10
13 9
11 15
9
5
11
16
11
8
9
7
Solucion
Nuestra hipotesis nula es que las posieiones eentrales (medianas) de las dos distribueiones poblacionales son identieas.
Ho: Mediana (1)
=
Mediana (2) Los estudiantes dedican la misma cantidad de tiempo a estudiar las asignaturas de econom[a jinanciera y de contabilidad
Se juntan las dos muestras y se ordenan las observaciones en sentido ascendente dando a los empates el mismo tratamiento que antes. Las ordenaeiones resultantes se muestran en la Tabla 15.4. Tabla 15.4.
Numero de horas semanales dedicadas a estudiar las asignaturas de economia financiera y de contabilidad Economia financiera 10 6 8 10 12 13 11
9 5 11
(Puesto)
Contabilidad
(10) ' (2) (4,5) (10) (15,5) (17,5) (13) (7)
13 17 14 12 10 9 15 16
(1)
11
(13)
Suma de puestos 93,5
8 9 7 Suma
(Puesto)
(17,5) (22) (19) (15,5) (10) (7) (20) (21) (13) (4,5) (7) . (3) de puestos 159,5
Ahora, si la hipotesis nula fuera verdadera, serfa de esperar que las ordenaeiones medias de las dos muestras fueran muy parecidas. En este ejemplo, el puesto medio de los estudiantes de eeonomfa finaneiera es 9,35, mientras que el de los estudiantes de eontabilidad es 13,29. Como oeurre siempre que se eontrastan hipotesis, queremos saber eual es la probabilidad de que hubiera una diserepaneia de esta magnitud si la hipotesis nula fuera verdadera. No es neeesario ea1cular las dos sumas de los puestos, pues si eonoeemos una, podemos deducir la otra. Por ejemplo, en este easo los puestos deben sumar 10 mismo que la suma de los enteros de 1 a 22, es decir, 253. Por 10 tanto, eualquier eontraste de la hipotesis puede basarse simplemente en una de las sumas de puestos. Si la eeonomfa financiera es la primera muestra, entonees n2 =
12
R[ = 93,5
644
Estadfstica para administracion yeconomfa
por 10 que el valor observado del estadfstico de Mann-Whitney es, de acuerdo con la ecuaci6n 15.12,
Utilizando la hip6tesis nula de que las posiciones centrales de las dos distribuciones poblacionales son iguales y la ecuaci6n 15.13, la distribuci6n del estadfstico tiene una media (10)(12)
nln2
E( U) = flu =
2
=
2
= 60
y una varianza Var(U)=O' 2 = u
nlninl
+ n2 + 1) 12
=
(10)(12)(23) =230 12
Se deduce que U - flu
81,5 - 60
O'u
vi 230
r;:;::;;:.
= 1,42
y
p-valor = 0,1556
Por 10 tanto, la hip6tesis nul a puede rechazarse a niveles de significaci6n superiores a 15,56 por ciento. Con el nivel de significaci6n habitual de 0,05, el resultado del contraste no es suficiente para conduir que los estudiantes dedican mas tiempo a estudiar una de estas materias que la otra. Podrfamos haber utiIizado un factor de correcci6n de con~ tinuidad en la aproximaci6n normal. EI p-valor sera de algo mas de 0,1556. Si los estudiantes de contabilidad son la poblaci6n 1, por 10 que nI = 12 Y RI = 159,5, el resultado es el mismo, ya que z = - 1,42. EI p-valor sigue siendo 0,1556. Minitab (contraste U de Mann-Whitney) Minitab calcula el valor z utilizando un factor de correcci6n de continuidad. La Figura 15.6 es la salida Minitab del ejemplo 15.6. Observese que el p-valor es algo mas alto. Mann-Whitney Test: Finance, Accounting N
=
10
Median
=
10.000
Accounting N
=
12
Median
=
11 . 500
Finance
Point estimate for ETA1-ETA2 is -2.000 95 . 6 Percent CI for ETA1-ETA2 is (-5 . 001,1.000) W
=
93.5
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0 . 1661 The test is significant at 0 .1643 (adjusted for ties)
Figura 15.6.
Ejemplo del numero de horas de estudio (salida Minitab).
Capitulo 15.
Estadistica no parametrica
645
EJERCICIOS
Ejercicios aplicados 15.13. En un estudio se compararon empresas que tenian un comite de auditoria con empresas que no 10 tenfan. Se midio en muestras de empresas de cada tipo el grado de participacion de los consejeros en la propiedad por medio del numero de acciones que posefa el consejo de administracion en porcentaje del numero total de acciones emitidas. En la muestra, la participacion de los consejeros era, en conjunto, mayor en las empresas que no tenfan comite de auditorfa. Para contrastar la significacion estadfstica, se calculo el estadfstico U de Mann-Whitney. Se observo que (U - flu) / (Ju era 2,01 (vease la referencia bibliogn'ifica 1). (, Que conc1usiones ~'I pueden extraerse de este resultado? 15.14/ Un analista bursitil elaboro a comienzos del , __/ / ano una lista de acciones para comprar y otra de acciones para vender. En una muestra aleatoria de 10 acciones de la «!ista de compra», los rendimientos porcentllales a 10 largo del ano eran los siguientes:
tos porcentuales a 10 largo del ano eran los sigllientes: - 2,7
6,2
8,9
11,3
2, 1
3,9 -2,4
1,3
7,9
10,2
Uti lice el contraste de Mann-Whitney para interpretar estos datos.
15.15. En una muestra aleatoria de 12 titulados en administracion de empresas de una universidad privada, los sueldos de partida aceptados despues de licenciarse (en miles de dolares) fueron los siguientes: 26,2
29,3
31 ,3
28,7
27,4
25,1
26,0
27,1
27,5
29,8
32,6
34,6
En una muestra aleatoria independiente de 10 titulados en administracion de empresas de una universidad publica, los sueldos de partida aceptados despues de licenciarse (en miles de dol ares) flleron los siguientes:
9,6
5,8
13,8
17,2
11,6
25,3
28,2
29,2
27,1
26,8
4,2
3,1
11 ,7
13,9
12,3
26,5
30,7
31 ,3
26,3
24,9
En una muestra aleatoria independiente de 10 acciones de la «lista de venta», los rendimien-
Analice los datos utilizando el contraste de Mann-Whitney y comente los resultados.
15.4. Contraste de la suma de puestos de Wilcoxon El contraste de la suma de puestos de Wilcoxon es parecido al contraste U de MannWhitney. Los resultados son los mismos con ambos contrastes. Lo incluimos aquf para completar el analisis, ya que es posible que se prefiera este contraste por su sencillez.
Estadlstico T de la suma de los puestos de Wilcoxon Supongamos que se dispone de n 1 observaciones de la primera poblacion y n2 observaciones de la segunda. Se juntan las dos muestras y se ordenan las observaciones en sentido ascendente, asignando, en caso de empate, la media de los puestos correspondientes. Sea T la suma de los puestos de las observaciones de la primera poblaci6n (T en el contraste de la suma de puestos de Wilcoxon es igual que R 1 en el contraste U de Mann-Whitney). Suponiendo que la hip6tesis nula es verdadera, el estadfstico de la suma de puestos de Wilcoxpn, T, tiene la media (15.19)
646
Estadfstica para administracion y economfa
y la varianza
(15.20)
Entonces, cuando las muestras son de gran tamano (n 1 ;;:, 10 y n2 ;;:, 10), la distribuci6n normal es una buena aproximaci6n de la distribuci6n de la variable aleatoria
Z=
T-
It rT
(15.21 )
uT
Cuando hay un gran numero de empates, la ecuaci6n 15.20 puede no ser correcta (v ease la referencia bibliografica 6).
En el caso de los datos de la Tabla 15.4, T = R J = 93,5 Y
y
Observese que la varianza de la distribuci6n muestral del estadfstico de la suma de puestos de Wilcoxon, T, es igual que la varianza de la distribuci6n muestral del estadfstico de Mann-Whitney, U. Se deduce que 93,5 - 115 .
foO EJEMPLO
15.7.
-1,42
y
p-valor = 0,1556
Beneficios de dos empresas (contraste de la suma de puestos de Wilcoxon)
En un estudio que pretendfa comparar los resultados de empresas que revelan las predicciones de la direcci6n sobre los beneficios con los resultados de las que no las revelan, se tomaron muestras aleatorias de 80 empresas de cada una de las poblaciones. Se midi6 la variabilidad de la tasa de crecimiento de los beneficios en los 10 periodos anteriores en cada una de las 160 empresas y se ordenaron estas variabilidades. La suma de los puestos de las empresas que no revelan las predicciones de la direcci6n sobre los beneficios era 7.287 (vease la referencia bibliografica 5). Contraste la hip6tesis nula de que las posiciones centrales de las distribuciones poblacionales de las variabiIidades de los beneficios son las mismas en los dos tipos de empresas frente a la hip6tesis alternativa bilateral. Demuestre que estos resultados son iguales que los del contraste U de Mann-Whitney y los del contraste de la suma de puestos de Wilcoxon.
Capftulo 15.
Estad fstica no parametrica
647
Solucion
Dado que tenemos que n] = 80, n2 = 80 y R] = 7.287, el valor calculado del estadfstico de Mann-Whitney es
Segun la hip6tesis nula, el estadfstico de Mann-Whitney tiene la media n]n2
flu
=-
2
=
(80)(80) = 3.200 2
y la varianza 2 (J
u
=
n]nin]
+ n2 + 1) 12
=
(80)(80)(161) = 85.867 12
En este caso, tenemos que
z=
2.353 - 3.200
-2,89
J85.867
En la Tabla 1 de la distribuci6n normal estandar del apendice, vemos que el valor de a/2 correspondiente a un valor de z de 2,89 es 0,0019, por 10 que el p-valor es 0,0038. Por 10 tanto, la hip6tesis nula puede rechazarse a todos los niveles de mas del 0,38 por ciento. EI contraste de la suma de puestos de Wilcoxon utiliza las ecuaciones 15.19 a 15.21. La media de T es E(T)
=
n](n]
+ n2 + 1) 80(161) ------ = = 6.440 2 2
La varianza de T es igual que la de U (la ecuaci6n 15.14 es igual que la 15.20). Por 10 tanto, por la ecuaci6n 15.21, T - flT
7.287 - 6.440
----;===-- = 2 89
J85.867
'
y, de nuevo, puede rechazarse la hip6tesis nula a todos los niveles de mas del 0,38 por ciento. Se obtienen los mismos resultados utilizando el contraste U de Mann-Whitney que utilizando el de la suma de los puestos de Wilcoxon. Estos datos constituyen, pues, una prueba contundente en contra de la hip6tesis de que las posiciones centrales de las distribuciones de las variabilidades poblacionales de las tasas de crecimiento de los beneficios de las empresas que revelan las predicciones de los beneficios son iguales que las de las empresas que no las revelan. Ahora bien, si se nos hubieran dado los datos efectivos en lugar de simplemente los puestos en la ordenaci6n, podrfamos haber realizado un contraste de la hip6tesis nul a utilizando los metodos del Capitulo 11. Sin embargo, utilizando el contraste de MannWhitney, hemos observado que la hip6tesis nula puede rechazarse sin el supuesto de la normalidad de fa poblaci6n.
648
Estadfstica para administracion y economfa
EJERCICIOS
Ejercicios aplicados 15.16. Una empresa entrevista tanto a expertos en marketing como a expertos en economfa financiera para cubrir el puesto de direccion general. Un equipo de altos directivos de la empresa realiza una larga entrevista y un largo examen a una muestra aleatoria de 10 expertos en marketing y a una muestra aleatoria independiente de 14 expertos en economfa financiera. A continuacion, ordena a los candidatos de 1 (el mejor para cubrir el puesto) a 24, como muestra la tabla adjunta. Contraste la hip6tesis nul a de que, en conjunto, los altos directivos de la empresa no tienen ninguna preferencia por los expertos en marketing 0 por los expertos en economia financiera frente a la hipotesis alternativa de que prefieren los expertos en economia financiera . l. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12.
13. 14. 15. 16. 17. 18. 19. 20. 2l. 22. 23. 24.
economfa financiera economfa financiera marketing economfa financiera economfa financiera marketing economia financiera marketing marketing marketing economfa finan ciera economfa financiera
marketing economia financiera economfa financiera economfa financiera marketing marketing economfa financiera economfa financiera economfa financiera marketing marketing economfa fi nanciera
15.17. Un profesor pidi6 a una muestra aleatoria de 15 alumnos y a una muestra aleatoria independiente de 15 alumnas que escribieran un ensayo al final de un curso de escritura. A continuaci6n, el profesor orden6 estos ensayos de 1 (el mejor) a 30 (el peor). Bsta es la ordenaci6n. 24 13
15 19
16 10
8 28
29 7
12
6
18
11
Alumnas 22 4
2 1
17 27
25 23
14 20
21
5
30
3
Alumnos 26
9
Contraste la hipotesis nula de que en conjunto el orden de los alumnos y el de las alumnas es el mismo frente a la hip6tesis alternativa bilateral. 15.18. Un boletin informativo califica los fondos de inversion. Se eligen muestras aleatorias independientes de 10 fondos que tienen la maxima calificaci6n y 10 que tienen la peor calificaci6n. Las cifras siguientes son las tasas porcentuales de rendimiento que obtendran estos 20 fondos el pr6ximo afio.
Mejor calificado 8,1 9,8 Peor calificado
3,5 7,3
12,7 14,3
13,9 4,1
2,3
16,1
5,4
7,3
14,0 11 ,1 4,6 10,0
4,7
6,2
13,3
7,0
Contraste la hip6tesis nula de que no existe ninguna diferencia entre las posiciones centrales de las distribuciones poblacionales de las tasas de rendirniento frente a la hip6tesis alternativa de que los fondos mejor calificados tienden a obtener mayores tasas de rendirniento que los peor calificados. 15.19. Se pregunta a una muestra aleatoria de 50 estudiantes que sueldo deberfa estar dispuesta la universidad a pagar para atraer a la persona id6nea para entrenar al equipo de futbol. Se hace la misrna pregunta a una muestra aleatoria independiente de 50 profesores. A continuaci6n, se juntan las 100 cifras sobre el sueldo y se ordenan (asignandose I al sueldo mas bajo). La surna de los puestos de los profesores es 2.024. Contraste la hip6tesis nula de que no existe ninguna diferencia entre las posiciones centrales de las distribuciones de los sueldos propuestos por los estudiantes y por los profesores frente a la hip6tesis alternativa de que en conjunto los estudiantes propondrfan un sueldo mas alto para atraer a un entrenador. 15.20. En un estudio se compar6 el tiempo (en dfas) que tardaba una muestra aleatoria de 120 empresas australianas que tienen buenos informes de auditorfa en publicar desde finales de afio un inforrne preliminar sobre los beneficios con el que tardaba una muestra aleatoria independiente de 86 empresas cuyos inforrnes no eran buenos. Se juntaron los tiempos que tardaban las 206 empresas y se ordenaron, asignandose al tiempo mas corto el puesto 1. La suma de los puestos de las empresas cuya auditorfa no era buena era 9.686 (vease la referencia bibliografica 9). Contraste la hip6tesis nula de que las posiciones centrales de las dos distribuciones poblacionales son identicas frente a la hip6tesis alternativa de que las empresas cuya auditorfa no era buena tardaban mas en publicar un informe preliminar sobre sus beneficios.
Capftulo 15.
15.21. Se comparan los sueldos de partida de licenciados en administraci6n de empresas de dos destacadas facultades de administraci6n de empresas. Se toman muestras aleatorias de 30 estudiantes de cada una y se juntan y ordenan los
Estadfstica no parametrica
649
60 sueldos de partida. La suma de los puestos de los estudiantes de una de las facultades es l.243. Contraste la hip6tesis nula de que las posiciones centrales de las distribuciones poblacionales son identicas.
15.5. Correlacion de orden de Spearman El coeficiente de correlaci6n muestral puede verse seriamente afectado por las observaciones extremas. Ademas, los contrastes basados en 61 recurren para su validez al supuesto de la normalidad. Puede obtenerse una medida de la correlaci6n en la que no influyen seriamente los val ores extremos y en la que pueden basarse contrastes validos de distribuciones poblacionales muy generales utilizando los puestos en ordenaciones. El contraste resultante sera en ese caso no param6trico.
Correlaci6n de orden de Spearman Supongamos que se toma una muestra aleatoria (x1 , Y1 ), .•• , (xn' Yn) de n pares de observaciones. Si las Xi y las Yi se ordenan en sentido ascendente y se calcula la correlacion muestral de estos puestos, el coeficiente resultante se llama coeficiente de correlacion de orden de Spearman. Si no hay empates, una formula equivalente para calcular este coeficiente es n
6
L
d;:
r = 1 __ =:-1_ _ s n(n 2 - 1)
(15.22)
-;; i
donde las di son las diferencias entre los puestos de los miembros de los distintos pares. Los siguientes contrastes de la hip6tesis nula Ho de que no existe ninguna relaci6n en la poblacion tienen un nivel de significaci6n ex. 1.
Para contrastar la hipotesis nula de que no existe ninguna relacion frente a la hip6tesis alternativa de que existe una relacion positiva, la regia de decision es
Rechazar Ho si 2.
(15.23)
Para contrastar la hip6tesis nula de que no existe ninguna relacion frente ala hipotesis alternativa de que existe una relacion negativa, la regia de decision es
Rechazar Ho si 3.
r, > rs. c<
rs
< -
(15.24)
rs,c<
Para contrastar la hip6tesis nula -de que no existe ninguna relaci6n frente a la hipotesis alternativa bilateral de que existe alguna relacion, la regia de decision es
Rechazar Ho si
r, < - rs ,rx/2
0
rs> r"c2
(15.25)
650
Estadfstica para administraci6n y economfa
EJEMPLO
15.8. Promoci6n de los cruceros (correlaci6n de orden de Spearman)
Para promover los cruceros por el Mediternlneo, supongamos que una empresa de cruceros se anuncia en 17 revistas de viajes. Se invita a los lectores a pedir folletos y literatura. Las dos variables que se quiere relacionar son: X: coste de la publicidad y la distribuci6n, en miles de d6lares Y: rendimiento de la publicidad donde este ultimo se define de la forma siguiente:
Y = (ingresos estimados de las solicitudes de informaci6n - coste de la publici dad) -:- coste de la publicidad La Tabla 15.5 enumera los puestos de estas dos variables de los 17 anuncios de revistas. Ca1cule el coeficiente de correlaci6n de orden de Spearman y contraste la relaci6n entre las variables. Tabla 15.5. Revista
Calculos de la correlaci6n de orden del ejemplo de los cruceros. Orden (x)
Orden (y)
14 8
2 4 16 1 5 6 8
2 3 4 5 6 7 8 9 11
12 13
14 15 16
orden (x) - orden (y)
9 13
-10
100
12
36
12
3 7 14 15
- 6 - 8 2 - 3 -3 - 3
10
10
0
0 Suma 1.168
11
17
64
4 9 9 9
Solucion Dado que no hay empates, utilizamos la ecuaci6ri 15.22 y obtenemos n
6
=1-
r S
d I2
144 16 225 225 144 49 49 81 4
11
17
=
12 4 - 15 15 12 7 7 - 9 - 2
16 17 13 15 2 7 3 6 9 5 4
10
Di
L df
i= I
n(n
2
-
1)
=1-
6(1.168) 17[(17)2 - 1]
------0,------
-0,431
Capitulo 15.
Estadistica no parametrica
651
Dado que hay 17 pares de observaciones, los puntos de corte (vease la Tabla 11 del apendice) en los contrastes al nivel del 10 por ciento y del 5 por ciento son, respectivamente, y r .I·.O.OS = 0,412 rs.O.025 = 0,49 La hipotesis nula de que no existe ninguna relacion puede rechazarse frente a la hipotesis alternativa bilateral, segllO la regIa de decision, al nivel del 10 por ciento, pero no al nivel del 5 por ciento. Nuestras conclusiones no se basan en el supuesto de la nOl'malidad de la poblacion. Si no hay empates, entonces es sencillo calcular la correlacion de orden de Spearman con el programa Minitab 0 con el Excel. Si hay empate, calculamos la correlacion simple (apartado 12.1) entre los puestos.
EJERCICIOS
13 ~ Je icios basicos f.
\ \..
15.22.
os estudiantes de un curso de tecnologfa de omercio electronico tienen que hacer un examen final escrito y un proyecto para obtener la calificacio n final. Las calificaciones de una muestra aleatoria de 10 estudiantes tanto en el examen como en el proyecto son
Examen
81
62
74
78
93
69
72
83
90
84
Proyecto 76
71
69
76
87
62
80
75
92
79
meses y los activos totales (en millones de dolares) . Rendimiento Activos 29,3 27,6 23,7 22,3
300 70 3.004 161
22,0 19,6 17,6
295 29
827
Rcndirniento Activos 16,0 15,5 15,2 15,0 14,4 14,0 13,7
421 99 756 730 436 143 117
Rendimiento
Activos
12,9 11,3 9,9 7,9 6,7 3,3
75 610 264 27 71 719
a) Calcule el coeficiente de correlacion de orden de Spearman. b) Realice un contraste no parametri co de la hipotesis nula de que no existe ninguna relacion en la poblacion fre nte a una hipotesis alternati va bilateral. c) Analice las ventajas de un contraste no parametrico de estos datos.
a) Halle el coeficiente de correlacion de orden de Spearman. b) Contraste la relacion. 15.23. La tabla adj unta muestra el rendimiento porcentual de una muestra aleatori a de 20 fondos de inversion a largo plazo en un periodo de 12
RESUMEN Los contrastes no parametricos analizados en este capftulo representan un subconjunto muy pequeno de los metodos no parametricos que se utilizan actualmente. En capftulos posteriores, encontraremos algunos otros contrastes que no dependen de la distribucion. Es instructivo comparar los contrastes de este capftulo con los de los Capftulos 10 y II , en los que ex aminamos el problema de contrastar la igualdad de dos medias poblacionales, suponiendo que las distribuciones poblacionales son normales. Tambien puede considerarse que los contrastes desarrollados en este capitulo
son contrastes de esta hipotesis nula, pero suponiendo solamente que las dos distribuciones poblacionales tienen la misma forma. Esta es la principal ventaja de los metodos no parametricos. Son adecuados con una amplia variedad de supuestos sobre las distribuciones poblacionales subyacentes. Entre las ventajas de los contrastes no parametricos se encuentran las siguientes:
1.
Menos supuestos sobre la poblaci6n No es necesario el supuesto de la normalidad. Es-
652
2.
3.
4.
Estadistica para administraci6n y economia
tos contrastes no parametricos son adecuados con una amplia variedad de supuestos sobre las distribuciones poblacionales subyacentes. Los calculos son mas sencillos Los contrastes no parametricos pueden realizarse bastante deprisa, especial mente el contraste de signos. Pueden contrastarse datos nominales U ordinales Por ejemplo, si todo 10 que se sabe en un estudio de comparacion de productos es que producto se prefiere, puede aplicarse inmediatamente el contraste de signos. En muchas situaciones practicas, solo se dispone de datos en forma de ordenaciones, 10 que lleva logicamente a utilizar metod os como el contraste de Wilcoxon 0 el de Mann-Whitney. lnfluyen menos los casos atfpicos De la misma forma que en la media pueden influir las observaciones extremas, 10 mismo ocurre con las inferencias basadas en los contrates t de los Cap!tulos 10 y II. En cambio, los contrastes basados en los puestos dan mucho menos peso a los val ores muestrales atfpicos.
Uno de los inconvenientes de los contrastes no parametricos es que, con el supuesto de la normalidad de la poblacion, los metodos no parametricos son men os
poderosos. En el caso de las poblaciones que siguen una distribucion normal, los contrastes parametricos del Capitulo II son mas poderosos que los contrastes basados en ordenaciones, ya que estos ultimos descartan parte de la informacion de los datos. Es decir, los contrastes parametricos tienen mas capac idad para detectar los incumplimientos de la hipotesis nub. Sin embargo, al men os en las muestras de moderado tamano, los contrastes como el de Wilcoxon y el de MannWhitney solo son algo menos poderosos que los contrastes t cuando las distribuciones poblacionales son normales. Por esta razon, as! como pOl'que pueden aplicarse en muchos mas casos, estos contrastes no parametricos son muy conocidos. Ademas, cuando la distribucion poblacional se aleja mucho de la normal, pueden tener mucho mas poder que los contrastes correspondientes basados en la distribucion normal. Los program as informaticos tambien han aumentado el uso de los contrastes no parametricos. Dado que los metodos no parametricos son bastante diffciles de extender a los problemas que implican la construccion de complejos modelos, los metodos tradicionales de los Capitulos 10 y 11 , cuyo desarrollo es mucho mas sencillo, siguen constituyendo los elementos principales del analisis estadfstico.
TERMINOS CLAVE coeficiente de conelacion de orden de Spearman, 649 contraste de signos, 628
contraste de la suma de puestos de Wilcoxon, 645 contraste U de Mann-Whitney, 641
contraste de Wilcoxon basado en la ordenacion de las diferencias, 636
EJERCICIOS V APLICACIONES DEL CAPiTULO 15.24. (,Que significa que un contraste no sea parametrico? (,Cuales son las ventajas relativas de esos contrastes? 15.25. Ponga un ejemplo realista de un problema estadfstico del mundo de la empresa en el que sea preferible un contraste no parametrico al contraste parametrico alternativo. 15.26. En una muestra aleatoria de 12 analistas, 7 creen que las ventas de automoviles en Estados Unidos probablemente seran mayores el ano que viene que este, 2 creen que seran mucho menores y los demas preven que seran mas 0 menos iguales que este ano . (,Que conclusion podemos ex traer de estos datos?
15.27. En una muestra aleatoria de 16 analistas de los tipos de cambio, 8 creen que el yen japones sera una excelente inversion este ano, 5 creen que sera una mala inversion y 3 no tienen ninguna opinion decidida sobre esta cuestion. (,Que conc1usiones podemos extraer de estos datos? 15.28. En una muestra aleatoria de 100 estudiantes universitarios, 35 esperan disfrutar de un nivel de vida mas alto que el de sus padres, 43 esperan disfrutar de un nivel de vida mas bajo y 22 esperan tener el mismo nivel de vida que sus padres. (,Son estos datos una prueba contundente de que en la poblacio n de estudiantes es mayor el numero de estudiantes que esperan tener un nivel de vida mas bajo que el de sus pa-
Capitulo 15.
dres que el numero de estudiantes que esperan tener LIn nivel de vida mas alto? 15.29. En una muestra aleatoria de 120 profesores de administraci6n de empresas, 48 creen que la capacidad de analisis de los estudiantes ha mejorado en la ultima decada, 35 creen que ha empeorado y 37 no ven ningun cambio perceptible. Evalue la fuerza de la evidencia muestral que sugiere que el numero de profesores que creen que la capacidad de analisis ha mejorado es mayor que el numero de profesores que creen que ha empeorado. 15.30. Se pide a una muestra aleatoria de 10 analistas de empresas que valoren en una escala de I (muy malas) a 10 (muy buenas) las perspectivas de su propia empresa y las de la economfa en general en el presente ano. Los resultados obtenidos se muestran en la tabla adj unta. Utilizando eJ contraste de Wilcoxon, analice la proposici6n de que en conjunto los analistas de empresas son mas optimistas sobre las perspectivas de sus propias empresas que sobre las perspectivas de la economia en general.
Propia Analista 1 2 3 4 5
em~resa
8 7 6 5 8
Estadistica no parametrica
653
Economia Propia Economia en general Analista cmj!rcsa en general 6 8 6 9 7 5 7 7 7 8 5 2 4 9 4 6 4 IO 9 6
15.31. Se construyen nueve pares de perfiles hipoteticos de empleados de empresas que solicitan la admisi6n en un master de administraci6n de empresas. Dentro de cada par, los perfiles son identicos; 10 unico que varia es que uno de los candidatos es un hombre y el otro es una mujer. En las entrevistas realizadas en el proceso de admisi6n, se evalua en una esc ala de 1 (poca) a 10 (mucha) la idoneidad de los candidatos para el programa. Los resultados se muestran en la tabla adjunta. Analice estos datos utilizando el contraste de Wilcoxon. Entrevista Hombre Mujer Entrevista Hombre Mujer 1 8 8 9 6 9 2 9 10 7 5 3 7 5 4 3 8 5 4 4 6 7 2 9 5 8 8
Bibliografla Brandbury, M. E., «The Incentives for Voluntary Audit Committee Formation», Journal of Accounting and Public Policy, 9, 1990, pags. 19-36. 2. Brickely, F. H. Dark y M. S. Weisbach, «An Agency Perspective on Franchising», Financial Management, 20, n.o I, 1991, pags. 27-35. 3. Hettmansperger, T. P. y S. J. Sheather, «Confidence Intervals Based on Interpolated Order Statistics», Statistics and Probability Letters, 4, 1986, pags. 75-79. 4. Irvine, Paul y James Rosenfeld, «Raising Capital Using Monthly Income Preferred Stock: Market Reaction and Implications for Capital Structure Theory» , Financial Management, 29, verano, 2000, pags. 5-20. 5. Jaggi, B. y P. Grier, «A Comparative Analysis of Forecast Disclosing and Nondisclosing Firms», Financial Management, 9, n.o 2, 1980, pags. 38-43. 6. Lehman, E. L., Nonparametrics: Statistical Methods Based on Ranks, San Francisco, HoldenDay, 1975. 7. Mintab User's Guide 2: Data Analysis and Quality Tools, State College, PA, Minitab, 1997. 8. Meyers, M. D., L. A. Gordon y M. M. Hamer, «Postauditing Capital Assets and Firm Performance: An Empirical Investigation», Managerial and Decision Economics, 12, 1991 , pags. 317327. 9. Whittred, G. P., «Audit Qualification and the Timeliness of Corporate Annual Reports», Accounting Review, 55, 1980, pags. 563-577. 1.
Contrastes de la bondad del ajuste y t ablas de contingencia / / Esquema del capitulo 16.1. Contrastes de la bondad del ajuste: probabilidades especificadas 16.2. Contrastes de la bondad del ajuste: parametros poblacionales desconocidos Un contraste de normalidad 16.3. Tablas de contingencia Aplicaciones informaticas
Introducci6n En este capitulo anal izamos algunos contrastes que se basan en la distribuci6n ji-cuadrado. En primer lugar, examinamos un contraste de la hip6tesis de que los datos son generados por una distribuci6n de probabilidad totalmente especificada. Los analistas de mercado utilizan a menudo esta tecnica para averiguar si los productos son preferidos p~ r igual por los posibles clientes 0 para averiguar si las cuotas de mercado de diversas marcas de un producto han cambiado en un determinado periodo de tiempo. A continuaci6n, contrastamos la hip6tesis de que los datos son generados por alguna distribuci6n , como la binomial, la distribuci6n de Poisson 0 la normal sin suponer que se conocen los parametros de esa distribuci6n. En estas circunstancias, pueden utilizarse los datos de que se dispone para estimar los parametros poblacionales desconocidos. Cuando se estiman parametros poblacionales, se utiliza un contraste de la bond ad del ajuste. EI contraste de la ji-cuadrado puede extenderse para abordar un problema en el que se toma una muestra de la poblaci6n y cada uno de sus miembros puede clasificarse de manera inequlvoca de acuerdo con un par de atributos. La hip6tesis que se contrasta es que no existe ninguna relaci6n en la poblaci6n entre las posesiones de estos atributos. Los profesionales de las empresas utilizan este metoda frecuentemente . Para las tablas de contingencia mayores, es c6modo utilizar un programa informatico para calcular el estadlstico del contraste y el p-valor.
656
Estadfstica para administraci6n y economfa
16.1. Contrastes de la bondad del ajuste: probabilidad~s especificadas Ilustramos el contraste mas sencillo de este tipo con un estudio en que se observ~ una muestra aleatoria de 33 sujetos que compraban una bebida refrescante. De estos sujetos, 8 seleccionaron la marca A, 10 seleccionaron la marca B y el resto selecciono la marca C. Esta informacion se muestra en la Tabla 16.1. Tabla 16.1.
Selecci6n de una marca.
Categoria (marca)
A
B
C
Total
Numero de sujetos
8
10
15
33
En terminos mas generales, consideremos una muestra aleatoria de n observaciones que pueden clasificarse en K categorfas. Si el numero de observaciones que hay en cada categoria es 0 1, O2 , ... , OK' la clasificacion es la que muestra la Tabla 16.2. Tabla 16.2.
Clasificaci6n de
1
Categoria
n observaciones en K categorfas. Total
K
2
n
Numero de observaciones
Los datos muestrales se utilizan para contrastar una hipotesis nula que especifica las probabilidades de que una observacion pertenezca a cada una de las categorfas. En el ejemplo de los 33 sujetos que compran una bebida refrescante, la hipotesis nula (Ho) podria ser que un sujeto elegido aleatoriamente tiene las mismas probabilidades de seleccionar cualquiera de las tres variedades. Esta hipotesis nula especifica, pues, que la probabilidad de que una observacion muestral pertenezca a una de las tres categorfas es de un tercio. Para contrastar esta hipotesis, es logico comparar el numero observado con el que se esperaria si la hipotesis nula fuera verdadera. Dado un total de 33 observaciones muestrales, el numero esperado de sujetos en cada categoria si se cumple la hipotesis nul a serfa (33)(1/3) = 11. La Tabla 16.3 resume esta informacion. Tabla 16.3.
Numero observado y esperado de compras de tres marcas de bebidas refrescantes.'
Categoria (marca)
A
B
C
Total
Numero observado de sujetos Probabilidad (segun Ho) Numero esperado de sujetos (segun Ho)
8
10
33
1/3
1/3
15 1/3
11
II
11
33
1
En el caso general en el que hay K categorfas, supongamos que la hipotesis nula especifica las probabilidades PI' P 2 , ••• , P K de que una observacion pertenezca a las categorfas. Supongamos que estas posibilidades son mutuamente excluyentes y colectivamente exhaustivas, es decir, cada observacion debe pertenecer a una de las categorfas y no puede
Capitulo 16. Contrastes de la bondad del ajuste y tablas de contingencia
6S 7
pertenecer a mas de una. En este caso, las probabi lidades supuestas deben sumar 1; es decir,
Enton ces, si hay n observaciones muestrales, el numero esperado en cada categorfa, segun la hipotesis nula, es (i
= 1, 2, ... , K)
como se muestra en la Tabla 16.4. Tabla 16.4.
Numero observado y esperado en el caso de n observaciones y K categorfas.
Categoria
1
2
K
Total
Numero observado Probabilidad (segun Ho) Numero esperado de sujetos (segun Ho)
01
O2
PI
OK PK
n
P2
=
n
EI
=
nP]
E2 = nP2
EK
nP K
La hipotesis nula sobre la poblacion especifica las probabilidades de que una observacion muestral pertenezca a cada categorfa. Las observaciones muestrales se utili zan para contrastar esta hipotesis. Si los valores muestrales observados en cada categorfa son muy parecidos a los esperados si la hipotesis nula fuera verdadera, este hecho apoyarfa esa hipotesis. En esas circunstancias, los datos constituyen un buen ajuste de la distribucion de probabilidad que hemos supuesto que sigue la poblacion . Los contrastes de la hipotesis nula se basan en una valoracion del grado de ajuste y generalmente se conocen con el nombre de contr astes de la bond ad del ajuste. Ahora bien, para contrastar la hipotesis nula, es logico examinar las magnitudes de las discrepancias entre 10 que se observa y 10 que se espera. Cuanto mayores son estas discrepancias en valor absoluto, mas sospechamos de la hipotesis nula. La variable aleatoria de la Ecuacion 16.1 se conoce con el nombre de variable aleatoria ji-cuadrado.
Variable aleatoria ji-cuadrado Se selecciona una muestra aleatoria de n observaciones, cada una de las cuales puede clasificarse exactamente en una de K categorfas. Supongamos que el numero observado en cad a categorfa es 01' 02' ... , OK· Si una hipotesis nula (Ho) especifica las probabilidades P1' P2 , •.. , PK de que una observacion pertenezca a cada una de estas categorfas , los numeros esperados en las categorfas, si se cumple Ho' serfan
(i
= 1,2, .. ., K)
Si la hipotesis nula es verdadera y el tamafio de la muestra es suficientemente grande para que los valores esperados sean al menos de 5, la variable aleatoria relacionada con 2
X
=
~ (0; - Ei L, i= 1 E;
se aproxima bastante bien a una distribucion ji-cuadrado con (K - 1) grados de libertad.
(16.1 )
658
Estadfstica para administraci6n y economfa
Intuitivamente, el numero de grados de libertad se deduce del hecho de que las 0; deben sumar n. Por 10 tanto, si se conoce el numero de miembros de la muestra, n, asf como el numero de observaciones que pertenecen a cualquiera (K - 1) de las categorfas, tambien se conoce el numero que pertenece a la K-esima categorfa. La hip6tesis nula se rechazan'i cuando el numero observado sea muy diferente del esperado, es decir, cuando los valores del estadfstico de la ecuaci6n 16.1 sean excepcionalmente altos. A continuaci6n, se muestra el contraste de la bondad del ajuste.
Un contraste de la bondad del ajuste: probabilidades especificadas Un contraste de la bondad del ajuste, de nivel de significaci6n rx, de Ho frente a la hip6tesis alternativa de que las probabilidades especificadas no son correctas se bas a en la regia de decisi6n
Rechazar Ho si
~ (0; - Ei 2 Ei > XK - I, (.(
;::-1
don de X~- 1 .(l es el numero tal que
P(X~ - I > X~ - I,,,) =
r:J.
y la variable aleatoria X~- 1 sigue una distribuci6n ji-cuadrado con (K - 1) grados de libertad.
Para ilustrar este contraste, consideremos de nuevo los datos de la Tabla 16.3 sobre la selecci6n de una marca. La hip6tesis nula es que las probabilidades de las tres categorfas son las mismas. El contraste de esta hip6tesis se basa en 2 ~ (0; - Ei X = ~ ;_ 1
11
+
(8 - 11)2
11
+
(10 - 11)2
11
+
(15 - 11)2
11
= 236
'
Hay K = 3 categorfas, por 10 que los grados de libertad de la distribuci6n ji-cuadrado son K - 1 = 2. En la Tabla 7 del apendice vemos que
XtO,1O = 4,61 Por 10 tanto, segun nuestra regIa de decisi6n, la hip6tesis nula no puede rechazarse al nivel de significaci6n del 10 por ciento. Estos datos no contienen ninguna prueba contundente en contra de la hip6tesis de que un sujeto elegido aleatoriamente tiene las mismas probabilidades de seleccionar cualquiera de las tres marcas de bebidas refrescantes.
EJEMPLO
16.1. Compaiila de gas (ji-cuadrado)
Una compafifa de gas, basandose en la experiencia, ha llegado a la conclusi6n de que al final del invierno ha cobrado el 80 por ciento de sus factums, cobrani el 10 por ciento un mes mas tarde, el 6 por ciento 2 meses mas tarde y el 4 por ciento mas de 2 meses mas tarde. Al final de este invierno, la compania ha comprobado una muestra aleatoria de 400 facturas y ha observado que ha cobrado 287, que cobrara 49 dentro de 1 mes, 30 dentro de 2 meses y 34 dentro de mas de 2 meses. l,Sugieren estos datos que este invierno no esta siguiendose la pauta de anos anteriores?
Capitulo 16.
659
Contrastes de la bondad del ajuste y tab las de contingencia
Solucion Segun la hip6tesis nula de que las proporciones del presente invierno siguen la pauta hist6rica, las respectivas probabiJidades de las cuatro categorfas son 0,8, 0,1, 0,06 Y 0,04. Segun la hip6tesis, los numeros esperados de facturas de cada categorfa, en una muestra aleatoria de 400 facturas, sedan 400(0,8) = 320
400(0,06) = 24
400(0,1) = 40
400(0,04) = 16
Los numeros observado y esperado son N6mero de meses Numero observado Probabilidad (segun Ho) Numero esperado (segtm Ho)
0
1
2
Mas de 2
Total
287 0,80 320
49 0,10 40
30 0,06 24
34 0,04 16
400 1 400
El contraste de la hip6tesis nula (Ho) se basa en 2
X
=
~ (OJ L.. i- 1
Ei
Ei
(287 - 320)2 - -3-2-0--
+
(49 - 40)2 40
+
(30 - 24i 24
+
(34 - 16)2 16 = 27,17
Aquf hay K = 4 categorfas, por 10 que hay K - 1 = 3 grados de libertad. En la Tabla 7 del apendice vemos que X~ 0005 = 12,84 Dado que 27,178 es mucho mayor que 12,84, la hipotesis nul a se rechaza claramente, incluso al nivel de significaci6n del 0,5 por ciento. Estos datos no constituyen, desde luego, una prueba contundente para sospechar que la pauta de cobro de las facturas del gas de este ano es diferente de la hist6rica. El examen de los ntuneros de la tabla muestra que este ano hay mas facturas que se cobraran mas tarde que en anos anteriores. Conviene hacer una advertencia. Las cifras utilizadas para calcular el estadfstico del contraste en la ecuaci6n 16.1 deben ser el numero observado y el numero esperado en cada categorfa. No es correcto, por ejemplo, utilizar los porcentajes de miembros que hay en cada categorfa.
EJERCICIOS
Ejercicios aplicados 16.1. Un profesor esta pensando utilizar un nuevo libro para el curso de contabilidad financiera y tiene tres posibilidades: Contabilidad jinanciera facil, Contabilidad financiera sin lflgrimas y Contabilidad financiera para obtener un beneficio y por placer. Se pone en contacto con una muestra aleatoria de 60 estudiantes que ya han asistido al curso y Ie pide a cada uno que eche una ojeada a
los tres libros y Ie indique cual es el que mas prefiere. La tabla muestra los resultados obtenidos. Contraste la hip6tesis nula de que en esta poblaci6n sus primeras preferencias estan distribuidas por igual entre los tres libros. Libro Numero de primeras preferencias
Facil
Sin higrimas
Beneficio y placer
17
25
18
660
Estadfstica para administracion y economfa
16.2. En un estudio, se selecciono una muestra aleatoria de 75 fondos de inversion cuyo rendimiento en el periodo 1998-2000 se encontraba en el 20 por ciento mas rentable de todos los fondos. Se observo su rendimiento durante los 3 anos siguientes. Suponga que en este segundo periodo 13 de los fondos de la muestra se clasificaron en el 20 por ciento mas rentable, 20 en el segundo 20 por ciento, 18 en el tercer 20 por ciento, 11 en el cuarto 20 por ciento y el resto en el 20 por ciento inferior. Contraste la hipotesis nula de que un fonda del 20 por ciento mas rentable en 19982000 seleccionado aleatoriamente tiene las mismas probabilidades de pertenecer a cada una de las cinco categorias posibles de rendimiento en los 3 anos siguientes. 16.3. Una compaf\fa de seguros queria averiguar la importancia que tenfa el precio en la eleccion de un hospital de una zona. Pidio a una muestra aleatoria de 450 consumidores que seleccionaran una respuesta entre «ninguna importancia», «es importante» 0 «mucha importancia». Los numeros respectivos que seleccionaron estas respuestas fueron 142, l75, 133. Contraste la hipotesis nula de que un consumidor elegido aleatoriamente tiene las mismas probabilidades de seleccionar cada una de estas tres respuestas. 16.4. Los datos de produccion indican que el 93 por ciento de los componentes electronicos que se producen no tiene ningun defecto, el 5 por ciento tiene un defecto y el 2 por ciento tiene mas de un defecto. En una muestra aleatoria de 500 componentes producidos en una semana, se observo que 458 no tenfan ningun defecto, 30 tenian un defecto y 12 ten ian mas de un defecto. Contraste al nivel del 5 por ciento la hipotesis nula de que la calidad de la produccion de esta semana es conforme a la pauta habitual. 16.5. Una institucion bendica solicita donaciones por teldono. Se ha observado que el 60 por ciento de todas las personas contactadas por telefono se niega a hacer una donacion, el 30 por ciento pide mas informacion por correo con la promesa de considerar al menos la posibilidad de donar y el 10 por ciento hace inmediatamente una donacion por medio de una tarjeta de credito. En una muestra aleatoria de 100 llamadas realizadas esta semana, 65 se negaron a donar, 31 solicitaron mas informacion por correo y 4 hicieron inmediatamente una donacion por medio de una tarjeta de credito. Contraste al nivel del 10 por ciento la hipotesis nula de que la pauta de resultados de esta semana es similar a la de semanas anteriores.
16.6. EI gerente de una universidad ha observado que el 60 por ciento de todos los estudiantes cons idera que los cursos son muy utiles, eJ 20 por ciento considera que son algo Miles y el 20 por ciento considera que son inutiles. En una muestra ale atoria de 100 estudiantes que asisten a los cursos de administraci6n de empresas, 68 piensan que el curso en cuestion es muy util , 68 piensan que es algo uti! y 14 que es inutil. Contraste la hipotesis nula de que la distribucion poblacional de los cursos de administracion de empresas es la misrna que la de todos los cursos. 16.7. En un supermercado se venden varios tipos de yogur. El dueno del supermercado sabe, por un estudio anterior sobre los sabores elegidos por los clientes, que el 20 por ciento pidio el sabor A, el 35 por ciento pidio el sabor B, el 18 por ciento pidio el sabor C, el 12 por ciento pidio el sabor D y el resto pidio el sabor E. Ahora el dueno, que piensa que las preferencias de los clientes han cambiado, toma una muestra aleatoria de 80 clientes y observa que 12 prefieren el A, 16 prefieren el B, 30 prefieren el C, 7 prefieren el E y el resto prefiere el D. Averigtie si las preferencias de los ciientes han cambiado desde el estudio anterior. 16.8. En una encuesta de mercado reciente, se dieron a probar cinco bebidas refrescantes para averiguar si los clientes preferfan alguna de elIas. Se pidio a cada persona que indicara cual era su bebida favorita. Los resultados fueron los siguientes: bebida A, 20; bebida B, 25; bebida C, 28; bebida D, 15, Y bebida E, 27. i,Existe una preferencia por alguna de estas bebidas refrescantes? 16.9. Un equipo de estudiantes de marketing deb fa averiguar que pizza gustaba mas a los estudiantes matriculados en su universidad. Hace dos arros, se hizo un estudio parecido y se observo que el 40 por ciento de todos los estudiantes de esta universidad preferfa la pizza de Bellini, el 25 por ciento preferfa la pizza de Anthony, el 20 por ciento preferia la pizza de Ferrar'a y el resto la pizza de Marie. Para ver si han cambiado las preferencias, se seleccionaron aleatoriamente 180 estudiantes y se les pidi6 que indicaran sus preferencias en el caso de la pizza. Los resultados fueron los siguientes: 40 seleccionaron la pizza de Ferrara, 32 seleccionaron la de Marie, 80 seleccionaron la de Bellini y el resto selecciono la de Anthony. i,Indican los datos que las preferencias han cambiado desde el estudio anterior?
Capitulo 16.
Contrastes de la bondad del ajuste y tab las de contingencia
16.10. Se ha pedido a una muestra aleatoria de profesores de estadfstica que hagan una encuesta con preguntas sobre el contenido del plan de estudios, la integraci6n del uso de computadores y las preferencias por los programas informaticos. De las 250 respuestas, 100 profesores han indi-
661
cado que prefieren el paquete estadfstico M y 80 el programa informatico E, mientras que el resto esta repmtido por igual entre el program a informatico S y el P. (,Indi can los datos que los profesores prefieren alguno de estos programas info rmaticos?
16.2. Contrastes de la bondad del ajuste: parametros poblacionales desconocidos En el apartado 16.1 hemos contrastado la hip6tesis de que los datos son generados por una distribuci6n de probabilidad totalmente especijlcada. En este contraste, la hip6tesis nul a especifica la probabilidad de que una observaci6n muestral pertenezca a cualquiera de las categorfas. Sin embargo, a menudo hay que contrastar la hip6tesis de que los datos son generados por alguna distribuci6n, como la binomial, la distribuci6n de Poisson 0 la normal, sin suponer que se conocen los panlmetros de esa distribuci6n. En estas circunstancias, no puede aplicarse el apartado 16.1, pero pueden utilizarse los datos de que se dispone para estimar los pani metros poblacionales desconocidos. A continuaci6n, formulamos el contraste de la bondad del ajuste que se utiliza cuando se estiman panlmetros poblacionales.
Contrastes de la bondad del ajuste cuando se estiman parametros poblacionales Supongamos que una hipotesis nula especifica las probabilidades de diferentes categorfas que dependen de la estimacion (a partir de los datos) de m parametros poblacionales desconocidos. El contraste de la bondad del ajuste cuando se estiman parametros poblacionales es precisamente el del apartado 16.1, con la salvedad de que el numero de grados de libertad de la variable aleatoria ji-cuadrado es
Grados de libeltad = (K - m - 1)
(16.2)
donde K es el numero de categorfas.
Consideremos un contraste para averiguar si los datos son generados por la distribuci6n de Poisson. Un metodo para intentar resolver las cuestiones relacionadas con los conflictos sobre la autorfa de un texto es con tar el numero de veces que aparecen determinadas palabras en distintos parrafos del texto y compararlo con los resultados de pasajes cuyo autor se conoce; a menudo puede realizarse esta comparaci6n suponiendo que el numero de veces que aparecen determinadas palabras sigue una distribuci6n de Poisson. Un ejemplo de este tipo de investigaci6n es el estudio de The Federalist Papers (v ease la referencia bibliografica 10). EJEMPLO
16.2. Federalist Papers (ji-cuadrado)
En una muestra de 262 pruTafos (cada uno de los cuales tenia alrededor de 200 palabras) de The Federalist Papers (vease la referencia bibliografica 10), el numero medio de veces que aparecia la palabra may era de 0,66. La Tabla 16.5 muestra el nllmero de veces que aparece esta palabra en los 262 parrafos de la muestra. Contraste la hip6-
662
Estadfstica para administraci6n y economfa
Tabla 16.5.
Numero de veces que aparece la palabra may en 262 parrafos de The Federalist Papers.
o
1
2
30 mas
156
63
29
14
Numero de apariciones Frecuencia observada
tesis nula de que la distribucion poblacional de las veces que aparece es una distribucion de Poisson, sin suponer que se conoce previamente la media de esta distribucion.
Solucion Recuerdese que si la distribucion de Poisson es adecuada, la probabilidad de x apariciones es
donde A es el numero medio de apariciones. Aunque esta media poblacional es desconocida, puede estimarse por medio de la media muestral de 0,66. En ese caso, sustituyendo A por 0,66 es posible estimar la probabilidad de cualquier numero de apariciones si se cumple la hipotesis nula de que la distribucion poblacional es de Poisson. Por ejemplo, la probabilidad de dos apariciones es
e - 0.66(0 66)2
=
P(2)
2! ' (0,5169)(0,66)2 - - - 2 - - = 0,1126
Tambien pueden hallarse las probabilidades de que la palabra no aparezca nunca y de que aparezca una vez, por 10 que la probabilidad de que aparezca tres veces 0 mas es P(X
~
3) = 1 - P(o) - P(l) - P(2)
Estas probabilidades se muestran en la segunda fila de la Tabla 16.6. Tabla 16.6.
Frecuencia observada y esperada en The Federalist Papers. 0
1
2
30 mas
Total
156 0,5169 135,4
63 0,3412 89,4
29 0,1126 29,5
14 0,0293
262 1 262
Numero de apariciones Frecuencias observadas Probabilidades Frecuencias esperadas segun Ho
7,7
Las frecuencias esperadas si se cumple la hipotesis nula se obtienen entonces, exactamente igual que antes, de la siguiente man era:
E;
=
nPi
(i = 1, 2, .'" K)
Capitulo 16.
Contrastes de la bondad del ajuste y tablas de contingencia
663
Asf, por ejemplo, la frecuencia esperada de dos apariciones de Ia palabra may en 262 parrafos del texto es (262) (0,1126) = 29,5. Dado que la propia variable es un numero entero, es mejor no redondear estos valores esperados a valores enteros. La fila inferior de la Tabla 16.6 muestra estas frecuencias esperadas. EI estadfstico del contraste es 2
~ (OJ - Ei
X = 1....
i= 1
E. I
(156 - 135,4l
(63 - 89,4l
135,4
89,4
- ----+
+
(29 - 29,5)2 29,5
+
(14 -7,7)2 7,7
=16,0
Dado que hay cuatro categorfas y se ha estimado un parametro, el numero aproximado de grados de libertad del contraste es 2. En la Tabla 7 del apendice vemos que Xi.O ,005 =
10,60
Por 10 tanto, la hipotesis nula de que la distribucion poblacional es de Poisson puede rechazarse al nivel de significacion del 0,5 por ciento. Los datos son una prueba realmente contundente en contra de la hipotesis. Para resolver el ejemplo 16.2 utilizando el programa Excel, vease el apendice de este capitulo,
Un contraste de normalidad La distribucion normal desempefia un importante papel en estadistica y tanto la validez como algunas propiedades de optimalidad de muchos metodos practicos dependen del supuesto de que los datos muestrales siguen una distribucion normal. En el Capftulo 6 analizamos representaciones graficas de probabilidades normales para buscar pruebas de la ausencia de normalidad. En el 8 (Figuras 8.2 y 8.9) buscamos visualmente pruebas de la ausencia de normalidad averiguando si los puntos de los graficos de los distintos cuartiles estaban «cerca» de la lfnea recta. A continuacion, examinamos un contraste del supuesto de la normalidad adaptando el metodo ji-cuadrado. Este contraste es facil de realizar y es probablemente mas poderoso. Supongamos que tenemos una muestra XI' X 2 , ... , XI! de n observaciones de una poblacion. Nuestro enfoque se basa en averiguar si estos datos reflejan dos caracteristicas de la distribucion normal. La primera es la simetrfa en torno a la media. Utilizando la informacion muestral, el sesgo de una poblacion se estima de la siguiente manera: /I
L (Xi Sesgo =
X)3
i=1
ns
3
donde X y s son la media y la desviacion tipica muestraIes, respectivamente. La parte importante de esta expresion es el numerador; el denominador tiene por objeto simplemente la estandarizacion, de tal forma que las unidades de medicion sean irrelevantes. EI sesgo sera positivo si una di stribucion esta sesgada hacia la derecha, ya que el promedio de los cubos de las diferencias en torno a la media muestral es positivo. EI sesgo sera negativo en las distribuciones sesgadas hacia la izquierda y en las distribuciones, como la normal, que son simetricas en torno a la media.
°
664
Estadfstica para administraci6n y economfa
Dado que hay diferentes distribuciones simetricas, es necesaria otra caracteristica para distinguir una distribuci6n normal. Para calcular la varianza muestral, se utilizan los cuadrados de las diferencias en torno a la media, mientras que el sesgo se bas a en el cubo de las diferencias en torno a la media. El paso 16gico siguiente es observar estas diferencias elevadas a la cuarta potencia, 10 que da lugar al concepto de curto sis muestral: 11
L (x; .
CurtOSIS =
X)4
;= \
ns
4
La curtosis es una medida del peso de las colas de una funci6n de densidad. Se sabe que en el caso de la distribuci6n normal la curtosis poblacional es 3. El sesgo y la curtosis muestrales pueden calcularse a partir de los datos utilizando estas formulas. Tambien se incluyen automaticamente en la salida de la mayorfa de los paquetes estadfsticos. Sin embargo, en los paquetes estadfsticos pueden utilizarse otras f6rmulas para hallar estos valores. Un contraste que tiene en cuenta tanto el sesgo como la curtosis es el estadfstico del contraste de la normalidad de Bowman-Shelton, que se obtiene aplicando la ecuaci6n 6.3.
Contraste de la normalidad de Bowman-Shelton EI contraste de la normalidad de Bowman-Shelton se basa en la cercanfa del sesgo muestral a 0 y en la cercanfa de la curtosis muestral a 3. EI estadfstico del contraste es
B=n
(Sesgo)2 [
6
(Curtosis - 3)2J
+------
(16.3)
24
Se sa be que cuando el numero de observaciones muestrales es muy grande, este estadfstico tiene, si se cumple la hip6tesis nula de que la distribuci6n poblacional es normal, una distribuci6n ji-cuadrado con 2 grados de libertad. La hip6tesis nula se rechaza, por supuesto, cuando los valores del estadfstico son altos.
Desgraciadamente, la ji-cuadrado como aproximaci6n de la distribuci6n del estadfstico del contraste de Bowman-Shelton, B, solo es buena cuando la muestra es de gran tamaiio. La Tabla 16.7 muestra las diferentes relaciones entre los tamaiios muestrales y los niveles de significaci6n del 5 y el 10 por ciento. El metoda recomendado es calcular el estadfstico, B, en la ecuaci6n 16.3 y rechazar la hipotesis nul a de la normalidad si el estadfstico es superior al valor correspondiente de la Tabla 16.7. Tabla 16.7.
Puntos de significaci6n del estadfstico de Bowman-Shelton (vease la referencia bibliografica 1).
Tamafio muestral n
Significadon del 10%
Significadon del 5%
Tamafio muestralll
Significadon del 10%
Significacion del 5%
20 30 40 50 75 100 125 150
2,13 2,49 2,70 2,90 3,09 3,14 3,31 3,43
3,26 3,71 3,99 4,26 4,27 4,29 4,34 4,39
200 250 300 400 500 800
3,48 3,54 3,68 3,76 3,91 4,32 4,61
4,43 4,51 4,60 4,74 4,82 5,46 5,99
CI)
Contrastes de la bondad del ajuste y tablas de contingencia
Capitulo 16.
EJEMPLO
665
16.3. Tasas de rendimiento (contraste de normalidad)
Supongamos que una muestra aleatoria de 300 tasas diarias de rendimiento de un contrato de futuros de cftricos tenia un sesgo de 0,0305 y una curtosis de 3,08. Contraste la hip6tesis nula de que la verdadera distribucion de estas tasas de rendimiento es normal. Solucion Hallamos el estadistico de Bowman-Shelton, B: B = 100 [(0,0305)2
-
6
+ (0,08)2J 24
=
0 1265
'
La comparaci6n de este resultado con los puntos de significaci6n de la Tabla 16.7 da, desde iuego, pocas razones para pensar que la distlibuci6n poblacional no sea normal. Existen otros muchos contrates de la normalidad, entre los que se encuentran el de Kolmogorov-Smirnov, el de Anderson-Darling y el de Ryan-Joiner. Estos metodos, que no se explican aqui, pueden utilizarse por medio de programas como Minitab.
EJERCICIOS
Ejercicios aplicados 16.11. Durante un periodo de 100 semanas, se observo e1 numero semanal de averfas de una maquina y se anoto en 1a tabla adjunta. Se observo que e1 numero semana1 medio de averfas era 2,1. Contraste 1a hipotesis nu1a de que la distribucion poblacional de las averias es de Poisson. Numero de averias
0
1
2
3
4
5 0 mas
Numero de semanas
10
24
32
23
6
5
16.12. En un periodo de 100 minutos, paso por el puesto de peaje de una autopista un total de 190 vehiculos. La tabla adjunta muestra la frecuencia de llegadas por minuto en este periodo. Contraste la hipotesis nul a de que la distribucion poblacional es de Poisson. Numero de lIegadas en minutos
0
1
2
3
40 mas
Frecuencia observada
10
26
35
24
5
16.13. En un estudio, se pidio a una muestra aleatoria de 50 estudiantes que estimaran la cantidad de dinero que gastaban en libros de texto en un ano. Se observo que el sesgo muestral de estas cantidades era 0,83 y la curtosis muestral era 3,98. Contraste al nivel del 10 por ciento la hipotesis nula de que la distribucion poblacional de las cantidades gastadas es normal. 16.14. Se tomo una muestra aleatoria de 100 mediciones de la resistencia de los componentes electronicos producidos en una semana. EI sesgo muestral era 0,63 y la curto sis muestral era 3,85. Contraste la hipotesis nul a de que la distribucion poblacional es normal. 16.15. (ilj Utilice el contraste de Bowman-Shelton pa-
ra averiguar si las cantidades gastadas en tiendas de alimentacion por una muestra aleatoria de c1ientes de Bishop's Supermarket sigue una distribucion normal. Utilice el fichero de datos Bishop. 16.16. Una muestra aleatoria de 125 saldos de titulares de una tarjeta de credito. indica que el sesgo muestral es 0,55 y la curtosis muestral es 2,77. Contraste la hipotesis nula de que la distribucion poblacional es normal.
666
Estadfstica para administracion y economfa
16.3. Tablas de contingencia Supongamos que se toma una muestra de una poblacion, cuyos miembros pueden clasificarse de forma inequfvoca de acuerdo con un par de atributos, A y B. Debe contrastarse la hipotesis de que no existe ninguna asociacion 0 dependencia en la poblacion entre la posesion del atributo A y la del atributo B. Por ejemplo, una agencia de viajes puede querer saber si hay alguna asociacion entre el sexo de los clientes y el metodo que emplean para hacer una reserva de avion. Una empresa de auditorfa puede querer examinar la relacion entre la edad de las personas y el tipo de declaracion de la renta que hacen. 0 en un estudio medico, una compafHa farmaceutica puede querer saber si el exito de un medicamento utilizado para controlar el cole sterol depende del peso de la persona. Una empresa de estudios de mercado puede averiguar si la eleccion de los cereales por parte de un cliente depende de alguna manera del color de la caja de cereales. Quiza existe una relacion entre la afiliacion polftica y el apoyo a una enmienda que se va a someter a votacion en las proximas elecciones. Supongamos que hay r categorfas en A y c categorfas en B, por 10 que es po sible hacer un total de rc cruces de categorfas. El numero de observaciones muestrales que pertenecen tanto a la i-esima categorfa de A como a la j-esima categorfa de B se representa por media de 0U' donde i = 1, 2, ... , r y j = 1, 2, ... , c. La Tabla 16.8 se llama tabla de contingencia r x c. Por comodidad, hemos afiadido en ella los totales de las filas y de las columnas y los representamos, respectivamente, por medio de R), R2 , ... , Rr Y C 1, C2 , ... , Cc. Tabla 16.8.
Clasificacion cruzada de n observaciones en una tabla de contingencia r x c. Atributo B Atributo A 1 2
0 21
2 0 12 0 22
all
c
Total
°lc
RI R2
°2c
r
art
°r2
arc
Total
C1
C2
Cc
Rr n
Para contrastar la hipotesis nula de que no existe ninguna asociacion entre los atributos A y B, preguntamos cuantas observaciones esperarfamos encontrar en cada cruce de categorfas si esa hipotesis fuera verdadera. Esta pregunta tiene sentido cuando los totales de las filas y de las columnas son fijos. Consideremos la clasificacion conjunta correspondiente a la i-esima fila y la j -esima columna de la tabla. Hay un total de Cj observaciones en la j-esima columna y, suponiendo que no existe ninguna asociacion, serfa de esperar que cada uno de estos totales de las columnas estuviera distribuido entre las filas en proporcion al numero total de observaciones de cada i-esima fila. Por 10 tanto, serfa de esperar que una proporcion Rjn de estas Cj observaciones estuviera en la i-esima fila. Por consiguiente, el numero esperado estimado de observaciones en cada una de las categorfas del cruce es E;j
=
R;Cj
-.~
n
para (i = 1,2, ... , r;j = 1,2, ... , c)
donde R; Y Cj son los totales de las filas y de las columnas.
Capitulo 16.
Contrastes de la bondad del ajuste y tablas de contingencia
667
Nuestro contraste de la hipotesis nula de que no existe ninguna asociacion se basa en las magnitudes de las diferencias entre los numeros observados y los que serfan de esperar si esa hipotesis fuera verdadera. La variable aleatoria de la ecuacion 16.4 es una version generalizada de la que hemos introducido en el apartado 16.1.
Variable aleatoria ji-cuadrado en el caso de tablas de contingencia Puede demostrarse que si se cumple la hip6tesis nula, la variable aleatoria relacionada con
(16.4) se aproxima bastante a una distribuci6n ji-cuadrado con (r - 1)(e - 1) grados de libertad. La aproximaci6n funciona bien si no mas del 20 por ciento de los numeros esperados estimados Eij es de menos de 5. A veces pueden agregarse clases contiguas para satisfacer este supuesto.
El doble sumatorio de la ecuacion 16.4 implica que el sumatorio abarca todas las rc casillas de la tabla. El numero de grados de libertad se debe a que los totales de las filas y de las columnas son fijos. Si estos se conocen y tambien se conocen las (r - 1) (c - 1) entradas correspondientes a las (r - 1) primeras filas y (c - 1) primeras columnas, es posible deducir el resto de las entradas de la tabla. Es evidente que la hipotesis nula de la ausencia de una asociacion se rechazani en el caso de que las grandes diferencias absolutas entre los numeros observados y los esperados sean grandes, es decir, en el caso de los valores altos del estadfstico de la ecuacion 16.4. A continuacion, se resume el metoda de contraste.
Un contraste de asociacion en las tablas de contingencia Supongamos que se clasifica una muestra de n observaciones segun dos atributos en una tabla de contingencia r x e. Sea 0; el numero de observaciones que hay en la casilla que esta en la i-esima fila y la j-esima colufnna. Si la hip6tesis nula es
Ho: no existe ninguna asociacion entre los dos atributos en la poblacion el numero esperado estimado de observaciones en cad a casilla, si se cumple HQ , es
g. IJ
= R-C _'_1 n
(16.5)
donde R; Y C son los totales de las filas y de las columnas. Un contraste de asociacion a un nivel de signfficaci6n ('f. se basa en la siguiente regia de decisi6n:
Rechazar Ho si
EJEMPLO
16.4.
American Traveler Survey (contraste de asociacion)
La American Traveler Survey de 1999 realizada por Plog Research Inc. suministra informacion basada en una muestra aleatoria de 10.536 adultos (de 18 afios 0 mas) estadounidenses sobre sus habitos en los viajes por motivos de negocios y por placer, el uso
668
Estadfstica para administraci6n y economfa
de la tecnologfa y las pautas de gasto en los viajes y una comparaci6n de los htibitos de los que recurren a agencias de viajes con los de los que no recurren a elias (vease la referencia bibliografica 6). Supongamos que en un estudio parecido una agencia de viajes tomara una muestra aleatoria de individuos de su mercado para averiguar si existe alguna asociaci6n entre el sexo de los encuestados y los metodos utilizados por ellos para hacer reservas de avi6n para su ultimo viaje de placer, ya sea nacional 0 intern acional. La Tabla 16.9 muestra los numeros de observaciones de cada uno de los seis cruces posibles. Por comodidad, tambien se indican los totales de las filas y de las columnas. Contraste la hip6tesis nula de que no existe ninguna asociaci6n entre estos atributos, en este caso, que no existe ninguna asociaci6n entre el sexo de los sujetos y el metodo utilizado para hacer reservas de avi6n. Tabla 16.9.
Reservas de avi6n par sexo y metodo de reserva.
Metodo de reserva Agencia de viajes Internet Numero de telefono gratuita de la campania aerea Total
Mujeres
Hombres
Total
256 41 66 363
74 42 34
330 83 100
150
513
Soluci6n La hip6tesis nul a que se contrasta implica que en la poblaci6n la proporci6n de reservas de avi6n que hace el cliente a traves de una agencia de viajes, la que hace por Internet 0 la que hace llamando al numero gratuito de una compafifa aerea serfa la misma independientemente de que fuera hombre 0 mujer. Para contrastar la hip6tesis nula de que no existe ninguna asociaci6n entre los atributos, nos preguntamos cutintas observaciones esperarfamos encontrar en un cruce de categorias si esa hip6tesis fuera verdadera. Por ejemplo, si no existiera ninguna asociaci6n entre el sexo y el metoda utilizado para hacer una reserva de avi6n en la Tabla 16.9, esperarfamos, dado que 363 de las 513 reservas fueron realizadas por mujeres, que una proporci6n de 363/513 de las 330 reservas realizadas a traves de una agencia de viajes se debiera a mujeres; es decir,
Ell =
(330)(363) 513 = 233,5
Los demtis numeros esperados se calculan de la misma forma y se muestran en la Tabla 16.10 junto con los numeros observados correspondientes. Tabla 16.10.
Numero observado (y esperado) en cada cruce de categorfas.
Metodo de reserva Agencia de viajes Internet Numero de telefono gratuita de la campania aerea Total
Mujeres
Hombres
Total
256 (233,5) 41 (58,7) 66 (70,8) 363
74 (96,5) 42 (24,3) 34(29,2)
330 83 100
150
513
Capitulo 16.
Contrastes de la bondad del ajuste y tablas de contingencia
669
EI contraste de la hipotesis nula de que no existe ninguna asociacion se basa en las magnitudes de las diferencias entre los numeros observados y los que se esperarfan si esa hipotesis fuera verdadera. Extendiendo la ecuacion 16.1 para incluir cada uno de los seis cruces de categorfas, obtenemos el valor del estadfstico del contraste de la ji-cuadrado: 2 (256 - 233,5)2 X = 233,5
+
(66 - 70,8)2 70,8
+ +
(74 - 96,5)2 96,5
+
(34 - 29,2)2 =
29,2
(41 - 58,7)2 58,7
(42 - 24,3)2
+ ----24,3
26,8
Los grados de libertad son (r - 1) (e - 1). Aquf, hay r = 3 filas y e = 2 columnas en la tabla, por 10 que el numero correcto de grados de libertad es (r - 1)(e - 1)
= (3 - 1)(2 - 1) = 2
Vemos en la Tabla 7 del apendice que
X~, O,005
=
10,60
Por 10 tanto, se rechaza claramente la hipotesis nula de que no existe ninguna asociacion, incluso al nivel del 0,5 por ciento. Las pruebas en contra de esta hipotesis son abrumadoras.
Debe senalarse que, al igual que en el caso de los contrastes de la bondad del ajuste de los apartados anteriores, las cifras utilizadas para calcular el estadfstico deben ser los numeros efeetivos observados y no, por ejemplo, los porcentajes del total.
Aplicaciones informaticas Las organizaciones profesionales de investigacion utili zan diversos programas informaticos para los tipos de metodos analizados en este capitulo, EI ejemplo 16.5 ilustra el Minitab en el caso de un estudio sobre una biblioteca universitaria.
EJEMPLO
16.5. Estudio sobre una biblioteca: curso frente a varied ad (Minitab)
Library
Un equipo de estudiantes recibio el encargo de realizar una encuesta en su campus un iversitario. Se les pidio que realizaran un infOlme sobre su biblioteca: (,debe ampliarse el horario de apertura? (,Es facil localizar los libros en la biblioteca? (,Existen suficientes bases de datos para investigar? (,Esta al dia la tecnologia? Los resultados se encuentran en el fichero de datos Library (vease la referencia bibliognifica 14). (,Existe alguna asociacion entre el curso en el que se encuentran los estudiantes (1: primer ano; 2: segundo ano; 3: tercer ano; 4: cuarto ano) y las respuestas a la pregunta « (, Tiene la biblioteca una variedad suficiente de libros? 1: sf; 2: no».
670
Estadfstica para administraci6n y economfa
Solucion En el fichero de datos Library, vemos que un total de 355 estudiantes respondio a ambas preguntas. La Figura 16.1 muestra la salida Minitab del cruce de las respuestas. Cada uno de los valores esperados es superior a 5. Si este supuesto no fuera valido, apareceria un mensaje de adveltencia en la salida Minitab y podrfan agregarse clases contiguas. El bajo p-valor indica el rechazo de la hipotesis nula de que no existe ninguna asociacion. Tabulated Statistics: Class Rank, Adequate Variety Columns: Adequate Variety
Rows: Class Rank No
Yes
All
73 54.76
71
89.24
144 144.00
2
26 38.79
76 63 .2 1
102 102.00
3
19 25 .1 0
47 40.90
66 66.00
4
17 16.35
26 26.65
43 43.00
135 135 . 00
220 220 . 00
355 355 . 00
1
All
Chi-Square
Figura 16.1.
19.040, DF = 3, P-Value = 0.000
Curso frente a suficiente variedad (salida Minitab).
Aunque el uso del contraste ji-cuadrado de asociacion indique que existe una relacion entre dos variables, este metoda no indica el sentido 0 el grado de relacion.
EJERCICIOS
Ejercicios basicos 16.17. i,Fomentan los programas de televisi6n por cable libres de anuncios la ciudadanfa en los ninos en edad escolar? Vease la referencia bibliognifica 7. Muchos profesores y autoridades creen que el uso de programas de television por cable sin anuncios puede aumentar el interes del estudiante por el proceso democnitico en los anos anteriores a la edad de votar. Otros educadores piensan que la television es el enemigo de la educacion. Suponga que en un estudio realizado en Texas, se pregunto a una muestra aleatoria de 150 profesores de historia de ensenanza secundaria «i,Le gustarfa utilizar programas de te-
levision por cable sin anuncios en su clase?». La tabla de contingencia adjunta indica las respuestas de los profesores a esta pregunta, asf como sus opiniones sobre si esa programacion mejora la ciudadanfa. i,Existen pruebas de la presencia de una relacion entre las respuestas a estas dos preguntas? l Uso de programas de TV por cable sin anuncios?
Efecto
Si
" No
Fomenta la ·ciudadanfa No fomenta la ciudadania
78
25
37
10
16.18. Las autoridades universitarias han recogido la siguiente informacion sobre la calificacion media de los estudiantes y la facultad del estudiante.
Facultad
Calificacion media < 3,0
Calificaci6n media 3,0 0 mas
50
35
45 15
30 25
Letras Administnicioll de empresas Musica
671
Contrastes de la bondad del ajuste y tablas de contingencia
Capitulo 16.
16.20. i,Como se enteran los clientes de la existencia de un nuevo producto? Se ha encuestado a una muestra aleatoria de 200 usuarios de un nuevo producto para averiguarlo. Tambien se han recogido otros datos demognificos como la edad. Los encuestados eran 50 personas de menos de 21 afios y 90 de entre 21 y 35; el resto tenfa mas de 35 afios. El 60 por ciento de las personas de menos de 21 afios habfa ofdo hablar del producto a un amigo y el resto habfa visto un anuncio en la prensa. Un tercio de las personas del grupo de edad 21-35 habfa visto el anuncio en la prensa. Los otros dos tercios habfan of do hablar a un amigo. S610 el 30 por ciento de las personas de mas de 35 afios habfa ofdo hablar a un amigo, mientras que el resto habia visto el anuncio en la prensa. Elabore una tabla de contingencia para las variables edad y forma de enterarse de la existencia del producto. i,Existe una asociaci6n entre la edad del consumidor y el metodo por el que se entero de la existencia del nuevo producto?
Averigiie si existe alguna relacion entre la calificacion media y la facultad. 16.19. i,Debe obligarse a todos los estudiantes universitarios a tener computador portatil? Una escuela de administracion de empresas ha encuestado recientemente a sus estudiantes para averiguar su reaccion a esta polftica. Las respuestas se encuentran en la tabla adjunta, junto con la especialidad del estudiante. ;,Obligar a tener computador portatil? ESpecialidad
Sf
No
Contabilidad Economfa financiera Direccion de empresas Marketing
68 40 60 30
42 15 50 25
16.21. Tras un debate electoral entre dos candidatos, se pregunt6 a la gente por el sentido de su voto en las siguientes elecciones. i,Existe alguna asociacion entre el sexo del encuestado y la eleccion del candidato presidencial? Sexo ' Preferencia por candidato
i,Indican los datos que existe una asociaci6n entre la especialidad del estudiante y la respuesta a esta pregunta?
Candidato A Candidato B
Hombre
Mujer
150
130 120
100
RESUMEN En este capitulo hemos estudiado algunas de las aplicaciones de la distribucion ji-cuadrado. Hemos utilizado contrastes de la bondad del ajuste para contrastar la hipotesis de que los datos son generados por una distribucion poblacional totalmente especificada. Esta tecnica es utilizada a menu do por los analistas de mercado para averiguar si los clientes prefieren por igual los productos 0 para averiguar si las cuotas de mercado de varias marcas de un producto han cambiado en un determinado periodo de tiempo. Tambien hemos utilizado el metodo de la bondad del ajuste para averiguar si los datos son generados por
alguna distribucion, como la binomial, la distribucion de Poisson 0 la distribucion normal, sin suponer que se conocen los parametros de esa distribuci6n. Hemos presentado el contraste de normalidad de BowmanShelton. Tambien pueden realizarse otros contrastes de normalidad con divers os paquetes estadfsticos. Por ultimo, hemos analizado los contrastes de asociacion entre dos variables. En el caso de grandes tabIas de contingencia, es c6modo utilizar un paquete estadfstico para hallar el estadfstico del contraste y el pvalor.
672
Estadistica para administracion y economia
TERMINOS CLAVE contraste de asociacion, 667 contraste de la bondad del ajuste, 657 contraste de la bondad del ajuste: panimetros estimados, 661
contraste de la bondad del ajuste: probabilidades especificadas, 658 contraste de normalidad de Bowman-Shelton, 664
variable aieatoria ji-cuadrado, 657 variable aleatoria ji-cuadrado: tablas de contingencia, 667
EJE'RCICIOS V APLI~ACIONES DE~ CAPiTULO 16.22. Suponga que se clasificara una muestra aleatoria de empresas que tienen activos insolventes segun que los amorticen discrecionalmente y tambien segun que haya 0 no pruebas de una fusion 0 adquisicion posterior. Utilizando los datos de la tabla adjunta, contraste la hipotesis nula de que no existe ninguna asociacion entre estos atributos. lFusion
0
adquisicion?
Amortizar
Si
No
Sf
32 25
48
No
57
16.23. Un fabricante de un producto tiene tres fabricas en el pais. Los defectos de este producto se deben a tres grandes causas, que podemos Hamar A, B y C. Durante una semana reciente, se encontro el siguiente numero de cada uno de los tres defectos en las tres fabricas:
Fabrica 1 Fabrica 2 Fabrica 3
A, 15; A, 10; A, 32;
B,25; B,12; B,28;
C,23 C,21 C,44
Basandonos en estas frecuencias, (,podemos extraer la conclusion de que las pautas de defectos son las mismas en las tres fabricas? 16.24. El departamento de recursos humanos esta intentando averiguar si la carrera universitaria de un empleado influye en su rendimiento. Las principales carreras examinadas son administracion de empresas, economia, matematicas y el resto. Las valoraciones del personal son excelente, bueno y medio. Las clasificaciones se basan en los empleados que tienen entre dos y cuatro afios de experiencia: Administraci6n de empresas excelente, 21; Economfa excelente, 19; Matematicas excelente, 10; Resto excelente, 5;
bueno, 18; bueno, 15; buenp,5; bueno, 15;
memo, 10 medio,5 medio, 5 medio, 13
(,Indican estos datos que existe una diferencia entre las valoraciones basadas en la calTera estudiada? 16.25. Se ha pedido a una muestra aleatoria de personas que ocupan tres puestos de trabajo diferentes Hamados A, B y C que indiquen sus preferencias pOI tres marcas de linternas de camping: Big Star, Lone Star y Bright Star. Las preferencias son las siguientes:
Grupo A Big Star, 54; Grupo B Big Star, 23; Grupo C Big Star, 69;
Lone Star, 67; Lone Star, 13; Lone Star, 53;
Bright Star, 39 Bright Star, 44 Bright Star, 59
(,Indican estos datos que existe una diferencia entre las preferencias de los tres grupos? 16.26. Una universidad tenfa interes en saber si los licenciados cn historia y en economfa segufan programas de doctorado diferentes. Encuesto a una muestra aieatoria de Iicenciados y observo que un gran numero hizo un doctorado de administracion de empresas, de derecho y de teologfa. La tabla adjunta muestra el numero de veces que aparecen las personas en las distintas combinaciones. Basandose en estos resultados, (,existe alguna prueba de que los licenciados en economfa y en historia siguen programas de doctorado diferentes? Estudios de doctorado
Licenciado
Economfa Historia
Administracion de empresas Derecho Teologia 30
6
20 34
10 20
16.27. Suponga que ha recogido datos de en cuesta sobre el sexo y la compra de un producto. Realice un contraste de la ji-cuadrado para averiguar si
la probabilidad de compra varia de los hombres a las mujeres . Incluya en su respuesta los valores esperados si se cumple la hipotesis nula. Sexo Decision Compra No compra
Hombre
Mujer
150 50
150 250
16.28. Sara Sanchez es una avezada directora de campafia electoral. En las elecciones primarias, hay cuatro candidatos. Desea averiguar si las preferencias de los votantes son diferentes en cuatro grandes distritos. La tabla de contingencia muestra el numero de veces que aparece cada preferencia por distrito tras realizar una encuesta a una muestra aleatoria. Realice un contraste estadistico adecuado para averiguar si las preferencias por los candidatos estan relacionadas con el distrito. Preferencia por los candidatos en las elecciones primarias Distrito
A
B
C
D
Total
1
52 33 66
34 15 54
80
34 24 39
200 150 300
2 3
78
141
67 3
Contrastes de la bondad del ajuste y tab las de contingencia
Capitulo 16.
16.29. Un fabricante de electrodomesticos queria saber si existia relaci6n entre el tamafio de las familias y el tamafio de la lavadora que compraban. Estaba preparando un as directrices para el personal de ventas y queria saber si este debia hacer recomendaciones especfficas a los clientes. Se pregunto a una muestra aleatoria de 300 familias por su tamafio y por el tamafio de la lavadora. En las 40 familias en las que habia una o dos personas, 25 tenian una lavadora de 5 kilos, 10 tenian una lavadora de 6 kilos y 5 tenian una lavadora de 7 kilos. En las 140 familias que tenian tres 0 cuatro personas, 37 tenian una lavadora de 5 kilos, 62 tenian una lavadora de 6 kilos y 41 tenian una lavadora de 7 kilos. En las 120 familias restantes en las que habia cinco personas 0 mas, 8 tenian una lavadora de 5 kilos, 53 tenian una lavadora de 6 kilos y 59 ten ian una lavadora de 7 kilos. Basandose en estos resultados, i,que conclusiones pueden extraerse sobre el tamafio de la familia y el tamafio de la lavadora? Construya una tabla de doble entrada, formule la hipotesis, calcule el estadistico y extraiga su conclusion.
16.30. El departamento de engranajes de una gran empresa produce engranajes de gran calidad. El numero que produce un mecanico por hora es 1, 2 0 3, como muestra la tabla. La direccion de la empresa esta interesada en saber como influye la experiencia de los trabajadores en el numero de unidades producidas por hora. La experiencia de los trabajadores se clasifica en tres subgrupos: 1 afio 0 menos, entre 2 y 5 afios y mas de 5 afios. Uti lice los datos de la tabla para averiguar si la experiencia y el mlmero de piezas producidas por hora son independientes. Unidades producidas por hora Experiencia ~ 1 ano 2-5 anos > 5 anos Total
1
2
3
Total
10
30 20 10 60
10 20 30 60
50 50 50 150
10 to 30
16.31. Angeles Lara ha estado elaborando un plan para abrir nuevas tiendas dentro de su programa de expansion regional. En una ciudad en la que prop one expandirse hay tres posibles localizaciones: norte, este y oeste. Sabe por experiencia que los tres gran des centros de beneficio de sus tiendas son las herramientas, la madera y la pintura. Para seleccionar la localizacion, son importantes las pautas de demanda de las diferentes partes de la ciudad. Encarga un estudio sobre la ciudad, a partir del cual elabora una tabla de doble entrada de las variables localizacion residencial y producto comprado. Esta tabla es realizada por el departamento de estudios de mercado utilizando datos procedentes de la muestra aleatoria de hogares de las tres grandes zonas residenciales de la ciudad. Cada zona residencial tiene un prefijo telefonico distinto y se eligen los cuatro ultimos digitos utilizando un generador informatico de numeros aleatorios. i,Existe una diferencia entre las pautas de demanda de los tres grandes articulos de las diferentes zonas de la ciudad? Demanda del producto Zona
Herramientas
Madera
Pintura
Este NOlte Sur
100 50 65
50 95 70
50 45 75
16.32. Una empresa de mensajeria esta realizando un estudio de sus operaciones de envio de paquetes. En este estudio, ha recogido datos sobre el
674
Estadfstica para administraci6n y economfa
tipo de paquete segun la fuente de procedencia en un dfa de operaciones de una oficina del sudeste. Estos datos se muestran en la tabla. Las principales fuentes de procedencia son (1) ciudades pequenas (ciudades), (2) barrios financieros urbanos (BFU), (3) polfgonos industriales (fabricas) y (4) zonas residenciales. Ex isten tres gran des tipos de paquetes segun su tamano y tarifa. Los sobres urgentes deben pesar 3 kilos 0 menos y tienen una tarifa fjja de 12 $ cualquiera que sea el destino. Los paquetes pequefios pesan entre 4 y 10 kilos y tienen limitaciones sobre su tamano. Los paquetes grandes pueden pesar entre 11 y 75 kilos y tienen la tarifa mas baja por kilo y son los que mas tardan en llegar.
16.34. Cuando en Estados Unidos se aprob6 una ley para dar el mismo estatus jurfdico a las firmas electr6nicas que a las manuales, casi el 60 por ciento de los propietarios de pequenas empresas pensaba que las firmas digitales no Ie ayudarfan a hacer negocios por Internet (vease la referencia bibliogrMica 13). Suponga que se obtienen los siguientes datos en un estudio similar de propietarios de pequenas empresas clasificadas segun el numero de anos de antigiiedad y la opini6n del empresario sobre la capacidad de las firmas electr6nicas de aumentar el negocio. ;,lnfluiran positivamente las firmas digitales en su negocio? Antigiiedad de la empresa
Sf
No
No sabe
Menos de 5 aiios Entre 5 y 10 aiios Mas de 10 aiios
80 60
68 90 63
10 15 12
Tamaiio del paquete Fuente de procedencia
.s3
Ciudades
40 119 18 69
BFU Fablicas Zonas residenciales
4-10 11-75
40 63 71 64
Total
20 18
100 200 200 150
111 l7
a) i,Existe alguna diferencia entre las pautas de los paquetes procedentes de los diferentes lugares? b) i,Que dos combinaciones tienen la mayor desviaci6n porcentual con respecto a una pauta uniforme?
16.33. Una agencia de viajes tom6 una muestra aleatoria de personas de su mercado y Ie hizo la siguiente pregunta: «i,Reserv6 su ultimo vuelo a traves de una agencia de viajes?». Cruzando las respuestas a esta pregunta con las respuestas al resto del cuestionario, la agencia obtuvo datos como los de la siguiente tabla de contingencia: ;,Reserv6 su ultimo vuelo a traves de una agencia de viajes? Edad
Sf
No
Menos de 30 Entre 30 y 39 Entre 40 y 49 Entre 50 y 59 600 mas
15 20 47 36 45
30 42 42 50 20
Averigiie si existe relaci6n entre la edad del encuestado y la reserva de su ultimo vuelo a trayes de una agencia de viajes.
72
i,Existe alguna relaci6n entre la antigiiedad de la empresa y la opini6n de su propietario sobre la eficacia de las firmas electr6nicas?
16.35. La American Society for Quality (ASQ) ofrece a sus miembros instrumentos exclusivos de reclutamiento por Internet. «S610 los miembros que pretenden contratar profesionales de calidad pueden anu nciar sus puestos de trabajo en estos boletines gratuitos y s610 ellos tienen acceso a estos puestos de trabajo por Internet» (vease la referencia bibliogrMica 2). Suponga que se torna una muestra aleatoria de empresas y se les pide que indiquen si han recurrido a una empresa de Internet para buscar empleados. Tambien se les hace preguntas sobre la tarifa que se paga por utilizar la pagina. i,Existe relaci6n entre el uso de una pagina de ese tipo y la opini6n de los empresarios sobre la tarifa que se paga por utilizarla? ;,Ha recurrido a una empresa de Internet para buscar empleados'? Tarifa
La tarifa es demasiado alta La tarifa es mas o menos COlTecta
Sf
No
36
50
82
28
16.36. Business Florida es la gufa oficial del crecimiento y el desarrollo empresarial de Florida. Es publicada anualmente por Enterprise Florida
Capftulo 16.
Contrastes de la bondad del ajuste y tablas de contingencia
Inc.; el F lorida Economic Development Council, Inc.; y la revista Florida Trend. En Business Florida 2001 (vease la referencia bibliognlfica 12), se dan 10 razones para ani mar a una empresa a seleccionar Florida «para desarrollarse y expandirse». Suponga que en un estudio de seguimiento se encuesta a una muestra aleatoria de empresas situadas en Florida en los tres ultimos afios. l,Muestran los datos de la tabla de contingencia adjunta la existencia de alguna relaci6n entre la raz6n principal del traslado de la empresa a Florida y el tipo de sector?
16.38. Muchos productos de adelgazamiento rapido no son mas que ardides publicitarios que atraen a la gente con la esperanza de adelgazar rapidamente. Los grupos de la industria de productos dieteticos, los profesionales sanitarios y las autoridades advierten de que la publicidad engafiosa puede llevar a los consumidores a utilizar productos peligrosos (vease la referencia bibliogrMica 4). Suponga que se pregunta a una muestra aleatoria de habitantes de una ciudad si han utilizado alguna vez un producto para adelgazar rapidamente. A continuaci6n, se les pregunta si piensan que deben controlarse mas estrictamente los anuncios para prohibir la publicidad engafiosa de productos de adelgazamiento .
Tipo de sector Razon principal
Tegnologfa emergente Deducciones fiscales Mano de ohra
Industria
53 67 30
Comercio al por menor Turismo 36
25
10 20
40
33
16.37. l,Deben los grandes comercios minoristas ofrecer servicios bancarios? Los gigantes del comercio al por menor, como Nordstrom y Federated Department Stores (la empresa matriz de Macy's y Bloomingdale's), comenzaron a ofrecer algunos servicios bancarios a finales de 2000 (v ease la referencia bibliognifica 3). Algunos de los incentivos para atraer a los clientes eran la posibilidad de retrasar los pagos, menores comisiones por servicios como las transferencias por cable y la concesi6n de prestamos para adquirir autom6vi les 0 para reformar viviendas. A los ban cos pequefios les preocupa su futuro si entran mas comercios minoristas en el mundo de la banca. Suponga que una empresa de estudios de mercado ha realizado una encuesta nacional para un comercio minorista que esta considerando la posibilidad de ofrecer servicios bancarios a sus clientes. Pide a los encuestados que indiquen el proveedor (banco, comercio minorista, otros) al que recurrirfan con mayor probabilidad para ciertos servic ios bancarios (suponiendo que la tarifa no influye) . l,Ex iste alguna relaci6n entre estas dos variables?
lOa utilizado un producto de adelgazamiento nipido? Publicidad
Es necesario un control mas estricto No es necesario un control mas estricto
Cuenta cOITiente Cuenta de ahorro Credito hipotecario
Sf
No
85
40
25
64
l,Dependen las opiniones de los encuestados sobre los con troles de la publicidad de que hayan utilizado 0 no un producto de adelgazamiento rapido?
16.39. «Nerviosas por la tambaleante bolsa de valores, las empresas en linea han iniciado 10 que sin duda sera una larga serie de despidos» (vease la referencia bibliogrMica 5). Aunque la economfa es nueva, parece que en las empresas punto.com esta recurriendose al viejo metoda de ajuste de plantillas. Estas empresas sostienen que los despidos son necesarios para aumentar los beneficios y ahorrar costes. Suponga que la tabla de contingencia adjunta muestra el numero de despidos de tres empresas punto.com y los meses de antigi.iedad de los empleados despedidos. l,Existe alguna relaci6n entre estas dos variables?
Proveedor Servicio
675
Empresa punto.com
Banco
Comercio minorista
Otro
100 85 30
45 25 10
10 45 80
Edad
A
B
C
Menos de 6 meses Entre 6 meses y I ano Mas de I ana
23 15 12
40 21
12 12
9
6
676
Estadfstica para administraci6n yeconomfa
16.40. Algunos estudios de mercado indican el «efecto positivo de la penetracion de las marcas blancas en la rentabilidad de las tiendas medida por medio de la cuota de mercado» (v ease la referencia bibliognifica 8). Hace dos alios, el director de un supermercado local que vende tres marcas nacionales (A, B Y C) Y una marca blanca (D) de zumo de naranja observo que las marcas A y C se preferfan por igual; el 33 por ciento preferfa la marca B, y el 27 por ciento preferfa la marca blanca D. Ahora el director piensa que han cambiado las preferencias de los cIientes y que la preferencia por la marca blanca ha aumentado y quiza contribuyen positivamente al aumento de los beneficios. Los resultados de una muestra aleatoria reciente de compradores indican las siguientes preferencias. Marca favorita
A
B
C
D (marca blanca)
Numero
56
70
28
126
l,Han cambiado las preferencias de los cIientes desde el estudio realizado hace 2 afios? 16.41. A finales del otofio de 2000, los cIientes que querfan servicio inalambrico de Internet podian elegir entre cuatro categorias basicas de equipos: la agenda electronica Palm y sus sucesoras, que utilizan el sistema operativo de Palm; la agenda Pocket-PC; los telMonos con acceso a la Web, y los aparatos moviles de lectura del correo electr6nico (vease la referencia bibliogrMica 11). Analizando los datos adjuntos, procedentes de una encuesta a los usuarios de servicios inalambricos de Internet, l,depende la satisfaccion del tipo de equipo seleccionado? ;,Esta satisfecho con su compra? Tipo de equipo
Sf
No
Agenda electr6nica Palm Agenda Pocket-PC Telefonos con acceso a la Web Aparatos moviles de Iectllra del correo electronico
128
40 15
16.42.
fi, En
45 30 30
8 6
un estudio exploratorio de mercado, se pidi6 a los estudiantes de un campus universitario que respondieran a una breve encuesta sobre su biblioteca (vease la referencia bibliogrMica 14). Una de las preguntas era si pen saban que debia ampliarse el horario de apertura de la biblioteca.
a) l,Existe relacion entre las respuestas de los estudiantes a esta pregunta y el curso en el que se encuentran? Los datos se encuentran en el fichero de datos Library. b) l,Que recomendaciones harfa al personal de la biblioteca? 16.43. ( '4 l,Puede un estudiante encontrar facilmente los libros en la biblioteca universitaria? Esta pregunta tambien se incIuyo en la encuesta sobre la biblioteca universitaria (vease la referencia bibliognifica 14). a) l,Existe relacion entre las respuestas de los estudiantes a esta pregunta y el curso en el que se encuentran? Los datos se encuentran en el fie hero de datos Library. b) l, Que recomendaciones haria al personal de la biblioteca?
16.44. f J;/ La Institutional Research Office (IRO) de una importante universidad realiza anualmente encuestas a los estudiantes de primer ano, de segundo ano y de tercer ano para averiguar su nivel de satisfaccion con los servicios a los estudiantes, las instalaciones y la politic a de la universidad. Los estudiantes de ultimo ano son encuestados por separado. Suponga que el director de la IRO de una universidad facilita a los administradores, al profesorado y al personal de la universidad analisis de las tendencias, comparaciones y otros datos Miles para mejorar continuamente la universidad. La encuesta sobre la satisfaccion de los estudiantes realizada en la primavera de 2002 entre mediados de marzo y principios de mayo se envio a una muestra aleatoria de 600 estudiantes (200 estudiantes de primer ano, 200 de segundo ano y 200 de tercer ano). Las respuestas recibidas fueron 248 , 10 que supone una tasa de respuesta del 42,5 por ciento (tras ajustar las cifras para tener en cuenta las encuestas que no pudieron mandarse 0 no pudieron entregarse por alguna otra razon). Contenia informacion demogrMica sobre la carrera que estaba cursando el estudiante, la edad y el sexo. Suponga que el fichero de datos IRO contiene alguna informacion de la encuesta de 2002 sobre la satisfaccion de los estudiantes. Se pidio a los estudiantes que indicaran si estaban muy satisfechos, medio satisfechos 0 poco satisfechos con el sistema de matricula por Internet, la librerfa de la universidad, el servicio de comida, la oficina de atencion al estudiante, la planificacion financiera de los estudiantes, el programa de estudiotrabajo y algunos otros proveedores de servicios
Capitulo 16.
677
Contrastes de la bondad del ajuste y tab las de contingencia
del campus. Con estos datos pueden investigarse numerosas relaciones. Analice los datos, selecc ione y contraste varias relaciones posibles y resuma los resultados que deben presentarse al rector de la universidad. Incluya en su informe un analisis de la relacion, si existe, entre la satisfaccion del estudiante con el horario de apertura de la biblioteca y el curso en el que se encuentra, su nivel de satisfaccion con las tutorfas, la existencia de becas de investigacion, la matrfcula por Internet y los programas internacionales. Puede mejorar su informe por medio de medidas, graficos y estimaciones. 16.45. Segun un estudio reciente sobre el uso de los complltadores (vease la referencia bibliognifica 9), «los ninos de 2 a 5 anos pasaban una media de 27 minutos al dfa en el computador, mientras que los de 6 a II pasaban 49 minutos al dfa y los de 12 a 17 pasaban una media de 63 minutos al dfa». Actualmente, la mayorfa de las escue\as estan conectadas a Internet, pero la forma en que se utili zan estos computadores en clase varia de unos centros a otros. Segun Jay Becker, profesor de la Universidad de California en Irvine, «las escuelas en las que habfa ninos pobres tendfan mas a hacer hincapie en las tareas de procesamiento de textos y en otras sencillas tareas, mientras que en las escuelas en las que habfa estudiantes de familias mas acomodadas se ensenaba a usar el computador para resolver problemas y comprender mejor una asignatura». Suponga que un equipo de pedagogos bajo la direccion de Joy Haugaard realizo una encuesta para contrastar esta hipotesis. EI estudio se baso en 225 escuelas tanto de comunidades pobres como de comunidades mas acomodadas. La tabla adjunta indica sus respuestas a la pregunta «Por 10 que se refiere al uso del complltador, ;"es mas probable que su escuela haga hincapie en tareas basicas como el procesamiento de textos 0 en la utili zacio n del computador para resolver problemas?».
Nivcl economico Enfasis en el contenido Tareas ba~. icas (procesamiento de textos) Dominio del computadol' (resoluei6n de problemas)
Comunidad Comunidad pobl'c acomodada
75
40
30
80
;"Coinciden los datos de este estudio con las conclusiones de Becker? 16.46. En Estados Unidos, la gente puede utilizar distintos metodos para hacer la declaracion de la renta. Un metodo habitual es rellenar el impreso 1040. Algunas personas utilizan otros metodos como la presentacion telematica. Otras piden simplemente una prorroga (amp liar la fecha de entrega de la declaracion hasta despues del 15 de abril). Suponga que en una localidad se realizo un estudio de 200 contribuyentes seleccionados aleatoriamente. Su edad era una importante variable en este estudio. Basandose en la distribucion por edades de la poblacion de la region, el estudio incluyo 50 personas de menos de 25 anos y 90 de 25-45; el resto tenia mas de 45. En el grupo de personas de menos de 25 anos, 35 utilizaron un impreso 1040, 8 utilizaron otro metodo y el resto pidio una prorroga. Dos tercios de las personas de la categorfa 25-45 anos util izaron el impreso 1040, 20 utilizaron un metodo diferente y el resto pidio una pron·oga. El 75 por ciento de las personas de mas de 45 anos utilizo el impreso 1040,4 pidieron una prolToga y el resto utilizo un metoda diferente. Averigue si existe alguna asociacion entre la edad de una persona y el metodo utilizado para hacer la declaracion de la renta.
Ap en die e Podernos resolver el ejernplo 16.2 utilizando el prograrna Excel. Para obtener las probabilidades de Poisson mostradas en la Figura 16.2, hemos utilizado los argumentos de funci6n , como muestra la Figura 16.3 para x = 0, para cada una de las ocurrencias (x = 0, 1,2 Y 3).
678
Estadfstica para administraci6n y economfa
hjmm"M1:ftftj!
Figura 16.2. Salida Excel para averiguar si la distribuci6n poblacional es de Poisson.
lID E.l!e goit '!Jew Insett fQ.ltrl& tools Q.dta E.HSt./it ~dow tteIP ' D~_ Q ,EJ i ~ [Q. ~'Jt~~·~ · .'f.;: f,.JI_~~G»:. A"" A
_. J!.
8
1 ' rNum~be-rof---- -6bs-erv-ed - ' Pojssc)n-- ~ Expected 2 !Occurrences Values Probabilities Values
3i 4
0 1 2 3
i
5:
6i
Figura 16.3. Probabilidades de Poisson obtenidas con los argumentos de funci6n de Excel.
• 14 ·.
B
::. I =S UM(E3 E6)
E7
156 63 29 14
Chi-Square
Table-Value
.g.
0.516851 135.415 3.129196 10.59653 0.341122 89.37393 7.782855 0.11257 29.4934 0.008254 0.029457 7.717619 5.114053 1 16.034361
POISSON
~
0.516851334
Returns the Poisson d1stributlon.
Cumulative is a logical value: for the cumulative Poisson probability! use TRUE; for the Poisson probability mass function, use FALSE,
Formula result := Help on this function
0.516851334
OK
II
Cancel
I
Bibl iograffa 1.
Bera, A. K. Y C. M. Jarque, «An Efficient Large-Sample Test for Normality of Observations and Regression Residuals», Working Papers in Economics and Econometrics, 40, Australian National University, 1981.
2.
«Career Services Program Updated», On Q, American Society for Quality, 15, n.o 4, otono, 2000.
3. 4.
Coolidge, Carrie, «Socks and Bonds», Forbes, 3 de julio de 2000, pag. 62. «Dieter Hunger for Gimmicks», New York Times, articulo reproducido en Orlando Sentinel, 29 de octubre de 2000, p. All.
5.
Godwin, Jennifer, «New Economy, Same Old Downsizing», Forbes, 3 de julio de 2000, pag.60. 6. Jamison, Jane, «Survey Highlights Agents' Strength», Travel Weekly, 25 de octubre de 1999, pags. 10-47. 7. Keveney, Bill, «Classroom TV Brings Election to Students: Commercial-free Cable Programs Promote Citizenship», USA Today , 30 de octubre de 2000, pag. 4D. 8. Lal, Rajiv y Marcel CorstJensrajiv Lal, «Building Store Loyalty Through Store Brands», Journal of Marketing Research, 37, n.o 3, agosto, 2000, pag. 281. 9.
Lewin, Tamara, «Children's Computer Use Grows, but Gap Persist, Study Says», New York Times, 22 de enero de 2001, pag. AIL.
Capitulo 16.
10. 11. 12. 13. 14.
Contrastes de la bondad del ajuste y tablas de contingencia
679
Mosteller, F. y D. L. Wallace, Interference and Disputed Authorship: The Federalist r(') 1964, Addison-Wesley, Reading, Mass, Tablas 2.3 y 2.4. Premiso de reimpresion. Nadeau , Michael, «Cut the Cord», Access: America's Guide to the Internet, suplemento especial de Orlando Sentinel, 29 de octubre de 2000, pags . 12-14. www .accessmagazine.com. Shepherd, Gary , «10 Reasons Why Your Business Belongs in Florida», Business Trend's Business Florida 2001, www.businessflorida.com. «Sign Here Please», USA Today, 30 de octubre de 2000, pag. IB. www .office.com. Thorne, J. Renee et ai., «University Library Study», articulo inedito. Los datos se encuentran en el fichero de datos Library.
Analisis de la varianza /
Esquema del capUulo 1 7.1. Comparaci6n de las medias de varias poblaciones 17.2. Analisis de la varianza de un factor Modelo poblacional en el caso del anal isis de la varianza de un factor 17.3. EI contraste de Kruskal-Wallis 17.4. Analisis de la varianza bifactorial: una observaci6n par celda, bloques aleatorizados 17.5. Analisis de la varianza bifactarial : mas de una observaci6n par ce lda
Introducci6n En las aplicaciones empresariales modernas del anal isis estadfstico, hay algunas situaciones que requieren hacer comparaciones de procesos en mas de dos niveles. Por ejemplo, al director de Circuitos Integrados SA Ie gustarfa saber si cualquiera de cinco procesos para montar componentes aumenta la productividad por hora y reduce el numero de componentes defectuosos. Los anal isis para responder a estas cuestiones se conocen con el nombre general de diseno experimental. Un importante instrumento para organizar y analizar los datos de este experimento se llama analisis de /a varianza , que es el tema de este capftulo . EI experimento tambien podrfa extenderse a un diseno que incluyera la cuesti6n de cual de cuatro fuentes de materias primas aumenta mas la productividad en combinaci6n con los diferentes metodos de producci6n. Esta cuesti6n podrfa responderse con un analisis de la varianza de dos factores. Por poner otro ejemplo, el presidente de una empresa de cereales tiene interes en comparar las ventas semanales de cuatro marcas diferentes en tres tiendas distintas. Una vez mas, tenemos un diseno de un problema que puede analizarse utilizando el analisis de la varianza. En el apartado 14.2 mostramos que tambien pod fan utilizarse variables ficticias para anal izar problemas de diseno experimental.
682
Estadfstica para administraci6n y economfa
17.1. Com aracion de las medias de varias oblaciones En el apartado 11.1 vimos como se contrasta la hipotesis de la igualdad de dos medias poblacionales. De hecho, presentamos dos contrastes, que eran adecuados dependiendo del disefio experimental, es decir, del mecanismo empleado para generar las observaciones muestrales. Concretamente, nuestros contrastes partfan de observaciones pareadas 0 de muestras aleatorias independientes. Esta distincion es importante y, para ac\ararla, nos detendremos a examinar un sencillo ejemplo. Supongamos que nuestro objetivo es comparar el consumo de combustible de dos tipos de automoviles: A y B. Podrfamos seleccionar aleatoriamente 10 personas para que recorrieran una determinada distancia con estos automoviles, asignando a cada una un automovil de cada tipo, de manera que cada una condujera tanto un automovil A como un automovil B. Las 20 cifras de consumo de combustible resultantes consistinin en 10 parejas, cada una de las cuales corresponde a un conductor. Este es el disefio por parejas enlazadas y su atractivo reside en su capacidad para hacer una comparacion entre las cantidades de interes (en este caso, el consumo de combustible de los dos tipos de automovil), teniendo en cuenta al mismo tiempo la posible importancia de otro factor relevante (las diferencias entre los conductores). Asf, si se observa la existencia de una diferencia significativa entre el comportamiento de los automoviles A y el de los B, tenemos alguna seguridad de que no se debe a diferencias de conducta de los automovilistas. Otro disefio serfa tomar 20 conductores y asignar aleatoriamente 10 a los automoviles A y 10 a los automoviles B (aunque, en realidad, no es necesario hacer el mismo numero de pruebas con cada tipo de automovil). Las 20 cifras de consumo de combustible resultantes constituirfan un par de muestras aleatorias independientes de 10 observaciones cada una sobre los automoviles A y B. En el apartado 11.1 analizamos metodos adecuados para contrastar la hipotesis nula de la igualdad de un par de medias poblacionales en estos dos tipos de disefio. En este capitulo, nuestro objetivo es extender estos metodos al desarrollo de contrastes de la igualdad de la media de varias poblaciones. Supongamos, por ejemplo, que nuestro estudio incluyera un tercer tipo de automovil, el automovil C. La hipotesis nula de interes serfa en ese caso que la media poblacional del consumo de combustible de los tres tipos de automoviles es igual. Mostramos como pueden realizarse contrastes de esas hipotesis , comenzando con el caso en el que se toman muestras aleatorias independientes. En el apartado 17.5 analizamos la extension del contraste bas ado en datos pareados. Supongamos que a 7 de 20 conductores se les asigna un automovil A, a 7 un automovil B y a 6 un automovil C. Utilizando los datos de la Tabla 17.1, calculamos Media muestral de los automoviles A
146,3 = -- =
7
20,9
162,4 Media muestral de los automoviles B = - - = 23,2 7 Media muestral de los automoviles C
137,4
=
-6-
=
22,9
Naturalmente, estas medias muestrales no son todas iguales. Sin embargo, como siempre, cuando se contrastan hipotesis, interesa saber cmil es la probabilidad de que las diferencias de ese tipo surgieran por casualidad aunque se cumpliera en realidad la hipotesis nula.
Capftulo 17.
Tabla 17.1.
Analisis de la varianza
683
Cifras de consumo de combustible de tres muestras aleatorias independientes en kil6metros por litro.
Automoviles A
Automoviles B
22,2 19,9 20,3 2 1,4 21 ,2 21,0 20,3 146,3
24,6 23,1 22,0 23,5 23,6 22,1 23,5 162,4
Sumas
Automoviles C 22,7 21,9 23,2 24,1 22,1 23,4 137,4
Si se llega a la conclusion de que serfa muy improbable que surgieran diferencias de ese tipo por casualidad, dudarfamos considerablemente de que la hipotesis nula sea verdadera. Para aclarar las cuestiones que plantea este amllisis, consideremos la Figura 17.1, que representa dos conjuntos hipoteticos de datos. Las medias muestrales de la parte (a) de la figura son exactamente iguales que las de la parte (b). La diferencia fundamental se halla en que en la primera las observaciones estan muy concentradas en torno a sus respectivas medias muestrales, mientras que en la segunda la dispersion es mucho mayor. El examen visual de la parte (a) sugiere que los datos proceden, en realidad, de tres poblaciones que tienen diferentes medias. En cambio, observando la parte (b), no nos sorprenderfa mucho saber que estos datos proceden de una poblacion comun. ~ Esta ilustracion sirve para sefialar la propia esencia del contraste de la igualdad de las INTERPRETACION medias poblacionales. EI factor crftico es la variabilidad de los datos. Si la variabilidad en torno a las medias muestrales es pequefia en comparacion con la variabilidad entre las medias muestrales, como en la Figura 17.1(a), nos inclinamos a dudar de la hipotesis nula de que las medias poblacionales son iguales. Si la variabilidad en torno a las medias muestrales es grande en comparacion con la variabilidad entre ellas, como en la Figura 17.1 (b), no hay pruebas contundentes para rechazar la hipotesis nula. Si eso es asf, parece razonable esperar que el contraste se base en el valor de la varianza. Y as! es, en efecto, por 10 que la tecnica general empJeada se conoce con el nombre de analisis de la varianza.
• • • • •
• •
• • •
•
•
•
• •
• •
•
• c
,g
22
(.9
c
,g
22
(.9
0> 21 c.
••
(J)
OJ
~ 20
., •• ••
A-ca rs
••• •• •• 8-ca rs
(a) Figura 17.1 .
•••
•• •
•
C-cars
0> 21 c. (J)
OJ
:= ~
20
A-ca rs
•
8-cars (b)
C-cars
Dos conjuntos de datos muestrales sobre el consumo de combustible de tres tipos de autom6vil.
684
Estadfstica para administracion y economfa
17.2. Analisis de la varianza de un factor ===.=;.....--El problema presentado en el apartado 17.1 puede tratarse de una forma bast ante general. Supongamos que queremos comparar las medias de K poblaciones, que se supane que tienen tadas ellas La misma varianza. Se toman muestras aleatorias independientes de n I, n2' ... , n K observaciones de estas poblaciones. Utilizamos el sfmbolo Xu para representar la j-esima observaci6n de la i-esima poblaci6n. Entonces, utilizando el formato de la Tabla 17.1, podemos presentar los datos muestrales como en la Tabla 17.2. Tabla 17.2.
Observaciones muestrales de muestras aleatorias independientes de K poblaciones.
Poblaci6n
2
K
Xli
X 2l
X K1
xJ2
x 22
X K2
XII!
x2n
x KIl
El metodo para contrastar la igualdad de las medias poblacionales en este contexte se denomina amilisis de la varianza de un factor, expresi6n que resultani mas clara cuando examinemos otros modelos de analisis de la varianza.
EI modelo para un analisis de la varianza de un factor Supongamos que tenemos muestras aleatorias independientes de n1 , n2 , ... , nK observaciones de K poblaciones. Si las medias poblacionales son /11' /12' ... , /1K' el amilisis de la varianza de un factor pretende contrastar la hip6tesis nula
Ho : fll
= fl2 = ... = flK
HI : fli #-
Pj
Para al menos un par
Pi'
J.lj
En este apartado presentamos un contraste de la hip6tesis nula de que las medias de K poblaciones son iguales, dadas muestras aleatorias independientes de esas poblaciones. El primer paso obvio es calcular las medias muestrales de los K grupos de observaciones. Estas medias muestrales se representan por medio de Xl' X2, ... , K • En terminos formales,
x
Hi
I I Xu
j=
Xi = . _ -
ni
(i = 1,2, ... , K)
donde n i representa el numero de observaciones muestrales del grupo i. En esta notacion, ya hemos observado con los datos de la Tabla 17.1 que
XI = 20,9
X3 = 22,9
Ahora bien, la hipotesis nul a de interes especifica que las K poblaciones tienen una media comun. Un paso 16gico es, pues, estimar esa media comun a partir de las observa-
Capitulo 17.
Analisis de la varianza
685
ciones muestraJes. Esta es simplemente la suma de todos los valores muestrales dividida por su numero total. Si n representa eI numero total de observaciones muestrales, entonces K
11
=
L
ni
;= 1
En nuestro ejemplo, n = 20. La media global de las observaciones muestrales puede expresarse entonces de la forma siguiente: K
11;
L L
-
x=
x ij
i= I j= I
11
donde el doble sumatorio indica que sumamos todas las observaciones de cada grupo y las de todos los grupos, es decir, sumamos todas las observaciones existentes. Una expresi6n equivalente es
x= - - 11
En el caso de los datos de la Tabla 17.1 sobre el consumo de combustible, la media global es _
x =
(7)(20,9)
+ (7)(23,2) + (6)(22,9) 20
= 22305 '
Por 10 tanto, si, en realidad, la media poblacional del con sumo de combustible de los autom6viles A, B y C es igual, estimamos que la media comun es de 22,31 kil6metros por litro. Como indicamos en el apartado 17.1, el contraste de la igualdad de las medias poblacionales se basa en una comparaci6n de dos tipos de variabilidad de los miembros de la muestra. El primero es la variabilidad en torno a las medias muestrales individuales dentro de los K grupos de observaciones. Es c6modo llamada variabilidad del1tro de los grupos. En segundo lugar, nos interesa la variabilidad entre las medias de los K grupos. Esta se llama variabilidad entre los grupos. A continuaci6n, buscamos medidas, basadas en los datos muestrales, de estos dos tipos de variabilidad. Consideremos, en primer lugar, la variabilidad dentro de los grupos. Para medir la variabilidad en el primer grupo, calculamos la suma de los cuadrados de las desviaciones de las observaciones en torno a su media muestral XI' es decir,
Asimismo, en el caso del segundo grupo, cuya media muestral es X2' calculamos
y as! sucesivamente. As! pues, la variabilidad total que existe dentro de los grupos, denominada SCD, es la suma de las sumas de los cuadrados de los K grupos; es decir, SCD = SCI
+ SC2 + ... + SCK
686
Estad fstica para administraci6n y economfa
o sea K
SCD
=
Hi
L L
(Xi) -
xi
i= ! j = I
En el caso de los datos sobre el consumo de combustible, tenemos que SCI = (22,2 - 20,9)2 + (19,9 - 20,9)2 + ... + (20,3 - 20,9)2 = 3,76
SC 2 = (24,6 - 23 ,2)2 + (23,1 - 23 ,2i + ... + (23,5 - 23,2)2 = 4,96 SC3 = (22,7 - 22,9)2 + (21,9 - 22,9)2 + ... + (23,4 - 22,9)2 = 3,46
La suma de los cuadrados dentro de los grupos es, pues, SCD = SCI + SC2 + SC3 = 3,76 + 4,96 + 3,46 = 12,18
A continuaci6n, necesitamos una medida de la variabilidad que existe entre los grupos. Una medida 16gica se basa en las diferencias entre las medias individuales de los grupos y la media global. En realidad, al igual que antes, estas diferencias se elevan al cuadrado, por 10 que
Para calcular la suma total de los cuadrados entre los grupos, SCG, ponderamos cada diferencia al cuadrado par el numero de observaciones muestrales del grupo correspondiente (de manera que damos mas peso a las diferencias correspondientes a los grupos en los que hay mas observaciones), por 10 que K
SCG =
L ni(xi -
i)2
i=!
Por 10 tanto, en el caso de nuestros datos sobre el consumo de combustible, SCG = (7)(20,9 - 22,305)2 + (7)(23,2 - 22,305)2 + (6)(22,9 - 22,305)2
= 21,55 A menudo se calcula otra suma de los cuadrados. Es la suma de los cuadrados de las diferencias de todas las observaciones muestrales en torno a su media global. Esta se denomina suma total de los cuadrados y se expresa de la forma siguiente: K
STC =
11;
L L (xi) -
X)2
i = ! j=!
De hecho, en el apendice de este capitulo mostramos que la suma total de los cuadrados es la suma de los cuadrados dentro de los grupos y la suma de los cuadrados entre los grupos; es decir, STC = SCD
+ SCG
Por 10 tanto, en el caso de los datos sobre el consumo de combustible, tenemos que STC = 12,18
+ 21,55 =
33,73
Capitulo 17. Analisis de la varianza
687
Descomposicion de la suma de los cuadrados en el analisis de la varianza de un factor Supongamos que tenemos muestras aleatorias independientes de n1 , n2 , .•• , nK observaciones de K poblaciones. Sean 1 ' 2 ' ••• , K las medias muestrales de los K grupos y x la media muestral global. Oefinimos las siguientes sumas de los cuadrados:
x x
x
K
Dentro de los grupos:
J1j
L L
SCD =
(xi) -
xl
(17.1)
i= 1 j= I
K
L
SCG =
Entre los grupos:
n;Cxi - X)2
(17.2)
i= I
K
Total:
llj
L L
STC =
(xi) - X)2
(17.3)
i= 1 j = 1
donde xij representa la j-esima observaci6n muestral del i-esimo grupo. Entonces,
STC
= SCD + SCG
(17.4)
La descomposicion de la suma total de 'los cuadrados en la suma de dos componentes -las sumas de los cuadrados dentro de los grupos y entre los grupos- constituye la base del contraste de la igualdad de las medias poblacionales de los grupos bas ado en el amllisis de la varianza. Podemos considerar que esta descomposicion expresa la variabilidad total de todas las observaciones muestrales en torno a su media global como la suma de la variabilidad dentro de los grupos y la variabilidad entre los grupos. La Figura 17.2 10 muestra esquematicamente. Figura 17 .2. Descomposicion de la suma de los cuadrados en el anal isis de la varianza de un factor.
Suma de los cuadrados dentm de los grupos Suma total de los dos cuadradros Suma de los cuadrados entre los grupos
Nuestro contraste de la igualdad de las medias poblacionales se basa en el supuesto de que las K poblaciones tienen una varianza comun. Si la hipotesis nul a de que las medias poblacionales son iguales es verdadera, cada una de las sumas de los cuadrados, SCD y SCG, puede utilizarse como base para estimar la varianza poblacional comun. Para obtener estas estimaciones, deben dividirse las sumas de los cuadrados par el numero correspondiente de grados de libertad. En primer lugar, en el apendice del capitulo mostramos que se obtiene un estimadar insesgado de la varianza poblacional si se divide SCD por (n - K). La estimacion resultante se denomina media de los cuadrados dentro de los grupos y se representa par medio de MCD, de manera que SCD MCD=--
n-K
688
Estadfstica para administracion y economfa
En el caso de nuestros datos, tenemos que MCD =
1218 ' = 0,7165 20 - 3
Si las medias poblacionales son iguales, se obtiene otro estimador insesgado de la varianza poblacional dividiendo SCG por (K - 1), que tambien se muestra en el apendice del capitulo. La cantidad resultante se llama media de los cuadrados entre los grupos y se representa por medio de MCG; por 10 tanto,
SCG MCG= - -
K-l
En el caso de nuestros datos sobre el con sumo de combustible, MCG
21,55 3- 1
= -- =
1078 '
Cuando las medias poblacionales no son iguales, la media de los cuadrados entre los grupos no constituye una estimacion insesgada de la varianza poblacional comun. EI valor esperado de la variable aleatoria correspondiente es mayor que la varianza poblacional comun, ya que tambien contiene informacion sobre los cuadrados de las diferencias de las verdaderas medias poblacionales. Si la hipotesis nula fuera verdadera, ahora tendriamos dos estimaciones insesgadas de la misma cantidad, la varianza poblacional comun. Seria razonable esperar que estas estimaciones fueran muy parecidas. Cuanto mayor es la diferencia entre estas dos estimaciones, manteniendose todo 10 de mas constante, mayor es nuestra sospecha de que la hipotesis nul a no es verdadera. EI contraste de la hipotesis nula se bas a en el cociente entre las medias de los cuadrados (vease el apendice del capitulo): MCG F = - MCD
Si este cociente es cercano a 1, hay pocas razones para dudar de la hipotesis nul a de la igualdad de las medias poblacionales. Sin embargo, como ya hemos sefialado, si la variabilidad entre los grupos es grande en comparacion con la variabilidad dentro de los grupos, sospechamos que la hipotesis nula es falsa. Lo es cuando el cociente F tiene un valor muy superior a 1. En ese caso, se rechaza la hipotesis nula. Cabe deducir un contraste formal del hecho de que si la hipotesis nula de la igualdad de las medias poblacionales es verdadera, la variable aleatoria sigue una distribucion F (analizada en el apartado 11.4) con '(K - 1) grados de libertad en el numerador y (n - K) grados de libertad en el denominador, suponiendo que las distribuciones poblacionales son normales.
Contraste de hipotesis basado en el analisis de la varianza de un factor Supongamos que tenemos muestras aleatorias independientes de n1 , n2 , de K poblaciones. Sea n el tamano total de la muestra, de manera que
n = n [ + n2
+ ... + nK
... ,
nK observaciones
Capitulo 17. Analisis de la varianza
689
Oefinimos las medias de los cuadrados de la forma siguiente:
Dentro de los grupos:
SCD MCD= - -
(17.5)
Entre los grupos:
SCG MCG=--
(17.6)
n- K
K-l
La hipotesis nula que se contrasta es que las K medias poblacionales son iguales; es decir,
Ho:
J.ll
=
J. l 2
= ... =
J.lK
Postulamos los siguientes supuestos adicionales: 1. 2.
Las varianzas poblacionales son iguales. Las distribuciones poblacionales son normales.
La regia de decision de un contraste de nivel de significacion
1 ,n - K"
es:
MeG
-> MCD
Rechazar Ho si donde F K -
(J.
FK - 1, n - K ,ct
(17.7)
es el numero para el que
P(FK -
1, II - K
> FK -
1" II - K
(J..) =
rJ..
y la variable aleatoria FK - 1 n - K sigue una distribucion F con (K - 1) grados de libertad en el numerador y (n - K) grados de libertad en el denominador. EI p-valor de este contraste es el grado mas bajo de significacion que nos permitirfa rechazar la hipotesis nula.
En el caso de los datos sobre el con sumo de combustible, observamos que MCG MCD
-
10,78
-=
0,7165
1504 '
Los grados de libertad del numerador y del denominador son, respectivamente, (K - 1) = 2 y (n - K) = 17. Por 10 tanto, para un contraste al ni vel de significacion del 1 por ciento, vemos que en la Tapia 9 del apendice, F 2 , 17.0,01 = 6,11
Por 10 tanto, estos datos nos permiten rechazar al nivel de significacion dell por ciento la hipotesis nula de que la media poblaciona1 del consumo de combustible de los tres tipos de automovil es igual. Es muy comodo resumir los calculos realizados para hacer este contraste en una tabla del analisis de la varianza de un factor. La forma general de la tabla se muestra en la Tabla 17.3. La 17.4 contiene el analisis de la varianza correspondiente a los datos sobre el consumo de combustible. Observese que, en algunas exposiciones, la suma de los cuadrados dentro de los grupos se denomina suma de los cuadrados de los errores.
690
Estadfstica para administracion y economfa
Tabla 17.3.
Formato general de la tabla del anal isis de la varianza de un factor.
Fuente de variacion
Suma de los cuadrados
Grados de Iibertad
Entre los grupos
SCG
K- l
Dentro de los grupos
SCD
n- K
Total
STC
n- 1
Tabla 17.4.
Fuente de variacion
Media de los cuadrados
Cociente F
SCG MCG=-K- l SCD MCD=--
MCG MCD
n- K
Tabla del anal isis de la varianza de un factor correspondiente a los datos sobre el con sumo de combustible.
Suma de los cuadrados
Grados de Iibertad
Media de los cuadrados
21,55 12,18 33,73
2 17 19
10,78 0,7165
Entre los grupos Dentro de los grupos Total
Cociente F 15,04
EJEMPLO 17.1. Dificultades para leer los anuncios de las revistas (amilisis de la varianza de un factor) EI indice fog se utiliza para medir la dificultad para leer un texto escrito: cuanto mas alto es el valor del fndice, mas diffcil es el nivel de lectura. Queremos saber si las tres revistas Scientific American, Fortune y New Yorker tienen un fndice distinto de dificultad de lectura.
Solucion Se toman muestras aleatorias independientes de 6 anuncios de Scientific American, Fortune y New Yorker, se miden los indices fog de los 18 anuncios y se anotan en la Tabla 17.5 (vease la referencia bibliografica 2). Tabla 17.5.
fndice fog de la dificultad de lectura de tres revistas.
Scientific American
Fortune
New Yorker
15,75 11 ,55 11,16 9,92 9,23 8,20
12,63 11,46 10,77 9,93 9,87 9,42
9,27 8,28 8,15 6,37 6,37 5,66
Basandose en estos datos, se puede elaborar la tabla del analisis de la varianza utilizando un programa estadfstico como Minitab. La Figura 17.3 contiene la salida del analisis de la varianza. Para contrastar la hip6tesis nula de que las medias poblacionales de los indices fog son iguales, debemos comparar el cociente -F - F = 6,97- de la tabla
Capitulo 17.
Analisis de la varianza
691
del amllisis de la varianza con los valores tabulados de la distribuci6n F con (2, 15) grados de libertad. En la Tabla 9 del apendice vemos que
F2 • 15 , 0,01 = 6,36 - :~
INTERPRETACION
Por 10 tanto, rechazamos la hip6tesis nula de la igualdad de las medias poblacionales de los indices fog de las tres revistas al nivel de significaci6n del 1 por ciento. Observese tambien que el p-valor calculado, como se ve en la Figura 17.3, es 0,007. Tenemos pruebas contundentes de que la dificultad de lectura es diferente: el Indice mas bajo corresponde a New Yorker. Observese que la salida Minitab contiene una representaci6n grafica de las medias de los subgrupos y sus intervalos de confianza. Esta salida contiene una presentacion visual de las diferencias entre las medias de los subgrupos, sefialando en este caso que New Yorker se diferencia mucho de Scientific American y Fortune. One-way ANOV A: SCIENTIFIC AM ERICAN, FORTUNE, N EWY ORKER Source Factor Error Total S
=
DF 2 15 17
1. 866
SS 48.53 52.22 1 00.75 R-Sq
=
MS 24.26 3 . 48
F 6.97
48.17 %
P 0.007
R-Sq( adj)
=
41.26%
Individual 95% CIs For Mean Based on Pooled StDev Leve l SCIENTIFIC AMERI FORTUNE NEW YORKER
N 6 6 6
Mean 10.9 68 10 .680 7.350 .
StDev 2.647 1.202 1.412
-r--- - ---r-------+ - -- --- - ~---(-- -- - - *------)
(- - - ---*-------) ( - - - - - - * - - - - - -)
-~----- - -r-------+-------~- - --
6.0 Poo led StDev
Figura 17 .3.
=
8.0
10.0
12.0
1 .866
Analisis de la varianza de un factor de la dificultad de lectura de Scientific American, Fortune y New Yorker (salida Minitab).
Modelo poblacional en el caso del anal isis de la varianza de un factor Es util observar el modelo del analisis de la varianza de un factor desde una perspectiva diferente. Sea la variable aleatoria Xi) la j-esima observaci6n de la i-esima poblaci6n y fli la media de esta poblaci6n. En ese caso, X ij puede concebirse como la sum a de dos partes: su media y una variable aleatoria cij de m.::dia 0. Por 10 tanto, podemos escribir
Ahora bien, como se toman muestras aleatorias independientes, las variables aleatorias cij no estan correlacionadas entre sf. Ademas, dado nuestro supuesto de que las varianzas poblacionales son iguales, se deduce que las cij tienen todas elias las mismas varianzas. Por 10 tanto, estas variables aleatorias satisfacen los supuestos habituales (vease el apartado 13.3) impuestos a los terminos de error de un modelo de regresion multiple. Esta ecuaci6n puede
692
Estadfstica para administracion y economfa
verse como un modelo de regresi6n con los panimetros desconocidos 111' J-l2' ... , 11K' La hip6tesis nula de interes es
Ho: J-li = J- l2 = ... = 11K EI supuesto afiadido de la normalidad facilita el contraste de estos panimetros. El modelo puede expresarse de una forma algo distinta. Sea ILia media global de las K poblaciones combinadas y G i la diferencia entre la media poblacional del i-esimo grupo y esta media global, de manera que
G; = 11; - 11
o
J-li = 11
+ G;
Sustituyendo en la ecuaci6n original, tenemos que
por 10 que una observaci6n esta formada por la suma de una media global 11, un terminG especffico del grupo G; y un error aleatorio Bi) ' Entonces, nuestra hip6tesis nula es que cada media poblacional 11; es igual que la media global, 0 sea
La Figura 17.4 muestra este modelo poblacional y algunos de los supuestos. EI consumo efectivo de combustible de cada tipo de autom6vil registrado en una prueba cualquiera puede representarse por medio de una variable aleatoria que sigue una distribuci6n normal. Las medias poblacionales del consumo medio de combustible de los autom6viles A, Bye, 111' 112 Y 113' respectivamente, determinan los centros de estas distribuciones. Segun nuestro supuesto, estas distribuciones poblacionales deb en tener las mismas varianzas. La Figura 17.4 tambien muestra la media {l de las tres poblaciones combinadas y las difcrcncias Gj entre las medias poblacionales individuales y la media global. Por ultimo, en el caso de los autom6viles B, hemos marc ado con un punto la i-esima observaci6n muestral. La variable aleatoria BU es, pues, la diferencia entre el valor observado y la media de la subpoblaci6n j de la que proMcede. Figura 17.4. Ilustraci6n del modelo poblacional en el caso del analisis de la varianza de un factor.
utomoVi ,es B
e2i
2 :t= -;:
tz
G2
{;5
f IL2-
tI
\
----
.
t5utomOViles C
t
IL3 ----
:
~ IL ___________ J'_____________ \ ~+ e --------E
Q) '0
Q
t
G
1\
\
t
IL1 -
~:~mOVile~
A
Capitulo 17.
693
Analisis de la varianza
EJERCICIOS
Ejercicios basicos 17.1. Dada la siguiente tabla del amllisis de la varianza: Fuente de variacion Entre los grupos Denlro de los grupos Total
Suma de los cuadrados
Grados de Iibertad
1.000 750 1.750
4
15 19
calcule los cuadrados medios entre los grupos y denlro de los grupos. Calcule el cociente F y contraste la hip6tesis de que las medias de los grupos son iguales. 17.2. Dada la siguiente tabla del amilisis de la varianza: Fuente de variacion EnlTe los grupos Denlro de los grupos Total
Suma de los cuadrados
Grados de libertad
879 798 1.677
3 16 19
calcule los cuadrados medios entre los grupos y dentro de los grupos. Calcule el cociente F y contraste la hip6tesi s de que las medias de los grupos son iguales. 17.3. Dada la siguiente tabla del analisis de la varianza: Fuente de variacion Entre los grupos Denlro de los grupos Total
Suma de los cuadrados
1.000 743 1.743
Grados de Iibertad
2 15 17
calcule los cuadrados medios entre los grupos y dentro de los grupos. Calcule el cociente F y contraste la hip6tesis de que las medias de los grupos son iguales.
Ejercicios aplicados 17.4. Un fabricante de cereales tiene que elegir entre tres colores para las cajas de cereales: rojo, amarillo y azul. Para averiguar si el color influye en las ventas, se eligen 16 tiendas de tamano parecido. Se envfan cajas rojas a 6 de estas tiendas, cajas amarillas a 5 y cajas azules a las 5 restantes. Despues de unos dias, se comprueba el numero
de cajas vendidas en cada tienda. La tabla adjunta muestra los resultados (en decenas de cajas) obtenidos. Rojo
Amarillo
Azul
43 52 59 76 61 81
52 37 38 64 74
61 29 38 53 79
a) Calcule la suma de los cuadrados dentro de los grupos, entre los grupos y total. b) Complete la tabla del analisis de la varianza y contraste la hip6tesis nula de que las medias poblacionales de los niveles de ventas de las cajas de los tres colores son iguales. 17.5. Un profesor tiene una c1ase de 23 estudiantes. Al comienzo de cada cuatrimestre asigna a cada estudiante aleatoriamente a uno de los cuatro profesores ayudantes que tiene: Sanchez, Hervas, Alarcos 0 Blazquez. Anima a los estudiantes a reunirse con su profesor ayudante para que les explique la materia diffcil del curso. AI final del cuatrimestre, se hace un examen. La tabla adjunta muestra las calificaciones obtenidas por los estudiantes que trabajan con estos profesores ayudantes. Sanchez
Hervas
Alarcos
BlaZ
72
78 93 79 97 88 81
80 68 59 75 82 68
79 70 61 74 85 63
69 84 76 64
a) Calcule la suma de los cuadrados dentro de los grupos, entre los grupos y total. b) Complete la tabla del analisis de la varianza y contraste la hip6tesis nula de la igualdad de las medias poblacionales de las calificaciones de estos profesores ayudantes. 17.6. Tres proveedores suministran piezas en envios dl" 500 unidades. Se han comprobado minuciosamente muestras aleatorias de seis envlos de cada uno de los tres proveedores y se ha anotado el numero de piezas que no se ajustan a las nOt·mas. La tabla muestra este numero.
694
Estadfstica para administraci6n y economfa
Proveedor A
Proveedor B
Proveedor C
28 37 34 29 31 33
22 27 29 20 18 30
33 29 39 33 37 38
a) Elabore la tabla del analisis de la varianza de estos datos. b) Contraste la hip6tesis nula de que la igualdad de las medias poblacionales del numero de piezas por envfo de los tres proveedores no se ajustan a las normas.
17.7. Una empresa esta tratando de elegir entre tres tipos de autom6vil para su flota: nacionales, japoneses 0 europeos. Se pi den cinco autom6viles de cada tipo y, despues de recorrer 10.000 kil6metros con ellos, se calcula el coste de explotaci6n por kil6metro de cada uno. Se obtienen los siguientes resultados en centavos por kil6metro.
C-·
Nacionales
Japoneses
Europeos
18,0 176 :17,4 '19,1 16,9
20,1 17,6 16,1 17,3 17,4
19,3 17,4 17,1 18,6 16,1
a) Elabore la tabla del analisis de la varianza de estos datos. b) Contraste la hip6tesis nula de que las medias poblacionales de los costes de explotaci6n medios por kil6metro de los tres tipos de autom6viles son iguales.
17.8. Se toman muestras aleatorias de siete estudiantes universitarios de primer ano, siete de segundo ano y siete de tercero que asisten a una clase de estadfstica para los negocios . La tabla adjunta muestra las calificaciones obtenidas en el examen final. Estudiantes de primer aiio
Estudiantes de segundo afio
Estudiantes de tercer aiio
82 93 61 74 69 70 53
71 62 85 94
64 73 87 91 56 78 87
78
66 71
a) Elabore la tabla del aniilisis de la varianza de estos datos. b) Contraste la hip6tesis nula de que las medias poblacionales de las calificaciones de los tres grupos son iguales.
17.9. Se pide a muestras de cuatro vendedores de cuatro regiones distintas que predigan los aumentos porcentuales del volumen de ventas de sus territorios en los pr6ximos 12 meses. La tabla adjunta muestra las predicciones. Oeste
Norte
Sur
Este
6,8 4,2 5,4 5,0
7,2 6,6 5,8 7,0
4,2 4,8 5,8 4,6
9,0 8,0 7,2 7,6
a) Elabore la tabla del aniilisis de la varianza. b) Contraste la hip6tesis nul a de que las medias poblacionales de las cuatro predicciones del crecirniento de las ventas de las cuatro regiones son iguales.
17.10. Se pide a muestras aleatorias independientes de seis profesores ayudantes, cuatro profesores asociados y cinco profesores titulares que estimen la cantidad de tiempo que dedicaron a sus responsabilidades docentes fuera del aula la semana pasada. La tabla adjunta muestra los resultados en horas. Ayudante
Asociado
Titular
7 12
15 12 15 8
11
11
15 9 14
7 6 9 7
a) Elabore la tabla del analisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales de los tiempos de los tres tipos de profesores son iguales. 17.11. Dos academias ofrecen cursos para prepararse para el examen de acceso a la universidad. Para comprobar la eficacia de sus cursos, se eligen 15 estudiantes. Cinco se asignan aleatoriamente a la academia A, cinco a la B y el resto no asiste a ningun curso. La tabla adjunta muestra las calificaciones obtenidas en el examen, expresadas en porcentajes.
Capitulo 17.
Academia A
Academia B
Academia C
79 74 92 67 85
74 69 87 81 64
72 71 81 61 63
Tipo 1 12,89 12,69 11 ,15 9,52 9,12 7,04
Tipo 2 9,50 8,60 8,59 6,50 4,79 4,29
Tipo 3 10,21 9,66 7,67 5,12 4,88 3,12
695
17.13. En el modelo del analisis de la varianza de un fac tor, expresamos la j -esima observaci6n del iesimo grupo de la forma siguiente: Xu = fl
+ G; + eij
donde fl es la media global, G; es el efecto especifico del i-esimo grupo y eij es el error aleatorio de la j-esima observaci6n del i-esimo grupo. Considere los datos del ejemplo 17.1 . a) Estime fl. b) Estime G; de cada una de las tres revistas. c) Estime e32> el termino de error correspondiente a la segunda observaci6n (8,28) del New Yorker.
a) Elabore la tabla del amllisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales de las calificaciones de los tres grupos son iguales. 17.12. En el estudio del ejemplo 17.1 se toman muestras aleatorias independientes de seis tipos de anuncios. La tabla adjunta muestra los indices fog de estos anuncios . Contraste la hip6tesis nula de que las medias poblacionales de los indices fog de los tres tipos de anuncios son iguales.
Anal isis de la varianza
17.14. Utilice el modelo del analisis de la varianza de un factor para examinar los datos del ejercicio 17.12. a) Estime fl. b) Estime G; de cada uno de los tres tipos de anuncios. c) Estime el3, el termino de error correspondiente a la tercera observaci6n 01,15) del primer tipo de anuncio .
17.3. EI contraste de Kruskal-Wallis Como ya hemos sefialado, el contraste del analisis de la varianza de un factor del apartado 17.2 generaliza al caso en el que hay varias poblaciones el contraste t utilizado para comparar dos medias poblacionales cuando se dispone de muestras aleatorias independientes. EI contraste se basa en el supuesto de que las distribuciones poblacionales subyacentes son normales. En el apartado 15.3 introdujimos el contraste de Mann-Whitney, un contraste no parametrico que es valido para comparar las posiciones centrales de dos poblaciones bas ado en muestras aleatorias independientes, incluso cuando las distribuciones poblacionales no son normales. Tambien es posible desarrollar una alternativa no parametric a al contraste del analisis de la varianza de un factor. Este contraste se conoce con el nombre de contraste de Kruskal-Wallis y se emplea cuando un investigador tiene poderosas razones para sospechar que las distribuciones poblacionales subyacentes pueden ser muy diferentes de la normal. Al igual que la mayorfa de los contrastes no parametricos que ya hemos visto, el contraste de Kruskal-Wallis se basa en los puestos ocupados por las observaciones muestrales en las ordenaciones correspondientes. Mostraremos como se calcula el estadfstico del contraste utilizando los datos sobre el con sumo de combustible de la Tabla 17.1. Los valores muestrales se juntan y se ordenan en sentido ascendente, como en la Tabla l7.6, utilizando la media de los puestos en caso de empate. El contraste se basa en las sumas de los puestos R i , R2 , .. . , RK de las K muestras. En el ejemplo del consumo de combustible, R2 = 101,5
R3 = 76,5
696
Estadistica para administracion y economia
Tabla 17.6.
Cifras de consumo de combustible (en kil6metros por litro) y puestos de tres muestras aleatorias independientes.
Automoviles A
Puesto
Automoviles B
Puesto
Automoviles C
Puesto
22,2 19,9 20,3 21,4 21,2 21 ,0 20,3
11 1 2,5 6 5 4 2,5
24,6 23,1 22,0 23,5 23,6 22,1 23,5
20 13 8 16,5 18 9,5 16,5
22,7 21,9 23,2 24,1 22,1 23,4
12 7 14 19 9,5 15
Suma de los puestos
32
101,5
76,5
La hip6tesis nula que debe contrastarse es que las tres medias poblacionales son iguales. Sospecharfamos de esa hip6tesis si hubiera notables diferencias entre las medias de los puestos de las K muestras. De hecho, nuestro contraste se bas a en el estadfstico, donde n i son los tamafios muestrales de los K grupos y n es el numero total de observaciones muestrales. Sea W W
=
12 n(n
+
1)
K
R2
i= 1
ni
L -' -
3(n
+
1)
La hip6tesis nula serfa dudosa si el valor de W fuera alto. La base del contraste se deduce del hecho de que, a menos que los tamafios de las muestras sean muy pequefios, la variable aleatoria correspondiente al estadfstico del contraste sigue, segun la hip6tesis nula, una distribuci6n de la que es una buena aproximaci6n la distribuci6n X2 con (K - 1) grados de libertad.
EI contraste de Kruskal-Wallis Supongamos que tenemos muestras aleatorias independientes de de K poblaciones. Sea
n1 , n2 ,
... ,
nK observaciones
el numero total de observaciones muestrales. Sean R1 , R2 , •• • , RK las sumas de los puestos de las K muestras cuando se juntan las observaciones muestrales y se ordenan en sentido ascendente. EI contraste de la hip6tesis nula, Ho' de la igualdad de las medias poblacionales se bas a en el estadfstico W
=
12 n(n
+
1)
K
R?
i=
i
L1 -' n
3(n
+
1)
(17.8)
La regia de decisi6n de un contraste al nivel de significacion a es
Rechazar Ho si
W> Xk - l,c<
(17.9)
donde X~ - 1 " es el numero que es superado con la probabilidad C( por una variable aleatoria l con (K - 1)' grados de libertad. Este metodo es aproximadamente valido, siempre que la muestra contenga al menos cinco observaciones de cad a poblacion.
Capitulo 17.
Analisis de la varianza
697
En el caso de nuestros datos sobre el consumo de combustible, tenemos que
w=
12 [(32)2 (20)(21) 7
+
(101 5)2 ' 7
+
(765)2J ' 6
-
(3)(21) = 11 10 '
Aquf, tenemos (K - 1) = 2 grados de libertad, por 10 que en el caso de un contraste al nivel de significacion del 0,5 por ciento, vemos en la Tabla 7 del apendice que
x~. 0,005 = 10,60 Por 10 tanto, la hipotesis nula de que las medias poblacionales del consumo de combustible de los tres tipos de automoviles son iguales puede rechazarse incluso al nivel de significacion del 0,5 por ciento. Naturalmente, tambien rechazamos esta hipotesis utilizando el contraste del analisis de la varianza del apartado l7.2. Sin embargo, aquf hemos sido capaces de rechazarlo sin imponer el supuesto de la normalidad de las distribuciones poblacionales. EJEMPLO
17.2. Importancia de las marcas (contraste de Kruskal-Wallis)
Se ha realizado un estudio para averiguar si las mujeres de diferentes subgrupos profesionales dan diferentes niveles de importancia a las marcas cuando compran bebidas refrescantes .
Solucion Se pidio a muestras aleatorias independientes de 101 empleadas de oficina, 112 administrativas y 96 profesionales que valoraran en una esc ala de 1 a 7 la importancia que daban a la marca cuando compraban bebidas refrescantes. El valor del estadfstico de Kruskal-Wallis de este estudio era 25,22. Contraste la hipotesis nul a de que las medias poblacionales de las valoraciones de los tres subgrupos son iguales. El estadfstico del contraste calculado es
W= 25,22 Dado que hay K = 3 grupos, tenemos para un contraste al 0,5 por ciento
X~ - l,a = X3 ,0,00s = 10,60 Por 10 tanto, la hipotesis nul a de que las medias poblacionales de las valoraciones de los tres subgrupos son iguales se rechaza claramente con los datos de esta muestra, incluso at nivel de significacion del 0,5 por ciento. Tenemos pruebas contundentes de que las mujeres de diferentes subgrupos profesionales dan diferentes niveles de importancia a las marcas.
EJERCICIOS
Ejercicios basicos 17.15. Considere un problema con tres subgrupos en el que la sum a de los puestos de cada uno de los subgrupos es igual a 45, 98 Y 88 y el tamafio de los subgrupos es igual a 6, 6 y 7. Complete el
contraste de Kruskal-Wallis y la hip6tesis nub de que los puestos de los subgrupos son iguales. 17.16. Considere un problema con cuatro subgrupos en el que la suma de los puestos de cada uno de los subgrupos es igual a 49, 84, 76 y 81 y el ta-
698
Estadfstica para administracion y economfa
mano de los subgrupos es igual a 4, 6, 7 Y 6. Complete el contraste de Kruskal-Wallis y la hip6tesis nula de que los puestos de los subgrupos son iguales.
17.17. Considere un problema can cuatro subgrupos en el que la suma de los puestos de cad a uno de los subgrupos es igual a 71, 88, 82 y 79 Y el tamano de los subgrupos es igual a 5, 6, 6 y 7. Complete el contraste de Kruskal-Wallis y la hip6tesis nula de que los puestos de los subgrupas son iguales.
Ejercicios aplicados 17.]8. Basandose en los datos del ejercicio 17.4, utilice el contraste de Kruskal-Wallis de la hip6tesis nul a de que las medias poblacionales de los niveles de ventas de las cajas de los tres col ores son iguales. 17.19. Basandose en los datos del ejercicio 17.5, utilice el contraste de Kruskal-Wallis de la hip6tesis nula de que las medias poblacionales de las caIificaciones de los estudiantes asignados a los cuatro profesores ayudantes son iguales. 17.20. Basandose en los datos del ejercicio 17.6, realice un contraste de la hip6tesis nula de la igualdad de las medias poblacionales del numero de piezas por envio de los tres proveedores que no se ajustan a las norm as sin suponer que las distribuciones poblacionales son normales. 17.21. Basandose en los datos del ejercicio 17.7, contraste la hip6tesis nula de que las medias poblacionales de los costes de explotaci6n por ki16metro de los tres tipos de autom6vil son iguales sin suponer que las distribuciones poblacionales son normales.
17.22. Basandose en los datos del ejercicio 17.8, realice un contraste no parametrico de la hip6tesis nula de la igualdad de las medias poblacionales de las calificaciones de los estudiantes de primer ano, de segundo ano y de tercer ano. 17.23. Basandose en los datos del ejercicio 17.9, utilice el metodo de Kruskal-Wallis para contrastar la hip6tesis nul a de la igualdad de las medias poblacionales de las predicciones para las cuatro regiones. 17.24. Vuelva al ejercicio 17.10. Sin suponer que las distribuciones poblacionales son normales, contraste la hip6tesis nula de que las medias poblacionales del tiempo que dedican los ayudantes, los asociados y los titulares a las responsabilidades do centes fuera del aula son iguales. 17.25. Basandose en los datos del ejercicio 17.11, realice el contraste de Kruskal-Wallis de la hip6tesis nula de la igualdad de las medias poblacionales de las calificaciones obtenidas en el examen de acceso a la universidad por los estudiantes que no van a una academia y los que van a la academia A y a la academia 8. 17.26. Se pide a muestras aleatorias independientes de 101 estudiantes universitarios de primer ano, 112 de segundo ano y 96 de tercer ano que valoren en una escala de 1 a 7 la importancia que conceden a la marca cuando compran un autom6vil. El valor del estadfstico de KruskalWall is obtenido es 0,17. a) i,Que hip6tesis nula puede contrastarse utilizando esta informaci6n? b) Realice el contraste.
17.4. Analisis de la varianza bifactorial: una observacion or celda, blo ues aleatorizados Aunque 10 que nos interesa principalmente es el analisis de un aspecto de un experimento, podemos sospechar que hay un segundo factor que influye significativamente en el resultado. En los apartados anteriores de este capitulo hemos analizado un experimento en el que el objetivo era comparar el consumo de combustible de tres tipos de autom6viles. Hemos recogido datos de tres muestras aleatorias independientes de pruebas y los hemos analizado por medio de un analisis de la varianza de un factor. Hemos supuesto que la variabilidad de los datos muestrales se debia ados causas: a la existencia de verdaderas diferencias entre los tres tipos de autom6viles y a una variaci6n aleatoria. De hecho, podriamos sospechar que parte de la variabilidad aleatoria observada se debe a las diferencias entre los
Capitulo 17.
Analisis de la varianza
699
habitos de los conductores. Si fuera posible aislar este ultimo factor, disminuirfa la cantidad de variabilidad aleatoria del experimento. Eso permitirfa, a su vez, detectar mas facilmente las diferencias de rendimiento entre los autom6viles. En otras palabras, disefiando un experimento para tener en cuenta las diferencias entre las caracterfsticas de los conductores, confiamos en conseguir un contrate mas poderoso de la hip6tesis nula de que las medias poblacionales del consumo de combustible de todos los tipos de autom6viles son iguales. De hecho, es bastante sencillo disefiar un experimento que pueda tener en cuenta la influencia de un segundo factor de este tipo. Supongamos, una vez mas, que tenemos tres tipos de autom6vil (por ejemplo, autom6viles IX, autom6viles f3 y autom6viles y) cuyo consumo de combustible queremos comparar. Consideramos un experimento en el que se realizan seis pruebas con cada tipo de autom6vil. Si se realizan estas pruebas utilizando seis conductores, cada uno de los cuales conduce un autom6vil de los tres tipos, es posible, dado que cada tipo de autom6vil sera probado por cada conductor, extraer de los resultados informaci6n sobre la variabilidad de los conductores, asf como informaci6n sobre las diferencias entre los tres tipos de autom6vil. La variable adicional - en este caso, los conductores- se denomina a veces variable de bloqueo. Se dice que este experimento esta organizado en bloques; en nuestro ejemplo, habrfa seis bloques, uno por cada conductor. Este tipo de disefio por bloques puede utilizarse para obtener informacion sobre dos factores simultaneamente. Supongamos, por ejemplo, que queremos comparar el con sumo de combustible de diferentes tipos de automovil, pero tambien de diferentes tipos de conductores. En concreto, es po sible que nos interese saber c6mo influye la edad de los conductores en el consumo de combustible. Para eso, podemos subdividir los conductores en grupos de edad. Podrfamos utilizar los seis grupos de edad siguientes (en afios):
1. 2.
26-35
3.
36-45
4. 5.
46-55 Mas de 65
25 afios
0
men os
A continuaci6n, podemos organizar nuestro experimento de tal forma que un autom6vil de cada grupo sea conducido por un conductor de cada grupo de edad. De esta forma, ademas de contrastar la hip6tesis de que las medias poblacionales del consumo de combustible de todos los tipos de autom6vil son iguales, podemos contrastar la hip6tesis de que las medias poblacionales del consumo medio de combustible de todos los grupos de edad son iguales. De hecho, independientemente de que cada uno de los seis conductores conduzca un autom6vil de cada tipo 0 un conductor de cada una de las seis clases de edad conduzca un autom6vil de cada tipo, el metodo para contrastar la igualdad de las medias poblacionales del consumo de combustible de los tipos de autom6viles es el mismo. En este apartado utilizamos el segundo disefio a modo de ilustraci6n . La Tabla 17.7 contiene los resultados de un experimento realizado con tres tipos de autom6vil y conductores de seis grupos de edad. El objetivo principal es comparar los tipos de autom6vil y la variable de bloqueo es la edad de los conductores. Este tipo de disefio se llama diseiio por bloques aleatorizados. La aleatoriedad se debe a que seleccionamos aleatoriamente un conductor del primer grupo de edad para conducir un autom6vil IX, un conductor del segundo grupo de edad para conducir un autom6vil IX, y asf sucesivamente. Este procedimiento se repite con cada grupo de edad y con cada tipo de autom6vil. Si es posible, las pruebas deben realizarse siguiendo un orden aleatorio, no bloque por bloque.
700
Estadfstica para administraci6n y economfa
Tabla 17.7. Observaciones muestrales sobre el consumo de combustible de tres tipos de autom6viles conducidos por conductores de seis clases.
Tipo de automovil Clase de conductores
Automoviles
rJ.
Automoviles (J
Automoviles y
Suma
23,9 23,7 24,4 23,3 23,6 24,5 143,4
26,0 25,4 25,8 24,4 24,2 25,4 151 ,2
75,0 73,8 76,2 72,0 71,7 74,1 442,8
25,1 24,7 26,0 24,3 23,9 24,2 148,2
1 2 3 4 5 6
Suma
Supongamos que tenemos K grupos y que hay H bloques. Representaremos par medio de xi) la observaci6n muestral correspondiente al i-esimo grupo y el j-esimo bloque. Por 10 tanto, los datos muestrales pueden mostrarse como en la Tabla l7.8. Observese que este formato es simplemente una extensi6n del que utilizamos para realizar el contraste de observaciones pareadas del apartado 11.1, en el que s610 teniamos dos grupos para poder contrastar la igualdad de varias medias poblacionales. Tabla 17.S.
Observaci6n muestral sobre K grupos y H bloques.
Grupo Bloque
1
2
K
1
XII
2
x J2
x 2I x 22
XK I X K2
H
X 1H
X 2H
X KH
Para desarrollar un contraste de la hip6tesis de que las medias poblacionales de todos los K grupos son iguales, necesitamos las medias muestrales de estos grupos. Para representar la media del i-esimo grupo, utilizamos la notaci6n Xi.' por 10 que H -
L
xi}
j~1
(i
Xi'=~
= 1, 2, ... , K)
Basandonos en la Tabla l7.7, tenemos que ._ X I.
=;=
148,2 -6- = 24,7
_ X 2•
=
143,4 -6-
=
23,9
151,2 x 3 • = -6- = 25,2
Tambien nos interesan las diferencias entre las medias de los bloques poblacionales. Por 10 tanto, necesitamos las medias muestrales de los H bloques. Representamos por medio de x.j la media muestral del j-esimo bloque, por 10 que K
L
xi}
i~ l
x'j=~
(j = 1, 2, ... , H)
Capitulo 17.
Analisis de la varianza
701
En el caso de los datos sobre el consumo de combustible de la Tabla 17.7, tenemos que
_ X. I
_ .
X 4
_
75,0
= -3- = 25,0 72,0 3
=- =
240 '
73,8
X.2
= - 3- = 24,6
_ x.s
= - 3- = 23,9
_ X.3
_
71,7
X.6
76,2
= -3- = 25,4 74,1
= - 3- = 24,7
Por ultimo, necesitamos la media global de las observaciones muestrales. Si n representa el nllmero total de observaciones, entonces
n=HK y la media muesLral de las observaciones es K
x=
H
L L
xij
i= ] j = I
n
K
H
i=[
=~
LXi. L x.j K
H
En el caso de los datos de la Tabla 17.7,
442,8 x=--= 246 18
'
Antes de preguntarnos cmll es el contraste adecuado de la hip6tesis que nos interesa, es util examinar el modelo poblacional en el que nos basamos implfcitamente. Supongamos que la variable aleatoria Xi) corresponde a la observaci6n del i-esimo grupo y el j-esimo bloque. Se considera que este valor es la suma de los cuatro componentes siguientes.
1. 2. 3. 4.
Una media «global» 11. Un panimeLro G;, que es especffico del i-esimo grupo y que mide la diferencia entre la media de ese grupo y la media global. Un panimetro Bj , que es especffico del i-esimo bloque y que mide la diferencia entre la media de ese bloque y la media global. Una variable aleatoria f.ij' que representa el error experimental, 0 sea la parte de la observaci6n que no es explicada ni por la media global ni por la pertenencia a los grupos 0 los bloques.
Podemos escribir, pues,
Se supone que el termino de error f.ij satisface los supuestos habituales del modelo de regresi6n multiple. En concreto, pues, se supone que las varianzas son independientes e iguales. En tal caso, podemos formular la expresi6n anterior de la forma siguiente:
A continuaci6n, dados los datos muestrales, estimamos la media global 11 por medio de la media muestral global X, pOl' 10 que (xi) - x) es una estimaci6n del primer miembro. La diferencia Gj entre la media poblacional del i-esimo grupo y la media poblacional global se estima por medio de la correspondiente diferencia entre las medias muestrales, (Xi. - x).
702
Estadfstica para administraci6n y economfa
Asimismo, B) se estima por medio de (x.) - x). Por ultimo, restando, estimamos el termino de error: Tenemos, pues, considerando los miembros muestrales, que
Para ilustrarlo, consideremos el consumo de combustible de un conductor del tercer grupo de edad con un autom6vil 0(, Segun la Tabla 17.7, X13
=
26,0
El termino del primer miembro es X13 -
X = 26,0 - 24,6 = 1,4
El efecto del grupo (autom6vil) es
XI. - X = 24,7 - 24,6 = 0,1 Observese que este terrnino sera el rnismo siempre que se conduzca el autom6vil efecto del bloque (conductor) es '
X.3 -
x = 25,4 -
IX.
El
24,6 = 0,8
Por ultimo, el terrnino de error es X13 -
XI. - X.3 + X = 26,0 - 24,7 - 25,4 + 24,6 = 0,5
Por 10 tanto, tenemos para esta observaci6n 1,4 = 0,1
+ 0,8 + 0,5
Podemos interpretar esta ecuaci6n de la forma siguiente: cuando un conductor del tercer grupo de edad probO el autom6vil IX, consumi6 1,4 kil6metros por litro mas que la media de todos los autom6viles y los conductores. Se estima que de esta cantidad 0,1 se debe al autom6vil, 0,8 al grupo de edad del conductor y el resto, 05, a otros factores, que atribuimos a la variabilidad aleatoria 0 a un error experimental. Ahora, si elevamos al cuadrado los dos miembros y sumamos las n observaciones muestrales, puede demostrarse que el resultado es K
K
f-I
L L ;=1) = 1
(xi) -
xi = H L i= 1
K
f-I
(Xi. - X)2 + K
L (x.) )= 1
X)2
+
f-I
L L
(Xi) -
Xi. - X~j -
x)
i=I) = 1
En esta ecuaci6n, la variabilidad muestral total de las observaciones en torno a la media global es la suma de las variabilidades que se deb en a las diferencias entre los grupos, a las diferencias entre los bloques y al error, respectivamente. Es en la descomposici6n de estas sumas de los cuadrados en la que se basa el analisis de experimentos de este tipo. El analisis se llama analisis de la varianza bifactorial, ya que los datos se clasifican de dos formas, por grupos y por bloques. En la Figura 17.5 mostramos esta importante descomposici6n de la suma de los cuadrados. Observese que, a diferencia de la descomposici6n del analisis de la varianza de un factor, la descomposici6n de la suma total de los cuadrados de las observaciones muestra-
Capitulo 17.
Figura 17.5. Descom posicion de la suma de los cuadrados de un anal isis de la varianza bifactorial con una observacion por celda.
Analisis de la varianza
703
Suma de los cuadrados entre bloques
Suma total de los cuadros
'f----
Suma de los cuadrados entre grupos
Suma de los cuadrados de los errores
les en torno a su media global se divide aquf en tres componentes, que resumimos en las ecuaciones l7.10 a l7 .14; el componente extra se debe a nuestra capacidad para extraer de los datos informacion sobre las diferencias entre los bloques. En el caso de los datos sobre el consumo de combustible de la Tabla l7.7, tenemos que
STC = (25,1 - 24,6)2 + (24,7 - 24,6)2 + ... + (25,4 - 24,6)2 = 11,88 SCG = 6[(24,7 - 24,6)2 + (23,9 - 24,6)2 + (25,2 - 24,6)2] = 5,16 SCE = 3[(25,0 - 24,6)2 + (24,6 - 24,6)2 + ... + (24,7 - 24,6)2] = 4,98 por 10 que, restando,
SCE = STC - SCG - SCE = 11,88 - 5,16 - 4,98 = 1,74
Descomposicion de la suma de los cuadrados del analisis de la varianza bifactorial Supongamos que tenemos una muestra de observaciones y que xi" es la observaci6n del j-esimo grupo y el j-esimo bloque. Supongamos que hay K grupos y Hbloques, 10 que hace un total de
n=KH observaciones. Sean las medias muestrales de los grupos Xi' (i = 1, 2, ... , K), las medias · muestrales de los bloques X. U= 1, 2, ... , H) y la media muestral global x. Oefinimos las siguientes §umas de los cuadrados: K
Total:
STC =
H
L L
(xji
-
X)2
(17.10)
i= 1 j = I
K
Entre grupos:
SCG = H
L
(Xi. - x)2
(17.11)
i= I
H
Entre bloques:
SCR = K
L (x.
i -
X)2
(17.12)
j=1
K
Error:
SCE =
H
L L (xu -
Xi. - X.j + X)2
(17.13)
i= I j=1
Entonces
STC = SCG + SCE + SCE
(17.14)
704
Estadfstica para administracion y economfa
A partir de aquf, los contrastes relacionados con el analisis de la varianza bifactorial se realizan de la misma forma que los contrastes relacionados con el analisis de la varianza de un factor del apartado 17.2. En primer lugar, obtenemos la media de los cuadrados dividiendo cada una de las sumas de los cuadrados por el numero conespondiente de grados de libertad. En el caso de la suma total de los cuadrados, los grados de libertad son 1 menos que el numero total de observaciones, es decir, (n - 1). En el caso de la suma de los cuadrados entre grupos, los grados de libertad son 1 menos que el numero de grupos, 0 sea (K - 1). Asimismo, en el caso de la suma de los cuadrados entre bloques, el numero de grados de libertad es (H - 1). Por 10 tanto, restando, los grados de libertad correspondientes a la suma de los cuadrados de los enores son (n - 1) - (K - 1) - (H - 1) = n - K - H
+
1
= KH- K- H+ 1 = (K - l)(H -
1)
La hipotesis nula de que las medias poblacionales de los grupos son iguales puede contrastarse entonces por medio del cociente entre la media de los cuadrados de los grupos y la media de los cuadrados de los enores, como muestra la ecuacion 17.18. A menudo se incluye una variable de bloqueo en el analisis simplemente para reducir la variabilidad debida al error experimental. Sin embargo, a veces tambien tiene interes la hipotesis de que las medias poblacionales de los bloques son iguales. Esta hipotesis puede contrastarse por medio del cociente entre la media de los cuadrados de los bloques y la media de los cuadrados de los enores de la ecuacion 17.19. AI igual que ocune en el caso del analisis de la varianza de un factor, la comparacion proviene de la probabilidad de una cola de la distribucion F. En el caso de los datos sobre el consumo de combustible, la media de los cuadrados es SCG 5,16 MCG = - - = = 258 K- 1 2 ' SCB 4,98 MCB = - - = = 0996 H- 1 5 ' MCE =
SCE
1,74
(K - 1)(H - 1)
=-
10
= 0 174 '
Para contrastar la hipotesis nul a de que las medias poblacionales del consumo de combustible de los tres tipos de automoviles son iguales, necesitamos MCG
2,58
MCE
0,174
--=--=
1483 '
En el caso de un contraste al nivel de significacion del 1 por ciento, vemos en la Tabla 9 del apendice que FK-1.(K- l )(H - l) .rJ.
= F 2 , IO.O ,OI =
7,56
Capitulo 17. Analisis de la varianza
705
Contrastes de hipotesis en el caso del analisis de la varianza bifactorial Supongamos que tenemos una observacion muestral para cad a combinacion grupo-bloque en un disefio que contiene K grupos y H bloques: Xji
= 11
+ Gj + B; + Gji
donde Gj es el efecto del grupo y B j es el efecto del bloque. Definamos las siguientes medias de los cuadrados:
Entre grupos:
SCG MCG=--
(17.15)
Entre bloques:
SCB MCB= - -
(17.16)
ElTor:
MCE=
K - l
H-l
SCE (K - l)(H - 1)
(17.17)
Suponemos que los terminos de error 8 jj del modele son independientes entre sf y tienen la misma varianza. Suponemos, ademas, que estos errores siguen una distribucion normal. La regia de decision de un contraste al nivel de significacion (J. de la hipotesis nula, Ho' de que las K medias poblacionales de los grupos son iguales es
Rechazar Ho si
MCG MCE >
FK - I,(K - I)(H - I), G<
La regia de decision de un contraste al nivel de significacion que las H medias poblacionales de los bloques son iguales es
Rechazar Ho si
MCB MCE>
(J.
(17.18)
de la hipotesis nula, Ho' de
F H - I. (K-I)(H- I) ,G<
(17.19)
Aquf, Fv" V2, ~ es el numero que es superado con la probabilidad (J. por una variable aleatoria que sigue una distribucion F con v1 grados de libertad en el numerador y v2 grados de libertad en el denominador.
Por 10 tanto, basandose en estos datos, se rechaza claramente al nivel de significaci6n del 1 por ciento la hip6tesis de que las medias poblac ionales del con sumo de combustible de los tres tipos de autom6viles son iguales. En este ejemplo, la hip6tesis nula de la igualdad de las medias poblacionales de los bloques es la hip6tesis de que las medias poblacionales del consumo de combustible de todos los grupos de edad son iguales. EI contraste se bas a en
MCB 0,996 - - = - - =572 MCE 0,174 ' En el caso de un contraste al 1 por ciento, vemos en la Tabla 9 del apendice que F H- I , (K- I)(H - I ),G<
= F s, lO,o,QI = 5,64
Por 10 tanto, la hip6tesis nul a de la igualdad de las medias poblacionales de los seis grupos de edad tambien se rechaza al nivel de significaci6n del 1 por ciento.
706
Estadfstica para administracion y economfa
Una vez mas, es muy c6modo resumir los calculos en una tabla. La Tabla 17.9 muestra la organizaci6n general de la tabla del analisis de la varianza bifactorial y la Figura 17.6 muestra este analisis de la varianza bas ado en los datos sobre el con sumo de gasolina. El numero de grados de libertad depende del numero de grupos y de bloques. Las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados por sus grados de libertad correspondientes. La media de los cuadrados de los errores es el denominador en el calculo de los dos cocientes F en los que se basa nuestro contraste. Tabla 17.9.
Formato general de la tabla del anal isis de la varianza bifactorial.
Fuente de variaci6n
Suma de los cuadrados
Grados de libertad
Media de los cuadrados
Entre grupos
SCC
K-1
SCC MCC=-K-1
MCC
Entre bloques
SCB
H -1
SCB MCB=-H-l
MCB
EtTor
SCE
(K-1)(H-I)
Total
STC
N-1
Figura 17.6. Resu Itados del analisis de la varianza bifactorial correspondiente al ejemplo 17.3 (salida Minitab).
MCE=
SCE
(K - l)(H - 1)
Two-way ANOVA: Mileage versus Car, Driver
DF 2 5 10 17
Source Car Driver Error Total
SS 5.16 4 .98 1. 74 11.88
S = 0.4171
MS 2.580 0.996 0.174
R-Sq = 85.35%
F 14.83 5.72
P 0.001 0.009
R-Sq(adj) = 75.10%
Individual 95% CIs For Mean Based on Pooled StDev Car 1 2 3
Mean 24.7 23.9 25.2
---- ---+--------~-------~--------+(----- * -----) (----- *-----) (-----*-----)
-------+--------~-------~--------+-
24.00
24.60
25.20
25.80
Individual 95% CIs For Mean Based on Pooled StDev Driver 1 2 3 4 5 6
Mean 25.0 24.6 25.4 24 . 0 23.9 24.7
-----+--------~--------~--- -- --~--
(------ * ------ ) (------ *------)
(------*------ ) (------ *------ )
(------ * --- - - -) (------ *-----_.)
-----+ - --- ---- +--------~- --- -- -~-- -
23.80
24.50
25.20
25.90
Cociente F
MCE
MCE
Capitulo 17.
EJEMPLO
707
Analisis de la varianza
17.3. Consumo de combustible de los autom6viles (analisis de la varianza bifactorial)
Queremos averiguar si existen pruebas contundentes para concluir que hay diferencias entre los niveles de consumo de combustible de diferentes automoviles conducidos por diferentes conductores.
Solucion Los datos sobre el consumo de gasolina de la Tabla 17.7 pueden analizarse utilizando el programa Minitab y la salida mostrada en la Figura 17.6. Esta figura tambien muestra las distintas sumas de los cuadrados y los cocientes F.
EJERCICIOS
Ejercicios basicos 17.27. Considere un amilisis de la varianza bifactorial con una observacion por celda y bloques aleatorizados con los siguientes resultados: Fuente de variacioll Entre grupos Entre bloques En·or Total
Sum a de los cuadrados
Grados de Iibertad
231 348 550 1.129
4 5 20 29
Calcule los cuadrados medios y contraste la hipotesis nul a de que las medias entre grupos son iguales y las medias entre bloques son iguales. 17.28. Considere un analisis de la varianza bifactorial con una observacion por celda y bloques aleatorizados con los siguientes resultados: Fuente de variacion Entre grupos Entre bloques Error Total
Suma de los cuadrados
Grados de Iibertad
380 232 387 989
6 5 30 41
Calcule los cuadrados medios y contraste la hipotesis nula de que las medias entre grupos son iguales y las medias entre bloques son iguales. 17.29. Considere un analisis de la varianza bifactorial con una observacion por celda y bloques aleatorizados con los siguientes resultados:
Fuente de variacion Entre grllpos Entre bloqlles Error Total
Suma de los cuadrados
Grados de Iibertad
131 287 360 778
3 6 18 27
Calcule los cuadrados medios y contraste la hipotesis nula de que las medias entre grupos son iguales y las medias entre bloques son iguales.
Ejercicios aplicados 17.30. Se pide a cuatro analistas financieros que predigan el crecimiento de los beneficios de cinco compafifas petroleras el proximo ano. La tabla adjunta muestra sus predicciones, expresadas en porcentaje. a) Elabore la tabla del analisis de la varianza bifactorial. b) Contraste la hipotesis nula de que las medias poblacionales de las predicciones de los beneficios de todas las companias son iguales. Analista Compania petrolera
A
B
C
D
I
8 9 12 11
12 9
13 12
10 10
7 8 9 10
9
8
10
12 14
2 3 4 5
10
17.31. La tabla adj unta muestra los resultados (en quintales por acre) de un experimento agricola
708
Estadfstica para administracion y economfa
destinado a valorar las diferencias de rendimiento de cuatro variedades diferentes de maiz, utilizando tres fertilizantes distintos. Variedad Fertilizante
A
B
C
D
1 2 3
86 92 75
88 91 80
77
84 93 79
81 83
a) Elabore la tabla del analisis de la varianza bifactorial. b) Contraste la hipotesis nula de que las medias poblacionales del rendimiento de las cuatro variedades de mafz son iguales. c) Contraste la hipotesis nula de que las medias poblacionales del rendimiento de las tres marcas de fertilizante son iguales. 17.32. Una empresa ha hecho un estudio de mercado de tres nuevos tipos de sopa en algunas tiendas durante un periodo de 1 ano. La tabla muestra las ventas (en miles de dolares) de cada una de las tres sopas en cada trimestre del ano. Sopa Trimestre
A
B
C
1
47 63 79 52
57 63 67 50
65 76 54 49
2 3 4
a) Elabore la tabla del analisis de la varianza bifactorial. b) Contraste la hipotesis nula de que las medias poblacionales de las ventas de los tres tipos de sopas son iguales. 17.33. Un fabricante de una bebida refrescante sin azucar quiere comparar la influencia en las ventas de las latas de tres colores distintos: rojo, amarillo y azul. Se seleccionan cuatro regiones y se eligen aleatOliamente tres supermercados en cada region para vender en cada uno de ellos latas de uno de los colores. La tabla adjunta muestra las ventas (en decenas de latas) realizadas al fi nal del periodo del experimento. Color de la lata Region Este Sur Norte Oeste
Rojo
Amarillo
Azul
47 56 49 41
52 54 63 44
60 52 55 48
a) Elabore la tabla del analisis de la varianza bifactorial. b) Contraste la hipotesis nula de que las medias poblacionales de las ventas de las latas de los tres colores son iguales. 17.34. Un profesor de economfa tiene que elegir entre tres libros de texto. Tambien tiene que elegir entre tres tipos de examenes: tipo test, redacciones y una mezc\a de los dos. Durante el ano, da c\ase a nueve grupos y asigna aleatoriamente a cada grupo una combinacion de libro de texto y tipo de examen. Al final del curso obtiene las evaluaciones realizadas por los estudiantes de cada grupo. La tabla adjunta muestra estas evaluaciones. Libro de texto Examen
A
B
C
Tipo test Redaccion Mezcla
4,8 4,6 4,6
5,3 5,0 5,1
4,9 4,3 4,8
a) Elabore la tabla del analisis de la varianza bifactorial. b) Contraste la hipotesis nula de la igualdad de las medias poblacionales de las evaluaciones correspondientes a los tres libros de texto. c) Contraste la hipotesis nula de la igualdad de las medias poblacionales de las evaluaciones correspondientes a los tres tipos de examenes . 17.35. Hemos introducido para el analisis de la varianza bifactorial el modele poblacional Xi) -
Jl = G i
+ (3j + 8i)
Basandose en los datos del ejercicio 17.33, obtenga las estimaciones muestrales de cada termino del segundo miembro de esta ecuacion correspondientes a la combinacion region este-lata roja. 17.36. Basandose en los datos del ejercicio 17.34, obtenga las estimaciones muestrales de cada termino del segundo miembro de la ecuacion utilizada en el ejercicio anterior correspondientes a la combinacion libro de texto C-examen tipo test. 17.37. Se pide a cuatro agencias inmobiliarias que valoren 10 viviendas situadas en un determinado barrio. En la tabla se muestran los resultados de las valoraciones, expresadas en miles de dolares.
Capitulo 17.
Fuente de variacion Entre agentes Entre vi viendas En'or
Suma de los cuadrados 268 1.152 2.352
a) Complete la tabl a del amllisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales de las valoraciones de estas cuatro agencias son iguales. 17.38. Se evaluan cuatra marcas de fertilizantes. Se utiliza cada marca en seis parcel as de tierra de diferentes tipos. A continuaci6n, se mide el aumento porcentual del rendimiento del mafz en las 24 combinaciones marca-tipo de tierra. La tabla adjunta muestra los resultados obtenidos. Fuente de variacion
Suma de los cuadrados
En tre ferti Iizantes Entre tipos de tierra Enor
135,6 81 ,7 111,3
a) Complete la tabla del am'ilisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales del aumento del rendimiento del mafz son iguales con los cuatro fertilizantes. c) Contraste la hip6tesis nula de que las medias poblacionales del aumento del rendimiento del mafz son iguales en los seis tipos de tien·a.
Analisis de la varianza
709
17.39. Se prayectan con can'teter experimental tres series de televisi6n a audiencias de cuatra regiones del pafs: este, sur, norte y oeste. Basandose en la reacci6n de la audiencia, se obtiene una puntuaci6n de cada program a (en una escala de o a 100). Las sumas de los cuadrados entre los grupos (programas) y entre los bloques (regiones) son
sec
= 95,2
y
SeB
= 69,5
y la suma de los cuadrados de los en'ores es
seE =
79,3
Elabore la tabla del am'ilisis de la varianza y contraste la hip6tesis nula de que las medias poblacionales de las puntuaciones de las reacciones de la audiencia a los tres program as son iguales. 17.40. Suponga que en el analisis de la varianza bifactorial con una observaci6n por celda, hay solamente dos grupos. Demuestre que en este caso el cociente F para contrastar la igualdad de las medias poblacionales de los grupos es exactamente el cuadrado del estadfstico del contraste analizado en el apartado 1l.1 para contrastar la igualdad de las medias poblacionales, dada una muestra de datos pareados. Por 10 tanto, deduzca que los dos contrastes son equivalentes en este caso concreto.
17.5. Analisis de la varianza bifactorial: mas de una observacion por celda En el analisis de la varianza bifactorial del apartado 17.4, hemos visto que los datos se pueden tabular (como los de las Tablas 17.7 y 17.8) en celdas y que cada celda se refiere a una combinacion grupo-bloque. Asi, por ejemplo, los resultados obtenidos cuando un conductor del cuarto grupo de edad conduce un automovil f3 constituyen una unica celda. Una caracteristica del disefio analizado en el apartado 17.4 es que cada celda contiene solamente una observacion muestral. Asi, por ejemplo, un conductor del cuarto grupo de edad prueba un automovil f3 solamente una vez. En este apartado, consideramos la posibilidad de reproducir el experimento de manera que, por ejemplo, los autom6viles f3 sean conducidos por mas de un conductor del cuarto grupo de edad. Los datos resultantes de ese disefio implicarian entonces mas de una observacion por celda. La extension de la muestra de esta forma tiene dos grandes ventajas. En primer lugar, cuando se dispone de mas datos muestrales, las estimaciones resultantes son mas precisas y podemos distinguir mejor las diferencias entre las medias poblacionales. En segundo lugar, un disefio con mas de una observacion por celda permite aislar otra fuente mas de variabilidad: la interaccion entre los grupos y los bloques. Se producen esas inter-
710
Estadfstica para administraci6n y economfa
acciones cuando las diferencias entre los efectos de los grupos no estan distribuidas uniformemente entre los bloques. Por ejemplo, los conductores que consiguen unas cifras de consumo de combustible mejores que la media pueden conseguir mejores cifras cuando conducen un autom6vil ex que cuando conducen un autom6vil f3. Por 10 tanto, estas cifras mejores que la media no estan distribuidas de una manera uniforme entre todos los tipos de autom6viles sino que son mas manifiestas en unos tipos que en otros. Esta posibilidad de interacci6n puede tenerse en cuenta en un analisis bas ado en mas de una observaci6n pOl' celda. Para ilustrar el tipo de datos que pueden analizarse, la Tabla 17.10 contiene los resultados del consumo de combustible de conductores de cinco grupos de edad de tres tipos de autom6viles: autom6viles X, autom6viles Y y autom6viles Z. Las tres observaciones de cada celda se refieren a pruebas independientes realizadas por conductores de un grupo de edad dado con autom6viles de un determinado tipo. Tabla 17.10. Observaciones muestrales sobre el consumo de combustible de tres tipos de autom6viles conducidos por cinco clases de conductores; tres observaciones por celda. Tipo de automovil Clase de conductor 1
2 3 4 5
Automoviles Y
Automoviles X 25,0 24,8 26,1 24,1 24,0
25,4 24,8 26,3 24,4 23,6
25,2 24,5 26,2 24,4 24,1
24,0 23,5 24,6 23,9 24,4
24,4 23,8 24,9 24,0 24,4
23,9 23,8 24,9 23,8 24,1
Automoviles Z 25,9 25,2 25,7 24,0 25,1
25,8 25,0 25,9 23,6 25,2
25,4 25,4 25,5 23 ,5 25,3
Para representar las observaciones muestrales individuales, necesitamos un subfndice triple, por 10 que Xijl representa la l-esima observaci6n de la ij-esima celda, es dec iI', la l-esima observaci6n de la celda correspondiente al i-esimo grupo y el j-esimo bloque. Al igual que antes, K representa el numero de grupos y H el numero de bloques. L representa el numero de observaciones por celda. Por 10 tanto, en el ejemplo de la Tabla 17.10, K = 3, H = 5 y L = 3. Esta notaci6n se muestra en la Tabla 17 .11. Tabla 17.11.
Observaciones muestrales sobre Kgrupos y Hbloques; L observaciones por celda .
Grupo BIoque
1
1 2
x 1I1X JI2 ... X llL
H
2
3
Xl21X122 .. . x 12L
x211xZ12 •.. X 2lL X 221 X 222 ' " X 22L
xKIIXKIZ ... x K1L xK21XK22 •.. x K2L
Xl/-iI X I H2'" X 1HL
X2H1x2H2 •.. x 2HL
xKHlxKH2 . .. x KHL
Basandonos en los resultados de un experimento de este tipo, podemos contrastar tres hip6tesis nulas: ninguna diferencia entre las medias de los grupos, ninguna diferencia entre las medias de los bloques y ninguna interacci6n entre los grupos y los bloques. Para reali-
Capitulo 17.
Analisis de la varianza
711
zar estos contrastes, calculamos de nuevo varias medias muestrales, que se definen y se calculan de la forma siguiente.
1.
Medias de los grupos La media de todas las observaciones muestrales del i-esimo grupo se representa por medio de Xi •• ' por 10 que H
L
LL
XUI
HL
Basandonos en la Tabla 17 .10, tenemos que _ Xj
••
=
_ X 2 ••
_ X3 ••
2.
25,0
+ 25,4 + ... + 23,6 + 24,1 15
24,0
+ 24,4 + ... + 24,4 + 24,1 15
=
=
25,9
= 24,86 =
+ 25,8 + ... + 25,2 + 25,3 15
24,16
= 25,l0
Medias de los bloques La media de todas las observaciones muestrales del j-esimo bloque se representa por medio de x.j., por 10 que K -
x.j.
=
L
i=j I=j
KL
Basandonos en la Tabla 17.10, tenemos que _ X.j.
_ X.2.
_ X.3.
= = =
_
25,0
+ 25,4 + ... + 25,8 + 25,4 9
24,8
+ 24,8 + ... + 25,0 + 25,4 9
26,1
+ 26,3 + ... + 25,9 + 25,5 9
24,1
3.
= 24,53 = 25,57
+ 24,4 + ... + 23,6 + 23,5 9
X.4. =
_ 24,0 X.s. =
= 25,00
=
+ 23,6 + ... + 25,2 + 25,3 9
23,97
= 24,47
Medias de las celdas Para comprobar la posibilidad de que haya interacciones entre los grupos y los blola medi8 ques, es necesario calcular la media muestral de cada celda. Sea muestral de la (ij)-esima celda. En ese caso,
xu.
L
-
xu· =
L
XUI
I=j
- L-
712
Estadfstica para administracion y economfa
Por 10 tanto, basandonos en los datos de la Tabla 17.10, tenemos que Xll'
=
X 12.
=
25,0
+ 25,4 + 25,2 3
24,8
= 25,2
+ 24,8 + 24,5 3
=
24,7
yasimismo,
4.
X21' =
X22.
X31.
X32 .
24,1 = 25 ,7
23,7 = 25,2
=
Xl3.
=
X23.
= 24,8 = 25,7
X33 .
X14. = 24,3 X24• = 23,9 X34. = 23,7
26,2
XIS . X2S. X 3S.
= 23,9 = 24,3 = 25,2
Media global La media de todas las observaciones muestrales se representa por medio de X, por 10 que K -
H
L
L L L
x=
Xijl
i=!j=ll=!
KHL
En el caso de nuestros datos, esta cantidad se calcula mas facilmente hallando la media de las medias muestrales de los tres grupos, 10 que lleva al resultado siguiente: x
=
24,86
+ 24,16 + 25,10 3
=
2471 '
Ahora bien, para comprender mejor el analisis, es util basamos en el modelo poblacional supuesto. Sea Xjil la variable aleatoria correspondiente a la l-esima observaci6n de la ij-esima celda. En ese caso, el modelo supuesto en nuestro analisis es
Los tres primeros terminos del segundo miembro son exactamente los mismos que los del modelo en el que no habfa repeticiones. Representan, al igual que antes, una media global, un factor especffico del grupo y un factor especffico del bloque. El termino siguiente, Iii' representa el efecto de estar en la ji-esima casilla, dado que ya se tienen en cuenta el efecto global, el efecto del grupo y el efecto del bloque. Si no hubiera ninguna interacci6n entre los grupos y los bloques, este terrnino serfa O. Su presencia en el modelo nos permite averiguar si hay interacci6n. Por ultimo, el termino de error, eijl, es una variable aleatoria que representa el error experimental. Replanteamos el modelo en forma de desviaciones con respecto a la media:
Se demuestra que la suma total de los cuadrados puede descomponerse en la suma de cuatro terminos, que representan la variabilidad que se debe a los grupos, a los bloques, a la interacci6n entre los grupos y los bloques y al error. En las ecuaciones 17.20 a 17.25 se muestra la descomposici6n en la que se basan los contrastes sin indicar en detalle c6mo se obtienen.
Capitulo 17. Analisis de la varianza
713
Analisis de la varianza bifactorial: varias observaciones por celda Supongamos que tenemos una muestra de observaciones sobre K grupos y H bloques y L observaciones por celda. Sea xi/ la I-esima observaci6n de la celda del i-esimo grupo y el j-esimo bloque. Sea la media mue~tral global, j •• las medias muestrales de los grupos, j • las medias muestrales de los bloques y Xi' las medias muestrales de las celdas. A continuaci6n , definimos las slguientes sumas de los cuadrados y los grados de libertad correspondientes:
x
x
x.
Grados de libertad
Suma de los cuadrados Total:
STC =
L L L (X}iI ;
)
X)2
KHL- 1
(17.20)
K-I
(17.21)
H- 1
(17.22)
(K - l)(H - 1)
(17.23)
KH(L - 1)
(17.24)
I
K
Entre grupos:
L (x; .. - xi
SCG = HL
;=1
H
Entre bloques:
L (x.). -
SCB = KL
X)2
}=I
K
Interacciones:
SCI = L
H
L L
(xi). - Xi ..
+ X)2
;=1 }=I
Error:
SCE =
L L L (xijl ; .i
Xi}.)2
I
Entonces
STC = SCG
+ SCB + SCI + SCE
(17.25)
Dividiendo las sumas de los cuadrados de los componentes por sus grados de libertad correspondientes , tenemos las medias de los cuadrados MCG, MCB, MCI Y MCE. Los contrastes de las hip6tesis de que no hay efectos de los grupos, de los bloques y de la interacci6n se basan en los respectivos cocientes F:
MCG
MCB
MCE
MCE
MCI MCE
Los contrastes se realizan comparando estas cifras con las distribuciones F con los correspondientes grados de libertad del numerador y el denominador. Su validez se basa en el supuesto de que los e ij/ se comportan como una muestra aleatoria extra fda de una distribuci6n normal.
La Figura 17.7 muestra que la descomposicion de la suma total de los cuadrados de las observaciones muestrales en torno a su media global es la suma de cuatro componentes. Se diferencia de la Figura 17.5 en que, cuando se replica el experimento, ahora podemos aislar la suma de los cuadrados de las interacciones. Los calculos pueden resumirse, al igual que antes, en una tabla del amilisis de la varianza. La Tabla 17.12 muestra la forma general de la tabla cuando hay L observaciones por celda en un anal isis de la varianza de dos factores. De hecho, existen formulas mas sencillas para calcular las distintas sumas de los cuadrados. No obstante, los calculos aritmeticos son bastante tediosos y deben realizarse por computador. No entraremos aquf en mas detalles sino que nos limitaremos a mostrar en la Figura 17.8 los resultados de los calculos basados en nuestros datos. En la practica, los
714
Estadfstica para administracion y economfa
Figura 17 .7. Descomposici6n de la suma de los cuadrados de un anal isis de la varianza bifactorial con mas de una observaci6n por celda.
Suma de los cuadrados
Suma de los cuadrados entre bloques Suma total de .Ios cuadrados ___._.i
, _ _ _ _ _ _ _ _ , _ _ _ _ -..' __
~.
Suma de los cuadrados de las interacciones
! i
I I
Suma de los cuadrados de los errores.. _ . JI _..____ ._... ______
Tabla 17.12. Fuente de variaci6n
Formato general de la tabla del anal isis de la varianza bifactorial con L observaciones por celda.
Suma de los cuadrados
Grados de libertad
Media de los cuadrados
Entre grupos
SCG
K - l
SCG MCG=--
Entre bloques
SCB
H - 1
SCB MCB= - -
Interacci6n
SCI
(K - l)(H - 1)
Error
SCE
KH(L - 1)
Total
STC
KHL - 1
K-l
MCI=
Cociente F MCG MCE MCB
H - J
MCE
SCI
MCI
(K - J)(H - 1)
MCE
MCE=
SCE KH(L - 1)
calculos del amilisis de la varianza normalmente se realizan utilizando un paquete estadfstico como Minitab, por 10 que raras veces la complejidad aritmetica limita los analisis practicos_ Los grados de libertad de la Figura 17.8 se deducen del hecho de que en el caso de estos datos tenemos que K=3 H=5 L=3 Las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados por los grados de libertad conespondientes. Por ultimo, los cocientes F se obtienen dividiendo, a su vez, cada una de las tres primeras medias de los cuadrados por la media de los cuadrados de los enores. Utilizando la Figura 17.8, podemos contrastar las tres hip6tesis nulas de interes. En primer lugar, contrastamos la hip6tesis nula de que no existe ninguna interacci6n entre los conductores y el tipo de autom6vil. Este contraste se basa en el cociente F calculado, 21,35, y el p-valor de 0,000. Dado que l
= 3,17
La hip6tesis nula de que no existe ninguna interacci6n entre el tipo de autom6vil y el conductor se rechaza claramente al nivel de significaci6n del 1 por ciento.
Capftulo 17.
Figura 17 .8. Analisis de la varianza de los datos sobre el consumo de combustible de la Tabla 17.10 (salida Minitab).
Analisis de la varianza
715
Two-way ANOVA: Mileage versus Car, Driver
Car Driver In teraction Error Total S
=
0.1966
DF 2 4 8 30 44
SS 7.156 13.148 6.604 1.160 28.068
R- Sq
=
95.87%
MS 3.57800 3.28700 0.82550 0.03867
F 92.53 85.01 21.35
R-Sq(adj)
P 0.000 0.000 0.000
=
93.94%
I ndividual 95% CIs For Mean Based on Pooled StDev Car 1 2 3
Mean 24.86 24 .16 25 .10
-------+- -- -----~-------~----- - --+(-_. * - -
(-_.*-_ . ) (- _.*-- )
-------+-- --- ---~--- - ---~ - - - -- ---+-
24.30
24.60
25.90
25.20
Indiviua1 95% CIs For Mean Based on Pool ed StDev Driver 1 2 3 4 5
Mean 2 5.00 00 24.5333 25.5667 23.9667 24 .466 7
---t--------~-------~------- -+---- (- - * - - ) (- - *- )
(- * --) (-*--)
(_.* --)
---~-------~----- -- -+--------t-----
24.00
24.50
25.00
25.50
A continuacion, contrastamos la hipotesis nula de que las medias poblacionales del consumo de combustible de los automoviles X, Y y Z son iguales. EI contraste se basa en el cociente F calculado, 92,53. Vemos en la Tabla 9 del apendice que en el caso de un contraste al 1 por ciento con 2 y 30 grados de libertad en el numerador y en el denominador, respectivamente, F2,30.0,01
= 5,39
Por 10 tanto, se rechaza abrumadoramente la hipotesis nula de la igualdad de las medias poblacionales del consumo de combustible de los tipos de automovil al nivel de significacion del 1 por ciento. Por ultimo, contrastamos la hipotesis nula de que las medias poblacionales del consumo de combustible de los cinco grupos de edad de los conductores son iguales. Vemos en la Figura 17.8 que el contraste se basa en el cociente F calculado, 85,01. Por 10 tanto, los grados de libertad del numerador y del denominador son 4 y 30, respectivamente, por 10 que en un contraste al nivel de significacion del 1 por ciento, FOO,O,OI
= 4,02
La hipotesis nula de la igualdad de las medias poblacionales del consumo de combustible de los grupos de edad de los conductores se rechaza claramente al nivel de significacion del 1 por ciento.
716
Estadfstica para administraci6n y economfa
Nuestros datos permilen extraer claramente las tres conclusiones siguientes:
1. 2. 3.
EI consumo medio de combustible de los automoviles X, Y Y Z no es el mismo. El consumo medio de combustible de los conductores de todos los grupos de edad no es el mismo. Las diferencias entre los conductores no estan distribuidas uniformemente entre los tres tipos de automoviles sino que es probable que un conductor de un grupo de edad obtenga unos resultados relativamente mejores en un tipo de automovil que en otro en comparacion con otros conductores.
En este apartado hemos supuesto hasta ahora que todas las celdas ten fan el mismo numero de observaciones. Sin embargo, esta restriccion no es necesaria y a veces puede ser incomoda para el investigador. De hecho, las formulas para calcular las sumas de los cuadrados pueden modificarse para que las celdas no tengan todas elias el mismo numero de observaciones. No nos interesa aquf entrar en los detalles tecnicos del calculo de las sumas de los cuadrados. Generalmente, los investigadores disponen de paquetes estadisticos para realizarlo. Lo que nos interesa es el analisis de los resultados. EJEMPLO
17.4. Nivel de satisfaccion de los trabajadores (analisis de la varianza de dos facto res)
Existe un estudio (vease la referencia bibliografica 1) en el que se comparan los niveles de satisfaccion de los trabajadores introvertidos y extrovertidos que realizan tareas estimulantes y no estimulantes. Para realizar este estudio, se utilizaron dos tipos de trabajadores y dos tipos de tareas, 10 que nos da cuatro combinaciones. Las medias muestrales de los niveles de satisfaccion declarados por los trabajadores de estas cuatro combinaciones fueron: Trabajador Trabajador Trabajador Trabajador
introvertido, tarea no estimulante (16 observaciones): 2,78 extrovertido, tarea no estimulante (15 observaciones): 1,85 introvertido, tarea estimulante (17 observaciones): 3,87 extrovertido, tarea estimulante (19 observaciones): 4,12
La tabla siguiente muestra las sumas de los cuadrados calculadas y los grados de Iibertad correspondientes. Complete la tabla del analisis de la varianza y analice los resultados de este experimento. Fuente de variacion Tarea Tipo de trabajador Interacci6n Error Total
Suma de los cuadrados
Grados de Iibertad
62,04 0,06 1,85 23,31 87,26
1 63 66
Solucion Una vez mas, las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados por sus grados de libertad correspondientes. Los cocientes F se deducen de la division de las medias de los cuadrados de las tareas, de los tipos de trabajadores y de
Capitulo 17.
Analisis de la varianza
717
las interacciones por la media de los cuadrados de los errores. Ahora podemos completar la tabla del anal isis de la varianza.
Fuente de variacion Tarea Tipo de trabajador Interacci6n Error Total
SUIDa de los cuadrados 62,04 0,06 1,85 23,31 87,26
Grados de libertad
63 66
Media de los cuadrados 62,04 0,06 1,85 0,37
Cociente F 167,68 0, 16 5,00
La tabla del analisis de la varianza puede utilizarse para contrastar tres hip6tesis nulas. En el caso de la hip6tesis nula de la igualdad de las medias poblacionales de los niveles de satisfacci6n con los dos tipos de tarea, el cociente F calculado es 167,68. Tenemos 1 grado de libertad en el numerador y 63 en el denominador, por 10 que vemos en el apendice que en un contraste al 1 par ciento F 1, 63.(),oJ = 7,07
Par 10 tanto, se rechaza claramente la hip6tesis nula de la igualdad de las medias poblacionales de los niveles de satisfacci6n con las tareas estimulantes y no estimulantes. Este resultado no es sorprendente. Seria 16gico esperar que los trabajadores estuvieran mas satisfechos realizando tare as estimulantes que realizando tareas no estimulantes. A continuaci6n, contrastamos la hip6tesis nula de que las medias poblacionales de los niveles de satisfacci6n de los trabajadores introvertidos y extrovertidos son iguales. En este easo, el eoeiente F calculado es 0,16. Una vez mas, los grados de libertad son 1 y 63, por 10 que en el easo de un contraste al 5 pOl' ciento, F 1,63, O,05 = 4,00
La hip6tesis nula de la igualdad de los niveles medios de satisfacci6n de los trabajadores introvertidos y extrovertidos no puede rechazarse al nivel de significaci6n del 5 por ciento. En much os estudios, el termino de interacci6n no es en sf mismo muy importante. Se incluye en el analisis prineipalmente para «absorber» parte de la variabilidad de los datos y poder deteetar asf mas faeilmente las difereneias que pueda haber entre las medias poblacionales. Sin embargo, en este estudio la interacci6n es muy interesante. La hip6tesis nul a de que no existe ninguna interaeci6n entre la tarea y el tipo de trabajador en la determinaci6n de los niveles de satisfacci6n de los trabajadores se contrasta par medio del cociente F calculado de 5,00. Una vez mas, los grados de Iibertad del numerador y del denominador son 1 y 63, respectivamente. POI' 10 tanto, la comparaci6n con los valores calculados de la distribuci6n F revela que la hip6tesis nula de que no existe ninguna interacci6n puede rechazarse al nivel del 5 por ciento, pero no al nivel de significaci6n del 1 por ciento.
718
Estadfstica para administraci6n y economfa
EJERCICIOS
Ejercicios basicos 17.41. Considere un experimento en el que los factores de tratamiento son A y B Y el factor A tiene cuatro niveles y el B tiene tres niveles. La tabla del analisis de la varianza adjunta resume los resultados del experimento. Calcule las medias de los cuadrados y contraste las hip6tesis nul as de que no hay ningun efecto de ninguno de los dos tratamientos y ningun efecto de interaccion. Fuente de variacion Grupos de tratamiento A Grupos de tratamiento B Interacci6n Enor Total
Suma de los Grados cuadrados de Iibertad
71 63 50 280 464
3 2 6 60 71
17.42. Considere un experimento en el que los factores de tratamiento son A y B Y el factor A tiene cinco niveles y el B tiene seis niveles. La tabla del analisis de la varianza adjunta resume los resultados del experimento. Fuente de variacion Grupos de u'atamiento A Grupos de tratamiento B Interacci6n Error Total
Suma de los Grados cuadrados de Iibertad
86 75 75 300 536
4 5 20 90 119
CaJcule las medias de los cuadrados y contraste las hipotesis nulas de que no hay ningun efecto de ninguno de los dos tratamientos y ningun efecto de interaccion. 17.43. Considere un experimento en el que los factores de tratamiento son A y B Y el factor A tiene tres niveles y el B tiene siete niveles. La tabla del analisis de la varianza adjunta resume los resultados del experimento. Fuente de variacion Grupos de tratamiento A Grupos de tratamiento B Interacci6n Enor Total
Suma de los Grados cuadrados de Iibertad
37 58 57 273 425
2
6 12 84 104
CaJcule la media de los cuadrados y contraste las hipotesis nulas de que no hay ningun efecto de ninguno de los dos tratamientos y ningun efecto de interaccion.
Ejercicios aplicados 17.44. Suponga que analiza las puntuaciones dadas por los jueces en los saltos de esquf de las olimpiadas de invierno. Suponga que hay 22 participantes y nueve jueces. Cada juez puntua a cada participante en siete pruebas. Las puntuaciones pueden analizarse, pues, en el marco de un ana!isis de la varianza de dos factores con 198 celdas participante-juez, siete observaciones por celda. La tabla adjunta muestra las sumas de los cuadrados. Fuente de variacion
Suma de los cuadrados
364,50 0,81 4,94 1.069,94
Entre paIticipantes Entre jueces Interacci6n E tTOr
a) Complete la tabla del analisis de la varianza. b) Realice los contrastes F correspondientes e interprete sus resultados. 17.45. Vuelva al ejercicio 17.44. En la competicion de patinaje artfstico participan doce parejas. Una vez mas, hay nueve jueces y se puntua a los participantes en siete pruebas. Las sumas de los cuadrados entre los grupos (parejas de participantes) y entre los bloques Uueces) son SCC
y
= 60,10
SCB
=
1,65
mientras que la suma de los cuadrados de las interacciones y de los errores son SCI
=
3,35
y
SCE =31,61
Analice estos resultados e interprete verbalmente las conclusiones. 17.46. Un psicologo esta trabajando can tres tipos de tests de aptitud que pueden hacerse a las personas que solicitan empleo. Una cuestion importante para estructurar los tests es la posibilidad de que exista interaccio n entre los que solicitan empleo y el tipo de test. Si no hubiera ninguna interaccion, solo serfa necesario un tipo de test. Se realizan tres tests de cada tipo (A, B Y C) a los miembros de cada uno de los cuatro grupos de so licitantes de empleo. Estos se distinguen
Capitulo 17.
por las valoraciones de malo, regular, bueno y excelente en las entrevistas preliminares. Las puntuaciones obtenidas se muestran en la tabla adjunta. Tipo de test Tipo de sujeto
65 74 64 83
Mal o Regular Bueno Excelente
A
B
68 62 69 79 76 72 72 65 68 82 84 78
7 1 67 75 75 69 69 70 69 73 75 78 82 78 75 76 77
C
78 65 80 75
a) Elabore la tabla del amilisis de la varianza. b) Contraste Ia hip6tesis nula de que no existe
ninguna interacci6n entre el tipo de sujeto y el tipo de test. 17.47. Se pide a muestras aleatorias de dos estudiantes universitarios de primer ano, dos de segundo ano, dos de tercer ano y dos de cuarto ano de cuatro residencias universitarias que valoren en una escala de 1 (mala) a 10 (excelente) la calidad del ambiente de la residencia para estudiar. La tabla muestra los resultados. Residencia Ano Primer ano Segllndo ana Tercer ano Cumo ana
A
7 6 5 7
B
5 8 4 4
8 5 7 6
D
C
6 5 6 8
9 7 6 7
8 8 7 5
9 8 7 6
9 9 8 7
a) Elabore la tabla del amilisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales de las valoraciones de las cuatro residencias son iguales. c) Contraste la hip6tesis nula de que las medias poblacionales de las valoraciones de los cuaITO tipos de estudiantes son iguales. d) Contraste la hip6tesis nula de que no existe ninguna interacci6n entre el ano de estudios y la valoraci6n de la residencia. 17.48. En algunos experimentos con varias observaciones por celda, el analista est<'i dispuesto a suponer que no existe ninguna interacci6n entre los grupos y los bloques. Las interacciones que pueda haber se atribuyen a un error aleatorio. Cuando se postula ese supuesto, el amilisis se realiza como siempre, con la salvedad de que se suma 10 que antes eran las sumas de los cuadrados de las interacciones y de los errores para formar una nueva suma de los cuadrados de los errores. Tambien se suman los grados de liber-
Analisis de la varianza
719
tad correspondientes. Si el supuesto de ]a ausencia de interacciones es cOlTecto, este enfoque tiene la ventaja de que aumentan los grados de libertad de los errores y, por 10 tanto, los contrastes de la igualdad de las medias de los grupos y de los bloques son mas poderosos. Para estudiar el ejercicio 17.47 supongamos que ahora postulamos el supuesto de que no hay interacciones entre la valoraci6n de la residencia y el ano de estudios del alumno. a) Explique verbal mente las implicaciones de
este supuesto. b) Dado este supuesto, elabore la nueva tabla del anaIisis de la varianza. c) Contraste la hip6tesis nula de que las medias poblacionales de las valoraciones de las cuatro residencias son iguales. d) Contraste la hip6tesis nula de que las medias poblacionales de las valoraciones de los cuatro tipos de estudiantes son iguales. 17.49. Vuelva al ejercicio 17.31. Una vez realizado el experimento para comparar el rendimiento medio por acre de cuatro variedades de maiz y tres marcas de fertilizante, un investigador agrario sugiri6 que podia existir alguna interacci6n entre la variedad y el fertilizante . Para comprobar esta posibilidad, se realiz6 otra serie de pruebas, que dieron los rendimientos que se muestran en la tabla. Variedad Fertilizante
A
B
c
D
1
80 94 81
88 91 78
73 79 83
88 93 83
2 3
a) i,Que implicaria una interacci6n entre la variedad y el fertilizante? b) Combine los datos de los dos conj untos de pruebas y elabore una tabla del analisis de la varianza. c) Contraste la hipotesi s nul a de que las medias poblacionales del rendimiento de las cuatro variedades de maiz son iguales . d) Contraste la hip6tesis nula de que las medias poblacionales del rendimiento de las tres marcas de fertilizante son iguales . e) Contraste la hip6tesis nula de que no existc ninguna interacci6n entre la variedad de maiz y la malTa del fertilizante. 17.50. Vuelva al ejercicio 17.33. Suponga que se anade al estudio una segunda tienda para cada
720
Estadfstica para administraci6n y economfa
combinaci6n de regi6n y color de las latas y se obtienen los resultados que muestra la tabla adjunta. Combinando estos resultados con los del ejercicio 17.33, realice los calculos del analisis de 1a varianza y analice sus resultados.
17.51. Una vez realizado el estudio del ejercicio 17.34, el profesor decidi6 repetirlo un ano mas tarde. La tabla muestra los resultados obtenidos. Combinando estos resultados con los del ejercicio 17.34, realice los calculos del aniilisis de la varianza y analice sus resultados.
Color de la lata Region Este
Sur Norte Oeste
Rojo
Amarillo
Azul
45 49 43 38
50 51 60 49
54 58 50 44
Libro de texto Examen Tipo test Redacci6n Mezcla
A
B
C
4,7 4,4 4,5
5,1 4,6 5,3
4,8 4,0 4,9
RESUMEN En este capitulo hemos presentado los componentes basicos del metodo del analisis de la varianza. EI analisis de la varianza permite averiguar si uno 0 mas factores cuya dimension es discreta influyen en la medicion de los resultados. Estos procedimientos son fundamentales para el diseno experimental y son utilizados frecuentemente por la industria para saber cuales son las mejores practicas para maximizar la productividad y reducir 10 mas posible los defectos. El analisis de la varianza de un factor es un metodo para comparar simultaneamente las medias de tres procesos 0 mas. Tambien hemos incluido el contraste de Kruskal- Wallis por ser un util metodo no parametrico para comparar tres 0 mas
grupos utilizando datos ordenados. El analisis de la varianza bifactorial considera el efecto que producen dos facto res que pueden adoptar varios valores en la medici6n de los resultados. Podemos considerar el efecto de cada factor por separado y, utilizando celdas con multiples observaciones, tambien podemos examinar la interaccion entre combinaciones especfficas de niveles de los factores. Los metodos del analisis de la varianza son un complemento del analisis de regresion multiple. Tambien pueden lograrse los mismos objetivos utilizando los procedimientos de las variables ficticias, analizados en el Capitulo 14.
TERMINOS CLAVE analisis de la varianza de un factor, 684 analisis de la varianza bifactorial: una observacion por celda, 698 analisis de la varianza bifactorial: varias observaciones por celda, 713 contraste de hipotesis del analisis de la varianza de un factor, 688
contraste de Kruskal-Wallis, 695 contrastes de hip6tesi s del analisis de la varianza bifactorial, 705 media de los cuadrados, 705 descomposicion de la suma de los cuadrados en el anal isis de La varianza de un factor, 687
descomposicion de la suma de los cuadrados en el aniilisis de la varianza bifactorial, 703 disefio de bloques aleatorizados, 699 interacci6n, 709 tabla deL analisis de la varianza bifactoriaL, 706
EJERCICIOS V APLICACIONES DEL CAPiTULO 17.52. Disti nga detenidamente entre el analisis de la varianza de un factor y el bifactorial. Ponga ejemplos distintos a los que se analizan en el libro y formule problemas empresariales para los que podria ser adecuado cada uno.
17.53. Explique detenidamente que se entiende por efecto de interaccion en el analisis de la varianza bifactorial con mas de una observacion por celda. Ponga un ejemplo de este efecto en problemas relacionados con el mundo de la empresa.
Capftulo 17.
17.54. Considere un estudio que pretende evaluar la facilidad de lectura de los mensajes de los informes financieros. La eficacia del mensaje escrito se evahia utilizando un procedimiento tradicional. Se entregan informes financieros a muestras aleatorias independientes de tres grupos: auditores, analistas financiero s y responsables de la concesi6n de prestamos de bancos comerciales en periodo de formaci6n y se anotan las puntuaciones de los miembros de las muestras. La hipotesis nula que se pretende contrastar es que las medias poblacionales de las puntuaciones de los tres grupos son identicas. Contraste esta hipotesis, dada la informacion de la tabla adjunla. Fuente de variacion Entre grupos Denn'o de grupos Total
Suma de los cuadrados
Grados de Iibertad
5.165 120.802 125.967
2 1.005 1.007
17.55. En un experimento realizado para evaluar las ayudas que reciben los profesores universitarios en sus entrevistas con los alumnos graduados a los que supervisan, se asignaron aleatoriamente entrevistadores a uno de los tres tipos de entrevistas: con informacion sobre entrevistas anteriores, planteando objetivos para la entrevista y grupo de control. En el caso del primer tipo de entre vista, los entrevistadores podian examinar y discutir las reacciones de los estudiantes a entrevistas anteriores. En el caso del segundo tipo, se les animaba a fijar objetivos para la siguiente entrevista. En el caso del grupo de control, las entrevistas se realizaron como siempre sin conocer las entrevistas anteriores y sin fijar objetivos. Una vez terminadas las entrevistas, se valoraron los niveles de satisfacci6n de los estudiantes con las entrevistas. El nivel medio de satisfacci6n de las 45 personas del grupo que realizo el primer tipo de entrevista era de 13,98. El de las 49 personas del grupo que realizo el segundo tipo de entrevista era de 17,12, mientras que el de los 41 miembros del grupo de control era de 13,07. EI cociente F calculado a partir de los datos era 4,12.
a) Elabore la tabla completa del analisis de la varianza. b) Contraste la hip6tesis nula de que las medias poblacionales de los niveles de satisfacci6 n de los tres tipos de entrevistas son iguales.
Analisis de la varianza
7 21
17.56. En un estudio se cJas ific6 a 134 abogados en cuatro grupos basandose en la observaci6n y en una entrevista. Se considero que los 62 abogados del grupo A ten fan un elevado niveJ de estfmuJo y de apoyo y un nivel medio de espfritu clvico. Los 52 abogados del grupo B ten fan un bajo nivel de estfmulo, un ni vel medio de apoyo y un elevado niveJ de espfritu cfvico. EI grupo C contenfa 7 abogados que ten fan un nivel medio de estfmulo, un bajo niveJ de apoyo y un bajo nivel de espfritu clvico. Los 13 abogados del grupo D ten fan un bajo nivel en los tres aspectos. Se compararon los sueldos de estos cuatro grupos. Las medias muestrales eran 7,87 en el caso del grupo A, 7,47 en el del grupo B, 5,14 en el del grupo C y 3,69 en el del grupo D. El cociente F calculado a partir de estos datos era 25,60.
a) Elabore la tabla completa del analisis de la varianza. b) Contraste la hipotesis nula de que las medias poblacionales de los sueldos de los abogados de estos cuatro grupos eran iguales. 17.57. En un estudio para estimar la influencia del consumo de tabaco en la salud, se clasificaron los empleados en empleados fumadores, empleados que han dejado de fumar recientemente, empleados que dejaron de fumar hace tiempo y empleados que nunca han fumado. Se tomaron muestras de 96, 34, 86 y 206 miembros de estos grupos. Se observ6 que el numero mensual medio de visitas al medico era de 2,15,2,21, 1,47 Y 1,69, respectivamente. EI cociente F calculado a partir de estos datos era 2,56. a) Elabore la tabla completa del anal isis de la varianza. b) Contraste la hip6tesis nula de la iguaJdad de las medias poblacionales de las tasas de riesgo para la salud de los cuatro grupos . 17.58. En un pafs existen restricciones sobre los anuncios de bebidas alcoholicas. Sin embargo, durante un tiempo, se suprimieron estas restricciones. Se recogieron datos sobre las ventas totales de vino en tres periodos: durante el periodo de restricciones de la publicidad, durante el periodo en el que se eliminaron las restricciones y durante el periodo en que volvieron a establecerse. La tabla adjunta muestra las sumas de los cuadrados y los grados de libertad. Suponiendo que se satisfacen los requisitos habituales del analisis de la varianza -en concreto, que las observaciones muestrales son independientes
722
Estadfstica para administracion y economfa
entre sl-, contraste la hipotesis nula de la igualdad de las medias poblacionales de las ventas de estos tres periodos de tiempo.
b) Demuestre que la suma de los cuadrados entre los grupos puede expresarse de la forma siguiente: K
Fuente de variacion
Suma de los cuadrados
Grados de Iibertad
Entre grupos Dentro de grupos Total
11.438,3028 109.200,0000 120.638,3028
2 15 17
I
SCG=
-2
niX; -
c) Demuestre que la suma total de los cuadra-
dos puede expresarse de la forma siguiente: K
17.59. Se toman muestras aleatorias de los precios de venta de las viviendas de cuatro distritos. La tabla adjunta muestra los precios de venta (en miles de dolares). Contraste la hipotesis nula de que las medias poblacionales de los precios de venta de los cuatro distritos son iguales. Distrito A
Distrito B
Distrito C
Distrito D
73 63 89 75 70
85 59 84 70 80
97 86 76 78 76
61 67 84 67 69
17.60. Basandose en los datos del ejercicio 17.59, utilice el contraste de Kruskal-Wallis para contrastar la hipotesis nula de que las medias poblacionales de los precios de vent a de las viviendas de los cuatro distritos son iguales. 17.61. Un estudio pretendla valorar los niveles de satisfacci6n con los horarios laborales en una escala de 1 (muy insatisfecho) a 7 (muy satisfecho) de los profesores interinos, asociados y ayudantes. EI nivel medio de satisfacci6n de una muestra de 25 interinos era de 6,60; el de una muestra de 24 asociados era de 5,37; el de una muestra de 20 ayudantes era de 5,20. EI cociente F calculado a partir de estos datos era 6,62. a) Elabore la tabla completa del analisis de la
varianza. b) Contraste la hipotesis nula de la igualdad de
las medias poblacionales de los niveles de satisfacci6n de los tres grupos. 17.62. Considere el analisis de la varianza de un factor. a) Demuestre que la suma de los cuadrados dentro de los grupos puede expresarse de la forma siguiente: K
SCD
=
K
Iii
I I i= 1 j = 1
2 Xji -
'\'
-2
1... niX; i= 1
-2
nx
i= )
STC =
11 ,.
I I
i= 1j = 1
xt - nx
2
17.63. Considere el analisis de la varianza de dos factores con una observaci6n por celda. a) Demuestre que la suma de los cuadrados en-
tre los grupos puede expresarse de la forma siguiente: K
SCG
I
H
=
-2
Xi. -
-2
nx
i= !
b) Demuestre que la suma de los cuadrados en-
tre los bloques puede expresarse de la forma siguiente: H
SCE = K
I
j = 1
c) Demuestre que la suma total de los cuadra-
dos puede expresarse de la forma siguiente: K
STC =
H
I I
x~ -
nx
2
i= 1 j = 1
d) Demuestre que la suma de los cuadrados de
los errores puede expresarse de la forma siguiente: K
SCE=
H
I I
x~ - H
i = ! j=!
K
H
i= 1
j = !
I x;. -K I
x~j - nx2
17.64. Se ha obtenido de una muestra aleatoria de 125 consumidores informacion sobre su satisfaccion con tres grupos de precios de la cerveza: alto, medio y bajo. La tabla adjunta muestra las sumas de los cuadrados de estas medidas de la satisfaccion. Complete la tabla del analisis de la varianza y contraste la hip6tesis nula de que los niveles medios de satisfaccion con los tres grupos de precios son iguales. Fuente de variacion Entre los consumidores Entre las marcas Error
Suma de los cuadrados 37.571 ,5 32.987,3 55.710,7
Capitulo 17.
17.65. Se pide a tres agencias inmobili arias que valoren cinco viviendas de un barrio. La tabla muestra los resultados en miles de dolares. Elabore una tabla del am'llisis de la varianza y contraste la hipotesis nula de que las valoraciones medias de las tres agencias son iguales. Agencia Vivienda
A
B
C
1 2 3 4 5
210 192 183 227 242
218 190 187 223 240
226 198 185 237 237
17.66. Los estudiantes se clasifican en funcion de tres grupos de renta de sus padres y de tres notas posibles en el exam en de acceso a la universidad. Se elige aleatoriamente un estudiante de cada una de las nueve combinaciones posibles y se anota la calificacion media al final del primer ano. La tabla adjunta muestra los resultados.
a) b) c) d)
Analisis de la varianza
723
Estime fl . Estime e interprete G 2 . Estime e interprete B I' Estime e2 1'
17.68. Vuelva al ejercicio 17.66 y considere la observacion sobre el grupo de renta moderada y una nota alta en el examen de acceso a la universidad (X22 = 3,5). a) b) c) d)
Estime {L. Estime e interprete G 2 . Estime e interprete B I • Estime e2 1'
17.69. Considere el analisi s de la varianza bifactorial con L observaciones por celda. a) Demuestre que la suma de los cuadrados entre los grupos puede expresarse de la forma siguiente: K
SCG = HL
I xl .. -
HKLX2
i= 1
b) Demuestre que la suma de los cuadrados entre los bloques puede expresarse de la forma siguiente: H
Grupo de renta
SCB = KL
I
X~j. - HKLX2
j= 1
Nota de acceso a la universidad
Alta
Moderada
Baja
Muyalta Alta Moderada
3,7 3,4 2,9
3,6 3,5 2,8
3,6 3,2 3,0
c) Demuestre que la suma de los cuadrados de los en'ores puede expresarse de la fo rma siguiente: K
SCE =
H
L
K
i~lj = II = 1
a) Elabore la tabla del amilisis de la varianza. b) Contraste la hipotesis nula de que las medias poblacionales de las calificaciones medias del primer ano de los estudiantes de los tres grupos de renta son iguales. c) Contraste la hipotesis nula de que las medias poblacionales de las calificaciones medias del primer ano de los estudiantes de los tres grupos de notas de acceso a la universidad son iguales. 17.67. En el modelo del am'llisis de la varianza bifactorial con una observacion por celda, expresamos la observacion del i-esimo grupo y del j-esimo bloque de la forma siguiente: Xij = fl
+ Gi + Bj + eU
Vuelva al ejercicio 17.65 y considere la observacion sobre la agencia B y la vivienda 1 (x21 = 218).
H
I I I Xtl - L I I xt· i = l j= 1
d) Demuestre que la suma total de los cuadrados puede expresarse de la forma siguiente: K
STC =
H
L
I I I Xtl - HKLX 2 i = I j= I 1= 1
e) Demuestre que la suma de los cuadrados de las interacciones puede expresarse de la forma siguiente: K
SCI=L
"L,
H
K
"L, xij.-HL -2 "L, xi -2 ..
i= I j = I
i= I
H
- KL
"L, x.j. -2
- HKLx- 2
j = I
17.70. Vnos agentes de compra reciben informacion sobre un sistema de telefonia movil y se les pi de que valoren su calidad. La informacion que reciben es identic a, salvo por dos factores: el precio y el pais de origen. En el caso del precio, hay tres posibilidades: 150 $, 80 $ y ningun precio. En el caso del pais de origen, tam-
724
Estadfstica para administracion y economfa
bien hay tres posibilidades: Estados Unidos, Taiwan y ning(m pals. Aquf se muestra parte de la tabla del analisis de la varianza de las valoraciones de la calidad realizadas por los agentes de compra. Complete la tabla del analisis de la varianza y realice un analisis completo de estos datos. Fuente de variacion Entre los precios Entre los paises Interacci6n Error
Suma de los cuadrados
Grados de Iibertad
0,178 4,365 1,262 93,330
2 2 4 99
17.71. En el estudio del ejercicio 17.70, tambien se da informacion a estudiantes de un master de administracion de empresas. Aqui se muestra parte de la tabla del anal isis de la varianza de las valoraciones de la calidad realizadas por los estudiantes. Complete la tabla del analisis de la varianza y realice un analisis completo de estos datos. Fuente de variacion Entre los precios Entre los pafses Interacci6n Error
Suma de los cuadrados
Grados de Iibertad
0,042 17,319 2,235 70,414
2 2 4 45
17.72. Una vez realizado el estudio del ejercicio 17.66, el investigador decide tomar una segunda muestra aleatoria independiente de un estudiante de cada una de las nueve categorfas renta-nota del examen de acceso a la universidad. La tabla adjunta muestra las calificaciones medias obtenidas.
a) Elabore la tabla del analisis de la varianza. b) Contraste la hipotesis nula de que las medias poblacionales de las calificaciones medias del primer ano de los estudiantes de los tres grupos de renta son iguales. c) Contraste la hipotesis nula de que las medias poblacionales de las calificaciones medias del primer ano de los estudiantes de los tres grupos de notas del examen de acceso a la universidad son iguales. d) Contraste la hipotesis nula de que no existe ninguna interaccion entre el grupo de renta y la nota del examen de acceso a la universidad. 17.73. Se realiza un experimento para contrastar los efectos que producen en los rendimientos cinco variedades de maiz y cinco tipos de fertilizante. Se utilizan para cada combinacion variedadfertilizante seis graficos y se anotan los rendimientos. La tabla muestra los resultados. Variedad de maiz Tipo de fertilizante
2 3
4
5
A
75 79 85 80 76 70 85 80 87 80 82 85 75 86 79
B
74 67 83 73 65 78 79 80 72 71 69 73 75 62 74 77 63 87 76 73 79 77 70 80 83 80 79 74 77 77 69 78 80 74 76 79 75 80 82 84 80 83 72 77 77
D
C
93 87 86 84 90 83 88 89 89 86 90 83 92 89 86
90 82 88 88 79 80 94 86 93 87 85 88 88 94 90
E
79 83 72 77 87 88 79 83 86 90 78 86 77 82 70 75 84 87 80 80 82 83 74 81 81 86 77 83 90 90 87 79 87 88 86 88 80 77 79 85 90 84 88 80 80 88 87 82 82 78 80 87 85 86 90 83 82 89 86 83
a) Contraste la hipotesis nula de que los rendi-
Grupo de renta Nota de acceso a la universidad
Alta
Moderada
Baja
Muyalta Alta Moderada
3,9 3,2 2,7
3,7 3,6 3,0
3,8 3,4 2,8
mientos medios de las cinco variedades de maiz son iguales. b) Contraste la hipotesis nula de que los rendimientos medios de las cinco marcas de ferti li zante son iguales. c) Contraste la hipotesis nula de que no existe ninguna interaccion entre la variedad y el fertilizante.
Capitulo 17.
AnaJisis de la varian za
725
Ap endie e 1. Suma total de los cuadrados K
STC =
Hi
I I
(Xij -
.xl
i = I j= I
K
=
Hi
I I
(Xij - Xi
+ Xi - xf
i= I j = I
K
=
K
Hi
I I
(Xu - xi +
i = lj = l
K
=
K
(Xi - X)2 + 2 I
i=lj=1
~
i=1
Iti
(Xi - X)
I
(Xij - .X)
j = l
K
I I
(Xij - xl
i= l j = 1
STC = SCD
17j
I I
+
I
n;(Xi - x)2
i=l
+ SCG Ilj
Nota:
'" ~ (x IJ - x)=o I j=l
2. Media de los cuadrados dentro de los grupos (MeD) Para cada subgrupo i
lI
( n,. - 1) (j 2
(X,v - Xl ]
J= l
- - - = E '- -ni ni ni
I
(X ij - xl
c? = ,J_'=_l_ __ ni
-
1
-
726
Estadfstica para administraci6n y economfa
Sumando los val ores de los K subgrupos
SCD
n-K
3. Media de los cuadrados entre los grupos (MeG) i
/1i = /1
=
1, "" K
Entonces
(J2
if [
(Xi) -
X)2l
= E _'=_I--,,-J_=_I_ __ n - 1
K
(n -
"L., n i (Xi
~2
K)(J
-
X-)2
;=1
---+---n-1
n-1
K
"L.,
(K - 1)0:2
ni(x- i
-
~2 X)
;= 1
n - 1
n - 1 K
L (;2
=
ni(Xi - X)2
=--=--1_ __
,---i
K-1 ~2
(J
SCG =MCG= - -
K- 1
4. Cociente entre las medias de los cuadrados Si
Ho: /11 = /12 = .. , = /1K
Capftulo 17.
es verdadera, entonces MCG -con K - 1 grados de 1ibertad- es un estimador de 2 XK - I
(i
y
(K - l)MCG
=
(J
2
Ademas, MCD con n - K grados de libertad es un estimador de 2 XI1 - K
727
Analisis de la varianza
=
(J2
y, por 10 tanto,
(n - K)MCD (J
2
Por 10 tanto, 2 XK - J
F
K- 1 MCG -----X;' - K - MCD
K - J. n - K -
n-K
Bibliograffa 1.
2.
Kim, 1. S., «Relationships of Personality of Perceptual and Behavioral Responses in Stimulating and Nonstimulating Tasks», Academy of Management Journal, 23, 1980, pags. 307-319. Shuptrine, F. K. y D. D. McVicker, «Readability Levels of Magazine Advertisements», Journal of Advertising Research, 21, n.o 5, 1981, pags. 45-50.
Introduccion a la calidad / /' Esquema del capitulo 18.1.
La importancia de la calidad Los lideres de la calidad Variaci6n 18.2. Graficos de control de medias y desviaciones tipicas Una estimaci6n de la desviaci6n tipica del proceso Graficos de control de medias Graficos de control de desviaciones tipicas Interpretaci6n de los graficos de control 18.3. Capacidad de un proceso 18.4. Grafico de control de proporciones 18.5. Graficos de control del numero de ocurrencias
Introducci6n En este capitulo introducimos metodos estadisticos que son bastante sencillos y que distan de ser nuevos. Estos metodos, lIamados tradicionalmente control estadfstico de procesos 0 control estadfstico de la calidad, actualmente se incluyen, junto con otras tecnicas de mejora de los procesos, en el estudio del control de la gesti6n y la calidad. Antes las empresas manufactureras aplicaban muchos metodos de mejora de los procesos para controlar los procesos de producci6n. Pronto se comprendieron los beneficios, y los centros educativos, los servicios sanitarios, los organismos publicos, el poder judicial, el sector del entretenimiento, el turismo, los transportes y otras much as entidades de servicios, con fines de lucro y sin fines de lucro, adoptaron los principios de la calidad. Las empresas de transporte y las compafiias aereas controlan la lIegada puntual de los paquetes y de los aviones; los restaurantes controlan la calidad de los alimentos, el tiempo de preparaci6n y el servicio; los hoteles y los hospitales se preocupan por la satisfacci6n de los clientes. Las empresas y las organizaciones tienen clientes y los clientes demandan bienes y servicios de calidad. La cali dad es esencial en todas las areas y se aplica a todos los segmentos de la sociedad. Dado que es fundamental en la comunidad en general, la continua mejora de los procesos de producci6n, de los productos y de los servicios tiene una importancia primordial.
730
Estadistica para administracion y economia
18.1. La importancia de la calidad l,Que tienen en comun las siguientes empresas?: Nokia Mobile Phones, Europa y Africa (Finlandia); Inland Revenue, Account Office Cumbernauld (Reino Unido, Escocia); Burton-Apta Refractory Manufacturing Ltd. (Hungrfa); STMicroelectronics, Inc. (Carrollton, Texas); BI (Minneapolis, Minnesota); The Ritz-Carlton Hotel Company, L.L.c. (Atlanta, Georgia); Sunny Fresh Foods (Monticello, Minnesota); Motorola, Inc. (Schaumburg, Illinois); Texas Nameplate Company, Inc. (Dallas, Texas); Solectron Corporation (Milpitas, California); Xerox Business Services (Rochester, Nueva York); Wainwright Industries, Inc. (St. Peteres, Misuri); y Operations Management International, Inc. (que tiene oficinas en 29 estados de Estados Unidos, Brasil, Canada, Egipto, Israel, Malasia, Nueva Zelanda, Filipinas y Tailandia)? Algunas son empresas manufactureras; otras son organizaciones de servicios. Algunas son grandes; otras son pequenas. Algunas son estadounidenses; otras son europeas. Pero el denominador comun de todas ellas (y esta es una lista parcial) es que han recibido un prestigioso premio por su excelencia en la gesti6n y la continua mejora de la calidad. Por ejemplo, en el foro de la European Foundation for Quality Management (EFQM) celebrado en septiembre de 2000 en Estambul, Nokia Mobile Phones, Inland Revenue y Burton-Apta Refractory se sumaron a la lista de las organizaciones europeas mas destacadas tanto del sector publico como del sector privado que han recibido el Premio Europeo a la Cali dad. La European Foundation ha concedido este premio por la gesti6n de la cali dad desde 1992 (para mas informaci6n, vease su pagina web en www.efqm.org). Las otras empresas mencionadas no son mas que algunas de las que han recibido el Malcolm Baldrige National Quality Award, que es el principal premio estadounidense ala excelencia y la calidad, que se otorga desde 1988. Existen otros muchos premios a la calidad en los pafses y en las empresas. La calidad y la mejora continua tienen una importancia internacional.
Los lideres de la calidad Consideremos la industria manufacturera. Es evidente que el objetivo no es simplemente inspeccionar un producto acabado. Para entonces poco puede hacerse salvo descartarlo 0 rehacer los artfculos defectuosos, 10 que supone un despilfarro considerable. Es esencial, por el contrario, controlar el proceso de producci6n en cada una de las fases en las que se produce un producto intermedio que debe satisfacer un as normas verificables. El objetivo es garantizar la cali dad en cada fase del proceso de producci6n, para no perder tiempo y dinero en la producci6n de productos que no satisfacen las normas de calidad. En la mejora continua de los procesos, pues, se considera que cada fase de producci6n genera un producto cuya cali dad debe evaluarse. En la industria manufacturera de Estados Unidos, los metodos estadfsticos de control de la calidad no se extendieron hasta la dec ada de 1980, una decada que fue testigo de una explosi6n del interes por estas tecnicas. Sin embargo, como hemos indicado, los metodos estadfsticos de control de la calidad no son, desde luego, nuevos. Tampoco son diffciles de entender 0 de aplicar. De hecho, los metodos basicos -los que se utilizan mas a menudo hoy- no son mas que aplicaciones bastante rutinarias de las tecnicas estadfsticas analizadas en capftulos anteriores de este libro. Aunque los metodos estadfsticos de control de la calidad se menospreciaron en Estados Unidos durante muchos anos, su desanollo inicial se debi6 a un estadounidense, Walter A. Shewhart, quien en la dec ada de 1920 defendi6 los metodos que subyacen a la metodologfa que hoy ha logrado una aceptaci6n general.
Capftulo 18.
Introducci6n a la calidad
731
De hecho, la aplicacion general de las ideas de Shewhart en la industria manufacturera privada se logro primero en Japon tras la Segunda Guerra Mundial. El control de la calidad esta en la rafz de la ascension de Japon hasta convertirse en un lfder economico mundial. Su aplicacion se debio mucho a la influencia de otro estadfstico estadounidense, W. Edwards Deming, antiguo col ega de Shewhart. Dos de los conceptos mas importantes de Deming (veanse las referencias bibliograficas 2, 3 y 11) son: 1.
2.
La calidad es el resultado de un minucioso estudio de todo el proceso de produccion y de la intervencion directa de la direccion para corregir todos los pequefios problemas que contribuyen a los defectos. Es necesario recoger datos periodicamente y analizarlos mediante metodos estadfsticos adecuados para garantizar que el proceso funciona de una manera estable con una varianza mfnima. Siempre que se identifican desviaciones de la norma, es necesario corregirlas inmediatamente.
Aparte de los estudios de W. Edward Deming, tambien contribuyeron al pensamiento moderno sobre la cali dad los esfuerzos de Joseph Juran (veanse las referencias bibliograficas 7 y 8), Philip Crosby, Armand V. Feigenbaum, Kaoru Ishikawa y otros muchos. A pesar de las diferencias entre Deming, Juran y Crosby, todos coincidfan en que el compromiso de los altos directivos es absolutamente necesario; en que la responsabilidad de la calidad cOlTesponde a la direccion, no a los trabajadores; y en que la mejora es interminable (v ease la referencia bibliografica 5). Sus actividades introdujeron un importante cambio en la filosoffa del control de la calidad. Tradicionalmente, se ponfa el enfasis en la inspeccion de los productos finales , bien de todas las unidades, bien de una muestra aleatoria. Mediante esta inspeccion, se identificaban las unidades defectuosas, se eliminaban 0 se reparaban 0 se achatarraban. Segun Deming, contrario a este enfoque, «la inspeccion con el objetivo de encontrar las unidades malas y eliminarlas es demasiado tardfa, ineficaz y cara. En primer lugar, no se pueden encontrar las unidades malas, no todas ellas. En segundo lugar, cuesta demasiado. La calidad no se consigue inspeccionando sino mejorando el proceso» (vease la referencia bibliografica 11). Si solo se recurre a la inspeccion final, los trabajadores de las fases anteriores del proceso de produccion pueden tener la tentacion de tener menos in teres en la calidad del producto. Deming insistio en que la calidad era responsabilidad de todos los miembros de la organizacion y en que la direccion ten fa que organizar el proceso para garantizar que los niveles de calidad son siempre altos. El viejo metoda de la detecci6n de los errores deb fa ser sustituido por el criterio de la prevenci6n de los errores (veanse las referencias bibliograficas 2 y 11). Posteriormente, se presto mucha atencion a la mejora de la cali dad en la industria manufacturera japonesa y se desarrollaron y aplicaron algunos refinamientos y modificaciones de los metodos originales. Por ejemplo, Genichi Taguchi, ingeniero japones, describio el coste de la variacion en terminos monetarios en 10 que a menudo se conoce con el nombre de funcion de perdida de Taguchi (veanse las referencias bibliograficas 4, 8 y 10). Su vision de la calidad, basada en implicaciones economicas del incumplimiento de las especificaciones fijadas como objetivo, se referfa aI disefio del producto. La premisa de Taguchi es «disefiar el producto para lograr una elevada calidad a pesar de la variacion que se produzca en la linea de producci6n» (vease la referencia bibliografica 5). A finales de la decada de 1970, la industria estadounidense estaba enfrentandose, como nunc a hasta entonces, a una feroz competencia extranjera dentro de sus mercados. Las importaciones de bienes manufacturados crecieron espectacularmente, mientras que muchas industrias estadounidenses no lograron un exito comparable en los mercados exteriores. Las consecuencias fueron profundas. Desde el punto de vista macroecon6mico, Estados
732
Estadistica para administraci6n yeconomia
Unidos tuvo deficit comerciales durante algun tiempo. Desde el punto de vista microeconomico, industrias enteras entraron en declive, mientras que otras se vieron obligadas a realizar rapidos y, en ocasiones, dolorosos ajustes para hacer frente a la competencia. En estas circunstancias, no es sorprendente que los estadounidenses se fijaran en su competidor mas prospero: Japon. Existen, por supuesto, muchas diferencias entre las organizaciones sociales y economicas de Japon y Estados Unidos. EI analisis detenido de estas diferencias para intentar explicar el exito relativo de la industria japonesa nos llevarfa muy lejos. Para nuestros fines basta senalar que muchos productos japoneses que pueden adquirirse en el mercado de Estados Unidos llegaron a adquirir una envidiable reputacion por su calidad. EI reconocimiento en muchas industrias estadounidenses de la necesidad de hacer frente a este rete es 10 que explica el rapido crecirniento de la aplicacion de metodos estadfsticos en Estados U nidos desde la dec ada de 1980. Algunos de los beneficios de estos metodos deberfan ser obvios:
1.
2.
3.
Aumento de la productividad. Si se detectan en seguida y se corrigen las piezas que no cumplen las normas, puede evitarse mucha perdida de tiempo y de materiales. La aplicacion de un control estadfstico satisfactorio de los procesos puede permitir la produccion de un volumen mayor con una calidad mejor sin aumentar el coste 0 el esfuerzo de los trabajadores. Aumento de las ventas. La reputacion merecida por la calidad del producto es un activo enorme en el competitivo mercado. Esa reputacion generalmente es diffcil de conseguir, pero en muchas industrias su ausencia puede resultar fatal. Aumento de los beneJicios. EI efecto neto de la reduccion de los costes unitarios de produccion y del aumento de las ventas se deja sentir, desde luego, en los balances finales de las empresas. Los metodos de control de la calidad estan hoy muy extendidos porque son rentables.
Variaci6n La calidad comienza con un analisis completo del sistema y del proceso utilizados para producir bienes 0 servicios. Un sistema es un numero de componentes que estan relacionados entre sf logica y a veces ffsicamente con algun fin y un proceso es un conjunto de actividades que operan en un sistema que transforma factores en productos. EI objetivo es identificar todos los facto res que contribuyen a la produccion del producto final y contribuyen asf a la calidad del producto. Los problemas que hacen que los productos tengan defectos deben identificarse y corregirse. «En todos los procesos intervienen Jactores a los que el proceso afiade valor para producir el producto [... J Los indicadores de los resultados miden la produccion del proceso y esa informacion se reintroduce en el proceso para ajustarlo y.para eliminar los defectos que impiden 10grar 10 que quiere el cliente» (v ease la referencia bibliografica 6). Este modelo general de los procesos se muestra en la Figura 18.1 (vease la referencia bibliografica 6). En el proceso por el que los factores se transforman en productos, la direccion utiliza la teorfa estadfstica (vease la referencia bibliografica 9) para controlar y mejorar el proceso. Observese en la Figura 18.1 que la direccion primero debe saber si el factor satisface las normas de calidad 0 las supera, es decir, el viejo problema de «si 10 que entra es basura, 10 que sale es basura». Por ejempl0, los fabricantes de autom6viles exigen a los proveedores de factores, como juntas de goma para las puertas, que cumplan unas normas especificadas. El programa espacial y los fabricantes de aviones exigen a los proveedores de
Cap itulo 18. Introducci6n a la calidad
Figura 18.1. Modelo general de los procesos.
I~
733
TIEMPO (MEDIDO)
AJUSTAR
c\IllIm
~ HERRAMIENTAS
11111 [lllD'
FACTOR
SISTEMAS PERSONAS
PROCESOS
(ANADIR VALOR)
PROCEDIMIENTOS
piezas, como fuelles metalicos soldados, que certifiquen las normas de calidad de sus productos. En todas las fases del proceso, se utilizan metodos estadisticos para controlar y corregir los defectos. La constante retroalimentacion de la informacion contribuye a la mejora continua del proceso y del producto 0 del servicio. Uno de los principios fundamentales del pensamiento estadistico es que existe variacion en todos los procesos (vease la referencia bibliografica 9). Es importante comprender la variacion para predecir el funcionamiento futuro del proceso. Para comenzar a estudiar los instrumentos estadfsticos que se utilizan para mejorar los procesos, primero examinamos dos causas de su variacion: las causas comunes y las causas asignables.
Causas comunes y asignables de la variaci6n Las causas comunes de la variacion (tambien IIamadas causas aleatorias 0 incontrolables) son las causas que ocurren aleatoriamente y son inherentes a todos los procesos. EI responsable de estas causas es la direcci6n, no los trabajadores. Las causas asignables de la variacion (tambien IIamadas causas especiales) son el resultado de fuerzas externas, es decir, de fuerzas ajenas al sistema. Estas causas pueden y deben detectarse y hay que tomar medidas correctoras para eliminarlas del proceso. De 10 contrario, aumentara la variaci6n y empeorara la calidad.
En el modelo general de los procesos de la Figura 18.1, se eliminan los defectos que se deben a causas asignables y se realizan los ajustes necesarios en el proceso. Ejemplos de causas comunes son las condiciones de trabajo desagradables (demasiado calor 0 demasi ado frio) y los errores humanos aleatorios. Ejemplos de causas asignables son un lote defectuoso de materias primas, errores de los operadores y errores de ajuste de las maquinas. Las causas asignables deben eliminarse; las causas aleatorias siempre son inherentes a un proceso. Un proceso solo es estable cuando se eliminan todas las causas asignables.
734
Estadfstica para administraci6n y economfa
Proceso estable Un proceso es estable (esta controlado) si se eliminan todas las causas asignables; por 10 tanto, la variaci6n s610 se debe a causas comunes.
Aunque se ha analizado la importancia de la calidad del producto, min no esta claro d6nde entran en escena los metodos estadfsticos. Entran en escena porque el metoda representativo de control de la calidad, una vez que se aplica, debe implicar necesariamente un muestreo y un analisis estadlstico. El objetivo es controlar un proceso de producci6n operativo. Casi inevitablemente, sera inviable medir las caracterfsticas de todos los artfculos producidos. Se extraen de vez en cuando muestras relativamente pequefias de artfculos y se realizan medici ones, con el fin de poder representar graficamente el progreso a 10 largo del tiempo y observar e investigar los cambios que hayan podido ocurrir. Lo importante es que la inferencia sobre la conducta del proceso se basa en datos estadfsticos. Ademas, dado que las medici ones de los productos se realizan en la planta -y, en teoda, las valoraciones deben realizarse bastante deprisa-, es deseable que se utilicen metodos relativamente senciHos, como graficos de control. Un grafico de control es un grafico de la evoluci6n temporal de una caracterfstica de un proceso, como la tendencia central 0 la variacion. Existen varios tipos de graficos de control y su aplicabilidad depende del tipo de datos de los que se disponga y de las variables que se quiera controlar. En este capftulo, introducimos cuatro graficos de control que son los que se utilizan mas a menudo. Son el grafico X (para las medias), el grafico s (para la variaci6n), el grafico p (para la proporci6n de artfculos que no se ajustan a las norm as) y el grafico c (para el numero de ocurrencias de un suceso, como las imperfecciones). En el apendice de este capftulo, se analiza el grafico R (para los intervalos). Todos los graficos de control tienen una lfnea central (LC), un lfmite de control inferior (LCI) y un lfmite de control superior (LCS). Las medici ones tomadas a intervalos peri6dicos se representan en graficos de control y se examinan en busca de pautas que sugieran la existencia de un posible problema provocado por causas asignables. La importancia de las ideas estadfsticas en el control de la calidad reside en la comprensi6n de la variabilidad y la aleatoriedad. El proceso de producci6n que fabrica artfculos identicos no se ha inventado y nunca se inventara. Es inevitable, en la practica, que haya alguna variabilidad en las caracterfsticas de los artfculos. Por 10 tanto, para buscar cambios en las caracterfsticas de la producci6n a 10 largo del tiempo, es importante no dejarse engafiar por la mera variabilidad aleatoria.
EJERCICIOS
Ejercicios aplicados 18.1. Seleccione 1 de los 50 estados de Estados Unidos que conceden un premio a la calidad. Escriba un breve ensayo indicando el nombre del premio, los criterios utilizados para concederlo, la fecha en que se cre6, los tipos de organizaciones que pueden recibirlo y una breve sinopsis de un galardonado recientemente con ese premio. (,Por que recibi6 esa organizaci6n ese premio? Incluya bibliograffa y direcciones de paginas web.
18.2.
i
------.---- -- ---......--------------._- -.--~----' ~----"--~--- -----~
j
Seleccione un premio a la calidad europeo 0 asiatico. Escriba un breve ensayo indicando el nombre del premio, los criterios utilizados para concederlo, la fecha en que se cre6, los tipos de organizaciones que pueden recibirlo y una breve sinopsis de un gal ardon ado recientemente con ese premio. (,Cuales fueron las iniciativas de cali dad de este galardonado que se reconocieron con este premio? Incluya bibliograffa y direcciones de paginas web.
Capitulo 18.
18.3. Analice los 14 puntos de Deming para las organizaciones de calidad (veanse las referencias bibliogriificas 2 y 11). 18.4. Entre al menos en tres paginas web de la lista mencionada al final de este capftulo. Analice
Introducci6n a la calidad
735
e l tipo de informacion que contiene n estas paginas.
18.5. Analice al menos cinco paginas web pertinentes para la calidad, aparte de las de la li sta que se encuentra al final de este capftulo.
18.2. Graficos de control de medias
~
desviaciones tfpicas
Consideremos ahora un proceso de produccion que genera un producto cuya caracterfstica de interes puede medirse en un continuo. Se desea establecer un sistema de control de la calidad para ese proceso. Puede lograrse tomando, a 10 largo del tiempo, una secuencia de pequefias muestras del producto. A menudo se toman muestras de 4 0 5 observaciones y, para establecer un registro razonable del funcionarniento, es deseable tener 20 muestras 0 mas. La frecuencia con que se toman las muestras depende de las caracterfsticas del proceso de produccion. A la direccion Ie interesara tanto el funcionamiento medio de proceso como la variabilidad del funcionamiento. Si hay demasiada variabilidad, estan produciendose muchos artfculos que no se ajustan a las normas, aunque el funcionamiento medio sea satisfactorio. En este apartado, se utili zan las medias y las desviaciones tfpicas muestrales para controlar el funcionamiento del proceso. Estas cantidades se representan en graficos de control. Se fijan lfmites de control para ayudar a comprender las fluctuaciones a 10 largo del tiempo de la media muestral y de la desviacion tfpica muestral. Sin embargo, antes de seguir debe sefialarse que, aunque es bastante frecuente que se utilice la media, en algunas aplicaciones se utiliza el ran go en lugar de la desviacion tfpica para evaluar la variabilidad. EI atractivo de esta opcion probablemente se halla en que el rango -es decir, la diferencia entre la observacion muestral mas grande y la mas pequefia- se calcula mas facilmente en la planta, donde se realizan ejercicios de control en el trabajo. Sin embargo, es posible que ya no sea asf, dada la existencia de calculadoras electronicas, que calculan automaticamente medias muestrales y desviaciones tfpicas muestrales, a partir de las observaciones muestrales. La construccion de graficos de control cuando se utiliza el rango en lugar de la desviacion tfpica se explica detalladamente en el apendice del capitulo. Los principios de la construccion de graficos de control y su interpretacion son esencialmente los mismos cualquiera que sea la medida de la variabilidad que se emplee, aunque los detalles son algo distintos. Tres medidas que se utilizan para realizar graficos de control de medias y desviaciones tfpicas son la media global, la desviacion tfpica muestral media y la desviacion tfpica del proceso.
Media global, desviaci6n tipica muestral media y desviaci6n tipica del proceso Se toma una secuencia de K muestras, cad a una de n observaciones, a 10 largo del tiempo sobre una caracteristica mensurable del producto de un proceso de produccion. Las medias muestra!es, representadas por Xi para i = 1, 2, ... , K, pueden representarse graficamente en un grafico X. La media de estas medias muestrales es la media global de todas las observaciones muestrales: K
x= L i dK ;=\
(18.1 )
736
Estadistica para administracion y economia
Las desviaciones tfpicas muestrales, representadas por Si para; = 1, 2, ... , K, pueden representarse graticamente en un grafico s. La desviaci6n tipica muestral media es K
S=
I
(18.2)
sJ K
;= 1
La desviaci6n tfpica del proceso, (J, es la desviaci6n tfpica de la poblaci6n de la que proceden las muestras y debe estimarse a partir de datos muestrales.
Una estimacion de la desviacion Upica del proceso Para fijar Hmites de control tanto en el grafico X como en el grafico s, es necesario estimar la desviaci6n tfpica del proceso, (J. Una de las posibilidades es basar esta estimaci6n en la desviaci6n tfpica muestral global de todas las observaciones. Sin embargo, en los estudios aplicados del control de la calidad es mas habitual basar una estimaci6n de (J en s, la desviaci6n tfpica muestral media. Cualquiera que sea la estimaci6n que se utilice, recuerdese que la desviaci6n tfpica muestral es un estimador sesgado de la desviaci6n tipica poblacional. Es deseable intentar corregir este sesgo. De hecho, cuando se sabe que la distribuci6n poblacional es normal, es po sible hallar una expresi6n del valor esperado de la desviaci6n tfpica muestral. Si la desviaci6n tipica muestral Si se bas a en n observaciones, puede demostrarse que
don de C4 es un numero que puede calcularse como una funci6n del tamafio de la muestra n. Se deduce inmediatamente que
y, por 10 tanto, que una estimaci6n insesgada de la desviaci6n tipica del proceso es (j = S/C4'
Naturalmente, la distribuci6n poblacional puede no ser exactamente normal. No obstante, se piensa que esta correcci6n merece la pena y que normalmente reduce el sesgo inherente ala desviaci6n tfpica muestral como estimador del parametro poblacional correspondiente.
Estimacion de la desviacion tfpica del proceso basad a en s Una estimaci6n de la desviaci6n tipica del proceso,
a, es (18.3)
donde S es la desviaci6n tfpica muestral media; la con stante del grafico de control, c4 , que depende del tamafio de la muestra n, puede hallarse en la Tabla 18.1 0 en la Tabla 13 del apendice. Si la distribuci6n de la poblaci6n es normal, el estimador es insesgado.
La Tabla 18.1 muestra los valores de C4 correspondientes a tamafios muestrales que van de 2 a 10. Tambien muestra las constantes de otros graficos de control que se analizaran en este capitulo. La Tabla 13 del apendice contiene una tabla mas completa de constantes. En los estudios practicos de control de la calidad, se dispone de tab las de las constantes de los graficos de control que se utili zan habitualmente. En este capitulo nos referiremos al siguiente ejemplo, basado en el fichero de datos Signal.
Capitulo 18.
Tabla 18.1.
Introducci6n a la calid ad
Constantes de los grcificos de control.
n
C4
A3
B3
B4
2 3 4 5 6 7 8 9 LO
0,789 0,886 0,921 0,940 0,952 0,959 0,965 0,969 0,973
2,66 1,95 1,63 1,43 1,29 1,18 1, LO 1,03 0,98
0 0 0 0 0,03 0,12 0,18 0,24 0,28
3,27 2,57 2,27 2,09 1,97 1,88 1,82 1,76 1,72
EJEMPLO 18.1. Senal emitida por un componente electr6nico (x, \
)
Signal
737
s, 6)
La duraci6n, en milisegundos, de una sefial emitida por un componente electr6nico de una secuencia de 20 muestras, cada una de las cuales tiene cinco observaciones, se muestra en fa Tabla 18.2 y se encuentra en el fichero de datos Signal. Halle la media global, la desviaci6n tfpica muestral media y una estimaci6n de la desviaci6n tipica del proceso. Tabla 18.2.
Duraci6n, en milisegundos, de la senal emitida por un componente electr6nico.
Ntimero muestral
1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19 20
297 301 297 296 305 298 297 292 295 296 299 303 301 299 299 301 300 295 298 296
296 301 306 302 304 294 304 292 297 297 301 307 292 298 299 303 296 293 298 303
297 300 296 299 293 303 299 307 307 309 290 296 313 300 306 297 301 300 306 300
303 304 302 298 309 306 298 295 304 297 298 298 302 301 303 298 300 299 297 304
298 297 304 309 293 305 306 300 306 305 297 294 307 295 298 304 304 289 295 299
Media muestral
Desviacion tipica muestral
298,2 300,6 301 ,0 300,8 300,8 301,2 300,8 297,2 301,8 300,8 297,0 299,6 303,0 298,6 301,0 300,6 300,2 295,2 298,8 300,4
2,77 2,51 4,36 5,07 7,36 5,07 3,96 6,38 5,45 5,85 4,18 5,32 7,78 2,30 3,39 3,05 2,86 4,49 4,21 3,21
Solucion
La Tabla 18.2 contiene la media muestral y la desviaci6n tipica muestral correspondientes a cada periodo de observaci6n. La media muestraJ global, que es simplemente Ja media de Jas 100 observaciones muestrales, es
= (298,2 + 300,6 + ... + 300,4)
x =
20
= 2999 '
738
Estadfstica para administracion yeconomfa
La media de las desviaciones tfpicas muestrales es _ (2,77 s=
+ 2,51 + ... + 3,21) 20
= 448 '
Basandonos en la Tabla 18.1, vemos que con n = 5 observaciones, C4
=
0,940
Por 10 tanto, la desviacion tfpica del proceso es ~
S
4,48 0,940
0'=-=--=477 C4
'
Graficos de control de medias La Tabla 18.2 muestra las duraciones medias de las sefiales de una secuencia de 20 muestras de cinco observaciones cada una a 10 largo del tiempo. En los estudios de control de la calidad, para facilitar la interpretacion, esa informacion se representa invariablemente en un grMico temporal, por ejemplo, en un grMico X 0 en un grMico s. En primer lugar, estudiamos los metodos estadfsticos para obtener graficos de control y, a continuacion, explicamos como se interpretan los graficos para encontrar indicios de inestabilidad del proceso. Para la gestion de la produccion, es importante buscar indicaciones de empeoramiento de la calidad. Una de las indicaciones posibles de que hay un problema es una media muestral que se desvfa considerablemente de su valor «habitual» . Por ejemplo, en la Tabla 18.2 la media de la decimoctava muestra es 295,2, que es un valor algo mas bajo que los anteriores. l,Es este el tipo de resultado que serra razonable esperar como consecuencia de la variabilidad muestral? En el control de la cali dad, esta valoracion se hace realizando comparaciones con los Ifmites de control trazados en los grMicos de control. Para fijar los lfmites de control de los grMicos X, se supone que el proceso ha venido funcionando a un nivel constante durante to do el periodo de observacion y que puede considerarse que todas las observaciones muestrales se han extrafdo de la misma distribucion normal. La media de esa distribucion se estima por medio de la media global , X, de todas las observaciones muestrales y la desviacion tfpica se estima por medio de (j de la ecuacion 18.3. Consideremos ahora una (mica muestra de cinco observaciones y consideremos que se han extrafdo de una distribucion normal de media y desviacion tfpica (j. La distribucion y error tfpico muestral de esta media muestral es una distribucion normal de media (j / = (j /)5. Este resultado sirve de base para fijar los lfmites de control. Cuando existen indicios de que hay un problema, hay que hacer alguna investigacion, que puede implicar la interrupcion y el estudio exhaustivo del proceso de produccion, 10 cual puede ser bastante caro. Natural mente, no es deseable que haya que hacerlo frecuentemente cuando el proceso funciona, en realidad, satisfactoriamente. Para que no aparezcan demasiadas «sefiales falsas» de este tipo, es habitual en los estudios de control de la calidad fijar unos lfmites de control equivalentes a tres errores tfpicos en cualquiera de los lados de la media de la distribucion muestral (a veces se Haman lfrnites 30'). En ese caso, si
x
In
x
Capitulo 18.
Introducci6n a la calidad
739
la distribuci6n del estadfstico muestral -en este caso, la media muestral- es normal, la probabilidad de obtener un valor situado fuera de los lfmites 30" es P(Z> 3)
+ P(Z < - 3)
=
2(0,0014)
=
0,0028
donde Z es una variable aleatoria normal estandar. Por 10 tanto, si se fijan limites de esta forma, partiendo de los supuestos postulados, la probabilidad de que aparezca una senal falsa en cualquier muestra es de menos de 3 por 1.000. Desde luego, estos supuestos generalmente no son absolutamente ciertos, por 10 que este valor s610 es aproximado. No obstante, debe ser una gufa razonable y el uso de lfmites 30" es muy frecuente. Volviendo ahora a la construcci6n de graficos de ~ontrol de medias muestrales, la distribuci6n muestral esta centrada en la media global, i, y esta Unea central se traza en el grafico. Por 10 tanto, si se utili zan limites de tres errores tfpicos, los limites de control son 3
donde A3 = c4
y
r. n
Grafico j( EI gnifico j( es un grafico temporal de la secuencia de medias muestrales. La linea central es
LCx=i
(18.4)
Ademas, hay I[mites de control de tres errores tfpicos. EI limite de control inferior es
(18.5) y el limite de control superior es
(18.6) Algunos valores de A3 se encuentran en la Tabla 18.1 0 en la Tabla 13 del apendice .
EJEMPLO
18.2.
Grafico de control de las senales para las medias (grafico Xl
Construya el grafico Signal
Xdel ejemplo de
las senales con el fichero de datos Signal.
Solucion Basandose en la Tabla 18.1 y en los calculos anteriores, con un tamano muestral de cinco, i = 299,9
s=
4,48
La linea central es LCx = i
= 299,9
El lfmite de control inferior es LClx
=
x- A3S = 299,9 -
(1,43)(4,48) = 293,5)
740
Estadfstica para administracion y economfa
y el !fmite de control superior es
LCSx =
x+ A3S = 299,9 + (1 ,43)(4,48) = 306,3
A continuaci6n, se representa cada una de las medias muestrales, Xi' en el grafico X de la Figura 18.2. 307 UCL=30S.3
c
co
Q)
302
~
Mean=299.9
Q)
c..
E
co 297
(f)
LCL=293 .5 292
o
10
20
Sample Number Figura 18.2.
GrcHico X del ejemplo de las sefiales.
Graficos de control de desviaciones Upicas Para evaluar el progreso de la variabilidad de un proceso a 10 largo del tiempo, tambien pueden representarse las desviaciones tfpicas en un grMico de control Hamado grafico s. La linea central de este grafico es la desviaci6n tfpica muestral media, S, y es habitual fijar lfmites de tres errores tfpicos.
Grafico s EI grafico 5 es un grafico temporal de la secuencia de desviaciones tipicas muestrales. La linea central de un grafico s es
LeI =
s
(18.7)
En el caso de los Ifmites de tres errores tipicos, el limite de control inferior es
(18.8) y el limite de control superior es
(18.9) Los valores de las constantes 8 3 y 8 4 del gratico de control se muestran en la Tabla 18.1 .
Capftulo 18.
Introducci6n a la calidad
741
Cuando el tamano de la muestra es n ~ 5, restando tres errores tfpicos de s se obtiene un numero negativo. Evidentemente, las desviaciones tfpicas no pueden ser negati vas, por 10 que se considera que el limite inferior es O. En la practica, raras veces preocupa que haya demasiado poca variabilidad, por 10 que el limite inferior normal mente no tiene mucho interes.
18.3.
EJEMPLO
Grafico de control de las senales para las desviaciones tipicas (grafico s)
Utilice el fichero de datos Signal para trazar el grafico s correspondiente al ejemplo de las sefiales.
( \
Signal
Soluci6n Para construir el grafico s correspondiente a los datos del fichero Signal (Tabla 18.2), se deduce que s = 4,48 B4 = 2,09 Por 10 tanto, las tres Ifneas de nuestro grafico son
LC,. = 4,48
LCSs
LCI, = 0
= (2,09)(4,48) = 9,36
A continuaci6n, se representa cada una de las desviaciones tfpicas, Si' en un grafico de control, en el que LC, = 4,48, LCI,. = 0 Y LCS,. = 9,36. EI grafico s se parece al de la Figura 18.3, que se ha obtenido utilizando el programa Minitab. 10
UCL
= 9. 357
LCL
=0
>
CD
0
U5 CD
D.. E
5
co
(J)
0 0
10
20
Sample Number
Figura 18.3. Gratico s del ejemplo de las sefiales.
Interpretacion de los graficos de control Una vez desarrollados graficos de control iniciales para controlar el funcionamiento medio y su variabilidad, es necesario profundizar en su analisis y su interpretaci6n. La experiencia y la valoraci6n personal, junto con la co mprensi6n de las pautas de los gr:ificos de control, permiten hacer mejoras. A continuaci6n, analizamos brevemente algunas cuestiones que podrfan plantearse. La principal es una valoraci6n del funcionamiento del proceso en el periodo de observaci6n. Si un proceso es estable, los puntos de un grafico de control fluctuaran aleatoriamente entre el Ifmite de control superior y el inferior, por 10 que no seguiran una pauta que no sea aleatoria. En esta fase , el analista busca esencialmente una pauta de puntos de datos
742
Estadfstica para administraci6n y economfa
distribuidos mas 0 menos aleatoriamente en torno a la Ifnea central y generalmente bien alejados de los Ifmites de control. Desde este punto de vista, las Figuras 18.2 y 18.3 parecen bastante razonables. En esas circunstancias, el proceso estudiado parece estar bajo control, 10 cual significa que su funcionamiento es bastante estable. EI control estadfstico de calidad puede concebirse como un medio para averiguar si un proceso esta bajo control, como una ayuda para mantenerlo bajo control y como un mecanismo para reducir la variabilidad de la calidad del producto. Si un proceso no es estable, es posible que los datos no sean fiables 0 que el proceso que ha generado los datos tenga graves problemas operativos. Esos datos pueden darnos una indicacion fiable de 10 que cabe esperar cuando el proceso funciona normal mente. Se llama la atencion a la direccion sobre las causas asignables que pueden contribuir a la inestabilidad del proceso por medio de diversas pautas de los graficos de control. Por 10 tanto, la interpretacion de los graficos de control comienza par comprender algunas pautas que indican una situacion fuera de control. Hay varias pautas de los puntos de datos de un grafico de control que indican que un proceso puede estar fuera de control. Aquf solo examinamos tres pruebas para analizar esta posibilidad. Para mas pruebas y un estudio mas extenso veanse las notas de este capftulo.
Pautas fuera de control Algunas pautas de los puntos de datos de un grafico de control indican que el proceso puede estar fuera de control . A continuaci6n, mostramos tres: 1.
2. 3.
1.
2.
3.
Un valor fuera de los Ifmites de control (un punto que este alejado mas de 3 sigmas de la linea central). Una tendencia de los estadfsticos muestrales (seis puntos consecutivos, todos crecientes 0 decrecientes). Demasiados puntos en uno de los lados de la linea central (nueve puntos consecutivos en el mismo lado de la linea central).
Un valor fuera de los Iimites de control. Consideremos la Figura 18.4A. La mayorfa de los estadfsticos muestrales (en este ejemplo, las medias muestrales) estan dentro de los Ifmites de control. Sin embargo, en el caso de la muestra 7 el estadfstico esta fuera de estos !imites; es decir, la media muestral es mayor que la media mas 3
Capitulo 18.
Figura 18.4A. Un valor fuera de los IImites de control.
Introducci6n a la calidad
7 43
310 UCL
= 308.5
c
C1l
Ql
~
x = 300 .4
-E. 300 E C1l
(f)
LCL
= 292 .3
UCL
= 10.62
290 0
Figura 18.4B. Una tendencia de las desviaciones tfp icas muestrales.
10 Samp le Number
20
10
> Ql 0..... (f)
Ql
Q.
E
5
5 = 5. 086
0
LCL = 0
C1l
(f)
0
Figura 18.4C. Demasiados puntas en el mismo lado de la linea central.
10 Sample Number
20
10 UCL
= 8.893
> Ql 0
iJ5 Ql
Q.
5
5 = 4.257
E C1l
(f)
LCL = 0
0 0
10 Sample Number
20
consecutivos (que representan desviaciones tfpicas muestrales) se encuentran por debajo de la linea central. La investigaci6n de las causas asignables puede revelar la existencia de problemas. S610 es razonable seguir adelante cuando existe alguna seguridad de que un proceso de producci6n esti bajo control. Si observamos de nuevo las Figuras 18.2 y 18.3, no vemos ninguna indicaci6n de que existan pautas fuera de control. Parece que no existe ningun motivo importante de preocupaci6n. Ninguna de las medias muestrales esta fuera de los Ifmites de control y, de hecho, la inmensa mayorfa de las medias muestrales estan dentro de
744
Estadfstica para administraci6n y economfa
esos lfmites. Antes nos hemos preguntado si la media de la muestra 18, 295,2, era un motivo para preocuparse. Aparentemente, no existe ningun motivo de alarma. Asimismo, no parece que este justificada la preocupacion por la variabilidad del proceso, indicada en el grafico s de la Figura 18.3. Las desviaciones tfpicas muestrales observadas generalmente estan muy por debajo del lfmite de control superior. Parece que aumenta la variabilidad en la parte central del periodo de observacion, por 10 que quiza merezca la pen a buscar una explicacion para comprender mejor el proceso de produccion. Ninguno de los dos graficos de control correspondientes al fichero de datos Signal sugiere que haya causas asignables en el sistema. En el siguiente apartado explicamos como se averigua si un proceso estable cumple las especificaciones del disefio.
EJERCICIOS
Ejercicios aplicados 18.6. Se ha observado el proceso de producci6n de un componente y se ha medido la fuerza de la emisi6n electrica de los componentes. Se dispone de resultados de una secuencia de 30 muestras, cada una de las cuales tiene siete observaciones. La media global de las observaciones muestrales es 192,6 y la desviaci6n tfpica muestral media es 5,42. a) Utilice un estimador insesgado para estimar la desviaci6n t(pica del proceso. b) Halle la linea central y los limites de control inferior y superior de un grafico X. e) Halle la linea central y los Ifmites de control inferior y superior de un grafico s. 18.7. Se toman medidas de la resistenci a, en ohmios, de un componente electrico. Se obtiene una secuencia de 25 muestras, cada una de las cuales tiene seis observaciones. La media global de las observaciones muestrales es 93,2 y la desviaci6n tfpica muestral media es 3,67. a) Utilice un estimador insesgado para estimar la desviaci6n tfpica del proceso. b) Halle la linea central y los Ifmites de control inferior y superior de un gnifico X. e) Halle la linea central y los Ifmites de control inferior y superior de un grafico s. 18.8. Se pesan muestras de fruta enlatada. Se toma una secuencia de 16 muestras, cada una de las cuales tiene ocho observaciones. La media global de las observaciones muestrales es de 19,86 onzas y la desviaci6n tipica muestral media es de 1,23 onzas. a) Utilice un estimador insesgado para estimar la desviaci6n tfpica del proceso.
b) Halle la linea central y los limites de control inferior y superior de un gnlfico X. e) Halle la linea central y los Ifmites de control inferior y superior de un gnifico s. 18.9. P >I Recuerde el ejercicio 2.39. Ann Thorne, la directora de operaciones de una fabrica de cremas bronceadoras, quiere asegurarse de que el proceso que se emplea para lIenar los botes de un nuevo producto, SunProtector, funciona coITectamente. Actualmente, la empresa esta comprobando los volumenes de los botes de 8 onzas (237 ml) de SunProtector. Se hacen medici ones del volumen de los botes de 8 onzas. Se toma una secuencia de 20 muestras de cinco observaciones cada una. La media global de las observaciones muestrales es de 230,5 ml y la desviaci6n tfpica muestral media es de 1,75 m!. Los volumenes (en ml) se encuentran en el fichero de datos Sun. a) Uti lice un estimador insesgado para estimar la desviaci6n tfpica del proceso. b) Halle la linea central y los Ifmites de control inferior y superior de un grafico X. e) Halle la linea central y los Ifmites de control inferior y superior de un grafico s. 18.10. ~ .1 La tabla adjunta muestra las medias y las desvi aciones tfpicas muestrales de una secuencia de 30 muestras de ocho observaciones cada una sobre una caracterfstica de la calidad de un producto. El fichero de datos es Exercise 18-10. a) Halle la media global de las observaciones muestrales. b) Halle la desviaci6n t(pica muestral media. e) Uti lice un estimador insesgado para estimar la desviaci6n tfpica del proceso.
Capitulo 18.
d) Halle la lfnea central y los limites de control
inferior y superior para un grafico X. e) Trace el grafico X y analice sus caracterfsticas. f) Halle la lfnea central y los limites de control inferior y superior de un grafi co s. g) Trace e l grafico s y analice sus caracterfsticas. Muestra
i
s
Muestra
i
s
I 2 3 4 5 6 7 15 16 17 18 19 20 21 22
148,2 146,4 149,9 152,8 148,7 150,6 lSI ,S 147,2 152,9 150,7 147,2 149,4 154,3 148,7 149,7
2,26 4,37 7,93 6,79 5,3 1 3,17 6,15 3,80 4,87 3,88 8,93 6,85 7,29 6,28 8,92
8 9 10 11 12 13 14 23 24 25 26 27 28 29 30
149,2 153,9 150,6 156,0 150,4 148,7 151 ,1 151,3 150,8 147,2 141,9 152,7 148,6 150,2 148,6
4,71 5,82 4,98 4,79 3,92 8,31 7,29 6,20 7,39 6,97 9,68 4,28 6,51 7,29 4,73
18.11. (> 1 La tabla adjunta muestra las medias y las desviaciones tfpicas muestrales de una secuencia de 20 muestras de seis observaciones cada
Introducci6n a la calidad
745
una sobre el peso de las latas de verduras, en onzas. EI fic hero de datos es Exercise 18-11. Muestra
i
s
Muestra
i
s
I 2 3 4 5 6 7 8 9 10
20,2 18,9 19,6 20,8 19,4 19,8 20,9 21.0 20,6 19,1
1,9 2,7 1,7 2,3 1,2 2, 1 1,6 2,3 1,4 2,7
II 12 13 14 15 16 17 18 19 20
18,8 19,3 19,8 20,2 20,7 19,3 19,9 18,8 19,6 20,1
2,9 1,1 1,3 1,2 1,9 2,2 3.1 2,9 2,2 I,l
a) Halle la media global de las observaciones muestrales. b) Halle la desviaci6n tipica muestral media. c) Uti lice un estimador insesgado para estimar la desviaci6n tfpica del proceso. d) Halle la Ifnea central y los lfmites de control inferior y superior para un grMico X. e) Trace el grafico X y anal ice sus caracterfsticas . f) Halle la Ifnea central y los lfmites de control inferior y superior de un grafico s . g) Trace el grafico s y anal ice sus caracterfsticas.
18.3. Ca acidad de un proceso En el apartado 18.2 nos hemos ocupado del uso de gnificos de control, ayudados por lfmites de control, para averiguar si un proceso esta bajo control, es decir, si su funcionamiento es estable. Sin embargo, esta informaci6n es insuficiente para saber si el proceso esta cumpliendo como es debido las nOl'mas para las que se disefi6. Al fin y al cabo, un funcionamiento sistematico podrfa ser sistematicamente mediocre 0 incluso sistematicamente malo. Antes de seguir con un programa de control de calidad 0 de mejora de la calidad, es importante averiguar si el proceso de producci6n funciona de acuerdo con las especificaciones exigidas. Si un proceso esta actualmente bajo control, ~es capaz de cumplir estas especificaciones? Esta valoraci6n se hace basandose en los datos generados por un proceso que parece que esta bajo control. Por 10 tanto, si los datos muestrales contienen observaciones extremas debidas a causas asignables, estos problemas deb en corregirse antes de evaluar la capacidad del proceso. Mas en serio, cuando parece que las cosas han ido mal en el periodo de observaci6n como, por ejemplo, en los casos ilustrados en las Figuras 18.4B y 18.4C, puede que sea necesario que los ingenieros tomen medidas. S610 cuando se ha establecido un metoda de control , es posible evaluar la capacidad del proceso. En este apartado, analizamos un problema frecuente que puede abordarse analizando las medias muestrales y las desviaciones tfpicas muestrales. Normalmente, la direcci6n fija un intervalo de valores de alguna caracterfstica del proceso productivo, acotado por unos limites de especificacion inferior y superior. En el caso de la duraci6n de la sefial emitida
746
Estadfstica para administraci6n yeconomfa
por un componente electronico, la direccion puede fijar un intervalo de val ores tolerables de 280 a 320 milisegundos para garantizar la calidad del producto. Un proceso capaz de cumplir estas especificaciones es un proceso que probablemente producini resultados dentro de este intervalo. En el caso de un proceso que esta fuera de control, es logico basar la evaluacion de la capacidad en todas las observaciones muestrales y, en concreto, en estimaciones de la media y la desviacion tipica del proceso basadas en estas observaciones. En el caso de los datos sobre la senal, las estimaciones son
x = 299,9
(; = 4,77
En ese caso, si se supone que la distribucion del proceso es normal, alrededor del 99,72 por ciento de toda la produccion debera estar en un margen mas/menos tres desviaciones tipicas con respecto a la media. Es frecuente, pues, en los estudios de control de la cali dad calcular el intervalo ± 3(;. En nuestro ejemplo,
x
(x - 3(;, x+ 3(;) = (285,6, 314,2) Estos son los Ifmites dentro de los cuales el proceso funcionara normalmente. La amplitud de este intervalo 6(; = (6)(4,77) = 28,6 a veces se llama tolerancia natural del proceso. Es una medida de la variabilidad de las especificaciones del producto que cabe esperar. Una vez utilizados los datos muestrales para saber que puede hacer realmente un proceso de produccion, solo es necesario comparar este resultado con las especificaciones de 10 que debe hacer el proceso establecidas por la direccion. Lo que se necesita es que el intervalo ± 3(; este, preferiblemente de una manera holgada, entre los lfInites de especificacion inferior y superior. Los datos sobre las senales parecen bastante satisfactorios desde este punto de vista. El intervalo de 285,6 a 314,2 esta holgadamente entre 280 y 320 milisegundos. Parece que el proceso es capaz de satisfacer estas especificaciones. Observese que la media muestral global de 299,9 esta muy cerca del centro, 300 milisegundos, del intervalo de tolerancia. En esas circunstancias, se dice que el intervalo de funcionamiento esta centrado en el rango de tolerancia. Normalmente, esta centrado y a menu do es deseable que 10 este. Sin embargo, no es necesario para que el proceso sea capaz de satisfacer las normas. Hay medidas mas formales de la capacidad de un proceso y son el fndice de capacidad y el fndice Cpk ' En las empresas que se dedican a mejorar procesos, los empleados conocen estas medidas de la capacidad de un proceso y comprenden su importancia.
x
Medidas de la capacidad de un proceso Supongamos que la direcci6n fija unos Ifmites de tolerancia inferior (I) y superior (8) para el funcionamiento de un proceso. La capacidad del proceso se valora por el grado en que ± 36 se encuentra dentro de estos Ifmites.
x
1.
Indice de capacidad (CJ. Esta medida es adecuada cuando los datos muestrales estan centrados entre los ffm ites de tolerancia, es decir, x::::; (I + 8)/2. EI fndice es
s-[ Cp =
6(;
(18.10)
Capftulo 18. Introducci6n a la calidad
2.
747
Normalmente se considera que un valor satisfactorio de este fndice es un valor de 1,33 como mfnimo [eso implica que la tolerancia natural del proceso no debe ser mas de un 75 p~r ciento de (8 - I), la amplitud del intervalo de valores aceptables]. Indice epic" Cuando los datos muestrales no estan centrados entre los Ifmites de tolerancia, es necesario tener en cuenta el hecho de que el proceso esta funcionando mas cerca de uno de los Ifmites de tolerancia que del otro. La medida resultante, lIamada fndice Cpk' es
s-
X-I]
(18.11)
Cpk = Min [ 36' 36
Una vez mas, se considera que es satisfactorio si su valor es de 1,33 como mfnimo.
EJEMPLO
18.4. Capacidad del proceso de produccion de senales (indices de capacidad)
(
,)
Signal
Considere de nuevo el caso de la duraci6n de una senal emitida por un componente electr6nico y suponga que la direcci6n fija un intervalo de valores tolerables que va de 280 a 320 milisegundos. Averigi.ie si el proceso de producci6n del ejemplo de las senales, que se encuentra en el fichero de datos Signal (Tabla 18.2), es capaz de satisfacer las especificaciones. Utilice las medidas de la capacidad de las ecuaciones 18.10 Y 18.11.
Solucion En el caso de los datos sobre las senales,
x= 299,9
6 = 4,77
1=280
s = 320
Por 10 tanto, el fndice de capacidad es
s - I 320 - 280 Cp = 66 = 6(4,77) = 1,398 EI fndice
Cl'k
es Cl'k
= Min
S-X X- I] [ 3IJ 3IJ = Min (1,405, 1,391) = 1,391 -~-, -~-
En este caso concreto, como los datos muestrales estan, a todos los efectos, centrados, los dos fndices son casi identicos. Ambos son holgadamente superiores a 1,33, 10 que indica que el proceso de producci6n es capaz de satisfacer las especificaciones.
Las Figuras 18.5 y 18.6 son salidas Minitab que dan los valores tanto de Cp como de Cpk del ejemplo 18.4. En la Figura 18.6 vemos, ademas de los valores de los fndices de capacidad, tanto el grafico X como el grafico s, un grafico de los 20 ultimos subgrupos, el histograma de la capacidad y el grafico de probabilidad normal. Una vez evaluada la capacidad del proceso, este es capaz de satisfacer las especificaciones 0 las norm as 0 no 10 es. Supongamos que observamos que el proceso no es capaz de satisfacer las especificaciones. Este tipo de problema debe comunicarse a la direcci6n
748
Estadfstica para administraci6n y economfa
Figura 18.5. «Capability Analysis» (distribuci6n normal) del ejemplo de las sefi ales.
Process Capability for Example 18.4 LSL
USL
Process Data 280 .00000
LSL Target USL Sample Mean Sample N StDev (Witfin) StDev(Overall)
- - Within .- -- - Overall
l
Potential (Within) Capabiity Cp 1.40 CPL 1.40 CPU 1.4 1 Cpk 1.40 CCpk 1.40
320.00000 299 .80000 100 4.74609 4 .63767
Overall Capability
1.44 1.43
Pp PPL PPU Ppk Cpm
282
Figura 18.6. " Capability Sixpack» (distribuci6n normal) del ejemplo de las sefiales.
288
294
Exp. With., Performance PPM < LSL 14 .03 11.21 PPM> USL PPM Total 25.24
Observed Performance PPM < LSL 0 .00 PPM > USL 0 .00 PPM Total 0.00
300
306
312
1.45 1.43
318
Exp. Overall Performance PPM < LSL 9.07 PPM > USL 7 .18 PPM Total 16.25
Timing Signal Example 18.4 Capability Histogram
Xbar Chart
vVvv:I :~ [JiTI1~J 10
12
14
16
18
292
20
S Chart
~
10
.. -::.'1:-:
300
~
~ 300 290
•• , :
:'.
M
ill
20
ffi
•
..•. :,: •
:_.
•
••
•
L - -- - ,- - - - , . . . : : - - - , . - --!.--,J 10 Sample
312
I ~I
280
290
300
310
Capabi Iity Plot
• ":
308
AD : 0.667, P: 0.079
Last 20 Subgroups
310
304
Normal Prob Plot
j]/~~~I :="' 2
296
15
20
With., StDev 4.76515 Cp 1.40 Cpk 1.39 CCpk 1.40
Within
Overall 4.63767 1.44 Pp 1.43 Ppk Cpm * StDev
~
Overall
.--.-..
.
S eel
•
para que 10 analice a fondo y 10 corrija. No es un problema para los trabajadores de la planta, que pueden ser capaces de sefialar el problema, pero que es improbable que puedan resolverlo. Puede que el equipo de capital no sea adecuado para hacer ese trabajo, posiblemente porque se ha deteriorado. Puede que las normas de funcionamiento que se han fijado sean excesiva e innecesariamente optimistas. Cualquiera que sea la raz6n, no es muy util continuar manteniendo el proceso y analizandolo en su estado actual.
Capitulo 18.
Introducci6n a la calidad
749
EI resultado mejor es que se observe que el proceso de producci6n es capaz de satisfacer las normas de funcionamiento. En ese caso, puede mantenerse el proceso de control de calidad. Se debe controlar peri6dicamente y se deben trazar gnificos de calidad. De vez en cuando, es deseable calcular de nuevo los lfmites de control de estos gnificos. Tambien debe comprobarse peri6dicamente la capacidad del proceso. El control de calidad no es meramente una actividad pasiva. Tampoco es s610 un mecanismo para detectar los problemas, aunque es valioso, desde luego, para ese fin. EI objetivo de un ejercicio de control de la calidad es la mejora de la cali dad, que puede concebirse como una reducci6n de la toleI'ancia natural del proceso. Estas mejoras pueden conseguirse concienciandose mas de la importancia de la calidad y de sus fuentes y comprendiendolas mejor cuando los trabajadores participan en la recogida y la interpretaci6n de datos para los estudios de control de calidad.
EJERCICIOS
x
Ejercicios aplicados 18.12. Vuelva al ejercicio 18.6. La direcci6n ha especificado que la fuerza de la emisi6n electrica de los componentes producidos pOI' este proceso debe estar. entre 170 y 215. a) Calcule el intervalo ± 36 Y comente su resultado. b) Halle el fndice de capacidad C" y analice el resultado. c) Halle el fndice Cpk y anal ice el resultado.
x
18.13. Vuelva al ejercicio 18.7. La direcci6n ha especificado que la resistencia de los componentes producidos por este proceso debe estar entre 85 y 1000hmios. a) Calcule el intervalo ± 36 y comente su resultado. b) Halle el fndice de capacidad Cp y analice el resultado. c) Halle el fndice Cpk y anal ice el resultado.
x
18.14. Vuelva al ejercicio 18.8. La direcci6n ha especificado que el peso de la fruta enlatada debe estar entre 18 y 22 onzas.
18.4. Grafico de control de
a) Calcule el intervalo ± 36 y comente su resultado. b) Halle el fndice de capacidad Cp y analice el resultado. c) Halle el fndice Cpk y analice el resultado. 18.15. Vuelva al ejercicio 18.10. La direcci6n ha especificado que los valores de las caracterfsticas de la cali dad de este proceso deben estar entre 130 y 170. El fichero de datos es Exercise 18-10. a) Calcule el intervalo ± 36 y comente su resultado. b) Halle el fndice de capacidad Cp y analice el resultado. c) Halle el fndice Cpk y anal ice el resultado.
x
18.16. Vuelva al ejercicio 18.l1. La direcci6n ha especificado que el peso debe estill' entre 16 y 24 onzas. Utilice el fichero de datos Exercise 18-11. a) Calcule el intervalo ± 36 y comente su resultado. b) Halle el fndice de capacidad Cp y analice el resultado. c) Halle el fndice Cpk y analice el resultado.
x
~orciones
En lugar de analizar datos numericos que midan alguna caracterfstica de un producto, consideremos ahora las situaciones en las que se valoran los productos por separado para ver si se ajustan 0 no a las especificaciones. Una vez mas, se toma una secuencia de muestras a 10 largo del tiempo para evaluar la calidad del producto y se representan los resultados en un grafico de control. Es importante distinguir entre los terminos deJecto y deJectuoso.
750
Estadfstica para administracion y economfa
Defecto y defectuoso "Un defecto es una unica caracteristica de la calidad de un producto que no se ajusta a las especificaciones. Un producto puede tener varios defectos. EI terminG defectuoso se refiere a los productos que tienen uno 0 mas defectos» (vease la referencia bibliografica 5).
Lo que nos interesa es la proporci6n de productos de cada muestra que no se ajustan a las especificaciones, 0 sea, que son defectuosos. Evidentemente, es deseab\e que esta proporci6n sea 10 mas pequena posible, por 10 que cualquier tendencia ascendente a 10 largo del tiempo debe ser motivo de preocupaci6n. Se utiliza el grafico P para controlar la proporci6n de artfculos defectuosos. En el siguiente apartado se analiza el grafico c, que se utiliza para controlar los defectos. Una importante diferencia entre el desarrollo de graficos de control de proporciones y el de graficos del apartado 18.2 es que se necesitan muestras mucho mayores, ya que un proceso de producci6n bien desarrollado no va a generar una elevada proporci6n de productos que no se ajustan a las especificaciones. Por 10 tanto, para hacer una evaluaci6n razonable de esta medida de la calidad, es esencial que la muestra sea relativamente grande. En muchas aplicaciones, se recomienda que la muestra tenga entre 50 y 200 articulos, aunque a menudo es necesario que sea mayor. Una regIa practica que suele emplearse es que el numero medio de artfculos defectuosos por muestra sea, al men os, de cinco 0 seis. As!, por ejemplo, si se espera que alrededor del 1 por ciento de todos los art!culos no se ajuste a las normas, se necesitan muestras de, al menos, 500 0 600 artfculos. Una de las consecuencias de la necesidad de que la muestra sea mayor es que puede ser deseable tomar muestras de distinto tamano. Por ejemplo, puede ser necesario inspeccionar toda la producci6n de un dia 0 de un turno para tener suficientes observaciones. Normalmente, estos numeros no permanecen constantes. Aqui centramos la atenci6n por comodidad en el caso en el que las muestras son del mismo tamano, aunque es bastante sencillo extender el analisis al caso en el que las muestras son de tamafio distinto. Otra cuesti6n importante para desarrollar graficos qe control de proporciones de artfculos defectuosos es el elemento de subjetividad inherente a la generaci6n de datos. Los articulos son valorados por inspectores y, dado el elemento de subjetividad que implica la valoraci6n, es probable que las valoraciones vaden de unos inspectores a otros, por 10 que en los graficos podria haber variabilidad de mas 0 podria parecer que no hay control. Es importante ser consciente de esta posibilidad cuando se interpretan graficos de control de proporciones. Cuando los datos van a ser generados por mas de un inspector, es necesario ser 10 mas especffico posible al principio en la formulaci6n de los criterios para decidir si un articulo es defectuoso 0 no. La ecuaci6n 18.12 permite hallar la media de proporciones muestrales.
Media de proporciones muestrales Se toma a 10 largo del tiempo una secuencia de K muestras, de n observaciones cada una, y se calculan las proporciones de miembros de las muestras que no se ajustan a las normas. Estas proporciones muestrales, representadas por Pi para i = 1, 2, ... , K, pueden representarse en un grafico p. Si las muestras son del mismo tamano, la media de las proporciones muestrales es la proporcion global de artlculos defectuosos. Es decir, K
~
"Pi P=L.,;= 1 K
(18.12)
Capitulo 18.
Introducci6n a la calidad
7S 1
Si el proceso ha funcionado correctamente durante todo el periodo de observacion, puede considerarse que cada una de las muestras se ha extrafdo de una poblacion comun. La proporcion de artfculos defectuosos que hay en esa poblacion se estima pOl' medio de la media de las proporciones muestrales, p. POI' 10 tanto, recordando nuestro analisis anterior de la distribucion muestral de proporciones muestrales, las proporciones muestrales individuales Pi tienen una distribucion muestral de media estimada p y error tfpico
Al igual que en el caso de otras aplicaciones del control de calidad, normalmente en los grMicos de control se fijan lfmites de tres errores tfpicos.
Grafico p EI gratico p es un grafico temporal de la secuencia de proporciones muestrales de artfculos defectuosos en el que el limite central es LCp == p. Los Ifmites de control inferior y superior son
LCI = - - 3 Jp(1 p
P
- p)
y
LCS = P
11
P+ 3 JP( 1 - p)
(18.13)
11
La formula del limite de control inferior de la ecuacion 18.13 puede dar un valor negativo, que es, pOI' supuesto, un valor imposible para una proporcion. En ese caso, el limite de control inferior se fija en O. En to do caso, la superacion del limite inferior normalmente no es motivo de preocupacion. Podrfa significar que el proceso es mas fiable. Sin embargo, otra posibilidad podrfa ser que los inspectores no saben detectar los artfculos defectuosos.
EJEMPLO
18.5.
Componentes electr6nicos defectuosos (grafico p)
Se toman a 10 largo del tiempo veinte muestras, de 200 observaciones cada una, de un componente electronico. EI numero y la proporcion de componentes de cada muestra que no se ajustan a las normas se muestran en la Tabla 18.3 y se encuentran en el fichero de datos Nonconforming Components. Construya el grafico P correspondiente a estos datos. Tabla 18.3.
Muestra 1 2 3 4 5 6 7 8 9 10
Artfculos defectuosos en las muestras de 200 componentes electr6nicos.
N. O de articulos defectuosos 18 15 23 9 17 29 11
21 25 14
p
Muestra
N. o de articulos defectuosos
0,090 0,Q75 0,115 0,045 0,085 0,145 0,055 0,105 0,125 0,070
11 12 13 14 15 16 17 18 19 20
19 26 11 28 22 14 25 17 23 18
~
~
P
0,095 0,130 0,055 0,140 0,110 0,Q70 0,125 0,085 0,1 IS 0,090
752
Estadfstica para administraci6n y economfa
Solucion
La media de estas proporciones muestrales es
P= (0,090 + 0,075 + .. , + 0,090)/20 = 0,09625 La Figura 18.7 muestra el grMico P cOlTespondiente a los datos de la Tabla 18.3. La !fnea central del gnifico es LCI' =
P=
0,09625
El Ifmite de control inferior es LCII' = P - - 3
JP( 1 n- p)
=
0 ,09625 - 3
(0,09625)(0,90375) 200
=
0,09625 - 0,06256
= 0,03369 y el limite de control superior es
LCSI' =
P+ 3 Jp(1 : p) =
0,09625
+3
(0,09625)(0,90375) 200
=
0,09625
=
0,15881
+ 0,06256
En la Figura 18.7 puede verse que todas las proporciones muestrales se encuentran entre los lfmites de control y que la inmensa mayorfa se encuentran muy lejos de estos lfmites. Parece que hay una variabilidad holgadamente alta en la cali dad, que podrfa merecer una investigaci6n en profundidad. Sin embargo, viendo el grafico serfa razonable concluir que el proceso esta bajo control. En ese caso, en las condiciones actuales, alrededor del 9,6 por ciento de todos los artfculos producidos no se ajusta a las normas. 0.17 -----------------------------.
c
UCL=0.1588
0.12
o t o
[5=0.09625
0..
2 0...
0.07
LCL=0.03369 0.02 ----,,_ _ _ _ _ _ _,--_ _ _ _ _ _,--'
o
10
20
Sample Number Figura 18.7. Grafieo p de los datos de los eomponentes defeetuosos de la Tabla 18.3.
Capitulo 18.
Introducci6n a la calidad
753
La interpretacion de los gnificos p es similar a la de los graficos del apartado 18.2. Se investigan con mayor profundidad los val ores muestrales que se encuentran fuera de los lfmites de control y, si se encuentran las causas asignables de los valores extremos, se eliminan y se calculan de nuevo los lfmites de control. Un motivo de especial preocupacion serfa la aparicion de una tendencia ascendente a 10 largo del tiempo en un grafico p. Esa tendencia sugerirfa que puede estar aumentando la proporcion de artfculos defectuosos, es decir, que puede estar empeorando la calidad. Una vez que se ha llegado a la conclusion de que el proceso esta bajo control, pueden utilizarse los lfmites para evaluar mas datos. Sin embargo, al igual que ocurre con otros graficos de control, es bueno calcular los lfmites de control periodicamente para tener en cuenta las mejoras del funcionamiento a medida que avanza el estudio de control de calidad. Naturalmente, este analisis de los artfculos defectuosos puede revelar que estan produciendose demasiados artfculos que no se ajustan a las normas. En ese caso, puede ser deseable y posible hacer un analisis mas detenido por medio de diagramas de Pareto. En el Capitulo 2 vimos que este tipo de grafico es esencialmente un grafico de barras, que afsla las causas por las que hay artfculos defectuosos. Se enumeran los distintos problemas de estos artfculos y se calcula el numero de artfculos que hay en cada categorfa. Los graficos de barras pueden organizarse para mostrar el numero de productos que tienen diferentes tipos de defectos 0 los costes totales de corregir estos defectos. Con estos graficos, la direccion debe ser capaz de hacerse rapidamente una idea de donde es necesario concentrar los esfuerzos para lograr la maxima reduccion de la tasa de productos defectuosos 0 del coste de rehacer esos productos. De esta manera, el estudio de control de cali dad habra hecho una valiosa contribucion a la resolucion de los problemas.
EJERCICIOS
Ejercicios aplicados 18.17. En el estudio de componentes de autom6viles, se tomaron 30 muestras de 250 observaciones cada una. La media de las proporciones muestrales de pie.zas defectuosas era 0,056. Halle la lfnea central y los Ifmites de control inferior y superior del gnifico p. 18.18. En el estudio de las piezas de aviones, el fabricante tomo 25 muestras de 500 observaciones cada una. La media de las proporciones muestrales de piezas defectuosas era O,OlS. Halle la lfnea central y los lfmites de control inferior y superior del gnifico p. 18.19. (.oj El fichero de datos Exercise 18-19 muestra las proporciones de artfculos defectuosos de una secuencia de 30 muestras de 200 observaciones cad a una. a) Halle la linea central y los lfmites de control inferior y superior del gnlfico p.
b) Trace el gnifico p y analice sus caracteristicas. 18.20.
f., EI fichero de datos Exercise 18-20 muestra las proporciones de artfculos defectuosos de una secuencia de 20 muestras de 500 observaciones cada una. a) Halle la linea central y los lfmites de control inferior y superior del grafico p. b) Trace el gnlfico p y analice sus caracteristicas .
18.21. (" ~ EI fichero de datos Exercise 18-21 muestra el numero de artfculos defectuosos de una secuencia de 25 muestras de 250 observaciones cada una. a) Halle la media de las proporciones muestrales. b) Halle la linea central y los Ifmites de control inferior y superior del grMico p. c) Trace el grafico p y anal ice sus caracterfsticas.
754
Estadfstica para administraci6n y economfa
18.5. Graficos de control del nlirnero de ocurrencias _
~
_ ~ . ,
_.
_"'''M_~. '
___
Recuerdese que la distribucion de Poisson a menudo es util para representar el numero de ocurrencias de un suceso. Una aplicacion habitual en el control de la calidad es inspeccionar un producto acabado y contar el numero de defectos 0 imperfecciones de un determinado tipo. Si se inspeccionan artfculos a 10 largo del tiempo y se cuenta el numero de imperfecciones de cada uno, esta informacion puede presentarse en un grafico de control, Hamado grafico c. He aquf algunas notaciones generales que se utilizan en los graficos de control del numero de ocurrencias.
Numero medio muestral de ocurrencias Se inspecciona a 10 largo del tiempo una secuencia de K articulos. Se anota el numero de ocurrencias de algun suceso, como una imperfecci6n, en cada articulo. Estos numeros de ocurrencias se representan por medio de c; para i = 1, 2, ... , K. EI numero medio muestral de ocurrencias es _ C
K
=
"Ci
(18.14)
1.... -
i=1
K
EI numero medio muestral de ocurrencias, C, es una estimacion de la media poblacional. Ademas, si la distribucion del numero de ocurrencias es una distribucion de Poisson, la desviacion tfpica de la distribucion es la rafz cuadrada de la media:
EI grafico de control del numero de ocurrencias puede construirse de la forma habitual.
Grafico
c
EI grafico c es un grafico temporal del numero de ocurrencias de un suceso. La linea central es (18.15) Para los limites de tres errores tipicos, el limite de control inferior es
LCIc = C - 3fi si LClc = 0 si
c>
9
c:::;; 9
(18.16)
y el limite de control superior es
LCSe =
c + 3fi
(18.17)
EJEMPLO 18.6. Grafico c de un fabricante de textiles (grafico c) Un fabricante de textiles produce rollos de tela. Periodicamente inspecciona detenidamente un rolla y anota el numero de imperfecciones. La Tabla 18.4 muestra una secuencia de 20 resultados anotados a 10 largo del tiempo. En este tipo de situaciones, conviene que sea el mismo inspector el que examine cada pieza. En ese caso, las tendencias aparentes que se observen no se deber<;'in a diferencias de criterio 0 de experien-
Capitulo 18.
Tabla 18.4.
Introducci6n a la calidad
755
Numero de imperfecciones de los rollos de tela.
Rollo de tela
N.o de imperfecciones
Rollo de tela
N.o de imperfecciones
1
8
8
2 3 4
8
9
2 3
6
10
10
8
11
5 6 7
9 5 7
12 13 14
7 6 8
Rollo de tela
N.o de imperfecciones
15 16 17 18
1 7 9 11
19 20
9 6
2
cia de los inspectores. Construya el gr:ifico c. Los datos se encuentran en el fichero de datos Cloth. Cloth
Solucion En este ejemplo, el numero medio de imperfecciones por rollo de tela es c = (8 + 8 + + ... + 6)/20 = 6,6. Esta es una estimaci6n natural de la media poblacional del numero de impelfecciones pOl' rollo. La desviaci6n tfpica del numero de ocurrencias se estima de la siguiente manera: yIc = )6,6 = 2,569
c-
Dado que 3)6,6 serfa negativo, el Ifmite de control inferior es LCIe = O. EI Ifmite de control superior es LCSe = C + 3y1c = 6,6
+ 3)6,6 =
14,31
La Figura 18.8 muestra el gr:ifico c correspondiente a los datos de la Tabla 18.4. La inspecci6n de este gnifico c sugiere que no hay motivo aJguno de preocupaci6n. Las observaciones se encuentran todas elIas muy por debajo del Ifmite de control superior y no existen pruebas de que este aumentando el numero de imperfecciones con el paso del tiempo. Parece, pues, que el proceso de producci6n esta bajo control. 15
...... c
::J 0
- -- -- -- - -- -- -- -- -- -- -- -- - -- -_.
UCL=14.31
10
0
ill
c=6.6
D..
E ro
5
(fJ
o
LCL=O
o
10
20
Sample Number Figura 18.8. Gnl.fico
c del fabricante de textiles.
756
Estadfstica para administraci6n y economfa
EJERCICIOS
Ejercicios aplicados 18.22. ~ Y Un proceso produce rollos de pape! recubierto. Se inspecciona en distintos periodos de tiempo una secuencia de 20 rollos y se anota el numero de imperfecciones. Los resultados se encuentran en el fichero de datos Paper. a) Halle el numero medio muestral de imperfecciones por rollo. b) Halle la lfnea central y los limites inferior y superior de un grMico c. c) Trace el grMico c y anal ice sus caracterfsticas.
a) Halle el numero medio muestral de errores de estas 20 ediciones. b) Halle la lfnea central y los lfmites inferior y superior de un grMico c. c) Trace el grMico c y anal ice sus caracteristicas. 18.24. ~ "I Un proceso fabrica bollitos de pasas. Peri6dicamente se inspecciona uno y se cuenta el numero de pas as que contiene. EI fichero de datos Raisins muestra los resultados de 15 bollitos. a) Halle el numero medio muestral de pasas por boHito. b) Halle la lfnea central y los lfmites inferior y superior de un gnifico c. c) Trace el grMico c y anal ice sus caracteristicas.
18.23. If .. Ellector de un peri6dico 10 ha lefdo detenidamente durante 20 semanas. En la edici6n de los miercoles ha contado el numero de errores tipogrMicos. Los resultados se encuentran en el fichero de datos Newspaper.
RESUMEN Los gnificos de control estadistico de este capitulo suministran la informacion necesaria para hacer un ana!isis documentado del nivel actual de calidad. Estos metodos no son diffciles de entender y el enfasis en los grMicos hace que la interpretacion de los datos sea relativamente sencilla. Eso es importante, ya que permite acceder a la informacion a una amplia variedad de empleados sin necesidad de que entiendan diffciles conceptos estadisticos. De hecho, la comprension de la variabilidad y de sus causas deberia ser de gran ayuda para interpretar de una forma inte!igente los datos. Ningun proceso genera productos absolutamente identicos. Es inevitable que haya alguna variabilidad natural atribuible al azar. Un importante elemento del control de calidad es el reconocimiento de pautas en las medici ones que probablemente no se deban a la variabilidad natural sino que sean un indicio de la existencia de alguna causa estructural que debe investigarse.
i
Este capitulo no es mas que una introducci6n a algunos metodos estadfsticos que se emplean en la mejora continua de los procesos. Los grMicos de control no son en modo alguno los unicos instrumentos de los que se dispone. Para un programa de mejora de un proceso son esenciales los grMicos de flujos, los diagramas de Ishikawa (que suelen llamarse diagramas de espina de pescado 0 de causa-efecto), los diagramas de Pareto (Capitulo 2), los diagramas de puntos dispersos (Capitulo 2) y otras tecnicas que quedan fuera del alcance de este Iibro. Para profundizar en estas cuestiones, veanse las notas y algunas paginas web que se indican al final del capitulo con el fin de obtener informacion sobre las ideas relativas a la cali dad, los premios a la calidad, los seminarios en lfnea, los libros sobre la calidad y organizaciones como el Deming Institute y el Juran Institute. En este capftulo hemos utilizado el programa Minitab por su sencillez y precision. Tambien existen otros paquetes estadfsticos.
l . _. _~~_ ._
TERMINOS CLAVE
causas asignables de la variacion, 733 causas comunes de la variacion, 733 defecto, 750 defectuoso (que no se ajusta a las especificaciones), 750
desviacion tipica del proceso, 736 estimacion de la desviacion tfpica del proceso basada en intervalos, 761 estimacion de la desviacion tfpica del proceso basada en s, 736
grafico grafico grMico grMico grafico
c, 754 p, 751 R, 759 s, 740
X, 739
Capitulo 18.
fnd ice Cp , 746 fndice Cl'k' 747 fndice de capacidad, 746
Introducci6n a la calidad
lfmites de especificaci6n, 745 no se ajusta a las especificaciones, 750 pautas fuera de control, 742
757
proceso estable, 734 toleranci a natural , 747
EJERCICIOS V APLICACIONES DEL CAPITULO IS.25. f ' I Un fabricante de tornillos de precisi6n debe producir tornillos para un autom6vil de lujo que tengan una fuerza media de 60.000 libras por pulgada cuadrada (psi). Cada 15 minutos se comprueba la fuerza de cuatro tornillos. EI fichero de datos Bolts contiene los datos de un periodo de 3 horas . Trace el gnifico X y el gnifico s utilizando el program a Minitab. IS.26. ( ~ Vuelva al fichero de datos Bolts del ejercicio 18.25. Halle los siguientes fndices de cap acidad del proceso utilizando eI programa Minitab con LCI = 58.500 Y LCS = 61.500. a) «Capability Analysis» (distribuci6n normal). b) «Capability Sixpack» (distribuci6n normal). IS.27. (i ~ Construya e interprete el gnifico p utilizando el programa Minitab 0 algun otro para el fichero de datos Exercise IS-21. IS.2S. ~ I!j Halle el gnifico c utilizando el programa Minitab 0 algun otro para los ficheros de datos: a) Paper (ejercicio 18.22). b) Newspaper (ejercicio 18.23). e) Raisin (ejercicio 18.24). IS.29. Distinga entre cada uno de los siguientes pares de terminos: a) Un proceso bajo control y un proceso capaz de funcionar de acuerdo con unas especificaciones. b) Variabilidad natural y causas asignables. IS.30. En los estudios de control de calidad es habitual emplear Ifmites de tres en'ores tfpicos para trazar los gnificos. Explique la raz6n y las consecuencias. IS.31.
i
1') EI fichero de datos Exercise IS-31 contiene las medias y las desviaciones tfpicas muestrales de una sucesi6n de 20 muestras de cinco observaciones cada una sobre una caracterfstica de la cali dad de un producto. a) Halle la media global de las observaciones muestrales. b) Halle la desviaci6n tfpica muestral media. e) Utilice un estimador insesgado para estimar la desviaci6n tfpica del proceso.
d) Halle la linea central y los lfmites de control inferior y superior de un grMico X. e) Trace el gnifico X y anal ic e sus caracterfsticas. f) Halle la Ifnea central y los Ifmites de control inferior y superior de un grMico s. g) Trace el gnifico s y anal ice sus caracterfsticas. h) La direcci6n ha especificado que el valor de la caracterfstica de la calidad para este proceso debe estar entre 115 y 125. i. Calcule el intervalo ± 30: y comente su resultado. ii. Halle el fndice Cp y analice el resultado. iii. Halle el fndice Cpk y analice el resultado.
x
IS.32. ' ; EI fichero de datos Exercise IS-32 muestra las medias y las desviaciones tfpicas muestrales de una sucesi6n de 25 muestras de ocho observaciones cada una sobre una caracterfstica de la cali dad de un producto. a) Halle la media global de las observaciones muestrales. b) Halle la desviaci6n tfpica muestral media. e) Utilice un estimador insesgado para estimar la desviaci6n tfpica del proceso. d) Halle la Ifnea central y los limites de control inferior y superior de un grMico X. e) Trace el gn'ifico X y anal ice sus caracterfsticas. f) Halle la linea central y los Ifmites de control inferior y superior de un grMico s. g) Trace el gn'ifico s y analice sus caracterfsticas. h) La direcci6n ha especificado que el valor de la caracterfstica de la calidad para este proceso debe estar entre 325 y 375. i. Calcule el intervalo ± 30: y co mente su resultado. ii. Halle el fndice Cp y analice el resultado. Ill. Halle el fndice Cpk y analice el resultado. iv. Utilice el program a Minitab para responder a los apartados (a) a (h).
x
IS.33. , f EI fichero de datos Exercise IS-33 muestra las proporciones de artfculos defectuosos en una
758
Estadfstica para administraci6n y economfa
secuencia de 20 muestras de 500 observaciones cada una.
18.37.
a) Halle la media de las proporciones muestrales. b) Halle la Ifnea central y los Ifmites de control inferior y superior de un gnifico p. c) Trace el gnifico p y analice sus caracterfstic as. d) Utilice el programa Minitab para trazar el graiico p. 18.34. Iii '1 Unos grandes almacenes han registrado el numero de reclamaciones que han presentado los clientes en un periodo de 18 semanas. Los resultados se encuentran en el fichero de datos Complaints. a) Halle el numero semanal medio muestral de reclamaciones. b) Halle la Ifnea central y los Ifmites de control inferior y superior de un gnifico c. c) Trace el grafico c y analice sus caracterfsticas. d) Utilice el programa Minitab para trazar el graiico c. 18.35. ~ J EI fichero de datos Exercise 18-35 muestra las observaciones muestrales de una secuencia de 16 muestras de cuatro observaciones cada una sobre una caracterfstica de la calidad de un producto. a) Halle las 16 medias muestrales y desviaciones tfpicas muestrales. b) Halle la media global de las observaciones muestrales. c) Halle la desviacion tipica muestral media. d) Utilice un estimador insesgado para estimar la desviacion tfpica del proceso. e) Halle la Ifnea central y los Ifmites de control inferior y superior de un graiico X. f) Utilice el programa Minitab 0 algun otro para trazar el graiico X y el graiico s. g) Halle la linea central y los limites de control inferior y superior de un graiico s. h) Trace el graiico s y analice sus caracterfsticas. 18.36. Averigiie si es mas probable que cada una de las causas siguientes sea una causa comun 0 una causa asignable: a) b) c) d) e)
Mala iluminacion Elevado grado de humedad Sustitucion de un operario Ajuste incorrecto de la maquina Anotacion incorrecta de los datos
) Un producto de consumo que ha prosperado en los ultimos afios es el agua mineral embotellada. Jon Thorne es el director general de una empresa que vende agua mineral embotellada. Ha pedido un informe del proceso mediante el cual se lien an las botellas de 24 onzas (710 ml) para asegurarse de que estan llenandose correctamente. Para comprobar si el poceso debe ajustarse, Emma Astrom, que 10 controla, toma muestras aleatorias y pesa cinco botellas cada 15 minutos durante un periodo de 5 horas. Los datos se encuentran en el fichero de datos Bottles. a) Trace el graiico X y el graiico s de este problema. b) Busque las causas asignables y averigiie si el proceso es estable. c) Si el Ifmite de especificacion inferior es 685 ml y el superior es 730 ml, halle la capacidad del proceso.
18.38. (i. ~ Prairie Flower Cereal Inc. es un productor pequefio, pero en expansion, de cereales de desayuno que solo deben calentarse para comerlos. Gordon Thorson, pro spero agricultor que cultiva cereales, creo la empresa en 1910 (vease la referencia bibliograiica 1). Se Ie ha pedido que compruebe el proceso de empaquetado de cajas de cereales de trigo azucarados de 18 onzas (510 gramos). En el proceso de empaquetado se utilizan dos maquinas. Se toman aleatoriamente veinte muestras de cinco cajas cada una y se pesan. Los datos se encuentran en el fichero Sugar Coated Wheat. Los Ifmites de especificacion inferior y superior se han establecido en 500 y 525 gramos, respectivamente. a) A verigiie si el proceso de empaquetado de la maquina 1 esta bajo control. b) A verigiie si el proceso de empaquetado de la maquina 2 esta bajo control. c) i,Es la maquina 1 capaz de cumplir los Ifmites de especificacion? d) i,Es la maquina 2 capaz de cumplir los limites de especificacion? e) i,Que recomendaciones harfa a Prairie Flower Cereal Inc. sobre el proceso de empaquetado de cereales de trigo azucarados? 18.39.
"!I
Otro producto empaquetado por Prairie Flower Cereal Inc. es el de cereales con canela y manzana. Para comprobar el proceso de empaquetado de cajas de este cereal de 40 onzas (1.134 gramos), se toman aleatoriamente 23 muestras de seis cajas cada una y se pesan.
Capitulo 18.
Los Ifmites de especificaci6n inferior y superior se han fijado en 1.120 y 1.150 gramos, respectivamente. Los datos se encuentran en el fichero de datos Granola.
Introducci6n a la calidad
759
su centro de trabajo. LOS , importante proveedor de los fabricantes de autom6viles, quiere estar seguro de que la tasa de incidencia de fugas (en centfmetros cubicos por segundo) de los enfriadores del aceite de la transmisi6n (TOC) satisface los Ifmites de especificaci6n establecidos. Se comprueban muestras aleatorias de enfriadores y se registran las tasas de incidencia de fugas en el fichero de datos TOe. Compruebe si el proceso es estable. EI tamafio de los subgrupos es de cinco.
a) i,Es estable el proceso de empaquetado? b) Si es estable, averigiie la capacidad del proceso para satisfacer las especificaciones dadas. 18.40. ( } Al Fiedler, director de planta de LOS Vacuum Products, que se encuentra en Altamonte Springs (Florida), aplica la teorfa estadfstica en
Apen die e Antes de que existieran los program as informMicos, para examinar la variabilidad de los procesos se utilizaban mas a menudo graficos R de los intervalos que graficos s de las desviaciones tipicas, ya que para los trabajadores de la planta era mas facil calcular la diferencia entre el mayor valor muestral y el men or que calcular las desviaciones tfpicas muestrales. Si el grafico R mostraba que el proceso era estable, se examinaba el grafico X bas ado en intervalos muestrales. Aqui analizamos el grafico R para completar el estudio.
1. Grafico R Las ecuaciones 18.18 y 18.19 son la lfnea central y los lfmites de control del grMico R.
Gnifico R EI grafico R es un gratico temporal de la secuencia de intervalos que tiene la linea central
(18.18) y los limites de control
(18.19) donde las constantes 03 y 04 se indican en la Tabla 13 del apendice. La Tabla 18.5 contiene algunas constantes del grcHico de control.
Tabla 18.5.
Algunas constantes de los graficos de control.
n
d2
A2
2 3 4 5 6 7 8 9 10
1,128 1,693 2,059 2,326 2,534 2,704 2,847 2,970 3,078
1,88 1,02 0,73 0,58 0,48 0,42 0,37 0,34 0,31
D3 0 0 0 0 0 0,08 0,14 0,18 0,22
D4 3,27 2,57 2,28 2,11 2,00 1,92 1,86 1,82 1,78
760
Estadfstica para administraci6n y economfa
A continuaci6n hallamos el gnifico R correspondiente al fichero de datos Signal (ejemplo 18.1). Los intervalos muestrales se indican en la Tabla 18.6. Tabla 18.6.
Intervalos muestrales correspondientes al ejemplo de las senales.
Muestra
R
1
2 3 4 5
Muestra
R
Muestra
7 7 10
6
12
7
9
8
13 16
9 10
15 12 13
R
Muestra
11
11
16
12 13 14 15
13
17
8
21 6 8
18 19 20
11 11
R 7
8
EI intervalo muestral medio es
R=
(7
+ 7 + ... + 8)/20 = 10,9
Utilizando las ecuaciones 18.18 y 18.19, la linea central del gnifico R es LCR =
R=
10,9
Si el tamafio de los subgrupos es n = 5, los limites de control son LCIR
=
D3R
=
0(10,9)
=
0
y
LCS R = D4R
Trazamos los intervalos muestrales en el grMico R tenemos la Figura 18.9. Figura 18.9. Gratico de intervalos del ejemplo de las seFiales.
0
=
(2,11)(10,9)
=
23
utilizando el programa Minitab y ob-
UCL=23 .05 20 Q)
OJ
c ro
0:: Q)
D-
R=10.9
10
E ro
(f)
0
LCL=O
o
10
20
Sample Number
2. Grafico X y grafico R Dado que la inspecci6n del grMico R no indica que hay a motivo alguno para preocuparse, ahora desarrollamos el gnifico X bas ado en intervalos.
Capitulo 18.
Introducci6n ala calidad
761
Grafico X basado en intervalos EI grafico X basado en intervalos es un grafico temporal de la secuencia de medias que tiene la linea central
LCx=x
(18.20)
y los IImites de control
(18.21 ) donde A2 se encuentra en la Tabla 13 del apendice. La Tabla 18.5 muestra algunos valores de A 2 . Puede demostrarse que
(18.22)
x
En el ejemplo 18.1 observamos que la media global era = 299,9 Y en la Tabla 13 del apendice 0 en la 18.5 vemos que con n = 5, el valor de la constante A2 es 0,58. Los limites de control son, pues, LClx =
x - A2R = 299,9 -
LCSx =
x + A2R =
(0,58)(10,9) = 293,6
y
299,9
+ (0,58)(10,9) = 306,2
Ahora utilizamos los datos de Signal para obtener tanto el grafico (vease la Figura 18.10). Figura 18.10. Grafico X y gratico R del ejemplo
X como
el R juntos
XBar-R Charts for Timing Signal Example 307
de las se fiales.
1-==================-1
v V
V\7
UCL=306.2
Mean=299.9
LCL=293.6 292
Subgroup
gj,
20
---<-r---- - -- - , - - - - - - - - - - - , - - ' 0
10
20
I========~========~
UCL=23.05
ffi
a:
~
~
R=10.9
10
o
~----------------~
LCL=O
Estimaci6n de la desviaci6n tfpica del proceso basada en intervalos La ecuaci6n 18.23 es una estimacion de la desviacion tipica del proceso basada en intervalos:
a = RId:. donde d2 se encuentra en la Tabla l3 del apendice.
(18.23)
762
Estadfstica para administraci6n y economfa
En el ejemplo de las sefiales, la estimaci6n de la desviaci6n tfpica del proceso es, pues, (j =
R/d2
=
10,9/2 ,326
=
4,69
Ahora puede calcularse la capacidad del proceso, Cp y Cpk , por medio de las ecuaciones 18.10 y 18.11, utilizando esta estimaci6n de la desvi aci6n tfpica del proceso.
Bibliograffa 1. 2. 3. 4. 5. 6.
7. 8. 9. 10. 11. 12.
Carlson, William L., Cases in Managerial Data Analysis, San Francisco, Duxbury Press, 1997. Deming, W. Edwards, Out of the Crisis, Cambridge, MIT Center for Advanced Engineering Study, 1986. Deming, W. Edwards, The New Economics for Business, Industry, and Government, Cambridge, MIT Center for Advanced Engineering Study, 1993. Evans, James R., Production/ Operations Management: Quality, Performance, and Value, Minneapolis/ St. Paul, MN, West Publishing Company, 1997, 5." ed. Evans, James R. y William M. Lindsay, The Management and Control of Quality, Cincinnati, OH, Southwestern College Publishing, 2005 , 6.' ed. Fiedler, Alfred W., LDS Vacuum Products Study: Delphi Leak Detector # 1, Altamonte Springs, FL, LDS Vacuum Products, 2000. Juran, Joseph M., Juran on Quality by Design, Nueva York, Free Press, 1995, revision. Juran, Joseph M. y A. Blanton Godfrey, Ju ran's Quality Handbook, Nueva York, McGraw-Hill , 1999, 5.' ed. «Statistical Thinking», ASQ Statistics Division Newsletter, Speci al Publication, 1996. Taguchi, Genichi, Introduction to Quality Engineering, Tokio, Asian Productivity Organization, 1986. Walton, Mary, The Deming Management Method, Nueva York, Putnam Publishing Group, 1986. Zimmerman, Steven M. y Marjorie L. Icenogle, Statistical Quality Control Us ing Excel, Milwaukee, WI, ASQ Quality Press, 2002, 2." ed.
Algunas direcciones actuales de paginas web de interes
Direccion
Organizacion
www.asq .org www .deming.org www.efqm.org www.nist.gov www.juran.com www.nokia.com www.philipcrosby.com www.qualitypress .asq.org
American Society for Quality (ASQ) W. Edwards Deming Institute European Foundation for Quality Management National Institute of Standards and Technology Juran Institute Noki a Philip Crosby Associates II, Inc. ASQ On-Line Bookstore
Analisis de series temporales y predicci6n / /
Esquema del capitulo 19.1.
Numeros indice indice de precios de un unico articulo i~ice de precios agregado no ponderado in ice de precios agregado ponderado i dice de cantidades agregado ponderado Cambio del periodo base 19.2. Un contraste no parametrico de aleatoriedad 19.3. Componentes de una serie temporal 19.4. Medias m6viles Extracci6n del componente estacional por medio de medias m6viles 19.5. Suavizaci6n exponencial Modelo de predicci6n por medio de la suavizaci6n exponencial con el metodo Holt-Winters Predicci6n de series temporales estacionales 19.6. Modelos autorregresivos 19.7. Modelos autorregresivos integrados de medias m6viles
Introducci6n En este capitulo presentamos metodos para analizar conjuntos de datos que contienen mediciones de varias variables a 10 largo del tiempo. Ejemplos de datos de series temporales son las ventas mensuales de un producto y los tipos de interes, los beneficios empresariales trimestrales y el consumo agregado y las cotizaciones al cierre de la bolsa.
Serie temporal Una serie temporal es un conjunto de mediciones, ordenadas en el tiempo, sobre una cantidad de inten!s. En una serie temporal, la secuencia de observaciones es importante, a diferencia de 10 que ocune en los datos de corte transversal, en el que la secuencia de observaciones no es importante. Los datos de series temporales normal mente poseen caracteristicas especiales -relacionadas con la secuencia de observaciones- que exigen el desarrollo de metodos de anal isis estadistico especiales. Casi todos los metodos de anal isis de datos y de inferencia que hemos desarrollado se basan en el supuesto de que las muestras son
764
Estadfstica para administracion y economfa
aleatorias, en concreto, de que los errores de las observaciones son independientes. EI supuesto de la independencia raras veces es realista en el caso de los datos de series temporales. Consideremos, por ejemplo, una serie de ventas mensuales de un producto manufacturado y observemos las razones posibles por las que no son independientes. Si el mes pasado las ventas fueron superiores a la media, es razonable esperar que continuen siendo altas, ya que no es probable que cambie bruscamente la situacion de la economfa y de las empresas. Por 10 tanto , es de esperar que las ventas de meses contiguos sean similares. Tambien observamos que las ventas de muchos productos tienen una pauta estacional: los pantalones cortos y los banadores se venden mas en primavera y a principios del verano que en invierno. Muchas tiendas minoristas venden mas en el cuarto trimestre debido a las compras de regalos de Navidad. Estos y otros muchos ejemplos demuestran la ausencia de independencia. La ausencia de independencia entre las observaciones de series temporales plantea serios problemas si se utilizan con datos de series temporales los metodos estadfsticos convencionales, que suponen que las observaciones son independientes. Ya vimos el problema en el apartado 14.7 cuando analizamos las dificultades que se plantean si se utilizan metodos convencionales de regresion cuando los errores estan correlacionados . EI supuesto de la independencia es fundamental; tambien pueden plantearse otros problemas serios si se utilizan metodos convencionales cuando las observaciones son dependientes. En este capftulo, centramos la atencion en los metodos de anal isis de series temporales que se utilizan cuando hay una unica serie temporal. Hemos analizado el aspecto negativo de los tipos de pautas de dependencia que es probable que aparezcan en los datos de series temporales. Estos problemas son reales y requieren metodos especiales. Sin embargo, esta dependencia tam bien puede explotarse para realizar predicciones de los futuros valores de los datos de series temporales cuya varianza es menor. Por ejemplo, si hay una correlacion entre errores de meses contiguos en una serie de ventas al por menor, esa correlacion puede utilizarse para hacer una prediccion de las ventas del proximo mes mejor que una prediccion basada en una muestra aleatoria. Presentaremos metodos basados en el supuesto de que las pautas anteriores de relacion entre mediciones de una serie temporal se mantendran en el futuro y pueden utilizarse para hacer predicciones, 10 cual es como afirmar que podemos aprender en realidad del estudio de la historia. En el primer apartado desarrollamos numeros fndice, que se utilizan en algunos estudios economicos. Los metodos de anal isis de series temporales que se presentan en los apartados posteriores no requieren el conocimiento de los numeros fndice. Se incluyen aquf para hacer una presentacion completa de los temas relacionados con el analisis de series temporales.
19.1. Numeros fndice Nuestro analisis comienza con el desarrollo de numeros fndice . Consideremos, a modo de introduccion, la siguiente pregunta: l,que variaciones ha experimentado el precio de los automoviles fabricados en Estados Unidos en los 10 tiltimos afios? Ni que decir tiene que ha subido, pero l,como puede describirse cuantitativamente esta subida? A primera vista, no parece que sea muy diffcil responder a esta pregunta. EI primer paso serfa recoger informacion sobre el precio de estos automoviles en cada uno de los 10 ultimos afios y representarlo en un gr:ifico temporal. Sin embargo, el analisis detenido del problema podrfa plantear algunas preguntas. En primer lugar, observamos que los automoviles no son homogeneos, por 10 que es necesario definir con mas precision el tipo de automovil. Existe claramente una amplia variedad de
Capitulo 19.
Analisis de series temporales y predicci6n
765
precios y de calidades y la variacion del precio medio de todos los automoviles vendidos podrfa deberse meramente a un cambio de la pauta de compra: ~se venden automoviles de precio mas alto? En este caso, el precio medio subirfa, porque tenemos automoviles de precio mas alto. Otros cambios de la combinacion de mere ado podrfan provocar otras variaciones de la media. La Tabla 19.1 muestra un sencillo ejemplo hipotetico de un mercado en el que solo hay automoviles de precio bajo y automoviles de precio alto. Observese que el precio medio baja, pero que esta bajada se debe a que en la mezcIa hay mas automoviles de precio bajo y menos de precio alto. Esta forma de comparar el precio de los automoviles de dos afios diferentes no es especialmente uti!. Tabla 19.1.
Datos hipoteticos sobre los precios y las ventas de automoviles.
Automoviles pequeDos
ADO
1 2
Precio (miles de dolares)
10 11
)
Automoviles de lujo
Numero vendido (miles)
Precio (miles de dolares)
Ntimero vendido (miles)
5 15
30 33
IS
5
Todos los automoviles Precio medio (miles de dolares)
25,0 16,5
Otra solucion es caIcular el precio medio considerando un unico automovil de cada tipo, como en la Tabla 19.2. Este metoda tambien tiene problemas, porque tenemos un mercado en el que los automoviles pequefios son considerablemente mas populares que los de lujo. El precio de los primeros es el mismo en los dos afios, mientras que el de los segundos se duplica. Como consecuencia, la media calculada considerando un unico automovil de cada tipo es mucho mas alta en el segundo ano. Pero esta media no refJeja exactamente la situacion, ya que da el mismo peso a los dos tipos de automovil cuando, en realidad, los automoviles pequenos se compran mucho mas a menudo. Tabla 19.2.
Datos hipoteticos sobre los precios y las ventas de autom6viles: igual ponderacion.
Automoviles pequeDos
ADO
1 2
Automoviles de lujo
Todos los automoviles
Precio (miles de dolares)
Numero vendido (miles)
Precio (miles de dotares)
Numero vendido (miles)
Precio medio de cada tipo de automovil (miles de dolares)
10
100 100
24 48
1 1
29
10
17
Estos ejemplos demuestran que, para hacernos una idea fiable de la pauta general de los precios a 10 largo del tiempo, hay que tener en cuenta las cantidades compradas en cada periodo. Veremos como pueden caIcularse medias ponderadas adecuadas. Se plantea el mismo problema si los compradores compran mas automoviles con mas extras el segundo ano que el primero. En ese caso, compran implfcitamente automoviles de mayor calidad que en el primer ano. Podrfamos exarninar solamente los precios de los automoviles sin extras para hacer una comparacion valida. Las mejoras tecnologicas plantean otra dificultad. No es sorprendente observar que los automoviles actuales consumen menos gasolina y duran mas que los que se fabricaban ha-
766
Estadfstica para administracion y economfa
ce 20 0 30 afios. Por 10 tanto, los cambios de la calidad pueden influir mucho en las subidas de los precios. Es muy importante tenerlos en cuenta cuando se hacen comparaciones de precios, pero las tecnicas para analizar su influencia quedan fuera del alcance de este libro. Hemos puesto ejemplos de un unico producto para ilustrar el problema, pero esas comparaciones normalmente solo tienen interes para las personas relacionadas directamente con la compraventa de ese producto. Nos dedicaremos, pues, a comparar las variaciones de los precios de unos productos con las variaciones de los precios de otros. EI problema de numeros fndice que examinamos a continuacion tiene por objeto comparar las variaciones de los precios de un grupo de mercancfas. Por ejemplo, el precio de las acciones de empresas que cotizan en bolsa varfa en un meso Nos gustarfa desarrollar una medida de la variacion agregada de los precios. Los numeros fndice pretenden resolver esos problemas.
Indice de precios de un unico articulo Comenzamos nuestro analisis de los numeros fndice con un sencillo caso. La Figura 19.1 es una hoja de calculo Excel que muestra el calculo de un fndice de precios de las acciones de Ford Motor Company en un periodo de 12 semanas. La segunda columna contiene el precio efectivo de las acciones. Es algo diffcil interpretar estos numeros, pero esta tarea puede simplificarse calculando un fndice de precios utilizando el precio de la primera semana como periodo base. En la tercera columna, vemos el fndice de precios calculado. Asf, el fndice de precios de la segunda semana es
100 (
19875)
2~,25
= 98,1
basandose en el precio de la segunda seman a de 19,875. Los porcentajes calculados de esta forma se Haman numeros fndice del precio. La eleccion del periodo base es arbitraria. Podrfamos haber elegido cualquier otra semana como base y haber expresado todos los precios en porcentaje del precio de esa semana. La ventaja de utilizar aquf mimeros fndice reside en que es mas facil interpretar los numeros. Por ejemplo, en la Figura 19.1 vemos inmediatamente que el precio de las acciones de Ford Motor Company fue un 13,6 por ciento mas alto en la seman a 12 que en la 1. Figura 19.1. Precios e fndi ce de precios de las acciones de Ford Motor Company en 12 semanas.
X Microsoft Excel Book1
Price
Price Index
20.250
100.0 '
19.000 19.750 20.250 19.875 19.375 ' 19625 21125 22.375 25.000 23000
93.8 97.5 100.0 98.1 95.7 96.9 1043 ' 110.5 : 123.5 1136 ,
100(19.875J=98. 1 20.25
19875c:::JEIl.-"--L~=:....!..._-..l
4:
5' 6' 7 8 9' 10 ' 11 12
Capitulo 19. Analisis de series temporales y prediccion
767
Calculo de indices de precios de un unico articulo Supongamos que tenemos una serie de observaciones a 10 largo del tiempo del precio de un unico articulo. Para construir un indice de precios, elegimos como base un periodo de tiempo y expresamos el precio de cad a periodo en porcentaje del precio del periodo base. Por 10 tanto, si Po representa el precio del periodo base y P, el precio del segundo periodo, el indice de precios del segundo periodo es
Indice de precios agregado no ponderado A continuacion, vemos como se representan las variaciones de los precios agregados de un grupo de artfculos. La Figura 19.2 es una hoja de calculo Excel que muestra los precios pagados a los agricultores estadounidenses, en dolares, pOl' quintal por el trigo, el mafz y la soja en 10 anos. La tabla tarribHm muestra una manera de lograr un fndice de precios agregada de estos cultivos. Calculamos el precio medio de cada ano y utilizamos esa media para construir un fndice de la media, utilizando el primer ano como base. Figura 19.2. Precios por quintal de tres cultivos en 10 anos: fndi ce de precios agregado no ponderado.
.x NJClosoft [lICel , Flguro 11 1
Puc e Indell.xls
I
Med ia simple
Es facil calcular el fndice de precios agregado no ponderado, como muestra la Figura 19.2. Expresa el precio medio de cada ano en porcentaje del precio medio del ano base. Sin embargo, no tiene en cuenta las diferencias entre las cantidades cultivadas de estos productos. La formu la de la Figura 19.2 indica la division de las sumas de los precios. Eso es, por supuesto, 10 mismo que dividir pOl' las medias de estos precios. Estas medias serfan el resultado de dividir las sumas del numerador y del denominador por 3.
Un indice de precios no ponderado Supongamos que tenemos una serie de observaciones en el tiempo sobre los precios de un grupo de K articu los . Se elige como base un periodo de tiempo. EI indice de precios agregado no ponderado se obtiene calculando el precio medio de estos articulos en cada periodo de tiempo y calculando a continuaci6n un indice de estos preGios medios. Es decir, el precio medic de cada periodo se expresa en porcentaje del precio medio del periodo base. Sea POi el precio del i-esimo articulo en el periodo base y P'i el precio
768
Estadfstica para administracion y economfa
de este articulo en el segundo periodo. EI indice agregado no ponderado de precios de este segundo periodo es K
L
Pli
100
indice de precios agregado ponderado En general, nos gustarfa ponderar los precios por alguna medida de la cantidad vendida. Una posibilidad es utilizar las cantidades medias de algunos de los periodos en cuesti6n 0 de todos. En muchos casos, es caro obtener cantidades, por 10 que los fndices se basan en cantidades de un unico periodo. Cuando estas cantidades proceden del periodo base, el fn dice resultante se llama indice de precios de Laspeyres. El fndice de Laspeyres compara, en efecto, el coste total de comprar las cantidades del periodo base en el periodo base con el coste total de comprar estas mismas cantidades en otros periodos. Para ilustrarlo, consideremos los datos de la Figura 19.2 sobre los precios de los cultivos con la informaci6n adicional de que la producci6n en el ano 1 fue de l.352 millones de quintales de trigo, de 4.152 millones de quintales de mafz y de l.127 millones de quintales de soja. Por 10 tanto, el coste, en mill ones de d6lares, de la producci6n total del ano 1 fue . (l.352)(1,33) + (4.152)(1 ,33) + (1.127)(2,85) = 10.532 En el ano 2, a los precios vigentes entonces, el coste total de comprar las cantidades del ano base habrfa sido (l.352)(1,34) + (4.152)(1,08) + (1.127)(3,03) = 9.711 El fndice de precios de Laspeyres del ano 2 es, pues, 9.7 11 ) 100 ( 10.532 = 92,2 La Figura 19.3 muestra el fndice completo correspondiente a estos datos ca!culado de esta forma.
EI Indice de precios de Laspeyres Supongamos que tenemos un grupo de K mercancias de las cuales se dispone de informaci6n sobre los precios que ten ian en un periodo de tiempo. Se selecciona un peri odo como base del indice. EI Indiee de preeios de Laspeyres en cualqu ier periodo es el coste total de comprar las cantidades comerciadas en el periodo base a los precios del periodo de interes, en porcentaje del coste total de comprar estas mismas cantidades en el periodo base. Sea POi el precio y %i la cantidad comprada del i-esimo articulo en el periodo base. Si P1i es el precio del i-esimo articulo en el segundo periodo, el indice de precios de Laspeyres del periodo es
100
Capitulo 19. Analisis de series temporales y pred iccion
Figura 19.3. fndice de precios de Laspeyres de tres cu ltivos.
769
X Microsoft Excel" Figure 17 1 Price Index. xl.
1I~ Eile !::dit 'liew Insert Fgrmat l ools Qata ~HStat ~indow Wji! 2!mulate tlelp
ID~ !iii I ~ [9. ~ 1JI, i%ll @ 4 1\" .
~
~+ ~,
r .. ·1 t;, 1L f,. I U ~ ~ $ %0 J +.00 ,,0 •• _ _ _ Ea ! +. - .-",·,,·,,··-"".···-:",,·-,,·,,"""·"·--1-"·"··············,,"'''...,,'''' -.--.. E6 ,Y . " , = =SUlvlPRODUCT($B$4:$D$4 ,B6D6)
-j'Ic;.-;;;--,,----,, • .10. 1B A . -J { ' _."."."
B
,-~"
C
Iiii
D
.-----~
=-
I
E
F
G
2 3 4
5 6 7 B 9 10
11 12
13 14 15 16
. Yea'r VVhe'al' Corn Soybeans Total Cost' Year 1 , Production 1,352 4,152 ,127 Year Prices 1.33 1.33 1> 285 1 lO,532! 1.08 ' 2' 134 3.03 9,711 : 4.37 13,323 1,76 ' 3 1.57 4, 395 : 5.68 ' 2.55 22,329 5, 25,594 3. 03 6.64 : 4.09 ! 6 3.56 2.54 4.92 ' 20 ,904 ' 6.31 ' 20 ,293 7: 273 . 2.15 3: 2.33 18,773 2.02 : 6.42 ' 20,255 ' 2.97 2.25 6.12 ' 9: 10 3.73 2.52 6.28 22 ,651
Laspeyres Index
100
922 ' ~ 131I 212.0 : 243.0 ' 19B.5 ' 1927 i 178.2 ' 192.3 , 215.1
-
JOo( 10,532 9,711 )= 92.2
17
Es util comparar la formula del indice de precios de Laspeyres con la del indice de precios agregado no ponderado. La diferencia es que, cuando se calcula el indice de Laspeyres, el precio de cada articulo se pondera por la cantidad comerciada en el periodo base. Vemos que el indice de precios de Laspeyres utiliza unicamente la informacion sobre la cantidad del periodo base. Eso es valioso cuando es diflcil obtener esa informacion de cada periodo. Podrfa ser un inconveniente si las cantidades del periodo base no fueran representativas de la serie temporal examinada. Por 10 tanto, el indice de precios podria quedarse anticuado. Este problema puede resolverse calculando un fndice de precios de Laspeyres movil, en el que el periodo base se cambia de vez en cuando obteniendo informacion sobre la cantidad de los nuevos periodos base. Muchos de los indices de precios oficiales que se publican, como el indice de precios de consumo, se calculan esencialmente de esta forma.
Indice de cantidades agregado ponderado Los indices de precios constituyen una representacion de la evolucion de los precios agregados de un grupo de mercancfas. Tambien podriamos querer una representacion de la evolucion de las cantidades totales comerciadas. De nuevo, es probable que cualquier enfoque razonable de este problema de como resultado un indice de cantidades ponderado, ya que probablemente querriamos dar mas peso a un cambio de la cantidad comprada de un articulo muy caro que a un cambio de la misma cantidad comprada de un articulo barato. Un metoda para lograrlo es el Indice de cantidades de Laspeyres, que ilustramos con las cantidades producidas de trigo, maiz y soja de la Figura 19.4. El fndice de cantidades de Laspeyres pondera las cantidades por los precios del periodo base. Las ponderaciones de los precios son 1,33, 1,33 Y 2,85 en el caso del trigo, el maiz y la soja, 10 que da como resultado un valor total en el ano 1 de lO.532 millones de dolares . Para obtener un indice de cantidades del ano 2, 10 comparamos con el valor total de la produccion del ano 2, si hubieran estado vi gentes los precios del ano 1; es decir, (1.618)(1 ,33) + (5.641 )(1,33) + (1.1 76)(2,85) = 13.006
770
Estadfstica para administracion y economfa
Figura 19.4. Produccion, en millones de quintales, e fndice de cantidades.
E
Microsoft Excel- Figure 17.1 Pnce Index
_! ~
Wheat
Year
Corn
Soybea ns Total Cost
Laspeyre s Quant ity inde x
Year 1 Pric es
1 2 3
10
1.33 1,352 1,61 8 1,545 1.105 2.122 2.142 2,026 1.199 2,134 2,370
1.33 4,152 5,641 5,573 5.647 5.829 6.266 6,357 7,082 7,933 6,648
2.85 1,127 1,176 1,271 1.547 1,547
1.288 1.116 1,843 2,268 1,817
10,532 13,0061 13,089 14 ,187 14.984 14 ,853 16,040 17,064 19,861 17,172
100( 13,006) = 123.5 10,532 1341 1423 141 .0 152.3 162.0 188.6 1GJ.0
El fndice de cantidades de Laspeyres del ano 2 es, pues, 13,006) 100 ( 10,532 = 123,5 La Figura 19.4 muestra las cantidades producidas y el indice de cantidades de un periodo de 10 anos,
EI fndice de cantidades de Laspeyres Tenemos datos sobre la cantidad de un conjunto de artfculos recogidos durante un conjunto de K afios. Se selecciona un periodo como periodo base, Elindice de cantidades de Laspeyres en cualquier periodo es el coste total de las cantidades comerciadas en ese periodo, basado en los precios del periodo base y expresado en porcentaje del coste total de las cantidades del periodo base. Sean %i y POi la cantidad y el precio del i-esimo articulo en el periodo base y q1i la cantidad de ese articulo en el periodo de interes. EI indice de cantidades de Laspeyres de ese periodo es, pues,
100
Cambio del periodo base Las series oficiales de mimeros fndice se actualizan cambiando el periodo base por uno mas reciente. En estos casos, normalmente se calcula el valor del fndice original en el periodo que ahora se toma como base. Observese a modo de ilustraci6n el caIculo de la columna F de la Figura 19,5, que muestra los indices de precios del trigo, el mafz y la soja. La columna F muestra el indice de precios de los cultivos de los anos 1 a 6, utilizando el ano 1 como base comenzando por la fila 14 de la columna F. La columna H indica el fndice de precios de Laspeyres de los anos 6 a 10, utilizando el ano 6 como base, Estos indices se representan en la Figura 19.6, en la que es evidente la discontinuidad en el ano 6.
Analisis de series temporales y predicci6n
Capitulo 19.
Figura 19.5. in dice de precios ag regado de Laspeyres utilizando diferentes anos base.
X
NtcfOloh
~
Excel ·
t" ,dO
D (;i:
FIQUIO
~
17 1 P"co Indo. all
1"'''' '",mot look
~".
" cit Cl>. ~' i ,1\ lib e <1
;. ,
_.. _ _ WUI jJmuI.t.
IjoIo
1 1W1~ 1 ~1Q,,1:JHE]
.:l!fJ~
I
.., . " , to '5' I 1: f· !l HI}. ~ ! 100% · 100 :1 10 . 1B I l l 8'. Oil $ % • :.8.~ \If t,e .-:= ~ .~ :_ *,-.:1 - ,, ~ fl1-;100/SF$1:' _. -- -- - ."'.~ -- .... -----.
;.~." .
'-- -~u
m:
771
..L 2
.1::'
Sphc~d
4 1
'ie;a r
INheat
(0111
1,352
4,152
So)'be-ans Tola! Co;~t
Laspe yres
Tot al Co:l
L.lJs pey re s Inde x
Inde x
Year & 8 lse
('fecH G BasEl)
) ';- (11 '1
5 I PwJ!j.:tlon 6 ; \'e,ir 7 8 , 9 10 4 11 5 12 j 6 t lieal 6
Prices
133 1301 176 ' 3 95 · 4 09 356
1 33 108 157 255 303 254
-;4
21 42.00
626600
G
3.56
254
;~
~
li ffi l 19 )
m
2.73 233 297
215 202 225 2~
13 : Produc tion
29 i
9
to( ~ , i , t. !
1,1"27
3m
IO.5 3 ~
1000
" .U53
9.711 13.823 22 ,32'3
922
1;;,540
'16.5
1312
19.::36 31,755
66 1 1068
2120 2430 1985
25,~94
20 .904
504
35.m!
100.0 -243-.0) = 122.4 ( 198.5
11$300 .
S,2
681 fi 42 61:' 6~ F19tJr€> 176
n,G7fJ 23,091
1000 94.0 · 667 94 9 107 O·
I(\J G
940 867 94 9 1070
25 ,917 2<3,343 31,976
Yr" .. I"de, ,..._ ...... -,•.lr-.- -.., - _-. -_ -..-.., - -t.ll
,. - .-..-j - , - - - - - , , .4.. .. '_._ ~ _____ ~ _____,.",, __._ •. _ '.'.. '_'" _.'
\,;!:~~,.I1,,! .A,.El.U4r.~.U,~ ,.A..!.W:U.?,-'!.Ji._~~!J:?,LA fiIJ UI· C I 't.!; A.fm~
~eady
.
, 1--' i - -
r'"I"
.
.~:~~~IJ..~.~:::'::~.::'?~.::.~.:..~.:.... ...i.!lr..~~::-*.,~~:l::'~:'.'~~.1:Jl~ Mic
< ..
'N(X>1
i
:i:!l!li"·~·1 1I .~Ii.\! '.
Examinando la Figura 19.6, es diffcil comprender claramente las pautas de precios de to do el periodo. Por 10 tanto, prefeririamos examinar un indice de precios enlazado que tuviera el ano 6 como ano base. En el Indice original bas ado en el ano 1, el Indice del ano 6 era 198,5 como se ve en la Figura 19.5. Para transformar el indice del ano 6 basado en el ano 1 en un fndice del ano 6 tomando como base el ano 6, dividimos por 198,5 y multiplicamos por 100. Tambien podemos converti r todos los demas indices cuya base es el ano 1 a una base del ano 6 dividiendo por 198,5 y multiplicando por 100. Por ejemplo, el nuevo Indice del ano 5 es 2430) 100,0 ' ( 198,5 Figura 19.6. Gr3fico temporal del indice de precios agregado de Laspeyres can los anos 1-6 (ana base 1) y los arios 6-10 (ano base 6).
=
122,4
300,0 250,0 1/1 Q)
200,0
.!:a
"C I: Q) (,)
150,0
.;: D..
----.-
100,0
J
/
/\
-- .......
---
50,0 0,0
o
2
4
6 Year
8
10
772
Estadfstica para administracion y economfa
La Figura 19.7 representa el fndice enlazado que se obtiene utili zando co mo base el ano 6. Este gnifico es una representaci6n In:is clara de la pauta de vari aci6n de los precios en el periodo de 10 anos. Figura 19.7. fndice de precios agregado de Laspeyres enlazado del trigo, el marz y la soja (ano 6=100).
140,0 120,0 100,0 >< (1)
"c
80,0
u .;:
60,0
(1)
D..
40,0 20,0 0,0 0
2
4
8
6
10
Year
EJERCICIOS
Ejercicios basicos
Ejercicios aplicados
19.1. Suponga que esta analizando un mercado y en-
Nota : los ejercicios 19.4 a 19.7 deben realizarse mediante el programa Excel.
cuentra un fndice de precios de Laspeyres que se calculo utilizando el ano 2000 como periodo base. Interprete los resultados suponiendo que el fndice de 2003 es: a) 134,5 b) 97,4 c) 101,7
19.2. Vuelva a la Figura 19.4. Calcule el fndice de cantidades de Laspeyres revisado de los anos 1 a 6 suponiendo que los precios del ano 1 son 1,45 (trigo), 1,21 (mafz) y 2,98 (soja).
19.3. Las universidades tienen muchos costes, entre los cuales se encuentran los costes de la energfa, los libros, el laboratorio y demas equipo, el material de oficina y la mana de obra. Suponga que Ie piden que muestre como han variado los niveles de precios a los que se enfrenta su universidad en los 10 Ultimos anos. l,Que dificultades esperarfa encontrarse y como intentarfa resolverlas?
19.4. La tabla adjunta muestra el precio por accion del Banco de Nueva York, Inc., de 12 semanas. Semana Precio Semana Precio Semana Precio
2 3 4
35 357/8 346/8 343/8
5 6 7 8
35 347/8 35 346/8
9 10 11 12
346/8 35 2/8 38 6/8 37 1/8
a) Calcule un fndice de precios utilizando la semana 1 como periodo base. b) Calcule un fndice de precios utilizando la semana 4 como periodo base.
19.5. Un restaurante ofrece tres platos especiales: bistec, pescado y pollo. La tabla adjunta muestra sus precios medios (en dolares) en los 12 meses del ano pasado.
Capitulo 19.
Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Sepliembre Oclubre Noviembre Diciembre
Bistec
Pescado
Polio
7,12 7,41 7,45 7,70 7,72 7,75 8,10 8,15 8,20 8,30 8,45 8,65
6,45 6,40 6,25 6,60 6,70 6,85 6,90 6,84 6,96 7.10 7,10 7,14
5,39 5,21 5,25 5,40 5,45 5,60 5,54 5,70 5,72 5,69 5,85 6,21
Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
Bistec
Pescado
Polio
123 110 115 101 118 100 92 87 123 131 136 149
169 160 18 1 152 140 128 129 130 164 169 176 193
243 25 1 265 231 263 237 221 204 293 301 327 35 1
773
19.6. La tabla adjunta muestra los salarios por hora de tres tipos de empleados de una pequena empresa en 6 anos. Aiio
Obreros
J 2 3 4 5 6
10,60 11 ,10 11 ,80 11,90 12,30 12,50
Administrativos Supervisores 8,40 8,70 9,10 9,20 9,60 9,70
16,40 19,50 19,90 18,80 19,00 19,30
Tome el ano 1 como base. Ese ano habia 72 obreros, 23 administrativos y 10 supervisores. a) Halle el fndice de salarios por hora no ponderado. b) Halle el fndice de salarios por hora de Laspeyres.
La tabla adjunta muestra el nllmero mensual de pedidos de estos platos especiales. Tome enero como base. Mes
Amilisis de series temporales y prediccion
19.7. La tabla adjunta muestra un indice de precios de un grupo de mercancfas en 6 anos. Calcule un fndice enlazado utilizando el ano 4 como base. Aiio
2
Mia base 1 Ano base 2
100
3
4
5
6
108,4 114,3 120,2 100 103,5 107,8
19.8. Explique por que es util desarrollar un fndice a) Halle el fndice de precios agregado no ponde-
de precios de un grupo de productos, por ejemplo, un fndice de precios de la energfa. (,Cmlles son las ventajas de un fndice de precios ponderado?
rado. b) Halle el fndice de precios de Laspeyres. c) Halle el fndice de cantidades de Laspeyres.
19.2. Un contraste no parametrico de aleatoriedad Para analizar datos de series temporales, hay que realizar en primer lugar un contraste de aleatoriedad de las series temporales. Presentamos el contraste de rachas, que es un contraste no parametrico especialmente facil de realizar. Para mostrar el contraste, examinaremos primero una serie de 16 observaciones diarias sobre un Indice del volumen de acciones negociadas en la bolsa. Los datos se muestran en la Tabla 19.3 y se representan en la Figura 19.8. En esta figura, se ha trazado una lfnea en la mediana. La mediana de un numero par de observaciones es la media del par central cuando las observaciones se ordenan en sentido ascendente. En este caso, es Mediana =
107
+ 108 2
107,5
Si esta serie fuera aleatoria, el volumen negociado en un dia seria independiente del volumen negociado en cualquier otro dla. En concreto, un dla de un elevado volumen de
774
Estadfstica para administraci6n y economfa
Tabla 19.3.
Figura 19.8. Indice del volumen de acciones negociado seg un el dfa.
fndice del volumen de acciones negociado.
D1a
VolumeD
Dia
VolumeD
Dia
VolumeD
1 2 3 4
98 93 82 103
5 6 7
113
9 10
114 107
130
III
104 103
8
11
III
12
109
Dia
VolumeD
13
109 108 128
14 15 16
92
~---------------,
•
120 -
•
•
c
(1)110• ••• E 107,5 ... ......... ... ... .. .... ....... ........ ... .. . ::::l
g
100 -
•
90 80
• •
•
•
-~
• •
_ _ _-,~_ _ _. -_ _ _,-~
o
10
5
15
Dfa
contrataciones no tendrfa mas probabilidades que cualquier otro dfa de ir seguido de otro dfa de un elevado volumen de contrataciones. EI contraste de rachas que presentamos aquf divide las observaciones en un subgrupo situado por encima de la mediana y un subgrupo situado por debajo de la mediana, como muestra la Figura 19.8; la mediana es 107,5 . Si + representa las observaciones situadas por encima de la mediana y - las observaciones situadas por debajo de la median a, observamos la siguiente pauta a 10 largo de los dfas consecutivos:
-- - -++ - - +-+++++ Esta secuencia esta formada por una racha de cuatro « - », seguida de una racha de dos «+ », una racha de dos «- », una racha de un «+ », una racha de un «- », una racha de cinco «+» y, finalmente, una racha de un «- ». En total, hay, pues, R = 7 rachas. Si, como cabrfa sospechar aqu!, existe una relacion positiva entre las observaciones contiguas en el tiempo, serfa de esperar que hubiera relativamente pocas rachas. En nuestro ejemplo, nos preguntamos que probabilidad hay de observar siete rachas 0 menos si la serie es realmente aleatoria. Para eso es necesario saber cual es la distribucion del numero de rachas cuando la hipotesis nula de la aleatoriedad es verdadera. La Tabla 14 del apendice muestra los valores tabulados de la distribucion acumulada. En esa tabla vemos que, cuando 11 = 16 observaciones, la probabilidad segun la hipotesis nula de encontrar 7 rachas 0 menos es 0,214. Por 10 tanto, la hipotesis nula de la aleatoriedad solo puede rechazarse frente a la alternativa de una relacion positiva entre las observaciones contiguas al nivel de significacion del 21,4 por ciento. Este no es suficientemente pequeno para que sea razonable rechazar la hipotesis nula ni suficientemente grande para apoyar firmemente la hipotesis nula. No hemos encontrado simplemente pruebas contundentes para rechazarla. Los contrastes de aleatoriedad basados en muestras pequenas como esta tienen poca potencia.
Capitulo 19.
Analisis de series temporales y predicci6n
775
EI contraste de rachas Supongamos que tenemos una serie temporal de n observaciones. Representemos las observaciones situadas por encima de la media con el signo « + » y las observaciones situadas por debajo de la media con el signo « - ». Utilicemos estos signos para definir la secuencia de observaciones de la serie. Sea Rei numero de rachas que hay en la secuencia. La hipotesis nula es que la serie es un conjunto de variables aleatorias. La Tabla 14 del apendice indica el nivel de significacion mas bajo al que puede rechazarse esta hipotesis nula frente a la alternativa de una relacion positiva entre las observaciones contiguas, como una funcion de R y n. Si la alternativa es una hipotesis bilateral sobre la ausencia de aleatoriedad, el nivel de significacion debe duplicarse si es de menos de 0,5. Si el nivel de significacion a de la tabla es superior a 0,5, el nivel de significacion adecuado para el contraste frente a la alternativa bilateral es 2(1 - a).
En el caso de las series temporales en las que n > 20> la distribuci6n normal es una buena aproximaci6n de la distribuci6n del numero de rachas segun la hipotesis nula. Puede demostrarse que segun la hip6tesis nula n
R---l Z=
2
---;::::;;:::::== n 2 - 2n
4(n - 1)
sigue una distribucion normal estandar. Este resultado es un contraste de aleatoriedad.
EI contraste de rachas: grandes muestras Dado que tenemos una serie temporal de n observaciones y n > 20, el numero de rachas, R, es el numero de secuencias que se encuentran por encima 0 por debajo de la mediana. Queremos contrastar la hipotesis nula
Ho: la serie es aleatoria Los siguientes contrastes tienen un nivel de significacion a.
1.
Si la hipotesis alternativa es una relacion positiva entre las observaciones contiguas, la regia de decision es
n
R - --l 2
Rechazar Ho si
(19.1 )
4(n - 1)
2.
Si la hipotesis alternativa es una hipotesis bilateral de ausencia de aleatoriedad, la regia de decision es
n
n
R- - - l Rechazar Ho si
2
2
n
-
2n
4(n - 1)
R - --l <
2
- Z(1./2
0
n2 -
2n
4(n - 1)
>
Z(1./2
(19.2)
776
Estadfstica para administraci6n y economfa
EJEMPLO 19.1. Amilisis de los datos sobre las ventas (contraste de rachas)
Le han pedido que averigiie si los 30 arios de ventas anuales siguen una pauta aleatoria de una observaci6n a la siguiente en una serie temporal. Solucion Pinkham Sales Data
Los datos para realizar este estudio se encuentran en un fichero de datos Hamado Pinkham Sales Data y en el disco de datos. La Figura 19.9 es un gnifico de series temporales de los datos en el que se ha trazado la mediana. El examen de este grafico sugiere que las observaciones no son independientes, ya que parece que siguen una pauta. Los estadfsticos del contraste de rachas pueden calcularse utilizando el pragrama Minitab u atro paquete estadfstico. Realizando un amllisis por computador u observando la Figura 19.9, vemos que la serie tiene ocho rachas y que la hip6tesis nul a de una serie temporal aleatoria se rechaza con un p-valor = 0,0030.
•• •
2500
• • (f)
2000
Q)
ell
•
..• .-
1.768,5 .-•• ~ •••••••••••••••••• 11 ••••••••••••
•
1500
• • •• •
• •• •
••
•
•
1000 ' r - - - _ , r - - - - - , - - - - - - - - . - - ' 1930 1940 1950 1960
Year
Figura 19.9.
Datos sobre las ventas de Lydia Pinkham a 10 largo del tiempo.
Tambien podrfamos utilizar el numero de rachas y el estadfstico del contraste para calcular el valor de Z del contraste: n
R -- -l Z=
2
n
2
-
2n
4(n - 1)
8 - 15 - 1
-2,97
)900 - 60 116
y en la Tabla 1 del apendice vemos que el p-valor resultante de un contraste de dos colas es 0,0030, Vemos, pues, que las pruebas a favor de la hip6tesis de que la serie no es aleatoria son abrumadoras.
Capftulo 19.
Analisis de series temporales y prediccion
777
EJERCICIOS
Ejercicios aplicados
Ejercicios basicos 19.9. Una serie temporal contiene 18 observaciones. i Cua! es la probabilidad de que el numero de rachas sea a) inferior a 5? b) superior all? c) inferior a a 8? 19.10. Una serie temporal contiene 50 observaciones. i Cual es la probabilidad de que el mimero de rachas sea a) inferior a 14? b) inferior a 17? c) superior a 38? 19.11. Una serie temporal contiene 100 observaciones. i Cua! es la probabilidad de que el numero de rachas sea a) inferior a 25? b) inferior a 41? c) superior a 90?
19.12. " •. 1} El fichero de datos Exchange Rate muestra
un fndice del valor del dolar estadounidense frente a las monedas de sus socios comerciales durante 12 meses consecutivos. Utilice el contraste de rachas para hacer un contraste de aleatoriedad de esta serie. 19.13.
I., El fichero de datos Inventory Sales muestra el cociente entre las existencias y las ventas de la industria y el comercio de Estados Unidos en un periodo de 12 afios. Realice un contraste de aleatoriedad de esta serie utilizando el contraste de rachas.
19.14.
fi, El fichero de datos Stock Market Index muestra los rendimientos anuales de un fndice bursatil durante 14 afios. Realice un contraste de aleatoriedad utilizando el contraste de rachas.
19.15. (r .. El fichero de datos Gold Price muestra el precio del oro (en dolares) vigente a finales de afio de 14 afios consecutivos. Utilice el contraste de rachas para realizar un contraste de aleatoriedad de esta serie.
19.3. Componentes de una serie temporal
========~======================
En los apartados 19.3 a 19.5 presentamos algunos metodos descriptivos para analizar datos de series temporales. La serie de interes se representa por medio de Xl' Xb ... , X/l Y en el periodo t el valor de la serie es Xt. Un modelo convencional de la conduct a de las series temporales identifica varios componentes de la serie. Tradicionalmente, en la mayoria de las series temporales se representan cuatro componentes al menos en parte:
1. 2.
3. 4.
Macro2000
El El El El
componente componente componente componente
tendencial estacional cfc1ico irregular
Muchas series temporales muestran una tendencia a aumentar 0 a disminuir a un ritmo bastante continuo durante largos periodos de tiempo, 10 que indica la existencia de un componentc tendencial. Por ejemplo, los indicadores de la riqueza nacional, como el producto interior bruto, normalmente crecen con el paso del tiempo. Las tendeneias a menudo se mantienen y, en ese easo, este eomponente es importante para haeer predicciones. La Figura 19.10 muestra la serie temporal del producto interior bruto trimestral de mas de 50 alios procedente del fichero de datos Macro2000 que se eneuentra en el disco de datos. Esta pauta muestra c1aramente una fuerte tendencia ascendente que es mayor en unos periodos que en otros. Este grafieo temporal revela un notable componente tenden-
778
Estadfstica para administraci6n y economfa
Figura 19.10. Evoluci6n del producto interior bruto a 10 largo del tiempo que indica la existencia de una tendencia.
8.000 0
...2 ....
..Q
7.000 6.000
0
.;:: (l) ...-
c
0 ...u ~
5.000 4.000 3.000
"0 0
0::
2.000 1.000 1950
1970
1960
1980
1990
2000
Tiempo (ano y trimestre)
cial que es importante para el amllisis inicial y que normalmente va seguido de amllisis mas sofisticados, como mostramos en futuros apartados. Otro importante componente es la pauta estacional. La Figura 19.11 muestra los beneficios trimestrales por acci6n de una empresa. Los beneficios del cuarto trimestre son considerablemente mas altos y los del segundo trimestre son algo mas altos que los de los demas periodos. Observese que esta pauta continua repitiendose en el ciclo de cuatro trimestres que representa cada ano. Ademas del componente estacional, tam bien hay una notable tendencia ascendente en los beneficios por acci6n. Nuestro tratamiento de la estacionalidad depende de nuestros objetivos. Por ejemplo, si es importante predecir cada trimestre de la forma mas precisa posible, incluimos un componente de estacionalidad en nuestro modelo. En el apartado 14.2, por ejemplo, mostramos que pueden utilizarse variables ficticias para estimar un componente de estacionalidad en una serie temporal. Por 10 tanto, si prevemos que la pauta de estacionalidad continuara, debemos incluir la estimaci6n del componente de estacionalidad en nuestro modelo de predicci6n. Figura 19.11. Beneficios trimestrales por acci6n de una empresa que indican la existencia de un componente estacional.
3 -
• ~p
-
u
(l)
•
c
(l)
III 1 -
•
•
•
t;::
•
•
••
• • •• • • • • ••• ••• •• • • • •
•• •
o2
3
4
5
6
7
8
9
Ario y trimestre
Para algunos otros fines, la estacionalidad puede ser una molestia. En muchas aplicaciones, el analista requiere una valoraci6n de las variaciones globales de una serie temporal, que no este contaminada por la influencia de factores estacionales. Supongamos, por ejemplo, que acabamos de recibir las cifras mas recientes de los beneficios del cuarto trimestre de la empresa de la Figura 19.11. Ya sabemos que estas seran probablemente mucho mas altas que las del trimestre anterior. Lo que nos gustarfa hacer es averiguar que
Capitulo 19.
Analisis de series temporales y predicci6n
779
parte de este aumento de los beneficios se debe a factores puramente estacionales y que parte representa un verdadero crecimiento subyacente. En otras palabras, nos gustarfa producir una serie temporal libre de la influencia estacional. Se dice que una serie de ese tipo esta desestacionalizada. En el apartado 19.5 nos extenderemos algo mas sobre el ajuste estacional. Las pautas estacionales en una serie temporal constituyen una forma de conducta oscilatoria regular. Ademas, muchas series temporales empresariales y economicas muestran pautas oscilatorias 0 cfclicas que no estan relacionadas con la conducta estacional. Por ejemplo, muchas series economicas siguen pautas cfcIicas ascendentes y descendentes. En la Figura 19.9 vemos una pauta cfcIica en los datos sobre las ventas de Lydia Pinkham. Observamos una disminucion de las ventas hasta un minimo en 1936, seguida de un aumento hasta un maximo a mediados de los afios 40 y, a partir de entonces, una disminucion contin ua. Esta pauta es una serie temporal cfcIica frec uente y podemos describir la conducta historica por medio de los movimientos cfcIicos. Sin embargo, no estamos sugiriendo que en esas pautas hist6ricas exista suficiente regularidad para poder hacer una prediccion fiable de los futuros maximos y mfnimos. De hecho, los datos de los que se dispone inducen a pensar que no es as!. Hemos analizado tres fuentes de variabilidad en una serie temporal. Si pudieramos caracterizar las series temporales pri ncipalmente por medio del componente tendencial, el estacional y el cfcIico, las series variarfan de una manera uniforme con el paso del tiempo y podrfamos hacer predicciones utilizando estos componentes. Sin embargo, los datos efectivos no se comportan de esa forma. La serie muestra, ademas de los principales componentes, componentes irregulares, inducidos por multitud de factores que influyen en la conducta de cualquier serie real y que muestran pautas que parecen impredecibles basandose en la experiencia anterior. Puede considerarse que estas pautas son simi lares al termino de error aleatorio de un modelo de regresion. En todos los ejemplos de componentes que hemos representado hasta ahora, podemos ver cIaramente el componente irregular aftadido a los componentes estructurales.
Analisis de los componentes de las series temporales Una serie temporal puede describirse mediante modelos basados en los siguientes componentes:
Tt Componente tendencial St Componente estacional Ct Componente ciclico Componente irregular
't
Utilizando estos componentes, podemos decir que una serie temporal es la suma de sus componentes:
Xl = T,
+ St + Ct + It
En otras circunstancias , tambien podriamos decir que una serie temporal es el producto de sus componentes, representado a menudo como un modelo de suma logarftmica:
No tenemos que limitarnos a estas dos formas estructurales. Por ejemplo, en algunos cas os podrfamos tener una combinaci6n de formas aditivas y multiplicativas.
780
Estadfstica para administraci6n y economfa
Una gran parte de los primeros amllisis de series temporales trataban de aislar los componentes de una serie, 10 que permitfa expresar en cualquier momenta del tiempo el valor de la serie en funci6n de los componentes. Este enfoque, en el que a menudo se utilizaban medias m6viles, que analizamos en los dos apartados siguientes, se ha sustituido en gran parte por enfoques mas modernos. Una excepci6n es el problema de la desestacionalizaci6n, que requiere la extracci6n del componente estacional de la serie y que analizamos en el apartado 19.5. El enfoque mas moderno del analisis de series temporales implica la construcci6n de un modelo formal, en el que estan presentes, explicita 0 implicitamente, varios componentes, para describir la conducta de una serie de datos. Cuando se construyen modelos, hay dos formas posibles de tratar los componentes de una serie. Una es considerarlos fijos a 10 largo del tiempo, de tal manera que una tendencia podrfa representarse por medio de una lfnea recta. Este enfoque a menudo es uti! para ana!izar datos ffsicos, pero dista de ser adecuado en las aplicaciones empresariales y econ6micas, en las que la experiencia sugiere que cualquier regularidad aparentemente fija es con demasiada frecuencia ilusoria cuando se examina detenidamente. Para ilustrarlo, supongamos que examinamos solamente los datos de Lydia Pinkham correspondientes a los afios 1936-1943 . Vemos en la Figura 19.9 que en este periodo parece que hay una tendencia ascendente fija y continua. Sin embargo, si esta «tendencia» se hubiera proyectado hacia delante unos cuantos afios a partir de 1943, las predicciones resultantes de las futuras ventas habrfan sido muy inexactas. S610 mirando el grafico de los afios siguientes vemos 10 inadecuado que habrfa sido un modelo de tendencia fija. Cuando se trata de datos empresariales y econ6micos, es preferible tratar de otra forma los componentes regulares de una serie temporal. En lugar de considerar que son fijos permanentemente, suele ser mas sensato pensar que evolucionan continuamente con el tiempo. Por 10 tanto, no necesitamos estipular pautas tendenciales 0 estacionales fijas sino que podemos tener en cuenta la posibilidad de que estos componentes cambien con el tiempo. Examinaremos este tipo de modelos despues de haber analizado las medias m6viles.
EJERCICIOS
Ejercicios aplicados 19.16. ' , EI fichero de datos Housing Starts muestra las viviendas iniciadas por mil habitantes en Estados Unidos en un periodo de 24 aftos. a) Utilice la variante del contraste de rachas con gran des muestras para realizar un contraste de aleatoriedad de esta serie. b) Trace un gnifico temporal de esta serie y comente los componentes de la serie que revela este gnifico.
19.17. I~ EI fie hero de datos Earnings per Share
muestra los beneficios por acci6n obtenidos por una empresa en un periodo de 28 aftos. a) Uti lice la variante del contraste de rachas con grandes muestras para realizar un contraste de aleatoriedad de esta serie. b) Trace un griifico temporal de esta serie y comente los componentes de la serie que revela este grafico.
19.4. Medias moviles El componente irregular de algunas series temporales puede ser tan grande que oculte las regularidades subyacentes y dificulte la interpretaci6n visual del grafico temporal. En estas circunstancias, el grafico real parecera bastante irregular y es posible que queramos suavi-
Capitulo 19. Analisis de series temporales y predicci6n
781
zarlo para tener una imagen mas clara. Podemos reducir este problema utilizando una media movil. Podemos suavizar el grafico utilizando el metoda de las medias moviles, que se basa en la idea de que cualquier gran componente irregular en cualquier momento del tiempo ejercera un efecto menor si promediamos el punto con sus vecinos inmediatos. El metoda mas sencillo que podemos utilizar es una media movil centrada simple de (2m + 1) puntos. Es decir, sustituimos cada observacion X t por la media de sf misma y sus vecinas, de manera que m
1
x/ = 2m
+ 1 j =L- m Xl +j 2m
+
1
Por ejemplo, si fijamos m en 2, la media movil de 5 puntos es
Dado que la primera observacion es
X I'
la primera media movil serra
Esta es la media de las cinco primeras observaciones. En el caso de los datos sobre las ventas de Lydia Pinkham del ejemplo 19.1, tenemos que en 1933 xj'
=
l.806 + 1.644 + l.814 + l.770 + l.518 5
= l.710,4
Asimismo, x~' es la media de la segunda a la sexta observacion, y asf sucesivamente. La Tabla 19.4 muestra la serie original y la serie suavizada. Observese que en el caso de las medias m6viles centradas perdemos la primera y la ultima m observaciones. Por 10 tanto, aunque la serie original va de 1931 a 1960, la serie suavizada va de 1933 a 1958.
Medias m6viles centradas simples de (2m
+ 1) puntos
Sean X 1 ' X2 , X3 , ... , Xn observaciones de una serie temporal de interes. Puede obtenerse una serie suavizada utilizando una media m6vil centrada simple de (2m + 1) puntos.
1
x/ =
In
L X 2m + 1 j=-m
(t = m t+j
+
1, m
+ 2,
... , n - m)
(19.3)
Las medias m6viles pueden hallarse utilizando el program a Minitab, como muestra la Figura 19.12. Vemos tanto la serie original como la serie suavizada -la serie de medias moviles de 5 puntos- representadas en relacion con el tiempo. Como puede observarse, la serie de medias moviles es de hecho mas suave que la serie original. Por 10 tanto, la serie de medias m6viles ha eliminado el componente irregular subyacente de la serie para mostrar mejor los componentes estructurales.
782
Estadfstica para administraci6n y economfa
Tabla 19.4.
Figura 19.12.
Ventas anuales de Lydia Pinkham can la media m6vil centrada simple de 5 puntas.
ADO
Ventas
1931 1932 1933 1934 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 1945
1.806* 1.644* 1.814 1.770 1.518 1.103 1.266 1.473 1.423 1.767 2.161 2.336 2.602 2.518 2.637
Medial
ADo
Ventas
Medial
1.710,4 1.569,8 1.494,2 1.426 1.356,6 1.406,4 1.618 1.832 2.057,8 2.276,8 2.450,8 2.454 2.370,8
1946 1.947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960
2.177 1.920 1.910 1.984 1.787 1.689 1.866 1.896 1.684 1.633 1.657 1.569 1.390 1.387* 1.289*
2.232,4 2.125,6 1.955,6 1.858 1.847,2 1.844,4 1.784,4 1.753,6 1.747,2 1.687,8 1.586,6 1.527,2 1.458,4
Moving Average
Media m6vi l centrada simple de 5 puntas de los datos sabre las ventas de Lydia Pinkham.
2700
•
Actual
.::..
Smoothed
-
Actual -
Smoothed
",2200 ~
co
(f)
1700
Moving Average
length : MAPE:
1200
10
20
17
MAD:
316
MSD:
149873
30
Time
El tipo de media m6vil que analizamos en este apartado no es mas que uno de los muchos que podrfan utilizarse. A menudo se considera deseable utilizar una media ponderada, en la que se da la mayor parte del peso a la observacion central y el peso de otros val ores disminuye conforme estan mas lejos de la observacion central. Por ejemplo, podrfamos utilizar una media ponderada como x
-
+ 2X - l + 4x + 2x + + x + 2
2 t 1 x* = -t - -t - - - t- - - --t t 10
En to do caso, el objetivo al utilizar medias moviles es la eliminacion del componente irregular con el fin de tener una imagen mas clara de las irregularidades subyacentes en una serie temporal. La tecnica quiza sea mas valiosa con fines descriptivos, en la elaboracion de graficos como el de la Figura 19.12.
Capitulo 19.
Analisis de series temporales y prediccion
783
Extraccion del componente estacional por medio de medias moviles A continuaci6n, presentamos un metoda para utilizar medias m6viles con el fin de extraer los componentes estacionales de las series empresariales y econ6micas. Los componentes estacionales pueden ser molestos y el analista puede querer eliminarlos de la serie para apreciar mejor la conducta de otros componentes. Recuerdese tam bien que en el apartado 14.2 mostramos que pueden utilizarse variables ficticias para estimar y controlar los efectos estacionales. Consideremos una serie temporal trimestral que tiene un componente estaciona1. Nuestra estrategia para eliminar la estacionalidad es caIcular medias m6viles de cuatro puntos para reunir los valores estacionales en una unica media m6vil estacional. Por ejemplo, utilizando los datos de la Tabla 19.5 sobre los beneficios por acci6n, el primer miembro de la serie serfa 0,300 + 0,460 + 0,345 4
+ 0,910
= 0,50375
y el segundo miembro serfa 0,460
+ 0,345 + 0,910 + 0,330 4
= 0,51125
La Tabla 19.5 muestra la serie completa. Esta nueva serie de medias m6viles deberfa estar libre de estacionalidad, pero aun hay un problema. La localizaci6n en el tiempo de los miembros de la serie de medias m6viles no corresponde exactamente a la de los miembros de la serie original. EI primer termino es la media de las cuatro primeras observaciones y, por 10 tanto, podrfamos considerar que esta centrado entre la segunda observaci6n y la tercera: , X'"
2,5
+ X2 + X3 + X4 = Xl --C.-_---=-_---=-_---' 4
Asimismo, el segundo termino podrfa expresarse de la forma siguiente: X*
3.5
+ X3 + -X4 ---'+ X5 = X2 ---"------'--4
Este problema puede superarse centrando nuestra serie de medias m6viles de 4 puntos, 10 cual puede hacerse caIculando las medias de pares contiguos, que en el caso del primer valor es
xl
= X* 2,5
+ x*3,5 2
0,50375
+ 0,51125 2
= 0,5075
Este valor es la media m6vil centrad a correspondiente a la tercera observaci6n de la serie original. EI resto de la serie de medias m6viles centrad as esta en la primera columna de la Tabla 19.5. Observese de nuevo que con este metodo se pierden dos observaciones de cada extremo de la serie. La Figura 19.13 representa la serie de medias m6viles centradas, junto con laserie original. Es evidente que se ha eliminado el componente estacional. Ademas, como hemos
784
Estadfstica para administraci6n y economfa
Tabla 19.5.
Trimestre del ano
Beneficios
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4 3,1 3,2 3,3 3,4 4,1 4,2 4,3 4,4 5,1 5,2 5,3 5,4 6,1 6,2 6,3 6,4 7,1 7,2 7,3 7,4 8,1 8,2 8,3 8,4
0,3 0,46 0,345 0,91 0,33 0,545 0,44 1,04 0,495 0,68 0,545 1,285 0,55 0,87 0,66 1,58 0,59 0,99 0,83 1,73 0,6 1 1,05 0,92 2,04 0,7 1,23 1,06 2,32 0,82 1,41 1,25 2,73
Figura 19.13. Media m6vil centrada de 4 pu ntas y serie ori ginal de los benefi cios par acci6n de una empresa.
Beneficios efectivos por acci6n de una empresa y media m6vil centrada de 4 puntos.
Medias moviles de 4 puntos
Medias moviles centradas de 4 puntos
*
* *
*
0,50375 0,51125 0,53250 0,55625 0,58875 0,63000 0,66375 0,69000 0,75125 0,76500 0,81250 0,84125 0,91500 0,92500 0,95500 0,99750 1,03500 1,04000 1,05500 1,07750 1,15500 1,17750 1,22250 1,25750 1,32750 1,35750 1,40250 1,45000 1,55250
0,5075 0,5219 0,5444 0,5725 0,6094 0,6469 0,6769 0,7206 0,7581 0,7888 0,8269 0,8781 0,9200 0,9400 0,9763 1,0163 1,0375 1,0475 1,0663 1,1163 1,1663 1,2000 1,2400 1,2925 1,3425 1,3800 1,4263 1,5013
* *
*
Moving Average •
Actual Smoothed
.c.
2.5
-
-
Actual
-
Smoothed
en OJ
c
E
1.5
ell
w
rv'bving Average Length :
MAPE :
0.5 1930
19 40
1950
Time
196 0
28.27 19
MAD:
0.3353
MSD:
0.2361
Analisis de series temporales y prediccion
Capitulo 19.
785
utilizado medias m6viles, tambien se ha suavizado el componente ilTegular. La imagen resultante nos permite, pues, juzgar las regularidades no estacionales de los datos. Vemos que en la serie suavizada domina un a tendencia ascendente. Un examen mas detenido muestra un crecimiento continuo de los beneficios en la primera parte de la serie, una parte central de crecimiento bastante mas lento y una reanudaci6n en la ultima parte del periodo de una pauta similar a la primera.
Metoda de desestacionalizacion mediante medias moviles simples Sea X t (t = 1, 2, ..., n) una serie temporal estacional del periodo 5 (5 = 4 en el caso de los datos trimestrales y 5 = 12 meses en el caso de los datos mensuales). Se obtiene una serie de siguiendo estos dos pasos, en los que se supone medias m6viles centradas de 5 puntos, que s es par:
x;,
1.
Calcular las medias m6viles de 5 puntos: s/ 2
*
_j
I
X t +O,5 -
2.
Xt + j
= - (s/ 2) +
I
S
(t = ~, ~ +
1, ... , n -
~)
(19.4)
2, ... , n -
2
s)
(19.5)
Calcular las medias m6viles centradas de s puntos: x* = X* {- 0,5 1
+ x*1+ 0,5 2
( 2s+ 2s+ t=
1,
Hemos visto que la serie de medias m6viles centradas de s puntos pueden ser utiles para comprender la estructura de una serie temporal. Como esta libre en gran medida de la estacionalidad y se ha suavizado el componente inegular, es adecuada para identificar un componente tendencial 0 cfclico. Esta serie de medias m6viles tambien constituye la base de muchos metodos practicos de desestacionalizaci6n. EI me to do especffico depende de una serie de factores, entre los que se encuentran el grado de estabilidad que se supone que tiene la pauta estacional y si la estacionalidad se considera aditiva 0 multiplicativa. En el segundo caso, a menudo tomamos logaritmos de los datos. A continuaci6n, analizamos un metodo de desestacionalizaci6n que se basa en el supuesto implfcito de que la pauta estacional es estable a 10 largo del tiempo. EI metoda se conoce con el nombre de metoda del indice estacional. Suponemos que en cualquier mes 0 trimestre, en cada afio, el efecto de la estacionalidad es un aumento 0 una reducci6n de la serie en el rnismo porcentaje. Ilustraremos el metoda del indice estacional utilizando los datos sobre los beneficios de la empresa. La serie desestacionalizada se calcula en la Tabla 19.6. Las dos primeras columnas contienen la serie original y la media m6vil centrada de 4 puntos. Para evaluar la influencia de la estacionalidad, expresamos la serie original en porcentaje de la serie de medias m6viles centradas de 4 puntos. Asi, por ejemplo, en el caso del tercer trimestre del afio 1, tenemos que X ) = 100 100 ( .-2
xt
(0345) = ' 0,5075
67,98
Estos porcentajes tambien se encuentran en la Tabla 19.7, en la que se muestra el caleulo del indice estacional. Para evaluar el efecto de la estacionalidad en el primer trimestre, observamos la median a de los siete porcentajes de ese trimestre. Este es el cuarto valor cuan-
786
Estadfstica para administraci6n y economfa
Tabla 19.6.
Trimestre del aDO
Ajuste estacional de los beneficios por acci6n de una empresa mediante el metodo del fndice estacional.
Xt 0,300* 0,460* 0,345 0,910 0,330 0,545 0,440 1,040 0,495 0,680 0,545 1,285 0,550 0,870 0,660 1,580 0,590 0,990 0,830 1,730 0,610 1,050 0,920 2,040 0,700 1,230 1,060 2,320 0,820 1,410 1,250* 2,730*
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4 3,1 3,2 3,3 3,4 4,1 4,2 4,3 4,4 5,1 5,2 5,3 5,4 6,1 6,2 6,3 6,4 7,1 7,2 7,3 7,4 8,1 8,2 8,3 8,4
Tabla 19.7.
x*t
100e~·) x""
Iodice estaciooal
Serie ajustada
67,98 174,37 60,62 95,20 72,20 160,77 73,13 94,37 71,89 162,91 66,51 99,08 71 ,74 168,09 60,43 97,41 80,00 165,16 57,21 94,06 78,88 170,00 56,45 95,16 78,96 168,12 57,49 93,92
61,06 96,15 72,95 169,84 61,06 96,15 72,95 169,84 61,06 96,1 5 72,95 169,84 61,06 96,15 72,95 169,84 61,06 96,15 72,95 169,84 61,06 96,15 72,95 169,84 61,06 96,15 72,95 169,84 61,06 96,15 72,95 169,84
0,491.3 0,4784 0,4729 0,5358 0,5405 0,5668 0,6032 0,6123 0,8107 0,7072 0,7471 0,7566 0,9008 0,9048 0,9047 0,9303 0,9663 1,0296 1,1378 1,0186 0,9990 1,0920 1,26 11 1,20ll 1,1464 1,2793 1,4531 1,3660 1,3429 1,4665 1,7135 1,6074
t
0,5075 0,5219 0,5444 0,5725 0,6094 0,6469 0,6769 0,7206 0,7581 0,7888 0,8269 0,8781 0,9200 0,9400 0,9763 1,0163 1,0375 1,0475 1,0663 1,1163 1,1663 1,2000 1,2400 1,2925 1,3425 1,3800 1,4263 [,5013
Calculo del fndice estacional de los datos sobre los beneficios por acci6n de la empresa. Trimestre
ADO
1
2
1 2 3 4 5 6 7 8 Mediana lndice estacional
60,62 73,13 66,51 60,43 57,21 56,45 57,49 60,43 61,06
95 ,20 94,37 99,08 97,41 94,06 95 , 16 93,92 95,16 96,15
3
4
67,98 72,20 71 ,89 71,74 80,00 78,88 78,96
174,36 160,77 162,91 168,09 165,16 170,00 168,12
72,20 72,95
168,09 169,84
Sumas
395,88 400
Capitulo 19.
Analisis de series temporales y prediccion
787
do se ordenan en sentido ascendente, es decir, 60,43. Tambien hallamos la mediana de XI en porcentaje de x? para cada uno de los demas trimestres. Para calcular los indices estacionales, tambien ajustamos los indices de manera que su media sea 100. Vemos en la Tabla 19.7 que las cuatro medianas solo suman 395,88. Podemos calcular los indices finales --que tienen una media de 100- multiplicando cada mediana por (400/ 395,88). En el caso del primer trimestre tenemos que , Indice estacional
=
400 ) 60,43 ( 395,88
=
61,06
Esta cifra estima que la estacionalidad reduce los beneficios del primer trimestre a un 61,06 pOI' ciento de los que se habrian obtenido en ausencia de factores estacionales. Los indices estacionales de la ultima fila de la Tabla 19.7 se encuentran en la quinta columna de la 19.6. Observese que se utiliza el mismo in dice para cualquier trimestre de cada ano. Por ultimo, obtenemos nuestro valor desestacionalizado: Valor original ) . I Valor ajustado = 100 ( 'd' In Ice estaclOna Por ejemplo, en el caso del tercer trimestre del ano 1, el valor desestacionalizado es 0345) 100 ( 7~,95 = 0,4729 La serie desestacionalizada completa que se obtiene de esta forma se muestra en la ultima columna de la Tabla 19.6 y se representa en la Figura 19.14. Observese que parece que sigue quedando una cierta estacionalidad en la ultima parte del periodo, 10 cual induce a pensar que podrfa ser deseable un enfoque mas elaborado, que tuviera en cuenta los cambios de las pautas estacionales. Figura 19.14. Beneficios ajustados estacionalme nte por cada acci6n de una empresa.
co
'0
co
N
1,5 -
co
c 0
u
co ..... (J)
Q) (J)
1,0 -
Q)
'0 Q) .;:: Q)
(j)
0,5 -
•
~
, 2
~
• • • • • • •• • • • •• •• •
•• • 3
4
5
6
7
8
9
Trimestre del ario
El metodo del fndice estacional aquf presentado es una sencilla solucion al problema de los indices. Muchas series temporales importantes -como el producto interior bruto y sus componentes, el empleo y el desempleo, los precios y los salarios- tienen un fuerte componente estacional. Generalmente, los organismos oficiales publican datos sobre esas cantidades tanto desestacionalizados con sin desestacionalizar. Los metodos oficiales de ajuste, aunque son mas complejos que el que hemos descrito aqui, normal mente se basan en me-
788
Estadfstica para administraci6n y economfa
dias m6viles. El metoda de desestacionalizaci6n que se utiliza mas a menu do en las publicaciones oficiales de Estados U nidos es el metodo del Censo X-II. Se diferencia del metodo del fndice estacional en que tiene en cuenta el posible cambio de la pauta estacional a 10 largo del tiempo. Puede demostrarse que en su versi6n aditiva X-ll estima de una manera bastante aproximada el componente estacional de una serie temporal mensual por medio de
donde siendo XI el valor original de la serie en el periodo t y xt* la media m6vil centrada de 12 puntos. Naturalmente, si se utiliza ese metodo, es necesario dar un tratamiento especial a los valores que se encuentran al final de la serie, ya que la expresi6n del factor estacional implica valores de la serie temporal que aun no han ocurrido. Una forma posible de lograr10 es sustituir los valores futuros desconocidos de la media m6vil por predicciones basadas en los datos de los que se dispone.
EJERCICIOS
Ejercicios aplicados 19.18. ~ ~ El fichero de datos Quarterly Earnings 19.18 muestra las ventas trimestrales realizadas por una empresa en un periodo de 6 afios. a) Trace un gnifico temporal de esta serie y analice sus caracterfsticas. b) Uti lice el metoda del fndice estacional para desestacionalizar esta serie. Represente gnificamente la serie desestacionalizada y analice sus caracterfsticas.
19.19.
I.., El
fichero de datos Quarterly Sales muestra las ventas trimestrales realizadas por una empresa en un periodo de 6 afios. a) Trace un gnifico temporal de esta serie y analice sus caracterfsticas. b) Utilice el metoda del fndice estacional para desestacionalizar esta serie. Represente gnlficamente la serie desestacionalizada y analice sus caracterfsticas.
19.20. ,. .. Calcule una serie de medias m6viles centradas simples de 3 puntos de los datos sobre el precio del oro del ejercicio 19.15. Represente la serie suavizada y analice el gnifico resultante. 19.21. ' . Calcule una serie de medias m6viles centradas simples de 5 puntos de los datos sobre la construcci6n de viviendas del ejercicio 19.16. Trace un gnifico temporal de la serie suavizada y comente sus resultados .
19.22.
I. Calcule
una serie de medias m6viles centradas si mples de 7 puntos de los datos sobre los beneficios de la empresa del ejercicio 19.17. Basandose en un grifico temporal de la serie suavizada, (',que puede decirse de sus componentes regulares?
19.23. Sea
xl"
1
=
111
I X+ 2m + 1 j~-III t
j
una media m6vil centrada simple de (2m puntos. Demuestre que x*
/+ 1
=
x* f
x/ + I1I + I -
+
1)
X' - m
--'--'--"-'--'--'---_--'--"C.
2m
+
1
(',C6mo podrfa utilizarse este resultado en el calculo eficiente de la serie de medias m6viles centradas? 19.24. f ~ EI fichero de datos Quarterly Earnings 19.24 muestra los beneficios por acci6n obtenidos por una empresa en un periodo de 7 afios. a) Trace un grafico temporal de estos datos. (',Sugiere su grafico la presencia de un fuerte componente estacional en esta serie de beneficios? b) Utilizando el metodo del fndice estacional, obtenga una serie de beneficios desestacionalizada. Represente gr:ificamente esta serie y comente su conducta.
Capitulo 19.
19.25. a) Demuestre que la serie de medias m6viles centradas de s puntos del apartado 19.4 puede expresarse de la forma siguiente: X, _ (s/ 2)
+ 2(x,_ (s/ 2) + I + ... + x, + (s/2) -
x/=
I - X, + (s/2 )
2s b) Demuestre que
.*
.\ , + I
=
." X'" ,
+ (s/2 ) + I + X t + (s/2) - Xt + -X't --'--'--'--- - - ' - ' - ' - -25
(s/2) + I '-'--'-----
xt -
(s/2)
- - =--'
Analisis de series temporales y prediccion
789
Analice las ventajas de esta f6rmula, desde el punto de vista del calculo, para desestacionalizar series temporales mensuales.
19.26. , ~ El fichero de datos Monthly Sales muestra las ventas mensuales de un producto en un periodo de 3 afios. Utilice el metodo del In dice estacional para obtener una serie desestacionalizada .
19.5. Suavizaci6n exponencial A continuaci6n analizamos algunos metodos para utilizar los valores actuales y pasados de una serie temporal para predecir sus valores futuros. Este problema, facil de formular, puede ser muy diffcil de resolver satisfactoriamente. Generalmente, se utiliza una amplia variedad de metodos de predicci6n y la elecci6n final de uno de ellos depende en gran medida del problema, de los recursos y de los objetivos del analista y de la naturaleza de los datos de los que dispone. Nuestro objetivo es utilizar las observaciones existentes, XI ' X2' " ., Xl' sobre una serie para predecir los valores futuros desconocidos Xt+]o X,+2, ". La predicci6n tiene una importancia fundamental en el mundo de la empresa como base racional para tomar decisiones. Por ejemplo, la predicci6n de las ventas mensuales de un producto es la base de la politic a de control de las existencias. Las predicciones sobre los futuros beneficios se utilizan cuando se toman decisiones de inversi6n. En este apartado, introducimos un metoda de predicci6n que se conoce con el nombre de suavizacion exponencial simple que da buen resultado en algunas aplicaciones. Constituye, ademas, la base de algunos metodos de predicci6n mas complejos. La suavizaci6n exponencial es adecuada cuando la serie no es estacional y no tiene una tendencia ascendente 0 descendente sistematica. En ausencia de tendencia y de estacionalidad, el objetivo es estimar el nivel actual de la serie temporal y utilizar esta estimaci6n para predecir los futuros valores. Nuestra posici6n es que nos encontramos en el periodo t, estamos observando retrospectivamente la serie de observaciones XI' XI - I ' X t - 2, .'" Y queremos tener una idea del nivel actual de la serie. Para empezar, consideramos dos posibilidades extremas. En primer lugar, podrfamos utilizar simplemente la observaci6n mas reciente para predecir todas las futuras observaciones. En algunos casos, como en el de los precios de los mercados especulativos, es posible que sea 10 mejor que podemos hacer, pero el resultado no tiene mucho exito. Sin embargo, en muchas series que tienen componentes irregulares, probablemente querrfamos utilizar algunas observaciones anteriores de la serie. Eso identificarfa las pautas que pudieran existir en la serie temporal y evitarfa utilizar solamente una fluctuaci6n aleatoria como base de nuestra predicci6n. En el extremo opuesto, podrfamos utilizar la media de todos los val ores pasados como estimaci6n del nivel actual. Basta una breve reflexi6n para pensar que a menu do eso no sena util, ya que todos los valores pasados se tratarfan por igual. Asf, por ejemplo, si intentaramos predecir las futuras ventas mediante este procedimiento, darfamos la misma importancia a las ventas de hace muchos arros que a las ventas recientes. Parece razonable que la experiencia mas reciente influya mas en nuestra predicci6n.
790
Estadfstica para administraci6n y economfa
La suavizaci6n exponencial simple es una soluci6n intermedia entre estos extremos; hace una predicci6n basada en una media ponderada de los val ores actuales y de los pasados. Cuando se calcula esta media, se da mas peso a la observaci6n mas reciente, bastante menos al valor inmediatamente anterior, menos al valor anterior, y asf sucesivamente. Estimamos el nivel del periodo actual t de la siguiente manera: _ Xt ~
(1 -
IX)XI
+ 1X(1
-
donde rx es un numero comprendido entre predicci6n de las futuras observaciones es
IX)Xt - 1
+ IX
2
(1 -
IX)X, - 2
+ ...
°y 1. Por ejemplo, suponiendo que
IX
=
0,5, la
por 10 que en el d.lculo de las predicciones se aplica a las observaciones actuales y pasadas una media ponderada con un os pesos cada vez menores. En este modelo, vemos que la predicci6n de la serie en cualquier periodo t se estima de la siguiente manera: ~
_
Xt -
(1 -
IX)XI
+ 1X(l
-
IX)XI _ I
+ IX2(1
-
IX)Xt - 2
+ ...
y, asimismo, el nivel del periodo anterior (t - 1) se estimarfa de la forma siguiente:
Multiplicando por rx, tenemos que ~
IXX, _ I
= 1X(1 -
IX)Xt - 1
+ rx 2(1
-
rx)X t - 2
+ rx 3 (1
-
IX)Xt - 3
+ ...
Por 10 tanto, restando estas dos ecuaciones, tenemos que
Y mediante una sencilla manipulaci6n, tenemos la ecuaci6n para calcular la predicci6n basada en la suavizaci6n exponencial simple:
Xc = aXt - 1 + (1 -
()()XI
para
°< ()( < 1
Esta expresi6n es un util algoritmo recursivo para calcular predicciones. EI valor predicho, del periodo t es una media ponderada de la predicci6n del periodo anterior t - I Y la ultima observaci6n XI' Las ponderaciones dadas a cada uno dependen de la elecci6n de ()(, que es la constante de suavizaci6n. Observese que un elevado valor de IX da mas peso a t - I' que se basa en la historia pas ada de la serie, y un peso menor a xI' que representa los datos mas recientes. Podemos ilustrar el metodo utilizando los datos sobre las ventas de Lydia Pinkham suponiendo que el valor de ()( = 0,4. El proceso comienza fijando el primer elemento de la serie XI = X I = 1.806
x
XI'
x
El segundo valor de la predicci6n serfa X2
= O,4x[ + 0,6X2 = (0,4)(1.806) + (0,6)(1.644) = 1.708,8
Capitulo 19. Analisis de series temporales y predicci6n
791
Y este proceso conti nua con toda la serie de manera que
X3 = 0,4X2 + 0, 6X3 = (0,4)(1 .708,8) + (0,6)(1. 814) = 1.771,9
Predicci6n por medio de una suavizaci6n exponencial simple Sea X j , X2 , . . . , Xn un conjunto de observaciones de una serie temporal no estacional sin ninguna tendencia ascendente 0 descendente sistematica. EI metodo de suavizaci6n exponencial simple para hacer predicciones es el siguiente: 1.
Se obtiene la serie suavizada
xt : (0 <
2.
IY.
< 1; t
= 2, 3, ... , n)
(19.6)
donde CI. es una con stante de suavizaci6n cuyo valor se fija entre 0 y 1. A partir del periodo n, se obtienen predicciones de los futuros valores, xn + h ' de la serie de la siguiente manera:
(h = 1, 2, 3, ... )
Hasta ahora apenas nos hemos referido a la elecci6n de la constante de suavizaci6n, IY., en las aplicaciones practicas. En las aplicaciones, esta elecci6n puede basarse en razones subjetivas u objetivas. Una posibilidad es basarse en la experiencia 0 en el criterio personal. Por ejemplo, un analista que quiera predecir la demanda de un producto puede haber trabajado muchas veces con datos sobre lfneas de producto similares y puede basarse en esa experiencia para seleccionar el valor de IY.. La inspecci6n visual de un grafico de los datos de los que se dispone tambien puede ser uti! para elegir el valor de la constante de suavizaci6n. Si la serie parece que contiene un componente irregular considerable, no queremos dar demasiado peso unicamente a la observacion mas reciente, ya que podria no indicar que esperamos en el futuro. Eso sugiere que debemos elegir un valor relativamente alto para la con stante de suavizacion. Pero si la serie es bastante suave, darfamos un valor mas bajo a IY. para dar mas peso a la observacion mas reciente. Un enfoque mas objetivo es probar con diferentes valores y ver cual ha conseguido predecir mejor los movimientos historicos de la serie temporal. Por ejemplo, podrfamos calcular la serie suavizada con los valores de IY. de 0,2, 0,4, 0,6 y 0,8 y elegir el valor que predice mejor la serie historica. Calcularfamos el error de cada prediccion: ~
el=x, -x1 _ l Una posibilidad es calcular, para cada valor de errores: 11
sc
IY.
utilizado, la suma de los cuadrados de los
11
= "L. e12 = " L. (X t 1= 2
-
~)2 X1 - l
1=2
El valor de IY. que minimiza la suma de los cuadrados de los errores es el que se utilizara para hacer futuras predicciones. La suavizaci6n exponencial simple puede realizarse utilizando el programa Minitab. La Figura 19.15 muestra un grafico de la serie original y de la serie suavizada utilizando un valor de IY. = 0,1, que se ha elegido probando diferentes valores y hallando el que producfa un ajuste satisfactorio. El indicador MSD de la Figura 19.15 es la suma de los cuadrados de los errores dividida por el numero de observaciones.
792
Estadfstica para administraci6n y economfa
Single Exponential Smoothing
Figura 19.15. Datos sobre las ventas de Lydia Pinkham: valores originales y val ores suavizados siguiendo el metodo exponencial simple.
2700
•
Actual
"
Smoothed
-
2200
Actual - Smoothed
en
OJ
ctI
(f)
1700
Smoothing Constant Alpha:
MAPE:
1200
MAD:
0.900
9.5 164.0
MSD: 43274.2
1930
1950
1940
1960
Time
Cualquiera que sea el valor de la con stante de suavizacion que se uti lice, la ecuacion 19.6 puede considerarse un mecanismo de actualizacion. En el periodo (t - 1), el nivel de la serie se estima por medio de x/ _I ' En el siguiente periodo, se utiliza la nueva observacion x t para actualizar esta estimacion, por 10 que la nueva estimacion del nivel es una media ponderada de la estimacion anterior y la nueva observacion.
Modelo de prediccion por medio de la suavizacion exponencial con el metoda Holt-Winters Muchos metodos de prediccion que se utilizan en el mundo de la empresa se basan en extensiones de la suavizacion exponencial simple. La suavizacion exponencial por medio del metodo de Holt-Winters tiene en cuenta la tendencia y posiblemente tambien la estacionalidad de una serie temporal. Consideremos, en primer lugar, una serie temporal no estacional. Queremos estimar no solo el nivel actual de la serie sino tambien la tendencia, que es la diferencia entre el nivel actual y el nivel anterior. Representamos el valor observado por medio de X t Y la estimacion del nivel por medio de La estimacion de la tendencia se representa por medio de Tr El principio en el que se basa la estimacion de estas dos cantidades es igual que el del algoritmo de la suavizacion exponencial simple. Las dos ecuaciones de estimacion son
x/.
x/ = 0:(x/ _ 1
Tt = fJTt -
I
+ Tt - I) + (l - o:)xt + (l - fJ)(xt - xt - I)
< 0: < 1) (0 < fJ < 1) (0
donde IX Y fJ son constantes de suavizacion cuyos valores se fijan entre 0 y 1. EI metoda de Holt-Winters, comparable ala suavizacion exponencial simple, utiliza estas ecuaciones para actualizar las estimaciones anteriores utiIizando una nueva observacion. La estimacion del nivel, XI - I' realizada en el periodo (t - 1), tomada junto con la estimacion de la tendencia, Tt - I , sugiere un nivel (X, _ I + Tt - I ) en el periodo t. Esta estimacion se modifica, a la luz de la nueva observacion, Xl' para obtener una estimacion actualizada del nivel, Xl' utilizando la ecuacion dada. Asimismo, se estima la tendencia en el periodo (t - 1) como TI _ I' Sin embargo, una vez que se dispone de la nueva observacion, Xl' la estimacion de la tendencia es la diferen-
Capitulo 19.
793
Analisis de series temporales y predicci6n
cia entre las dos estimaciones mas recientes del niveI. La tendencia estimada en el periodo t es, pues, la medi a ponderada indicada. Comenzamos los caIculos estableciendo que
A continuaci6n, aplicamos las ecuaciones anteriores, para t = 3, 4, ... , n. Mostramos estos caIculos en el ejemplo 19.2. A continuaci6n, resumimos todo el procedimiento.
Predicci6n con el metodo de Holt-Winters: series no estacionales Sea X1 , X2 , ... , Xn un conjunto de observaciones sobre una serie temporal no estacional. EI todo de Holt-Winters para realizar predicciones consiste en 10 siguiente. 1.
Se obtienen estimaciones del nivel Xt
= X2
T2
x y de la tendencia T de la forma siguiente: t
t
= X2 - Xl
1 + Tt - I ) + (1 - a)xt Tt = PTt - 1 + (1 - P)(Xt - Xt - 1)
Xt =
2.
me-
a(xt -
(0 < a < 1; t = 3, 4, ... , n) (0 <
P<
1; t = 3, 4, ... , n)
(19.7)
donde IX Y (J son constantes de suavizaci6n cuyos valores se fijan entre 0 y 1. A partir del periodo n, se obtienen predicciones de los futures valores, xn + h' de la serie p~r medio de (19.8)
donde h es el numero de periodos futuros.
EJEMPLO 19.2. Predicci6n del credito al consumo (suavizaci6n exponencial con el metodo Holt-Winters) Se Ie ha pedido que haga una predicci6n del credito al consumo pendiente utilizando el metodo de suavizaci6n exponencial de Holt-Winters.
Solucion Los calculos siguientes se bas an en los datos sobre el credito al con sumo de la Tabla 19.8, que tam bien contiene los caIculos del metodo de Holt-Winters. Las estimaciones iniciales del nivel y de la tendencia del ano 2 son
y T2
= X2 - Xl = 155 - 133 = 22
Esta aplicaci6n de la suavizaci6n utiliza los valores de a
Xt = 0,3(xt - 1 + T, Tt
=
O,4Tt -
1
I)
+ 0,6(xt
= 0,3 y P = 0,4 y las ecuaciones
+ 0,7x, -
Xt-I)
794
Estadfstica para administracion y economfa
Tabla 19.8. Calculos del cn3dito al consumo pendiente basad os en el metodo de Holt-Winters (IX = 0,3, fJ = 0,4) y realizados a partir de la salida Minitab. ~
t
1 2 3 4 5 6 7 8 9 10 11
Xt
xt
Tt
133 155 165 171 194 231 274 312 313 333 343
155 169 175 192 223 266 309 324 338 347
22 17 11 14 25 36 40 25 18 13
Para t = 3, X3
= 0,3(X2 + T2) + 0,7X3 = (0,3)(155 + 22) + (0,7)(165) = 168,6
y, ademas, T3 = 0,4T2 + 0,6(X3 - X2)
= (0,4)(22) + (0,6)(168,6 - 155) = 16,96 Para t = 4, X4 = 0,3(X3 + T3) =
+ 0,7X4 (0,3)(168,6 + 16,96) + (0,7)(171)
=
175,4
y, ademas, T4 = 0,4T3 + 0,6(X4 - X3)
= (0,4)(16,96) + (0,6)(175,4 - 168,6) =
10,86
Los calculos restantes se hacen de la misma forma, fijando t = 5, 6, ... , 11 . La Tabla 19.8 muestra los resultados de estos calculos. Utilicemos ahora estas estimaciones del nivel y de la tendencia para predecir las futuras observaciones. Dada una serie XI' Xz, ... , XIl' las estimaciones mas recientes del nivel y de la tendencia son t y T", respectivamente. En la realizaci6n de predicciones se supone que esta tendencia mas reciente se prolongara a partir del nivel mas reciente. Por 10 tanto, hacemos una predicci6n utilizando la relaci6n
x
XII + I
=
xn + TI1
Capitulo 19.
Analisis de series temporales y predicci6n
795
y para el periodo siguiente =
xn + 2T"
Xn + h =
xn + hTn
X,,+2 y, en general, para h periodos venideros
En la Tabla 19.8 vemos que las estimaciones mas recientes del nivel y de la tendencia son XII = 347 Las predicciones para los tres periodos siguientes son
X/2
347 X13 = 347 XI4 = 347 =
+ 13 = 360 + (2)(13) = + (3)(13) =
373 386
EI metoda de Holt-Winters puede calcularse utilizando el programa Minitab y la Figura 19.16 muestra el grafico de series temporales y las predicciones. EI metoda del Minitab es algo distinto del que acabamos de describir. En primer lugar, las entradas del nivel y de la tendencia son NiveJ = 1 - IX Tendencia = 1 - f3 Double Exponential Smoothing for Credit 450 -
."
350 -
/~.
.-t= "CI Q) ....
U
250 -
150 -
/
Actual
"
Predicted
•
Forecast
-
Actual
-
- Predicted
- - - Forecast
Smoothing Constants Alpha (leve l): 0.700 Gamma (trend): 0.600
-/1
",,-"
/'
•
MAPE: MAD:
~
'T-----"-----,-----r o 5 10 15
MSD:
7.108 16.487 354.837
Time Figura 19.16.
Credito al consumo pendiente observado y predicho.
Ademas, el Minitab calcula una estimacion para el primer periodo utilizando el siguiente metodo:
1. 2.
EI Minitab ajusta un modelo de regresion lineal a datos de series temporales (variable y) en relacion con el tiempo (variable x). La constante de esta regresion es la estimacion inicial del componente del niveJ; el coeficiente de la pendiente es la estimacion inicial del componente tendencial.
796
Estadfstica para administracion yeconomfa
Como consecuencia, los val ores ca1culados con el programa Minitab, que se muestran en la Tabla 19.9, son algo distintos de los que figuran en la 19.8. EI me to do del Minitab generalmente hace predicciones algo mejores que el metodo mas simplificado que hemos mostrado. Si el \ector utiliza otros paquetes estadfsticos, compruebe los algoritmos especfficos utilizados para asegurarse de que comprende 10 que ca1cula. Normalmente, puede hacerse pulsando la opcion Ayuda. Tabla 19.9.
Periodo
2 3 4 5 6 7 8 9 10 11
Caleulos del eredito al eonsumo pendiente (a = 0,3, f3 = 0,4) y realizados eon el programa Minitab.
Credito al consumo observado
Valor esperado del nivel
Tendencia
133 155 165 171 194 231 274 312 313 333 343
l30 156 170 177 192 224 266 309 324 338 347
28 27 19 12 14 24 35 40 25 18 13
Predicciones
360 373 385
12 13
14
Predicci6n de series temporales estacionales A continuacion, examinamos una extension del metoda de Holt-Winters que tiene en cuenta la estacionalidad. En la mayorfa de los problemas practicos, el factor estacional se considera multiplicativo, por 10 que, por ejemplo, cuando se analizan cifras de ventas mensuales, se puede considerar que las ventas de enero son una proporcion de las ventas mensuales medias. Se supone, al igual que antes, que el componente tendencial es aditivo. Al igual que en el caso no estacional, utilizamos los sfmbolos X t , t y Tt para representar el valor observado y las estimaciones del nivel y de la tendencia, respectivamente, del periodo t. El factor estacional es F" por 10 que si la serie temporal contiene s periodos al ano, el factor estacional del periodo correspondiente del ano anterior es F t - s . En el modelo de Holt-Winters, las estimaciones del nivel, de la tendencia y del factor estacional se actualizan por medio de las tres ecuaciones siguientes:
x
donde
lI.,
f3 y 'Y
son constantes de suavizacion cuyos valores estan comprendidos entre 0 y 1.
Capftulo 19.
Analisis de series temporales y predicci6n
797
El termino (X' _I + T, _ I) es una estimaci6n del nivel del periodo t calculada en el periodo anterior t - 1. Esta estimaci6n se actualiza cuando se dispone de x,. Pero tambien eliminamos la influencia de la estacionalidad deflactandola por la estimaci6n mas reciente, Ft - s , del factor estacional de ese periodo. La ecuaci6n de actualizaci6n de la tendencia, T" es la misma que antes. Por ultimo, el factor estacional, F" se estima utilizando la tercera ecuaci6n. La estimacion mas reciente del factor, que es la del ano anterior, es F t - s . Sin embargo, dividiendo la nueva observaci6n, XI' por la estimacion del nivel, X,, se obtiene un factor estacional x/x,. La nueva estimacion del factor estacional es una media ponderada de estas dos cantidades.
Predicci6n con el metodo de Holt-Winters: series estacionales Sean X1 , X2 , •.. , Xn un conjunto de observaciones sobre una serie temporal estacional del periodo s (siendo s = 4 en el caso de los datos trimestrales y s = 12 en el de los datos mensuales). EI metodo de Holt-Winters para realizar predicciones utiliza un conjunto de estimaciones recursivas a partir de la serie historica. Estas estimaciones utilizan una con stante del nivel, IX; una constante de la tendencia, fJ, y una con stante estacional multiplicativa, y. Las estimaciones recursivas se basan en las siguientes ecuaciones:
(0 < ex < 1) (0
Ft = yFI -
s
+ (1
Xl
- y) :::-
x,
(0
< fJ < 1)
(19.9)
< y < 1)
donde Xl es el nivel suavizado de la serie, Tt es la tendencia suavizada de la serie y Ft es el ajuste estacional suavizado de la serie. Los detalles del calculo son tediosos y 10 mejor es hacerlo por computador. Hemos mostrado el algoritmo que utiliza el programa Minitab, pero numerosos paquetes estadfsticos de cali dad emplean metodos parecidos. Estos metodos pueden diferir en la forma en que abordan la generacion de constantes para los periodos iniciales de una serie temporal observada y, por 10 tanto, debe consultarse la documentaci6n del programa para averiguar cual es exactamente el programa utilizado. Minitab utiliza un metodo de regresion mediante variables ficticias para obtener estimaciones de los periodos iniciales. Una vez que el metodo inicial genera las constantes del nivel, la tendencia y la estacionalidad a partir de una serie historica, podemos utilizar los resultados para predecir los futuros valores de h periodos futuros a partir de la ultima observacion, xn ' de la serie historica. La ecuacion de prediccion es (19.10)
Observamos que el factor estacional, F, es el generado para el periodo de tiempo estacional mas reciente.
El metoda que hemos desarrollado aqul puede aplicarse utilizando el procedimiento del Minitab Hamado «Winters method». Concretamente, eI metoda aqui descrito utiliza Ia opci6n «multiplicative». El me to do Winters empJea un componente del nivel , un componente tendencial y un componente estacional de cada periodo. Utiliza tres ponderaciones 0 parametros de suavizaci6n para actualizar los componentes de cada periodo. Los valores iniciales del componente del nivel y del componente tendencial se obtienen a partir de una regresion lineal con respecto al tiempo. Los val ores iniciales del componente estacional se obtienen a partir de una regresi6n mediante variables ficticias utilizando datos desestacio-
798
Estadfstica para administraci6n y econom fa
nalizados. Las ecuaciones de suavizaci6n del metoda de Winters para el modelo multiplicativo son las antes utilizadas. Este me to do se mostrara utilizando los beneficios por acci6n de una empresa en el programa Minitab. En la Figura 19.17 se muestra un gnifico de los valores observados y ajustados, junto con predicciones para los cuatro periodos siguientes. Se realizan predicciones utilizando las estimaciones mas recientes de la tendencia y del nivel y se ajustan para tener en cuenta el factor estacional. Dada una estaci6n que contiene s periodos de ti empo, la predicci6n para un periodo en el futuro serfa
Figura 19.17. Historia y
Winter's Multiplicative Model for Earnings
predicci6n de los beneficios de una empresa utilizando el metoda de Holt-Winters.
:~
3
.'
.'
\'
(J)
en c 2 c ....
.'",
..." L\~":':. ~,
ctl
.",....
UJ
",
.,' o
I
•
Actual
o
Pred icted
•
-
Forecast
Actual
- - Pred icted - - .. Fo recast
Smoothing Constants A lpha (level): 0,500 Gamma (trend): 0.500 Delta (season): 0.700 MAPE: 13.539 1 MAD: 0.0902
'-r----~----,__------,------' MSD:
o
10
20
0.0141
30
Time
Los datos de nuestro ejemplo contienen 32 periodos de tiempo y un factor estacional s = 4, 10 que indica que son datos trimestrales. Por 10 tanto, para predecir la siguiente observaci6n despues del final de la serie, utilizamos la expresi6n
Esta predicci6n es para el primer trimestre; por 10 tanto, utilizamos el factor estacional del primer trimestre mas reciente y es F 29 . En general, si estamos prediciendo h periodos en el futuro, realizamos la predicci6n de la siguiente manera:
La predicci6n utiliza una constante del nivel, ex = 0,5, una constante de la tendencia, f3 = 0,5 y una constante estacional, y = 0,3. Por ultimo, en la Tabla 19.10 mostramos los resultados detail ados del calculo de los factores de la tendencia, del nivel y el factor estacional de cada periodo. Las predicciones efecti vas realizadas por medio del metodo de Holt-Winters dependen de los valores especfficos elegidos para las constantes de suavizaci6n. Al igual que en nuestro analisis anterior de la suavizaci6n exponencial, esta elecci6n podrfa basarse en cri-
Capitulo 19.
Tabla 19.10.
Analisis de series temporales y prediccion
Resultados de la aplicaci6n del metodo de suavizaci6n de Holt-Winters en Minitab.
Valor Estimaci6n Estimaci6n Trimestre Beneficios del aDO de la empresa suavizado del nivel de la tendencia
1,1 1,2 1,3 1,4 2,1 2,2 2,3 2,4 3,1 3,2 3,3 3,4 4,1 4,2 4,3 4,4 5,1 5,2 5,3 5,4 6,1 6,2 6,3 6,4 7,1 7,2 7,3 7,4 8,1 8,2 8,3 8,4 9,1 9,2 9,3 9,4
799
0,300 0,460 0,345 0,9 10 0,330 0,545 0,440 1,040 0,495 0,680 0,545 1,285 0,550 0,870 0,660 1,580 0,590 0,990 0,830 1,730 0,610 1,050 0,920 2,040 0,700 1,230 1,060 2,320 0,820 1,410 1,250 2,730
0,043 0,360 0,433 1,055 0,450 0,498 0,389 1,028 0,424 0,671 0,518 1,269 0,550 0,758 0,623 1,514 0,666 0,916 0,697 1,767 0,714 1,047 0,782 1,795 0,741 1,238 0,988 2,131 0,799 1,419 1,172 2,531
0,387 0,562 0,609 0,631 0,584 0,619 0,672 0,696 0,770 0,801 0,843 0,869 0,886 0,964 1,019 1,067 1,032 1,077 1,193 1,215 1,150 1,1 47 1,246 1,354 1,355 1,370 1,433 1,519 1,572 1,597 1,671 1,765
0,242 0,208 0,128 0,075 0,014 0,024 0,039 0,031 0,053 0,042 0,042 0,034 0,025 0,052 0,053 0,051 0,008 0,026 0,071 0,047 -0,009 - 0,006 0,046 0,077 0,039 0,027 0,045 0,066 0,059 0,042 0,058 0,076
Estimaci6n estacional
Predicci6n
0,713 0,851 0,628 1,529 0,609 0,872 0,646 1,505 0,633 0,856 0,646 1,486 0,624 0,888 0,648 1,482 0,588 0,910 0,681 1,441 0,548 0,914 0,721 1,487 0,526 0,902 0,734 1,515 0,523 0,889 0,744 1,537 0,963 1,705 1,48 3,18
terios subjetivos u objetivos. La experiencia del analista en el analisis de conjuntos de datos similares podrfa ayudarlo a dar valores adecuados a las constantes de suavizaci6n. Tambien podrfa probar diferentes conjuntos de valores posibles con los datos hist6ricos de que dispone y hacer las predicciones utilizando el conjunto de valores que dieran las mejores predicciones de esos datos. Esta estrategia es facil de poner en practica utilizando un paquete estadfstico, como muestra el ejemplo que hemos presentado con el programa Minitab.
800
Estadfstica para administracion y economfa
EJERCICIOS
Ejercicios aplicados 19.27. I~ Basandose en los datos del ejercicio 19.13, utilice el me to do de la suavizaci6n exponencial simple para hacer predicciones del cociente entre las existencias y las ventas de los 4 pr6ximos afios. Utilice una constante de suavizaci6n de a = 0,4. Represente graficamente la serie temporal y las predicciones. 19.28. , f Utilice el metoda de la suavizaci6n exponencial simple con una constante de suavizaci6n de a = 0,3 para predecir el precio que tendra el oro en los 5 pr6ximos afios, basandose en los datos del ejercicio 19.15.
19.29.
ff
19.30.
t Ii EI
las mismas predicciones de todos los futuros valores de las series temporales. Dado que sabemos que todos los futuros valores no seran iguales, eso es absurdo». 19.34. " EI fichero de datos Industrial Production Canada muestra un fndice de producci6n industrial de Canada correspondiente a un periodo de 15 afios. Uti lice el metodo de Holt-Winters con las constantes de suavizaci6n a = 0,3 Y f3 = 0,5 para hacer predicciones para los 5 pr6ximos afios. 19.35.
Utilizando los datos del ejercicio 19.16, utilice el metodo de la suavizaci6n exponencial simple con una con stante de suavizaci6n a = 0,5 para predecir la construcci6n de viviendas de los 3 pr6ximos afios. fichero de datos Earnings per Share 19.30 muestra los beneficios por acci6n que obtendra una empresa en un periodo de 18 afios .
a) Utilizando las constantes de suavizaci6n a = 0,2, 0,4, 0,6 y 0,8, realice predicciones basandose en la suavizaci6n exponencial simple. b) l.Cual de las predicciones elegirfa?
I,
El fichero de datos Hourly Earnings muestra los ingresos por hora de la industria manufacturera de Estados Unidos correspondientes a un periodo de 24 meses. Uti lice el metodo de Holt-Winters con las constantes de suavizaci6n a = 0,3 Y f3 = 0,4 para hacer predicciones para los 3 pr6ximos meses.
19.36. tt~ El fichero de datos Food Prices muestra un fndice de los precios de los alimentos desestacionalizado de Estados Unidos correspondiente a un periodo de 14 meses. Uti lice el metodo de Holt-Winters, con las constantes de suavizaci6n a = 0,5 Y f3 = 0,5, para hacer predicciones para los 3 pr6ximos meses.
19.31. a) Si las predicciones se basan en una suavizaci6n exponencial simple y t representa el valor suavizado de la serie en el periodo t, demuestre que el error cometido en la predicci6n de x t ' realizada en el periodo (t - 1), puede expresarse de la forma siguiente:
19.37.
'Ii
b) Por 10 tanto, demuestre que podemos escribir t = X t - ae t , donde vemos que se utiliza la observaci6n mas reciente y el enor de predicci6n mas reciente para calcular la predicci6n siguiente.
19.38.
f J Uti lice el metodo estacional de Holt-Win-
x
x
19.32. Suponga que en el metodo de la suavizaci6n exponencial simple la constante de suavizaci6n a se fija en un valor igual a l. l.Que predicciones se obtendran? 19.33. Comente la siguiente afirmaci6n: «Sabemos que todas las series temporales empresariales y econ6micas muestran variabilidad a 10 largo del tiempo. Sin embargo, si se utiliza el metoda de la suavizaci6n exponencial simple, se obtienen
El fichero de datos Profit Margins muestra los margenes porcentuales de beneficios de una empresa conespondientes a un periodo de 11 afios. Realice predicciones para los 2 pr6ximos afios utilizando el metoda de Holt-Winters con las constantes de suavizaci6n a = 0,6 y f3 = 0,6.
ters para realizar predicciones de las ventas para dentro de ocho trimestres, basandose en los datos del ejercicio 19.18. Emplee las constantes de suavizaci6n a = 0,6, f3 = 0,5 y y = 0,4. Represente graficamente los datos y las predicciones. 19.39.
If Utilice
el metodo estacional de Holt-Winters para hacer predicciones de las ventas para dentro de ocho trimestres, basandose en los datos del ejercicio 19.19. Emplee las constantes de suavizaci6n a = 0,5, f3 = 0,4 y y = 0,3. Represente graficamente los datos y las predicciones.
Capitulo 19.
Analisis de series temporales y prediccion
801
19.6. Modelos autorre resivos En este apartado presentamos otro enfoque para hacer predicciones de series temporales. Este enfoque implica la utilizaci6n de los datos de los que se dispone para estimar panimetros de un modelo del proceso que podrfa haber generado la serie temporal. En este apartado examinamos un metoda muy utilizado, los modelos autorregresivos, que se basa en el enfoque de la construcci6n de modelos. En el apartado 14.3 introdujimos el uso de variables dependientes retardadas en los modelos de regresi6n multiple y ese enfoque es la base de los modelos que analizamos aqu1. La idea es esencialmente considerar las series temporales como series de variables aleatorias. A efectos pnicticos, a menudo podrfamos estar dispuestos a suponer que estas variables aleatorias tienen todas ell as las rnismas medias y las rnismas varianzas. Sin embargo, no podemos suponer que son independientes entre S1. Ciertamente, si consideramos una serie de ventas de un producto, es muy probable que las ventas de periodos contiguos esten relacionadas entre S1. Las pautas de correlaci6n como las que hay entre periodos contiguos a veces se conocen con el nombre de autocorrelaci6n. En principio, es po sible cualquier numero de pautas de autocorrelaci6n. Sin embargo, unas son considerablemente mas probables que otras. Se plantea una posibilidad especialmente atractiva cuando se exarnina una correlaci6n bastante estrecha entre observaciones contiguas en el tiempo, una correlaci6n menos estrecha entre observaciones separadas por dos periodos, una correlaci6n mas debil aun entre los valores separados por tres periodos, etc. Surge una sencilla pauta de autocorrelaci6n de este tipo cuando la correlaci6n entre valores contiguos es algun numero -por ejemplo, 4>,- que entre valores separados por dos periodos es 4>T, que entre valores separados por tres periodos es 4>f, y asf sucesivamente. Por 10 tanto, si XI representa el valor de la serie en el periodo t, tenemos en este modelo de autocorrelaci6n que (j = 1, 2, 3, ... )
Esta estructura de autocorrelaci6n da lugar a un modelo de series temporales de la forma
donde y y 4>1 son parametros fijos y las variables aleatorias "'t tienen una media de 0 y una varianza fija para todo t y no estan correlacionadas entre S1. EI fin del parametro y es tener en cuenta la posibilidad de que la serie x t tenga alguna media distinta de O. Por 10 demas, este es el modelo que utilizamos en el apartado 14.7 para representar la autocorrelaci6n de los terminos de error de una ecuaci6n de regresi6n. Se llama modelo autorregresivo de primer orden. El modelo autorregresivo de primer orden expresa el valor actual, XI' de una serie en el valor anterior, xt _ " y una variable aleatoria no autocorrelacionada, "'t. Dado que la variable aleatoria "'t no esta autocorrelacionada, es impredecible. En el caso de las series generadas por el modelo autorregresivo de primer orden, las predicciones de los futuros valores s610 dependen del valor mas reciente de la serie. Sin embargo, en much as aplicaciones querrfamos utilizar mas de una observaci6n como base para hacer predicciones. Una extensi6n obvia del modelo serfa hacer depender el valor actual de la serie de las dos observaciones mas recientes. Por 10 tanto, podrfamos utilizar un modelo
802
Estadfstica para administraci6n y economfa
donde Y, ¢l Y ¢2 son panimetros fijo s. Este modelo se llama modelo autorregresivo de segundo orden. En terminos mas generales, dado un entero positivo cualquiera p, el valor actual de la serie puede hacerse dependiente (Ii nealmente) de los p valores anteriores por medio del modelo autorregresivo de orden p:
donde Y, ¢l Y ¢2> ... , ¢p son panimetros fij os. Esta ecuaci6n describe el modelo autorregresivo general. En el resto de este apartado, consideramos el ajuste de esos modelos Y su uso para predecir los val ores futuros. Supongamos que tenemos una serie de observaciones X l ' X2, . . . , XII" Queremos utilizarlas para esti mar los parametros desconocidos Y, ¢l ' ¢2' ... , ¢p para los que la suma de los cuadrados de las diferencias son II
sc = I
(X t -
Y-
¢ IX t - 1 -
¢2Xt - 2 -
. .. -
¢~t_ p)2
t=p+ l
sea la menor posible. Por 10 tanto, la estimaci6n puede realizarse utilizando un program a de regresi6n multiple. Mostramos este metodo en el ejemplo 19.3 utilizando los datos sobre las ventas de Lydia Pinkham.
Modelos autorregresivos y su estimacion Sea XI (t = 1, 2, ..., n) una serie temporal. Un modelo que puede utilizarse a menudo eficazmente para representar esa serie es el modele autorregresivo de orden p: (1 9.11)
donde y, ¢1' ¢2' ... , ¢ son parametros fijos y las cf son variables aleatorias que tienen una media de 0 y una varian~a constante y que no estan correlacionadas entre sf. Los parametros del modele autorregresivo se estiman por medio de un algoritmo de minimos cuadrados, tal que los valores de y, ¢1' ¢2' ..., ¢p minimizan la suma de los cuadrados siguiente: n
SC =
I
(X t -
Y - ¢lXt - l -
¢ 2Xt - 2 -
... -
¢~t _ p)2
(19.12)
t= p + 1
EJEMPLO
19.3. Predicci6n de los datos sobre las ventas (modelo autorregresivo)
Pinkham Sales Data
Se Ie ha pedido que desarrolle un modelo autonegresivo para predecir los datos sobre las vent as de Lydia Pinkham (vease el fichero de datos Pinkham Sales Data).
Soluci6n Para utilizar un modelo autonegresivo que permita hacer predicciones de los futuros valores, es necesario fijar un valor para p, el orden de la autonegresi6n. Debemos elegir un valor de p 10 suficientemente alto para tener en cuenta toda la conducta importante de autoconelaci6n de la serie. Pero tampoco queremos que p sea tan grande que inc1uyamos parametros irrelevantes y que la estimaci6n de los parametros importantes sea
Capitulo 19. Analisis de series temporales y prediccion
803
ineficiente como consecuencia. En general, se prefieren los model os «parsimomcos» -sencillos, pero suficientes para lograr el objetivo- para hacer buenas predicciones de datos de series temporales. Una posibilidad es fijar el valor de p arbitrariamente, quiza basandose en la experiencia anterior con conjuntos de datos similares. Otro enfoque es fijar un orden maximo, K, de la autolTegresion y estimar, a su vez, modelos de orden p = K, K - 1, K - 2, ... Se contrasta para cada valor de p la hipotesis nula de que el ultimo para metro de la autorregresion, ¢>p, del modelo es 0 frente a la altemativa bilateral. EI procedimiento concluye cuando hallamos un valor de p para el que esta hipotesis nula no se rechaza. Nuestro objetivo es, pues, contrastar la hipotesis nul a
frente a la alternativa
En el Capitulo 12 presentamos metodos para contrastar la hipotesis nula, Ho. Sabemos basicamente que el cociente entre la estimacion del coeficiente y la desviacion tfpica del coeficiente sigue una distribucion t de Student. La salida Minitab del analisis de regresion -y la salida del analisis de regresion de cualquier paquete estadfstico- incluye ese calculo de la t de Student y, ademas, la probabilidad de que la hipotesis nula sea verdadera -el p-valor de la hipotesis nula- dada la t de Student calculada.
Predicci6n a partir de model os autorregresivos estimados Supongamos que tenemos las observaciones X1 , X2 , ... , xt de una serie temporal y que se ha ajustado un modele autorregresivo de orden p a estos datos. Expresamos el modelo estimado de la siguiente manera: (19.13) Partiendo del periodo guiente manera:
n, hacemos predicciones de los futuros valores de la serie de la si(19.14)
xn+
donde para j > 0, j es la prediccion de x t plemente el valor observado de xt + r
+ partiendo del periodo n, y para j ~ 0, xt + j
j
es sim-
La Figura 19.18 muestra copias abreviadas de la salida Minitab del analisis de regresion para modelos autorregresivos utilizando los datos sobre las ventas de Lydia Pinkham y suponiendo que p = 1, 2, 3,4. Aplicaremos este metodo a los datos sobre las ventas de Pinkham utilizando un nivel de significacion del 10 por ciento para nuestros contrastes. Basandonos en los resultados de Ia Figura 19.18, comenzamos con la regresion suponiendo que p = 4. Observamos que el coeficiente de X t - 4 tiene un estadistico t de Student de - 1,39 y un p-valor de 0,180. Por 10 tanto, no podemos rechazar Ia hipotesis nula de que el coeficiente es 0 y pasamos a la regresion suponiendo que p = 3. En este caso, vemos que el coeficiente de Xt - 3 tiene un
804
Estadfstica para administraci6n y economfa
Figura 19.18. Modelos autorregresivos para los datos sobre las ventas de Lydia Pinkham (salida Minitab).
Regression with p = 1 Sales = 193 + 0.883 Salelag1 29 cases used 1 cases contain missing values Predictor Constant Salelag1 S = 207.0
Coef 193 . 3 0.8831 R-Sq = 73.4%
StDev 189.0 0.1024
T
P
1. 02
0.316 0.000
8.62
R-Sq(adj) = 72.4%
Regression with p = 2 Sales = 314 + 1.18 Salelag1 - 0.358 Salelag2 28 cases used 2 cases contain missing values Predictor Constant Sale1ag1 Salelag2 S = 199.6
Coef 313.7 1.1801 -0 .3578 R-Sq = 76.9%
StDev 192.5 0.1870 0.1914
T
P
1. 63
0.116 0.000 0 . 073
6.31 -1 .87
R-Sq(adj) = 75.1 %
Regression with p =3 Sales = 322 + 1.19 Sa1e1ag1 - 0.317 Salelag2 - 0.057 Salslag3 27 cases used 3 cases contain missing values Predictor Constant Salelag1 Sale1ag2 Salslag3 S =203.0
Coef 322.3 1.1881 -0.3168 -0.0574 R-Sq = 78 .1%
StDev 215.7 0.2065 0.3081 0.2098
T 1. 49
5.75 -1.03 -0.27
P
0.149 0.000 0.315 0.787
R-Sq(adj) = 75.2%
Regression with p = 4 Sales = 446 + 1.19 Salelag1 - 0.439 Sa1elag2 + 0.286 Salslag3 - 0.291 Salelag4 26 cases used 4 cases contain missing values Predictor Coef StDev T P Constant 446.2 232.8 1.92 0.069 Sale1ag1 1.1937 0.2108 5.66 0.000 Salelag2 -0.4391 0.3238 -1.36 0.190 Salslag3 0.2859 0.3174 0.90 0.378 Salelag4 -0.2914 0.2101 -1.39 0.180 S = 202.6 R-Sq = 80.1% R-Sq(adj) = 76.3%
estadfstico t de Student igual a - 0,27 y un p-valor de 0,787. Una vez mas, no podemm rechazar la hip6tesis nul a de que este coeficiente es 0. En el caso del modelo de regresi6n en el que se supone que p = 2, vemos que el coeficiente de X t - 2 tiene un estadfstico t dE Student de - 1,87 Y un p-valor de 0,073. Por 10 tanto, podemos rechazar la hip6tesis nu12 de que el coeficiente de X t - 2 es 0. El modelo elegido es el modelo con dos valores retardados, p = 2. La ecuaci6n final es
Xt = 313,7 + 1,1801xt _
1 -
0,3578xt _ 2
Ahora que tenemos el modelo, queremos aplicarlo para hacer predicciones con los datm sobre las ventas de Lydia Pinkham. Comenzamos sefialando que los dos ultimos valores dE la serie de datos son y X29 = 1.387 X30 = 1.289
Analisis de series temporales y predicci6n
Capitulo 19.
805
Ahora podemos predecir el siguiente valor X31:
X31 = 313,68 + 1,l80X30 - 0,358x29
= 313,68 + (1,180)(1.289) - (0,358)(1.387) = 1.338,2 Reconocemos que el valor predicho del termino de error, 81' es O. Ahora podemos predecir el siguiente valor de la serie siguiendo el mismo procedimiento, con la salvedad de que ahora debemos utilizar el valor predicho de X31, es decir, Xt:
X32
+ 1,180X31 - 0,358x30 = 313,68 + (1,180)(1.338,2) - (0,358)(1.289) = 1.431,29
=
313,68
Estos calculos pueden realizarse directamente mediante el programa Minitab - 0 mediante cualquier otro buen paquete estadfstico- y los resultados se muestran en la Figura 19.19. Podemos continuar con este proceso y hacer predicciones para tantos periodos futuros como queramos. La serie temporal de ventas y las predicciones para seis periodos se muestran en la Figura 19.20. Figura 19.19. Valores predichos a partir de un modelo autorregresivo para los datos sobre las ventas de Pinkham (salida Minitab).
Sales
=
314 + 1.18 Salelag1
-
0.358 Salelag2
28 cases used 2 cases contain missing values Predictor Constant Salelag1 Salelag2 S
=
Coef 313.7 1.1801 -0.3578
199 .6
R-Sq
StDev 192.5 0.1870 0.1914
=
76 . 9%
T
1. 63 6 . 31 -1.87 R-Sq(adj)
=
P 0.116 0.000 0.073 75.1%
Predicted Values Fit 1338.6
Figura 19.20. Ventas de Lydia Pinkham y predicciones basad as en el ajuste de un modelo autorregresivo de segundo orden.
StDev Fit 63.5
95.0% CI 1207.7, 1469.4)
95.0% PI 907.1, 1770 . 1)
Time Series Plot for Sales (with forecasts and their 95% confidence limits)
2500
2000 rJ)
(])
co
(/)
1500
1000
2
4
6
8
10 12 14 16 18 20 22 24 26 28 30
Time
806
Estadfstica para administraci6n y economfa
EJERCICIOS
Ejercicios aplicados 19.40. Basandose en los datos de la Tabla 19.10, estime un modelo autorregresivo de primer orden para calcular el fndice del volumen de acciones negociadas. Utilice el modelo ajustado para hacer predicciones para los 4 pr6ximos dfas. 19.41. (0 It) EI fichero de datos Trading Volume muestra el volumen de transacciones (en cientos de miles) de acciones de una empresa realizadas en un periodo de 12 meses. Estime con estos datos un modelo autorregresivo de primer orden y utilice el modelo ajustado para hacer predicciones del volumen para las 3 pr6ximas semanas.
19.42.
19.43.
f,
Basandose en el fichero de datos Housing Starts del ejercicio 19.16, estime modelos autorregresivos de 6rdenes 1 a 4. Utilice el metoda de este apartado para contrastar la hip6tesis de que el orden de la autorregresi6n es (p - 1) frente a la alternativa de que es p, con un nivel de significaci6n del 10 por ciento. Seleccione uno de estos model os y haga predicciones de 1a construcci6n de viviendas para los 5 pr6ximos afios. Trace un griifico temporal que muestre las observaciones originales junto con las predicciones. i,Serfan diferentes las predicciones si se utilizara un nivel de significaci6n del 5 por ciento para los contrastes del orden autorregresivo?
t.9
Basandose en el fichero de datos Earnings per Share del ejercicio 19.17 sobre los beneficios por acci6n de una empresa, ajuste modelos autorregresivos de 6rdenes 1 a 4. Utilice el metodo de este apartado para contrastar la hip6tesis de que el orden de la autorregresi6n es (p - 1) frente a la alternativa de que el verdadero orden es p , con un nivel de significaci6n del 10 por ciento. Seleccione uno de estos modelos y haga predicciones de los beneficios por acci6n para los 5 pr6ximos afios. Trace un grafico que muestre las observaciones originales junto con las predicciones. i,Serfan diferentes los resultados si se utilizara un ni vel de significaci6n del 5 por ciento para los contrastes?
19.44. if., Vuelva al fichero de datos Earnings per Share 19.30 del ejercicio 19.30 sobre los beneficios por acci6n de una empresa. Ajuste modelos auton·egresivos de 6rdenes 1, 2 y 3. Utilice el metodo del apart ado 19.6 para contrastar la hip6tesis de que el orden de la autorregresi6n es
(p - 1) frente a 1a alternativa de que es p, con un nivel de significaci6n del 10 por ciento y seleccione un valor para el orden autorregresivo. Utilice el modelo seleccionado para hacer predicciones de los beneficios por acci6n para dentro de 4 afios. Trace un grMico temporal de las observaciones y las predicciones. i,Serfan diferentes los resultados si se utilizara un nivel de significaci6n del 5 por ciento para los contrastes?
19.45. (if Y En la Figura 19.18, se muestran modelos autorregresivos ajustados de 6rdenes 1 a 4 para datos sobre las ventas anuales. A continuaci6n, seleccionamos un modele contrastando la hip6tesis nula de una autorregresi6n de orden (p - 1) frente a la alternativa de una autorregresi6n de orden p al nivel de significaci6n del 10 por ciento. Repita este procedimiento, pero haga un contraste al ni vel de significaci6n del 5 por ciento. a) i,Que modelo autorregresivo se selecciona ahora? b) Realice predicciones de las ventas para los 3 pr6ximos afios basandose en este modelo seleccionado.
19.46. Se ha observado que las ventas anuales de un producto podrfan muy bien describirse por medio de un modelo autorregresivo de tercer orden. EI modelo estimado es
X,= 202+ I,lOX' - 1 - 0,48X' - 2 + 0,17X'-3 +£, En 1993, 1994 Y 1995, las ventas fueron de 867, 923 y 951, respectivamente. Calcule las predicciones de las ventas para los afios 1996 a 1998 .
19.47. En el caso de muchas series temporales, especialmente en el de los precios de los mercados especulativos, se ha observado que el modelo del pas eo aleatorio representa satisfactoriamente los datos efectivos. Este modelo es
Demuestre que, si este modele es adecuado, las predicciones de XII + /" partiendo del periodo n, vienen dadas por Xn+h = Xn
(h = 1,2,3, .. .)
19.48. ~ <1 Vuelva al fichero de datos Hourly Earnings del ejercicio 19.35, que muestra los beneficios de 24 meses. Sean x, (t = 1, 2, ... , 24) las
Capitulo 19.
observaciones. A continuaci6n, construya la serie de primeras diferencias:
z, = X,
-
X'-i
(t
= 2, 3, ... , 24)
Ajuste modelos autorregresivos de 6rdenes 1 a 4 a la serie Z,. Utilizando el metodo de este apartado para contrastar la hip6tesis de que el
Analisis de series temporales y predicci6n
807
orden autorregresivo es (p - 1) frente a la alternativa de orden p, con un nivel de significaci6n del 10 por ciento, seleccione uno de estos modelos. Utilizando el modelo seleccionado, realice predicciones para Z" donde t = 25, 26 Y 27. Realice predicciones de los beneficios para los 3 pr6ximos meses.
19.7. Modelos autorregresivos integrados de medias m6viles En este apartado introducimos brevemente un metodo para hacer predicciones de datos de series temporales que se utiliza mucho en las aplicaciones empresariales. Los modelos que analizamos incluyen como caso especial los modelos autorregresivos que hemos estudiado en el apartado 19.6. En un libro ch'isico, George Box y Gwilyn Jenkins introdujeron una metodologfa 10 suficientemente versatil para que un usuario moderadamente habil obtenga buenos resultados en una amplia variedad de problemas de prediccion que se plantean en la practica (vease la referencia bibliografica 1). La esencia del metoda de Box-Jenkins es el examen de una amplia clase de modelos a partir de los cuales pueden realizarse predicciones, junto con una metodologfa para elegir, en funcion de las caracterfsticas de los datos de los que se dispone, un modelo adecuado para cualquier problema de prediccion. La clase general de modelos es la clase de modelos autorregresivos integrados de medias moviles (ARIMA). Son extensiones bast ante naturales de los modelos autorregresivos del apartado 19.6. Ademas, la suavizacion exponencial simple y los predictores de HoltWinters pueden obtenerse a partir de miembros especfficos de esta clase general, al igual que otros muchos algoritmos que se utilizan frecuentemente para hacer predicciones. Los modelos y las tecnicas de analisis de series temporales de Box-Jenkins pueden generalizarse para tener en cuenta la estacionalidad y tambien para analizar series temporales relacionadas, por 10 que es po sible predecir los futuros valores de una serie a partir de informacion no solo sobre su propio pasado sino tambien sobre el pas ado de otras series relevantes. Esta ultima posibilidad permite adoptar un enfoque para realizar predicciones que generaliza los metodos de regresion analizados en los Capftulos 12 a 14. No es posible en el espacio de que disponemos analizar exhaustivamente la metodologfa de Box-Jenkins (para una introduccion a esta metodologfa, vease la referencia bibliografica 3). Consta, esencialmente, de tres fases :
1.
2.
3.
Basandose en estadfsticos sinteticos que son faciles de calcular a partir de los datos de que se dispone, el analista selecciona un modelo especffico de la clase general. No se trata simplemente de seguir automaticamente una serie de reglas sino que hace falta un cierto grado de criterio personal y de experiencia. Sin embargo, el analista no se compromete para siempre a seguir el modelo elegido en esta fase sino que puede abandonarlo en favor de otro en una fase posterior si parece deseable. EI modelo especffico elegido tiene casi invariablemente algunos coeficientes desconocidos. Estos deben estimarse a partir de los datos de los que se dispone utilizando tecnicas estadfsticas eficientes, como mfnimos cuadrados. Por ultimo, hay que averiguar si el modelo estimado es una representacion adecuada de los datos de series temporales de los que se dispone. Cualquier indicio de
808
Estadfstica para administracion y economfa
que no 10 es en esta fase puede sugerir alguna especificaci6n alternativa y el proceso de selecci6n del modelo, de estimaci6n de los coeficientes y de comprobaci6n del modelo se repite hasta que se encuentra uno satisfactorio. EI enfoque de Box-Jenkins para hacer predicciones tiene la gran ventaja de la flexibili-
dad: existe una amplia variedad de predictores y la elecci6n entre ellos se basa en los datos. Ademas, cuando se ha comparado este enfoque con otros metodos, utilizando series temporales econ6micas y empresariales efectivas, normalmente se ha observado que funciona muy bien. Por 10 tanto, puede decirse que ha superado la prueba de fuego: jen la practica, funciona! Para concluir este breve analisis, observese que existen programas informaticos para realizar analisis de series temporales ajustando a los datos modelos ARIMA, incluido un conjunto de procedimientos del programa Minitab. Sin embargo, el metodo tiene un inconveniente en comparaci6n con otros mas sencillos analizados en apartados anteriores de este capitulo. Como hay flexibilidad para elegir un modelo adecuado de la clase general, el enfoque de Box-Jenkins es mas caro que los metodos que imponen una unica estructura del modelo a todas las series temporales porque debe ser utilizado por personas cualificadas.
RESUMEN Este capftulo es una introduccion al amilisis de los datos de series temporales . Hemos presentado, en primer lugar, los nllmeros In dice como medida estandarizada de las variaciones a 10 largo del tiempo . En el resto del capItulo, hemos mostrado algunos utiles metodos para predecir datos de series temporales. Los numeros Indice constituyen una base coherente a 10 largo del tiempo para representar precios, cantidades y otras medidas importantes. Los numeros Indice simples son una medida del cambio can respecto a un periodo de tiempo fijo. Los numeros Indice ponderados, como el fndice de Laspeyres, parten de proporciones de bienes constantes e indican como influyen las variaciones de los precios de cada bien en el precio agregado de la cesta de mercado. Hemos comenzado la prediccion de datos de series temporales con un amilisis de los principales componentes de las series temporales: tendencial, cfclico, estacional e irregular. A continuacion, hemos presentado una serie de instrumentos aplicados que han demostrado ser eficaces para hacer predicciones. Hemos mostra-
do algunas versiones de los modelos de medias moviles ponderadas y los modelos exponenciales. Hemos visto como pueden utilizarse algunas variantes de estos metodos para controlar y estimar el efecto de los principales componentes. Hemos introducido los model os autorregresivos para ilustrar el enfoque estocastico de las predicciones de datos de series temporales. En ese enfoque, estimamos parametros de un modelo que podrfan haber generado la serie temporal. Un enfoque consiste en utilizar modelos autorregresivos en los que se plantea que una medida en el periodo t es una funcion lineal de las observaciones pasadas mas un termino de error aleatorio. EI desarrollo del modelo implica la especificacion del modelo, la estimacion y a continuacion la realizacion de un contraste para averiguar la eficacia del modele para hacer predicciones. Por ultimo, hemos ofrecido una vision panoramica de los modelos integrados autorregresivos de medias moviles, que son la base de una amplia variedad de especificaciones de model os, dependiendo de la estructura que se crea que tiene el proceso.
TERMINOS CLAVE aniilisis de los componentes de las series temporales, 779 calculo de fndices de precios de un lmico articulo, 767 cambio del periodo base, 770
contraste de rachas, 775 contraste de rachas: grandes muestras, 775 fndice de cantidades agregado ponderado, 769 fndice de cantidades de Laspeyres, 770
fndice de precios agregado ponderado, 768 fndice de precios enlazado, 771 fndice de precios de Laspeyres, 768 fndice de precios no ponderado, 767
Capitulo 19.
Analisis de series temporales y predicci6n
numeros fndice, 764 predicci6n con el metodo de Holt-Winters: series estacionales, 797 predicci6n con el metoda de Holt-Winters: series no estacionales, 793 predicci6n a partir de modelos autOlTegresivos estimados, 803
mcd ias moviles centradas simples de (2m + 1) puntos, 781 metodo de desestacionalizaci6n med iante medias m6viles simples, 785 modelos ARIMA, 807 modelos autOlTegresivos y su estimaci6n, 802
809
predicci6n por medio de la suavizaci6n exponencial simple, 791 series temporales, 777 suavizaci6n exponencial simple, 789
EJERCICIOS V APLICACIONES DEL CAPITULO 19.49.
I"
Vuelva al ejercicio 19.35 y al fichero de datos Hourly Earnings, que muestra los ingresos mensuales por hora de la industria manufacturera. a) Calcule un fndice con el mes I como base. b) Calcule un fndice con el mes 5 como base.
19.50. , . Una biblioteca compra Iibros y revistas. La tabla adjunta y el fichero de datos Library Purchases muestran los precios medios (en d6lares) pagados por cada uno y las cantidades compradas en un periodo de 6 anos. Utilice el ano 1 como base. Libros
Revistas
ADO
Precio
Cantidad
Precio
Cantidad
1 2 3 4 5 6
20,4 22,3 23,3 24,6 27,0 29,2
694 723 687 731 742 748
30,1 33,4 36,0 39,8 45,7 50,7
155 159 160 163 160 155
a) Halle el fndice de precios agregado no ponderado. b) Halle el fndice de precios de Laspeyres. c) Halle el fndice de cantidades de Laspeyres. 19.51. Explique la afirmaci6n de que puede considerarse que una serie temporal esta formada por varios componentes. Ponga ejemplos de series temporales empresariales y econ6micas en las que es de esperar que sean importantes determinados componentes. 19.52. En much as aplicaciones empresariales, las predicciones de los futuros valores de las series temporales, como las ventas y los beneficios, se hacen exclusivamente con informaci6n pasada sobre la serie temporal en cuesti6n. i,Que caracterfsticas de la conducta de las series temporales se explota en la producci6n de esas predicciones?
19.53. Una persona encargada del control de las existencias solicita predicciones mensuales de las ventas de varios productos para los 6 pr6ximos meses. Esta persona tiene datos sobre las ventas mensuales de cada uno de estos productos de los 4 ultimos aftos. Decide utilizar como predicciones para cada uno de los 6 pr6ximos meses las ventas mensuales medias de los 4 ultimos anos. i,Cree que es una buena estrategia? Explique su respuesta. 19.54. i,Que se entiende por ajuste estacional de una serie temporal? Explique pOI' que los organismos oficiales realizan muchos esfuerzos para desestacionalizar las series temporales econ6micas. 19.55.
I .. EI fichero
de datos US Industrial Production muestra un fndice de producci6n industrial de Estados Unidos de 14 aftos. a) Realice un contraste de aleatoriedad de esta serie utilizando el contraste de rachas. b) Trace un grMico temporal de estos datos y analice las caracterfsticas que revela el grMico. c) Calcule la serie de medias m6viles centradas simples de 3 puntos. Represente grMicamente esta serie suavizada y anal ice su conducta.
19.56. "
EI fichero de datos Product Sales muestTa
24 observaciones anuales sobre las ventas de un
producto. a) Uti lice la variante del contraste de rachas para grandes muestras para hacer un contraste de aleatoriedad de esta serie. b) Trace un grMico temporal de los datos y analice las caracterfsticas de la serie mostra da en este grMico. c) Calcule la serie de medias m6viles centradas simples de 5 puntos. Represente graficamente esta serie suavizada y anal ice su conducta.
810
Estadistica para administraci6n y economia
19.57. t,.) El fichero de datos Quarterly Earnings 19.57 muestra los beneficios trimestrales por accion de una empresa en 7 afios. a) Represente gr<'ificamente estos datos. i,Sugiere este gr<'ifico la presenci a de un fuerte componente estacional? b) Utilice el metodo del fndice estacional para obtener una serie desestacionalizada. 19.58.
f.,
El fichero de datos Price Index muestra 15 val ores mensuales del fndice de precios de una mercancfa.
a) Calcule la serie de medias moviles centradas simples de 3 puntos . b) Trace un gr<'ifico temporal de la serie suavizada y comente sus caracterfsticas. 19.59. ~; Vuelva al ejercicio 19.56 y al fichero de datos Product Sales. Uti lice la suavizacion exponencial simple con una constante de suavizacion rx = 0,5 para hacer predicciones de las ventas para los 3 proximos afios.
19.60. ( ) Vuelva al ejercicio 19.58 y al fichero de datos Price Index. Utilice el metoda de HoltWinters con las constantes de suavizacion rx = 0,3 y f3 = 0,4 para hacer predicciones del Indice de precios para los 4 proximos meses. 19.61. ( ) Vuelva al ejercicio 19.57 y al fichero de datos Quarterly Earnings 19.57. Utilice el metodo estacional de Holt-Winters con las constantes de suavizacion rx = 0,4, f3 = 0,4 y y = 0,2 para hacer predicciones de esta serie de beneficios por accion para los cuatro proximos trimestres. 19.62. 0' ,) Basandose en el fichero de datos Product Sales del ejercicio 19.59, estime modelos autorregresivos de ordenes 1 a 4 para las ventas del producto. Utilizando el metodo del apartado 19.6 para contrastar la hipotesis de que el orden autorregresivo es (p - I) frente a la alternativa de que el orden es p , con un nivel de significacion del 10 por ciento, elija uno de estos modelos. Haga predicciones para los 3 proximos afios a partir del modelo elegido.
Bibliografla 1. 2.
3.
Box, G. E. P. Y G. M. Jenkins, Time Series Analysis, Forecasting, and Control, San Francisco, Holden-Day, 1970. Granger, C . W. Y P. Newhold, Forecasting Economic Time Series, Orlando, Fl, Academic Press, 1986, 2.a ed. Newbold, P. y T. Bas, Introductory Business Forecasting, Cincinnati , OH, South-Western, 1994, 2.a ed.
Otros temas relacionados con el muestreo / / / Esquef1U1 del capitulo 20.1. Pasos basicos de un estudio realizado por muestreo 20.2. Errores de muestreo y errores ajenos al muestreo 20.3. Muestreo aleatorio simple Analisis de los resultados de un muestreo aleatorio simple 20.4. Muestreo estratificado Analisis de los resultados de un muestreo aleatorio estratificado Afijaci6n del esfuerzo muestral a los distintos estratos 20.5. Elecci6n del tamano de la muestra Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la media o total poblacional Tamano de la muestra para el muestreo aleatorio simple: estimaci6n de la proporci6n poblacional Tamano de la muestra para un muestreo aleatorio estratificado con un grado de precisi6n especificado 20.6. Otros metodos de muestreo Muestreo por conglomerados Muestreo bietapico Metodos de muestreo no probabilisticos
Introducci6n Una gran parte de la inferencia estadfstica se refiere a problemas en los que se hacen afirmaciones sobre una poblaci6n basandose en informaci6n procedente de una muestra. Hasta ahora hemos tratado de una manera bastante superficial dos importantes temas. En primer lugar, apenas nos hemos referido a la forma en que se seleccionan real mente los miembros de la muestra. En segundo lugar, hemos supuesto en general que el numero de miembros de la poblaci6n es muy grande en comparaci6n con el numero de miembros de la muestra. En este capitulo examinamos el problema del investigador que quiere descubrir algo sobre una poblaci6n que no es necesaria mente grande. EI investigador pretende reunir informaci6n unicamente sobre un subconjunto de la poblaci6n y necesita orientaci6n para saber c6mo debe reunirla.
812
Estadistica para administracion y economia
20.1. Pasos basicos de un estudio realizado por muestreo Los analistas de mercado a menudo estudian las poblaciones humanas para obtener informacion sobre sus preferencias por un producto. Los auditores normal mente seleccionan una muestra de facturas pendientes de cobro de una empresa. Se hacen inferencias sobre la poblacion correspondiente basandose en estas muestras. Los directores de personal requieren informacion sobre las actitudes de los empleados hacia los nuevos metodos de produccion propuestos y les resulta util tomar una muestra de la plantilla. Naturalmente, el uso de metodos de muestreo esta muy extendido y va mas alla del campo de la empresa. Tal vez los ejemplos mas conocidos sean las encuestas que se hacen periodicamente sobre las preferencias de los votantes antes de las elecciones. La informacion recogida tiene interes no solo para el publico en general sino tambien para los asesores de los candidatos que tratan de averiguar donde deb en concentrar mas los esfuerzos. Esas encuestas a los votantes han aumentado tanto que se recaba la opinion de los votantes sobre todos los aspectos de la polftica y los encuestadores profesionales se han convertido en una importante figura en el sequito del politico. Antes de preguntar como debe tomarse una muestra de una poblacion, tal vez se pregunte el lector por que hay que to mar una muestra. La alternativa es intentar obtener informacion de todos los miembros de la poblacion. En ese caso, hablarfamos de censa y no de muestra. Hay varias razones por las que a menudo se prefiere una muestra a un censo. En primer lugar, en muchas aplicaciones serfa enormemente caro tomar un censo completo, a menudo prohibitivo. En segundo lugar, muchas veces es necesario disponer de informacion bastante deprisa; un censo completo, incluso aunque sea economicamente viable, puede tardar tanto en realizarse que el valor de los resultados puede disminuir seriamente. Otra razon para tomar una muestra es que con los metodos estadisticos modernos generalmente es posible obtener resultados con el grado deseado de precision por medio del muestreo. El tiempo y el dinero necesarios para obtener numeros cuya precision aparente es mayor que la que necesita el investigador podrfan dedi carse mejor a otras cosas. Ademas, si se toma una muestra relativamente pequefia, los beneficios que se obtendrian haciendo un esfuerzo mayor para conseguir informacion precisa de los rniembros de la muestra podrfan muy bien ser mayores que los beneficios de obtener informacion de un grupo mayor que puede ser menos fiable debido a las limitaciones de tiempo y de costes. En cuarto lugar, algunos muestreos son destructivos y los sujetos contrastados se destruyen en el estudio. As! sucederfa si se tratara de contrastar la duracion de las bombillas, la duracion de una determinada marca de neumaticos 0 la resistencia de los tubos de vidrio a las roturas. Estos factores -coste, tiempo, precision y caracter destructivo- considerados en conjunto llevan a preferir en much as ocasiones las muestras a los censos. Supongamos ahora que se necesita informacion sobre una poblacion y que se ha decidido tomar una muestra. Es comodo considerar que un estudio realizado por muestreo consta de los seis pasos siguientes, cada uno destinado a dar una respuesta a una pregunta. La Figura 20.1 muestra estos pasos. 1.
2. 3. 4. 5. 6.
Primer paso: (,que informacion se necesita? Segundo paso: (,cual es la poblacion relevante y existe un listado de esa poblacion? Tercer paso: (,como deben seleccionarse los miembros de la muestra? Cuarto paso: (,como debe obtenerse informacion de los rniembros de la muestra? Quinto paso: (,como debe utilizarse la informacion muestral para hacer inferencias sobre la poblacion? Sexto paso: (,que conclusiones pueden extraerse sobre la poblacion?
Capitulo 20.
Figura 20.1. PasoS en un estudio realizado por rnuestreo.
Otros temas relacionados can el muestreo
813
Sexto paso: lconclusiones?
Quinto paso: linferencias de la muestra? Cuarto paso: lobtener informacion? Tercer paso: lseleccion de la muestra?
Segundo paso: lPoblacion relevante?
Primer paso: linformacion necesaria?
Se analiza cada uno de esos pasos en relacion con un problema de un estudio de mercado. Supongamos que un editor pretende publicar un nuevo libro de texto de estadistica y qui ere informacion sobre la situacion actual del mercado. La informacion valiosa podria ser el numero de estudiantes matriculados en los cursos de estadistica para los negocios, la penetracion de los textos existentes en el mercado y las opiniones de los profesores sobre los temas que son mas importantes para sus cursoS. Supongamos que el editor quiere recogel' datos de una muestra de campus universitarios.
1. l.Que informacion se necesita? La respuesta a esta pregunta es tanto el motivo como el punto de partida para realizar el estudio. Si la informacion necesaria ya existe 0 es imposible de obtener, no tiene sentido realizar el estudio. Por muy sencilla que parezca la pregunta, a menu do es necesario lograr un equilibrio bastante delicado en esta fase. El investigador puede estar pensando en un unico tema 0 puede haber varios temas de interes . Pero dado que va a realizarse el estudio, con todos sus costes, normalmente merece la pena preguntarse si puede obtenerse en el estudio mas informacion potencial mente util con un gasto adicional minimo. En el caso del editor del libro de estadfstica para los negocios, las preguntas mas Miles se refieren al tamafio del mercado, a la situacion de los competidores y a los temas que los profesores consideran mas importantes. Dado que hay que entrar en contacto con los miembros de la muestra para recabar esta informacion, puede merecer la pena hacer algunas preguntas mas. Estas pueden ser si el curso es de un cuatrimestre 0 de dos, si es optativo u obligatorio, el departamento del profesor, el metoda para adoptar el libro y el tiempo que !leva utilizandose el libro actual. Una vez elegido ese camino, se puede tener la tentacion de dejar que la lista de preguntas au mente espectaclllarmente, ya que eso generalmente no incrementa mucho el coste del estudio. Sin embargo, puede tener un problema. Es mas probable que los encuestados cooperen en un estudio en el que se hacen relativamente pocas preguntas, ya que se les qllita poco tiempo. Es importante, pues, para el investigador buscar el equilibrio, es decir, hacer preguntas sobre cuestiones centrales (pues, si se descubre una omision importante, puede ser demasiado caro repetir to do el ejercicio) y conseguir que el numero de preguntas sea tolerable para los enc uestados.
814
Estadfstica para administracion y economfa
2. l,Cual es la poblacion relevante y existe un listado de esa poblacion? Parece bastante trivial sefialar que para hacer inferencias sobre una poblacion, esa es la poblacion que debe muestrearse. No obstante, a menudo se han extraido dudosas conclusiones tras un amilisis, por 10 demas absolutamente respetable, de los datos de encuesta precisamente porque no se ha tenido en cuenta este punto elemental. Muchas publicaciones piden la opinion de sus lectores sobre determinadas cuestiones. Sin embargo, seria peligroso generalizar sus respuestas a la poblacion en general. La poblacion estudiada en este caso es simplemente la de lectores de la publicacion y es probable que estos lectores no sean representativos del publico en general. En muchos estudios practicos, la poblacion real de interes puede ser imposible de definir. Por ejemplo, una organizacion que intenta predecir el resultado de un as elecciones presidenciales solo esta interesada realmente en la poblacion que votara. Aunque esta es la poblacion relevante, sus miembros no son faciles de distinguir. Una posibilidad es, por supuesto, preguntar a un miembro de una muestra si tiene intencion de votar. Si embargo, es bien sabido que la proporcion que responde afirmativamente a una pregunta de ese tipo es mayor que la proporcion que acaba votando. Otra posibilidad es preguntar si el encuestado voto en las elecciones anteriores, pero esta pregunta tambien dista de ser totalmente satisfactoria. Es probable que el editor del libro de texto considere que la poblacion relevante son todos los profesores (0 quiza todas las universidades) que imparten cursos de estadistica para los negocios. La poblacion es bastante facil de identificar y, como consecuencia de actividades de marketing anteriores, el editor tendra casi con toda seguridad un listado bastante preciso de sus miembros.
3. l,Como deben seleccionarse los miembros de la muestra? Una gran parte del resto de este capitulo se dedica a responder a esta pregunta. En pocas palabras, no existe una unica forma de conseguir el «mejor» sistema de muestreo. La eleccion correcta depende generalmente del problema en cuestion y de los recursos del investigador. Ya hemos introducido anteriormente el concepto de muestreo aleatorio simple, en el que todos los miembros de una poblacion tienen la misma probabilidad de ser elegidos para la muestra. De hecho, todos los instrumentos para analizar los datos que hemos introducido hasta ahora se basaban en el supuesto de que la muestra se elegia de esta forma. Existen, sin embargo, muchas circunstancias en las que podria preferirse otro sistema de muestreo. Supongamos que a nuestro editor Ie interesan las diferencias entre el tratamiento que se da a la estadfstica empresarial en las escuelas universitarias de grado medio y el que se Ie da en las facultades de grado superior. Serfa importante que la muestra contuviera suficientes centros de cada tipo para po del' extraer conclusiones fiables sobre ambos. Sin embargo, el muestreo aleatorio simple no garantiza en modo alguno que se logre ese objetivo. POl' ejemplo, es absolutamente posible que la muestra elegida contenga una preponderancia de facultades. Para evitar esta posibilidad, pueden extraerse muestras aleatorias simples de las respectivas poblaciones de los dos tipos. Este es un ejemplo de muestreo estratificado, que se analiza mas detalladamente en el apartado 20.4. Otra cuestion que hay que decidir en esta fase es el numero de miembros de la muestra. En este caso, la eleccion depende esencialmente del grado de precision necesario y de los costes que implica. Esta cuestion se aborda en el apartado 20.5.
Capitulo 20.
Otros temas relacionados can el muestreo
815
4. l,Como debe obtenerse informacion de los miembros de la muestra? Esta pregunta es extraordinariamente importante y ha sido objeto de muchas investigaciones. En terminos generales, plantea dos importantes cuestiones. En primer lugar, el investigador quiere obtener respuestas de la mayor proporcion posible de los miembros de la muestra. Si el numero que no responde es alto, sera diffcil estar segura de que los que han respondido son representativos de la poblacion en general. Por ejemplo, los profesores que no facilitan informacion al editor del libro de texto pueden estar mas dedicadas a la investigacion, a la consultoria 0 a otras actividades y sus preferencias sabre los libros pueden muy bien ser diferentes de las de sus colegas. Recuerdese que el numero de preguntas formuladas en una encuesta puede afectar a la tasa de respuesta. Tambien influye la forma en que se conlacla can los miembros de la muestra. A menudo los cuestionarios sc envian por correo a las personas seleccionadas para la muestra y a menudo ocurre que la proporcion que responde es decepcionantemente baja. Muchos investigadores intentan mejorar la tasa de respuesta adjuntando una carta en la que explican los fines del estudio y solicitan ayuda educadamente. La garantia del anonimato tambien puede ser valiosa. La inclusion de un sobre con el franqueo pagado para devolver el cuestionario general mente merece la pena; tambien puede prometerse algun pequeno incentivo monetario 0 regalo. No obstante, habra casi inevitablemente una proporcion de personas que no respondan y es una buena practica instituir un estudio de seguimiento para tratar de obtener mas informacion sabre elias. Es probable que los metodos de contacto mas caros, como las lIamadas telefonicas 0 las visitas de los entrevistadores a las casas, logren un nivel de respuesta mas alto. Sin embargo, esos metodos pueden ser caros en tiempo y dinero y la decision de como recoger informacion debe depender de los recursos del investigador y del grado en que se piense que la falta de respuesta puede ser un problema serio. El editor del libro de texto puede decidir enviar cuestionarios por correo a los miembros de la muestra. Seria barato, por 10 que podrfa extraerse una muestra inicial relativamente grande. La esperanza es que la proporcion de personas que no rcsponden no sea demasiado alta y que las respuestas obtenidas sean razonablemente representativas. Si se teme que la falta de respuesta introduzca un sesgo considerable si se envfa un cuestionario pOl' correo, se podria tomar una muestra inicial mas pequena y hacer un esfuerzo mayor para contactar con sus miembros. Una estrategia viable es pedir a los representantes de la empresa, que visitan periodicamente los campus, que realicen entrevistas con miembros de la muestra en su siguiente visita. Ese metoda deberfa garantizar una tasa de respuesta bastante alta. Su principal dificultad estriba en el tiempo necesario para realizar todas las entrevistas mas que en el coste adicional, que serfa bastante bajo. El segundo punto es obtener respuestas que sean 10 mas exactas y sinceras posible. No sirve de nada hacer un sofisticado analisis estadistico de informacion que no es fiable. Formular las preguntas, ya sea para enviarlas pOl' correo 0 para que las realice un encuestador, de tal forma que se consigan respuestas sinceras y exactas es to do un arte. Es importante que las preguntas se formulen de la manera mas clara e inequivoca posible, de modo que los sujetos entiendan 10 que se les pregunta. Tambien se sabe perfectamente que la formulacion de las preguntas 0 el tono del entrevistador pueden inducir a los encuestados a dar determinadas respuestas. Los entrevistadores no deben dar en modo alguno la impresion de que tienen firmes ideas sobre el tema en cuestion 0 de que quieren una respuesta concreta. Tambien es importante no predisponer a los encuestados: las preguntas deben formularse de la forma mas neutral posible. Por poner un ejemplo extremo, consideremos los dos metodos siguientes para preguntar esencialmente 10 mismo:
816
Estadfstica para administraci6n y economfa
a) b)
i, Que tres temas considera mas importantes en su curso de estadfstica para los negocios? i,Esta de acuerdo en que los metodos modernos de gestion de la calidad, debido a su enorme importancia en el mundo de la empresa, ahora deben considerarse uno de los mas importantes en cualquier curso de estadistica para los negocios?
Naturalmente, nadie que tenga interes en tener una idea precisa de las opiniones de los profesores haria la segunda pregunta. Sin embargo, se ha observado que formulaciones que tienen un sesgo mucho menos claro que el de esta influyen significativamente en las respuestas de los sujetos.
5. {,Como debe utilizarse la informacion de la muestra para hacer inferencias sobre la poblacion? Hemos dedicado la mayor parte de este libro a dar respuesta justamente a esta pregunta. En los apartados posteriores de este capitulo, analizamos metodos de inferencia de disefios de muestreo especfficos. El objetivo principal del presente apartado es sefialar la importancia de otros aspectos de un estudio por muestreo.
6. {,Que conclusiones pueden extraerse sobre la poblacion? Por ultimo, cerramos el cfrculo y preguntamos que puede decirse sobre la poblacion estudiada como consecuencia de una investigacion estadfstica. i,Ha dado el estudio claras respuestas a las preguntas que 10 motivaron? i,Han surgido otras cuestiones importantes en el curso del estudio? En esta fase, el investigador tiene la tarea de resumir y presentar la informacion recogida. Para eso pueden ser necesarias estimaciones puntuales 0 por intervalos, asf como tablas 0 gr:ificos que resuman los principales resultados. i,Cu:il es la mejor estimacion del numero de estudiantes matriculados en los cursos de estadistica para los negocios y pueden estimarse intervalos de confianza en torno a esta estimacion? i,Cuales son los libros de texto mas populares en este momento? i,Que temas consideran mas importantes los profesores? i,Existen diferencias significativas entre los mercados de las escuelas universitarias y las facultades? En esta fase, la tarea es informar sobre los resultados del estudio y decidir como proceder. Puede que el analisis sugiera la conveniencia de recoger mas informacion. A menudo surgen importantes cuestiones imprevistas durante el curso del estudio que inducen al investigador a estudiar en mayor profundidad la poblacion. Esta es la razon por la que nuestro editor hace una pregunta abierta como la siguiente: «Nuestra empresa esta considerando la posibilidad de introducir en el mercado un nuevo libro de texto de economfa. i,Hay alguna caracterfstica que Ie gustarfa que tuviera ese libro?». Supongamos, ademas, que cuando se devuelven los cuestionarios, un numero considerable menciona la posibilidad de que se venda simultaneamente una gran base de datos que contenga datos sobre problemas reales del mundo de la empresa. Analizando estos datos, los estudiantes podrfan adquirir experiencia practica en temas del curso. Antes de incurrir en el coste de producir este program a informatico, al editor podrfa merecerle la pena tomar otra muestra para evaluar las probabilidades de exito de este proyecto.
Capitulo 20.
Otros temas relacionados con el muestreo
817
EJERCICIOS
Ejercicios basicos 20.1. Suponga que quiere realizar un estudio para conocer las opiniones de los estudiantes de administracion de empresas de su campus sobre la necesidad de que la asignatura de estadistica sea obligatoria. Analice los pasos que seguirfa para realizar este estudio, los problemas que esperarfa encontrar y las tecnicas que podrfa utilizar para resolver los problemas. 20.2. Las autoridades universitarias tienen interes en conocer las opiniones de los estudiantes sobre algunos servicios universitarios (como la matrfcula, los comedores 0 el servicio medico). Le han pedido que haga una encuesta. Sugiera como seguirfa los seis pasos de un estudio de muestreo. 20.3. El director de una tienda de ropa situ ada en el campus esta considerando la posibilidad de introducir algunos artfculos mas de marca y quiere evaluar la demanda de estos artfculos por parte de los estudiantes. Se Ie ha encargado que disene una encuesta para obtener esta informacion. Explique detalladamente 10 que haria. 20.4. Una empresa de servicios financieros esta considerando la posibilidad de introducir tres nue-
20.2. Errores de muestreo
vos tipos de fondos de inversion . Se cree que, al menos inicialmente, la mayor parte del apoyo probablemente provendria de sus clientes act uales. A la empresa Ie gustarfa evaluar el grado de interes que tienen estos clientes en los nuevos productos propuestos y preferiblemente conocer tambien las caracterfst icas re levantes de las personas mas interesadas. Le han encargado un estudio con un presupuesto limitado. ~Q ue haria? 20.5. A los ejecutivos de una companfa de seguros, conscientes de que han aumentado significativamente algunos tipos de prim as de seguro en los ultimos anos, les preocupa la imagen publica de su sector y la posibilidad de que tenga repercusiones poifticas. Se ha decidido lanzar una campana de relaciones publicas para informar al publico sobre las causas de los incrementos de los costes. Sin embargo, existe mucha incertidumbre sobre los temas que mas preocupan a la gente y sobre el grado en que se comprenden los factores que subyacen a las subidas de los precios. Explique como pod ria organizar un estudio para obtener informacion relevante. Siga los pasos basicos de un plan de muestreo.
errores ajenos al muestreo
Cuando se toma una muestra de una poblacion, no es posible saber cwil es exactamente el valor de cualquier parametro poblacional, como la media 0 la proporcion. Cualquier estimacion puntual tendni inevitablemente un error. Recuerdese que una de las fuentes de error, llamado error de muestreo, se debe a que s610 se dispone de informaci6n sobre un subconjunto de todos los miembros de la poblaci6n. Dados ciertos supuestos, la teorfa estadfstica nos permite caracterizar la naturaleza del error de muestreo y hacer afirmaciones probabilfsticas bien definidas sobre los pani metros poblacionales, como los intervalos de confianza analizados en los Capftulos 8 y 9. En apartados posteriores de este capitulo, analizamos metodos de inferencia estadfstica para varios sistemas importantes de muestreo. Sin embargo, es importante reconocer primero otra fuente posible de error, que no puede analizarse de una forma tan exacta 0 clara. En los amilisis pnicticos, puede haber errores que no tengan que ver con el tipo de sistema de muestreo utilizado. De hecho, esos errores podrfan cometerse tambien si se tomara un censo completo de la poblaci6n. Son errores ajenos al muestreo. En cualquier encuesta, existe la posibilidad de que haya en algunos lugares un error ajeno al muestreo. He aqui algunos ejemplos:
1.
La poblacion de la que se hace realmente el muestreo no es la relevante. En 1936, ocurri6 un conocido caso de este tipo, cuando la revista Literary Digest pre-
818
Estadistica para administraci6n y economia
2.
3.
dijo con seguridad que Alfred Landon ganarfa las elecciones frente a Franklin Roosevelt. Sin embargo, Roosevelt gano por un amplio margen. Este error de prediccion se debio a que los miembros de la muestra de Digest se habian tomado de las gufas de telefono y de otros li stados, como las listas de suscriptores a revistas y los registros de automoviles. En estas fuentes , estaban c1aramente subrepresentados los pobres, que eran predominantemente democratas. Para hacer una inferencia sobre una poblacion (en este caso, sobre el electorado estadounidense), es importante hacer una muestra de esa poblacion y no de algun subgrupo, por muy comodo que parezca esto ultimo. Los sujetos de la encuesta pueden dar una respuesta inexacta 0 falsa. Eso podria ocurrir pOl'que las preguntas se formulan de una manera diffcil de en tender 0 de una forma que parece que una respuesta es mas agradable 0 mas deseable. Ademas, muchas preguntas que uno querria hacer son tan delicadas que seria imprudente esperar que todas las respuestas fueran sinceras. Supongamos, por ejemplo, que un jefe de planta quiere evaluar las perdidas anuales de la empresa que se deben a robos de los empleados. En principio, se podrfa seleccionar una muestra aleatoria de empleados y preguntar a sus miembros «(,que ha robado en esta planta en los 12 ultimos meses?». jEsta no es, desde luego, la forma mas fiable de conseguir la informacion necesaria! Falta de respuesta a las preguntas de la encuesta. Los sujetos de una encuesta pueden no responder a ninguna pregunta 0 pueden no responder a algunas. Si ocurre en muchos casos, puede haber mas errores de muestreo 0 errores ajenos al muestreo. EI error de muestreo se debe a que el tamafio de la muestra logrado sera menor que el pretendido. El error ajeno al muestreo puede deberse a que la poblacion de la muestra no es la poblacion que interesa. Los resultados obtenidos pueden considerarse una muestra aleatoria de la poblaci6n que esta dispuesta a responder. Estas personas pueden ser diferentes en importantes aspectos de la poblacion en general. En ese caso, habra un sesgo en las estimaciones resultantes.
No existe ningun metodo general para idenlificar y analizar los errores ajenos al muestreo, pero estos pueden ser importantes. El investigador debe tener cuidado en cuestiones como la identificacion de Ia poblacion relevante, el disefio del cuestionario y la falta de respuesta para reducir 10 mas posible su importancia. En el resto de este capitulo, suponemos que se tiene ese cuidado, por 10 que en nuestro an:iIisis centramos la atencion en el tratamiento de los errores de muestreo.
EJERCICIOS
Ejercicios basicos 20.6. Vuelva al estudio del ejercicio 20.2. a) Dentro del sistema de muestreo que ha disenado, i, ve la posibilidad de que haya errores ajenos al muestreo? En caso afirmativo, i,que medidas tomarfa para reducir 10 mas posible su magnitud? b) i,Es probable que la falta de respuesta sea una cuestion grave en este estudio? En caso afirmativo, i,que podria hacerse para resolverla?
20.7. Vuelva al estudio del ejercicio 20.3. a) Analice las causas probables de los errores ajenos al muestreo e indique como podrfan reducirse 10 mas posiblc. b) i,Es de esperar que la falta de respuesta sea un problema grave para realizar este estudio? En caso afirmativo, i,como podrfa paliarse el problema? 20.8. En el caso del estudio del ejercicio 20.5, analice la posibilidad de que haya en'ores ajenos al
Capitulo 20.
Otros temas relacionados con el muestreo
819
llamar el jueves siguiente a los hogares en los que no hay nadie en casa. Este proceso puede continuar hasta que se logra hablar el jueves siguiente con los hogares con los que no se pudo hablar los dos jueves anteriores. (,Cuat podrfa ser el valor de la informacion obtenida de esta forma?
muestreo Y falta de respuesta. Indique que harfa para reducir 10 mas posible estos problemas. 20.9. Un metodo para hacer frente a un tipo de falta de resp uesta es el metoda del recuerdo. Se realiza una encuesta a los hogares en la que los entrevistadores Uaman el jueves por la tarde. Se vuelve a
20.3. Muestreo aleatorio simple _..
.
En el resto de este capitulo, analizamos problemas en los que se extrae una muestra de n individuos u objetos de una poblaci6n que conticne un total de N miembros. En las aplicaciones pnicticas, se han utilizado muchos sistemas para seleccionar esas muestras. Nuestros amllisis centranin en gran parte la atenci6n en los metodos de muestreo probabiUstico, que son metodos en los que se utiliza algun mecanismo en el que interviene el azar para decidir los miembros de la muestra y se sabe cmU es la probabilidad de obtener una determinada muestra. Hacemos de nuevo hincapie en el concepto de muestreo aleatorio simple y en la forma en que se toma una muestra aleatoria simple de una poblaci6n finita, debido a su importancia.
Muestreo aleatorio simple Supongamos que tenemos que seleccionar una muestra de n objetos de una poblaci6n de N objetos. Un metoda de muestreo aleatorio simple es aquel en el que todos los miembros de una poblaci6n tienen la misma probabilidad de ser elegidos para la muestra.
Supongamos que nuestra poblaci6n esta formada por 1.000 individuos, numerados del 1 al 1.000 y que se necesita una muestra aleatoria simple de 100 miembros de la poblaci6n. El programa Minitab puede generar facilmente una muestra aleatoria simple. Por ejemplo, una lista parcial de los 100 numeros aleatorios que generamos con Minitab incluye las personas que tienen los numeros
457
229
843
460 918
311
S610 consideraremos el muestreo sin repeticion, en el que se excluye cualquier numero que ya ha salido y el proceso continua hasta que se obtienen 100 numeros diferentes. No analizamos aqu! la alternativa, el muestreo con repeticion, que permite incluir un individuo en la muestra mas de una vez. El muestreo sistematico es un metodo de muestreo estadistico que se utiliza a menudo como alternativa al muestreo aleatorio.
Muestreo sistematico Supongamos que la lista de la poblaci6n se ordena de una forma que no tiene ninguna relaci6n con el tema de interes. EI muestreo sistematico implica la selecci6n de todo j-esimo sujeto de la poblaci6n, don de j es el cociente entre el tamaiio de la poblaci6n Ny el tamaiio que se desea que tenga la muestra, n; es decir, j = Nln. Se selecciona aleatoriamente un numero del 1 al j para obtener el primer sujeto que va a incluirse en la muestra sistematica.
820
Estadistica para administraci6n y economia
Supongamos que se desea que el tamano de la muestra sea de 100 y que la poblaci6n esta formada por 5.000 nombres en orden alfabetico. En ese caso, j = 50. Seleccionamos aleatoriamente un numero del 1 alSO. Si el numero es el 20, seleccionamos ese numero y los sucesivos numeros obtenidos sumando 50 al numero inicial; de esa manera, se obtiene una muestra sistematica formada por los elementos que Ilevan los numeros 20, 70, 120, 170, etc. hasta que se seleccionan los 100 sujetos. Una muestra sistematica se analiza de la misma forma que una muestra aleatoria simple, ya que, en relaci6n con el tema investigado, la lista de la poblacion ya esta en orden aleatorio. El peligro esta en que exista alguna relaci6n sutil e inesperada entre el orden de la poblaci6n y el tema estudiado. En ese caso, habrfa un sesgo si se empleara un muestreo sistematico. Las muestras sistematicas constituyen una buena representaci6n de la poblaci6n si la poblaci6n no experimenta ninguna variaci6n ciclica.
Analisis de los resultados de un muestreo aleatorio simple En este apartado se amplfan las estimaciones del intervalo de confianza desarrolladas en el Capitulo 8. Sin embargo, aqui se analizan los casos en los que el numero de miembros de la muestra no es una proporci6n insignificante del numero de miembros de la poblaci6n. Por 10 tanto, se utiliza el factor de correccion en el caso de una pohlacion finita, n)/N. Se supondra que la muestra es 10 suficientemente grande para poder recurrir al teorema del limite central.
eN -
Estimacion de la media poblacional, muestra aleatoria simple Sean x" x2 ' . . . , Xn los valores observados en una muestra aleatoria simple de tamaiio n, tomada de una poblacion de N miembros que tiene una media /.1. 1.
La media muestral es un estimador insesgado de la media poblacional, fl. La estimacion puntual es
1
.x = 2.
n
II
L Xi i=\
Un metoda de estimacion insesgada de la varianza de la media muestral genera la estimacion puntual il~ x
3.
-
S2
N - m
n
N
= - x ---
(20.1)
Siempre que el tamaiio de la muestra es grande, los intervalos de confianza al 100(1 - a)% de la media poblacional son (20.2)
EJEMPLO
20.1. Creditos hipotecarios (intervalo de confianza)
En una ciudad, se solicitaron 1.118 creditos hipotecarios el ano pasado. Una muestra aleatoria de 60 de estos creditos era de una cuantia media de 87.300 $ y tenia una desviaci6n tfpica de 19.200 $. Estime la cantidad media de todos los creditos hipotecarios solicitados en esta ciudad el ano pasado y halle el intervalo de confianza al 95 por ciento.
Capitulo 20. Otros temas relacionados con 81 muestreo
821
Solucion Sea II la media pobl ac ional. Se sabe que
N=1.118
x = 87.300 $
n = 60
s = 19.200
Para obtener estimaciones de intervalos, utilizamos la ecuaci6n 20.1:
r? x
=
i
x (N - 11) n N
(19.200)2
1.058
60
1.118
--- x -
- = 5.814.268
y tomamos la ralz cuadrada para hallar el error tlpico estimado,
6.>:
=
2.411
Por 1o tanto, el intervalo de confianza al 95 por ciento de la cantidad media de todas las hipotecas solicitadas en esta ciudad el ano pasado es
87.300 $ - (1,96)(2.411) < II < 87.300 $
+ (1,96)(2.411)
o sea
82.574 $ < II < 92.026 $ Es decir, el intervalo va de 82.574 $ a 92.026 $.
A menudo, 10 que interesa es el total poblacional en lugar de Ia media. Por ejemplo, el editor de un libro de texto de estadistica para los negocios querra una estimaci6n del numero total de estudiantes que asisten a los cursos de estadlstica para los negocios en to do el pals. Es facil hacer una inferencia sobre el total poblacional. Los resultados relevantes se deducen del hecho de que en nuestra notaci6n, el total poblacional = Nfl.
Estimacion del total poblacional, muestra aleatoria simple Supongamos que se selecciona una muestra aleatoria simple de tamafio n de una poblaci6n de tamafio Ny que la cantidad que se quiere estimar es el total poblacional N,l. Un metodo de estimaci6n insesgada del total poblacional Nil genera la estimaci6n puntual Nx. 2. Un metodo de estimaci6n insesgada de la varianza de nuestro estimador del total poblacional genera la estimaci6n puntual: 1.
(20.3) 3.
Siempre que el tamafio de la muestra es grande, se obtiene un intervalo de confianza al 100(1 - a)% del total poblacional de la forma siguiente: (20.4)
822
Estadfstica para adm inistraci6n y economfa
EJEMPLO 20.2. Numero de matriculados en los cursos de estadistica para los negocios (intervalo de confianza) Supongamos que hay 1.395 universidades en un pais. En una muestra aleatoria simple de 400 universidades, se observa que la media muestral del numero de matriculados el ano pasado en los cursos de estadfstica para los negocios era de 320,8 estudiantes y que la desviacion tfpica muestral era de 149,7 estudiantes. Estime el numero total de estudiantes matriculados en estos cursos durante el ano y halle el intervalo de confianza al 99 por ciento.
Soluci6n Si la media poblacional es J-L, para estimar NJ-L se utilizan los datos siguientes: N
=
1.395
x=
n = 400
s
320,8
=
149,7
Nuestra estimacion puntual del total es
Nx =
(1.395)(320,8) = 447.516
Se estima que hay un total de 447.516 alumnos matriculados en los cursos. Para obtener estimaciones de intervalos, se utiliza la ecuacion 20.3 para calcular la varianza del estimador: N 2 o- 2,c ,
S2
=-
n
N(N - n)
=
(1497i
'
400
(1.395)(995)
= 77.764,413
Tomando la rafz cuadrada, tenemos que
NCrx = 8.818,4 Por 10 tanto, el intervalo de confianza al 99 por ciento del total poblacional se obtiene aplicando la ecuacion 20.4, siendo Za/2 = 2,58:
o sea 447.516 - (2,58)(8.818,4) < Nfl < 447.516
+ (2,58)(8.818,4)
o sea 447.516
± 22.751
424.765 < Nfl < 470.267 Por 10 tanto, nuestro intervalo va de 424.765 a 470.267 estudiantes. Consideremos, por ultimo, el caso en el que hay que estimar la proporci6n p de individuos de la poblacion que poseen una caracterfstica especffica. La inferencia sobre esta propOl'cion debe basarse en la distribucion hipergeometrica cuando el numero de miembros de la muestra no es muy pequeno en comparacion con el numero de miembros de la poblacion. Supongamos, de nuevo, que el tamano de la muestra es 10 suficientemente grande para poder invocar el teorema del Ifrnite central.
Cap itulo 20. Otros temas relacionados con el muestreo
823
Estimacion de la proporcion poblacional, muestra aleatoria simple Sea p la proporcion que posee una determinada caracterfstica en una muestra aleatoria de n observaciones de una poblacion que tiene una proporcion, P, que posee esa caracterfstica . 1. 2.
p,
La proporcion muestral, es un estimador insesgado de la proporcion poblacional, P. Un metoda de estimacion insesgada de la varianza de nuestro estimador de la proporcion poblacional genera la estimacion puntual
~2 (J -
=
P
3.
pO -
F5)
n - 1
(N - n) (20.5)
X ---
N
Siempre que el tamano de la muestra es grande, los intervalos de confianza del 100(1 - a)% de la proporcion poblacional son (20.6)
EJEMPLO
20.3.
Cursos anuales de estadfstica para los negocios (intervalo de confianza)
Se ha observado en una muestra aleatoria simple de 400 universidades de las 1.395 que hay en nuestra poblaci6n que el curso de estadfstica para los negocios era un curso anual en 141 de las universidades de la muestra. Estime la proporci6n de todas las universidades en la que el curso es anual y halle el intervale de confianza al 90 por ciento.
Solucion Dados N = 1.395
~ 141 P = -400 = 03525 '
n = 400
nuestra estimaci6n puntual de la proporci6n poblacional, P, es simplemente p = 0,3525. Es decir, el curso es anual en alrededor del 35 ,25 por ciento de todas las universidades. Para calcular estimaciones de intervalos, la varianza de nuestra estimaci6n se halla mediante la ecuaci6n 20.5: _?
(J""
P
=
pO - p) n - 1
x
(N - n)
N
=
(0,3525)(0,6475) 399
995
x --
1.395
= 0,0004080
por 10 que
ai; = 0,0202 En el caso de un intervalo de confianza al 90 por ciento, Za/2 = Zo.os = 1,645. EI interva10 de confianza al 90 por ciento se halla por medio de la .ecuaci6n 20.6:
p-
Zrt/2a p
p + Zal2ap
o sea 0,3525 - (1,645)(0,0202) < P < 0,3525
+ (1,645)(0,0202)
o sea 0,3193 < P < 0,3857 Por 10 tanto, el intervalo de confianza al 90 por ciento del porcentaje de todas las universidades en las que el curso de estadfstica para los negocios es anual va del 31,93 al 38,57 por ciento.
824
Estadfstica para administracion y economfa
EJERCICIOS
Ejercicios aplicados 20.10. Consulte un periodico economico para obtener un listado de todas las acciones que cotizan en bolsa. Utilice el programa Minitab para obtener una muestra aleatoria simple de 20 acciones. Halle la subida porcentual media que experimento el precio de las acciones de esta muestra la semana pasada. 20.11. Obtenga en su periodico local un listado de todos los anuncios de viviendas en venta en su ciudad. Utilice el programa Minitab para obtener una muestra aleatoria simple de 15 anuncios y halle la media muestral de los precios anunciados. 20.12. Un campus tiene 12.723 estudiantes. Quiere una muestra aleatoria de 100 de un listado completo de estos estudiantes. Explique como utili zaria el programa Minitab para obtener esa muestra aleatoria. 20.13. Tome una muestra aleatoria de 50 pagll1as de este libro y estime la proporcion de todas las paginas que contienen cifras. 20.14. Una empresa tiene 189 contables. En una muestra aleatoria de 50 de elIos, el numero medio de horas extraordinarias trabajadas en una semana fue de 9,7 y la desviacion tfpica muestral fue de 6,2 horas. Halle el intervalo de confianza al 95 pOl' ciento del numero medio de horas extraordinarias trabajadas pOl' cad a contable en esta empresa esa semana. 20.15. Un auditor, examinando un total de 820 facturas pendientes de cobro de una empresa, tomo una muestra aleatoria de 60. La media muestral era de 127,43 $ y la desviacion tfpica muestral . era de 43 ,27 $. a) Halle una estimacion de la media poblacional utilizando un metodo de estimacion insesgada. b) Halle una estimacion de la varianza de la media muestral utilizando un n:etodo de estimacion insesgada. c) Halle el intervalo de confianza al 90 por ciento de la media poblacional. d) Un estadistico obtuvo un intervalo de confianza de la media poblacional que iba de 117,43 $ a 137,43 $. (,Cual es el contenido probabilfstico de este intervalo?
20.16. Un dfa una organizacion de consumidores recibio 125 llamadas. Se observ6 que en una muestra aleatoria de 40 llamadas, el tiempo medio dedicado a dar la informaci6n solicitada era de 7,28 minutos y la desviaci6n tipica muestral era de 5,32 minutos. Halle el intervalo de confianza al 99 pOl' ciento del tiempo medio pOl' llamada. 20.17. Indique si es verdadera 0 falsa cada una de las afirmaciones siguientes: a) Dado un numero de miembros de una poblacion y dada una varianza muestral, cuanto mayor es el numero de miembros de la muestra, mayor es el intervalo de confianza al 95 pOI' ciento de la media poblacional. b) Dado un numero de miembros de una poblaci6n y dado un numero de miembros de la muestra, cuanto mayor es la varianza muestral, mayor es el intervalo de confianza al 95 pOl' ciento de la media poblacional. c) Dado un numero de miembros de una muestra y dada una varianza muestral , cuanto mayor es el numero de miembros de la poblaci6n, mayor es el intervalo de confianza al 95 por ciento de la media poblacional. d) Dado un numero de miembros de una poblaci6n, dado un numero de miembros de la muestra y dada una varianza muestral , un intervalo de confianza al 95 pOl' ciento de la media poblacional es mayor que un interva10 de confianza al 90 por ciento de la media poblacional. 20.18. Demuestre que nuestra estimaci6n de la varianza de la media muestral puede expresarse de la forma siguiente:
;;~ = (~ ~) S2
-
n
N
20.19. Basandose en los datos del ejercicio 20.14, halie el intervale de confianza al 99 pOl' ciento del numero total de horas extraordinarias trabajadas pOI' los contables en la empresa durante la semana de interes. 20.20. Basandose en los datos del ejercicio 20.15, halIe el intervalo de confianza al 95 pOl' ciento de la cuantia total de estas 820 facturas pendientes de cobro. 20.21. Basandose en los datos del ejercicio 20.16, halie el intervalo de confianza al 90 pOI' ciento de la cantidad total de tiempo dedicado a responder a estas 125 llamadas.
Capitulo 20.
0.22. Un alto directivo, responsable de un grupo de 120 ejecutivos, estli interesado en saber cWlnto tiempo dedican en total cad a seman a estas personas a re uniones internas. Se pide a una muestra aleatoria de 35 ejecutivos que anoten diariamente sus actividades la proxima semana. Cuando se analizan los resultados, se observa que estos miembros de esta muestra dedican un total de 143 horas a reuniones internas. La desviacion tfpica muestral es de 3,1 horas. Halle el intervalo de confianza al 90 por ciento del numero total de horas dedicadas a reuniones internas por los 120 ejecutivos du rante la semana.
W.23. Una muestra aleatoria simple de 400 universidades de un total de l.395 contenfa 39 que utilizaban el libro de texto Estadistiea difiei! y aburrida. Halle el intervale de confianza al 95 por ciento de la proporcion de universidades que utilizaban este libro .
W.24. EI decano de una escuela de administracion de empresas estli considerando la posibilidad de proponer un cambio de los requisitos para obtener el titulo . Actualmente, los estudiantes tienen que cursar una asignatura de cienci as elegida de
Otros temas relacionados con el muestreo
825
una li sta de asignaturas posibles. La propuesta es que se sustituya por una asignatura de ecologfa. La escuela tiene 420 estudiantes. En una muestra aleatoria de 100 estudiantes, 56 han declarado que son contrarios a esta propuesta. HaIle el intervalo de confianza al 90 por ciento de la proporcion de todos los estudiantes que se oponen al cambio de los requisitos. 20.25. En una residencia universitaria, 257 de los residentes son estudiantes de primer ano. En una muestra aleatoria de 120 de ellos, 37 declat'an que tienen mucho interes en vivir en la residencia el proximo ano. Halle el intervalo de confianza al 95 por ciento de la proporcion de estudiantes de primer ano de esta residencia que tienen mucho interes en vivir en ella el proximo ano. 20.26. Una clase tiene 420 estudiantes. El examen final es optativo: si se hace, la nota puede subir, pero nunca bajar. En una muestra aleatoria de 80 estudiantes, 31 declararon que harfan el ex amen final. Halle el intervalo de confianza al 90 por ciento del numero total de estudiantes de esta clase que tienen intencion de hacer el examen final.
20.4. Muestreo estratificado Supongamos que decidimos investigar las opiniones de los estudiantes de nuestro campus universitario sobre algun tema delicado y que puede ser diffcil formular las preguntas. Es probable que queramos hacer varias preguntas a cada miembro de la muestra y, dada la limitaci6n de recursos, s610 es posible tomar una muestra bastante pequefia. Probablemente elegirfamos una muestra aleatoria simple, por ejemplo, de 100 estudiantes de una !ista de todos los estudiantes del campus. Supongamos, sin embargo, que tras examinar mas detenidamente los expedientes de los miembros de la muestra, observamos que s610 dos estudian administraci6n de empresas, aunque la proporci6n poblacional de estudiantes de administraci6n de empresas es mucho mayor. Nuestro problema en esta fase es doble. En primer lugar, podemos muy bien tener interes en comparar las opiniones de los estudiantes de administraci6n de em pres as con las del resto de la poblaci6n de estudiantes. Eso es diffcilmente viable, dada su mfnima representaci6n en nuestra muestra. En segundo lugar, podemos sospechar que las opiniones de los estudiantes de administraci6n de empresas sobre esta cuesti6n seran diferentes de las de sus compafieros. Si fuera asf, nos preocupara la fiabilidad de la inferencia basada en un a muestra en la que este grupo esta seriamente subrepresentado. Tal vez podrfamos consolarnos pensando que, como hemos tornado una muestra aJeato ria, cualquier estimador obtenido de la forma habitual sera insesgado, por 10 que Ja inferencia resultante, en el senti do estadfstico, sera estrictamente valida. Sin embargo, basta una breve reflexi6n para convencernos de que apenas sirve de consuelo. Lo que significa que el estimador es insesgado es que si se repite el metodo de muestreo muchas veces y se
826
Estadfstica para administraci6n y economfa
calcula el estimador, su media sera igual al valor poblacional correspondiente. Pero en realidad no vamos a repetir el metodo de muestreo muchas veces. Tenemos que basar nuestras conclusiones en una unica muestra, y el hecho de que los estudiantes de administracion de empresas pudieran haber estado sobrerrepresentados en otras muestras que hubieramos podido tomar, 10 que a largo plazo habrla compensado, no es muy uti!. Existe una segunda y tentadora posibilidad que es preferible en muchos sentidos a la de utilizar la muestra original. Podrlamos descartar simplemente la muestra original y tomar otra. Si la constitucion de la muestra lograda en el segundo intento parece mas representativa de la poblacion en general, puede muy bien que sea mejor trabajar con ella. Ahora la dificultad estriba en que el metodo de muestreo que hemos adoptado -se muestrea la poblacion hasta que se logra una muestra que nos gusta- es muy diflcil de formalizar, por 10 que los resultados de la muestra son muy difkiles de analizar con algllna validez estadfstica. Ya no es un muestreo aleatorio simple, par 10 que los metodos del apartado 20.3 no son estrictamente validos. Afortunadamente, existe un tercer sistema de muestreo para no tener este tipo de problema. Si se sospecha al principio que algllnas caracteristicas identificables de los miembros de la poblacion estan relacionadas con el tema de investigacion 0 si algunos subgrupos de la poblacion tienen un interes especial para el investigador, no es necesario (y probablemente no es deseable) conformarse con el muestreo aleatorio simple para seleccionar a los miembros de la muestra. En lugar de eso, se puede dividir la poblacion en sllbgrupos 0 estratos y tomar una muestra aleatoria simple de cada estrato. EI unico requisito es que sea posible identificar que cada miembro de la poblacion pertenece a un estrato y solo a uno.
Muestreo aleatorio estratificado Supongamos que una poblacion de N individuos puede subdividirse en K grupos mutuamente excluyentes y colectivamente exhaustivos 0 estratos. Un muestreo aleatorio estratificado es la seleccion de muestras aleatorias simples independientes de cad a estrato de la poblacion. Si los K estratos de la poblaci6n contienen N" N2 , . .. , NK miembros, entonces
No es necesario tomar el mismo numero de miembros de la muestra de cada estrato. Sea el numero de la muestra n" n2 , ... , nf(" En ese caso, el numero total de miembros de la muestra es
La poblacion de estudiantes cuyas ideas se quieren conocer podrfa dividirse en dos estratos: estudiantes de administracion de empresas y resto. Tambien es posible hacer una estratificacion menos sencilla. Supongamos que, en algun otro tema, creemos que el sexo y el curso del estudiante (cuarto curso, tercer curso, segundo curso 0 primer curso) pueden ser relevantes. En ese caso, para satisfacer el requisito de que los estratos sean mutllamente excluyentes y colectivamente exhaustivos, se necesitan ocho estratos: mujeres de cuarto curso, hombres de cuarto curso, etc. Mas adelante en este apartado, nos preguntamos como se reparte el esfuerzo de muestreo entre los estratos. Una atractiva posibiIidad, empleada a menudo en la practica, es la asignaci6n proporcional: la proporcion de miembros de la muestra perteneciente a cualquier estrato es igual que la proparcion de miembros de la poblacion perteneciente a ese estrato.
Capftu lo 20.
Otros temas relacionados can el muestreo
827
Amilisis de los resultados de un muestreo aleatorio estratificado EI amilisis de los resultados de una muestra aleatoria estratificada es relativamente sencilIo. Sean 11 1' {i2' ... , {iK las medias poblacionales de los K estratos Y X I' X2' ... , K las medias muestrales correspondientes. Consideremos un estrato, por ejemplo, el i-esimo estrato. Dado que se ha tornado una muestra aleatoria simple en este estrato, la media muestral del estrato es un estimador insesgado de la media poblacional {ij' Utilizando un metodo de estimaci6n insesgada de la varianza de la media muestral del estrato, la estimaci6n puntual es
x
donde sJ es la varianza muestral del j-esimo estrato. Es posible, pues, hacer una inferencia sobre los estratos individuales de la misma forma que en el apartado 20.3. Generalmente, tienen interes las inferencias sobre la media poblacional {i del conjunto de la poblaci6n, que es
Una estimaci6n puntual natural es
Un estimador insesgado de la varianza del estimador de {i se deduce del hecho de que las muestras de cada estrato son independientes entre sf Y la estimaci6n puntual es
~? = -1 IK2 ~2 N·(J N2 J Xj
(J " x"
j = 1
Las inferencias sobre la media del conjunto de la poblaci6n pueden basarse en estos resultados.
Estimacion de la media poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n. individuos de estratos que contienen N. individuos (j = 1, 2, ... , K) . Sea J J K
Y
I
nj = n
j = 1
Sean las medias y las varianzas muestrales de los estratos X. y J del conjunto de la poblacion /1. 1.
i': (j = 1, 2, ... , K) Y la media J
Un metodo de estimacion insesgada de la media del conjunto de la poblacion p genera la estimacion puntual
(20.7)
828
Estadfstica para administracion y economfa
2.
Un metoda de estimaci6n insesgada de la varianza de nuestro estimador de la media del conjunto de la poblaci6n genera la estimaci6n puntual
~ 2 = -1 IK N·2 (J~2e .1., 1 N2 J .I j
(20.8)
(J e
)= I
donde
~2
_
(J - Xj
3.
sJ
-
x
(N) -
n)
----=-----"---
(20.9)
N)
n)
Siempre que el tamafio de la muestra es grande, se obtienen intervalos de confianza al 100(1 - 0:)% de la media poblacional de muestras aleatorias estratificadas de la forma siguiente: (20.10)
EJEMPLO
20.4. Cadena de restaurantes (estimacion)
Una cadena de restaurantes tiene 60 en Illinois, 50 en Indiana y 45 en Ohio. La direccion esta considerando la posibilidad de afiadir un nuevo plato a su menu. Para averiguar cual es la demanda probable de este plato, se introduce en el menu de muestras aleatorias de 20 restaurantes de Illinois, 10 de Indiana y 9 de Ohio. Utilizando los subindices 1, 2 Y 3 para representar Illinois, Indiana y Ohio, respectivamente, las medias y las desviaciones tfpicas muestrales del numero de pedidos de este plato por restaurante en los tres estados en una semana es
,t l
21,2
Sl
= 12,8
X2 = 13,3
S2
=
X3
S3
= 9,2
=
=
26,1
11,4
Estime el numero medio de pedidos semanaies por restaurante, rantes de esta cadena.
{l,
en todos los restau-
Solucion Se sabe que N = 155
n = 31
Nucstra estimacion de la media poblacional es
__ 1 ~ __ (60)(21,2) N)~l N)x) -
X st -
+ (50)(13,3) + (45)(26,1) 155
_ - 20,1
Por 10 tanto, el numero medio estimado de pedidos semanales pOl' restaurante es 20,1.
Capitulo 20.
Otros temas relacionados con el muestreo
829
EI paso siguiente es calcular las cantidades (12,8)2 48 12 x 60 = 10,923
Estas cantidades, junto con las medias muestrales de cada estrato, pueden utilizarse para calcular intervalos de confianza de las medias poblacionales de los tres estratos, exactamente como en el ejemplo 20.1 (aunque en este caso el tamafio de la muestra es demasiado pequeno por comodidad). Centramos la atenci6n en la media del conjunto de la poblaci6n. Para obtener intervalos de confianza para esta cantidad,
~ 7 = -1 N2
(J'O ~\.';'l
IK
?
~2
N":(Jc j
-\ j
)=1
(60)2(10,923)
+ (50)2(10,397) + (45)2(7,524) (155)2
=
=
3,353
y, tom an do la rafz cuadrada,
a-
X st
=
1' 83
POI' 10 tanto, el intervalo de confianza al 95 pOl' ciento del numero medio de pedidos por restaurante realizados en una semana es 20,1 - (1,96)(1,83) < II < 20,1
+ (1,96)(1 ,83)
o sea 16,5 < /1 < 23,7 El intervalo de confianza al 95 pOl' ciento va de 16,5 a 23,7 pedidos pOl' restaurante. Dado que el total poblacional es el pro due to de la media poblacional y el numero de miembros de la poblaci6n, estos metodos pueden modificarse facilmente para poder estimarlo.
Estimacion del total poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n individuos de estratos que contienen N individuos (j = 1, 2, .. ., K) Y que la cantidad que quie~e estimarse es el total poblacional, N{l. J
1.
Un metodo de estimaci6n insesgada de Nfl genera la estimaci6n puntual K
NXsI =
I j=1
Ni;
(20.11)
2.
Un metodo de estimaci6n insesgada de la varianza de nuestro estimador del total poblacional genera la estimaci6n (20.12)
3.
Siempre que el tamaiio de la muestra es grande, se obtienen intervalos de confianza al 100(1 - IX)% del total poblacional de muestras aleatorias estratificadas de la forma siguiente: (20.13)
EJEMPLO
20.5. Nlimero anual total de matriculados en estadlstica para los negocios (estimaci6n)
De las 1.395 universidades que hay en un pais, 364 son escuelas universitarias, en las que la duraci6n de los estudios es de 2 afios, y 1.031 son facultades, en las que la duraci6n de los estudios es de 4 afios. Se toma una muestra aleatoria de 40 escuelas universitarias y una muestra aleatoria simple independiente de 60 facultades. La tabla adjunta muestra las medias muestrales y las desviaciones tfpicas muestrales del numero de estudiantes matriculados el ano pasado en la asignatura de estadfstica para los negocios. Estime el numero total anual de matriculados en esa asignatura. Escuelas universitarias
Facultades
154,3 87,3
411,8 219,9
Media Desviacion tipica
Solucion Se sabe que N] = 364
nj = 40
XI = 154,3
Sj
N2 = 1.031
n2 = 60
X2 = 411,8
S2
87,3 = 219,9 =
Nuestra estimaci6n del total poblacional es K
NXsI =
I
Njx) = (364)(154,3)
+ (1.031)(411,8) = 480.731
)=1
A continuaci6n,
Por ultimo, K
N (jt = I N](jt = (364)\169,59) + (1.031)2(759,03) = 2
i=1
820.289.284
Capitulo 20.
Otros temas relacionados con el muestreo
831
y, tomando la ralz cuadrada, ~2
N(J", = 28.797 En el caso del intervalo de confianza al 95 por ciento, Z::t./2 = Z0.025 =
1,96
EI intervalo al 95 por ciento que buscamos es, pues,
+ (1,96)(28.797)
480.731 - (1,96)(28.797) < Nil < 480.731 o sea 424.289 < NIL < 537.173
Por 10 tanto, nuestro intervalo de confianza al 95 por ciento va de 424.289 a 537.173 estudiantes matriculados. Consideremos ahora el problema de estimar una proporci6n poblacional basandonos en una muestra aleatoria estratificada. Sean P l , P 2 , ... , PK las proporciones poblacionales de los K estratos YPl' P2, ... , PK las proporciones muestrales correspondientes. Si P representa la proporci6n de la poblaci6n total, su estimaci6n se bas a en el hecho de que P = NlP l
+ N 2P2 + ... + NKP K = ~
I
N j~l
N
NP J
J
A continuaci6n, se muestran los metodos para estimar la proporci6n poblacional a partir de una muestra aleatoria estratificada.
Estimacion de la proporcion poblacional, muestra aleatoria estratificada Supongamos que se toman muestras aleatorias de n. individuos de estratos que contienen N. individuos (j = 1, 2, .. ., K) . Sea P la proporci6n pob(acional y p la proporci6n muestral en e( i j-esimo estrato de los que poseen una determinada caracterfstic~. Si P es la proporci6n de la poblaci6n total: 1.
Un metoda de estimaci6n insesgada de P genera
(20.14) 2.
Un metodo de estimaci6n insesgada de la varianza de nuestro estimador de la proporci6n de la poblaci6n total es
~2 (J~2- = - 12 LK N 2 (JPs/
N
j= I
J
Pj
(N
-
(20.15)
donde
~2
(J - = Pj
pi! - p) n-1 J
n)
j x ----"--"--
NJ
es la estimaci6n de la varianza de la proporci6n muestral del j-esimo estrato.
(20.16)
832
Estadfstica para administracion y economfa
3.
Siempre que el tamano de la muestra es grande, se obtienen intervalos de confianza al 100(1 - a)% de la proporci6n poblacional de muestras aleatorias estratificadas de la forma siguiente: (20.17)
20.6.
EJEMPLO
Estadistica impartida en los departamentos de economia (estimacion)
Supongamos que en el estudio del ejemplo 20.5 observamos que la asignatura de estadfstica para los negocios se imparte en el departamento de economfa de 7 escuelas universitarias y de 13 facultades de la muestra. Estime la proporcion de todas las universidades en las que se imparte esta asignatura en el departamento de economfa.
Solucion Se sabe que ~ /7 I
N2 = 1.031
7 =-=0175 40 '
~ 13 P2 = -60 = 0217 '
n2 = 60
Nuestra estimacion de la proporcion poblacional es ~ = ~;,
Pst
~ = (364)(0,175)
N j~1 Njpj
+ (1.031)(0,217) = 1.395 0,206
Por 10 tanto, se estima que en el 20,6 por ciento de todas las escuelas universitarias el departamento de economfa imparte la asignatura. A continuacion, ~2 (J-
=
PI
~2 (J-
P2
=
P I(l - PI) (N I - nl) (0,175)(0,825) 324 x = x = 0.003295 f11 - 1 NI 39 364· P2(l - P2)
n2 - 1
x
(N2 - n2)
N2
=
(0,217)(0,783) 971 x - - = 0002712 59 1.031'
Estos valores, junto con las proporciones muestrales de cada estrato, pueden utilizarse para calcular interval os de confianza de las proporciones de la poblacion de los dos estratos, exactamente como en el ejemplo 20.3. Aqui centramos la atencion en la estimacion por interval os de la proporcion de la poblacion total, para la que ~~ = _1 IK 2~? = (364)2(0,003295) + (1.031)2(0,002712) = ~ N . (JI> 2 0,001706 N- j= I J J (1.395)
(Jp
S/
por 10 que, tomando Ia rafz cuadrada, tenemos que
6- = 00413 PoIt
'
Capitulo 20.
Otros temas relacionados con el muestreo
833
En el caso del intervale de confianza al 90 por ciento, Za/2 = Zo.OS =
1,645
y el intervale de confianza al 90 por ciento de la proporcion poblacional de una muestra aleatoria estratificada es (0,206) - (1,645)(0,0413) < P < (0,206)
+ (1,645)(0,0413)
0,138 < P < 0,274 Este intervale va del 13,8 al 27,4 por ciento de todas las universidades.
Afijacion del esfuerzo muestral a los distintos estratos Queda por analizar la cuestion del reparto del esfuerzo muestral entre los estratos. SUponiendo que se selecciona un total de n miembros, ~cU(intas de estas observaciones muestrales deben asignarse a cada estrato? En realidad, el estudio en cuestion puede tener muchos objetivos, 10 cual significa que no existe una clara respuesta. No obstante, es posible especificar unos criterios de eleccion que el investigador debe tener presentes. Si se sabe poco o nada de antemano sobre la poblacion y si no hay ninglin requisito para la produccion de informacion acerca de estratos poco poblados, es logico elegir una afiJaci6n proporcional.
Afijacion proporcional: tamano de la muestra La proporci6n de miembros de la muestra que hay en un estrato es igual que la proporci6n de miembros de la poblaci6n que hay en ese estrato. Por 10 tanto, considerando el j-esimo estrato,
N n· ...l.=-....!..
(20.18)
N
n
por 10 que el tamano de la muestra del j-esimo estrato utilizando la afijacion proporcional es
N
= -....!.. N
n· J
x n
(20.19)
Este mecanismo de afijacion intuitivamente razonable se emplea frecuentemente y permite, por 10 general, realizar un analisis satisfactorio. Observese que en el ejemplo 20.4 utilizamos la afijacion proporcional. Dividimos un total de N = 155 restaurantes en tres estratos (Illinois, Indiana y Ohio). Seleccionamos una muestra de n = 31, siendo n]
60
=-
155
x 31
= 12
n2
50
=-
155
x 31
= 10
45 n3 = x 31 = 9 155
A veces la utilizacion estricta de la afijacion proporcional produce relativamente pocas observaciones en los estratos que Ie interesan especialmente al investigador. En ese caso, la inferencia sobre los parametros poblacionales de estos estratos podrfa ser bastante imprecisa. En estas circunstancias, puede ser preferible afijar mas observaciones a esos estratos que las que dicta la afijacion proporcional. En los ejemplos 20.5 y 20.6, 364 de las
834
Estadfstica para administracion y economfa
1.395 universidades son escuelas universitarias y se toma una muestra de 100 observaciones. Si se hubiera utilizado la afijaci6n proporcional, el numero de escuelas incluidas en la muestra habria sido N, 364 n = - x n = - - x 100 = 26 'N l.395
Dado que al editor Ie interesaba especial mente obtener informaci6n sobre este mercado, se pens6 que no seria adecuada una muestra de 26 observaciones solamente. Por esta raz6n, 40 de las 100 observaciones muestrales se afijaron a este estrato. Si el unico objetivo de un estudio es estimar con la mayor precisi6n posible un panime. tro relativo al conjunto de la poblaci6n, como la media, el total 0 la proporci6n, y si se tiene bastante informaci6n sobre la poblaci6n, es posible establecer una afijacion optima.
Afijacion optima: tamano de la muestra del j-esimo estrato, media 0 total del conjunto de la poblacion Si 10 que se necesita es estimar una media 0 un total del conjunto de una poblacion y si las varianzas poblacionales de los estratos individuales se representan por medio de (J2, puede demostrarse que los estimadores mas precisos se obtienen con la afijacion optima. E{ tamaiio de la muestra del j-esimo estrato utilizando la afijacion optima es
n.J =
Na K
J J
X
n
(20.20)
Esta f6rmula es razonable intuitivamente. Comparada con la afijaci6n proporcional, asigna relativamente mas esfuerzo muestral a los estratos en los que la varianza poblacional es mayor. Es decir, se necesita una muestra de mayor tamafio donde la variabilidad poblacional es mayor. Asi, en el ejemplo 20.4, en el que hemos utilizado la afijaci6n prop orcional, si las diferencias observadas en las desviaciones tipicas muestrales reflejaran correctamente las diferencias que existen en las cantidades poblacionales, habria sido preferible tomar menos observaciones en el tercer estrato y mas en el primero. El uso de la ecuaci6n 20.20 plantea inmediatamente una objeci6n. Requiere conocer las desviaciones tfpicas poblacionales, aj , mientras que antes de que se tome la muestra, a menudo ni siquiera se dispone de estimaciones de estos valores que merezcan la pena. Esta cuesti6n se analiza en el ultimo apartado del capitulo. A continuaci6n, se examina el tamafio de la muestra necesario en la afijaci6n 6ptima correspondiente a una proporci6n poblacional.
Afijacion optima: tamano de la muestra del j-esimo estrato, proporcion poblacional Para estimar la proporcion de la poblacion total, se obtienen estimadores con la menor varianza posible por medio de una afijaci6n optima. EI tamaiio de la muestra del j-esimo estrato de la proporcion poblacional utilizando la afijacion optima es
nj =
Nj
K
L i='
J Pj(l -
Pj)
N i JP i (1 - Pi)
x n
(20.21)
Capitulo 20.
Otros temas relacionados con el muestreo
835
Esta formula, en comparacion con la afijacion proporcional, asigna mas observaciones muestrales a los estratos en los que las verdaderas proporciones poblacionales son mas cercanas a 0,5, pues si una proporcion es cercana a 0 0 a 1, puede saberse con bastante seguridad con una muestra relativamente pequefia. La dificultad que plantea el uso de la ecuacion 20.21 estriba en que implica las proporciones desconocidas Pj para (j = 1, 2, ... , K) , que son las propias cantidades que el estudio pretende estimar. No obstante, a veces la informacion anterior sobre la poblacion puede permitir hacerse al menos una idea aproximada de que estratos tienen proporciones mas cercanas a 0,5. En el ejemplo 20.6, las proporciones muestrales sugieren que el numero de escuelas universitarias que hay en la muestra deberfa haber sido menor que el numero resultante de la afijacion proporcional. Se lIega a la misma conclusion en este estudio cuando se comparan las desviaciones tfpicas muestrales del ejemplo 20.5 con la ecuacion 20.20. A pesar de eso, se decidio incluir en la nuestra mas escuelas universitarias en lugar de menos. La razon era que en este estudio el editor querfa tener informacion fiable tanto sobre el mercado de escuelas universitarias como sobre el de facultades. Esta ilustracion es un ejemplo de una importante cuestion. Aunque la division del esfuerzo muestral que sugieren las ecuaciones 20.20 y 20.21 a menudo se denomina afijacion optima, solo es optima con respecto al estricto criterio de la estimacion eficiente de los parametros con-espondientes al conjunto de la poblacion. A menudo, los estudios tienen objetivos mas amplios que ese, en cuyo caso puede muy bien ser razonable no utilizar la afijacion optima.
EJERCICIOS
Ejercicios aplicados 20.27. Una pequefia ciudad contiene un total de 1.800 hogares. La ciudad esta dividida en tres distritos, que contienen 820, 540 Y 440 hogares, respectivamente. Una muestra aleatoria estratificada de 300 hogares contiene 120, 90 Y 90 hogares, respectivamente, de estos tres distritos. Se pide a los miembros de la muestra que estimen su factura total de electricidad consumida en los meses de invierno. Las respectivas medias muestrales son 290 $, 352 $ Y 427 $ Y las respectivas desviaciones tfpicas muestrales son 47 $, 61 $ Y 93 $. a) Utilice un metodo de estimaci6n insesgada para estimar la factura media de electricidad consumida en los meses de invierno por todos los hogares de esta ciudad. b) Utilice un metodo de estimaci6n insesgada para estimar la varianza del estimador del apartado (a). c) Halle el intervalo de confianza al 95 por ciento de la media poblacional de las facturas de electricidad consumida en invierno por los hog ares de esta ciudad.
20.28. Una universidad tiene 152 profesores ayudantes, 127 titulares y 208 catedn'iticos. Las autoridades universitarias estan investigando la cantidad de tiempo que dedican estos profesores a reuniones en un cuatrimestre. Se pi de a muestras aleatorias de 40 profesores ayudantes, 40 titulares y 50 catedraticos que lleven la cuenta del tiempo que dedican a reuniones en un cuatrimestre. Las medias muestrales son 27,6 horas en el caso de los profesores ayudantes, 39,2 en el de los titulares y 43,3 en el de los catedraticos. Las desviaciones tfpicas muestrales son 7,1 horas en el caso de los profesores ayudantes, 9,9 en el de los titulares y 12,3 en el de los catedraticos. a) Halle un intervalo de confianza al 90 por ciento del tiempo medio dedicado a reuniones par los catedraticos de esta universidad en un cuatrimestre. b) Utilice un metodo de estimaci6n insesgad
836
Estadfstica para administraci6n y economfa
niones por todos los profesores de esta universidad en un cuatrimestre. 20.29. Una empresa de autobuses esta planificando una nueva ruta para dar servicio a cuatra barrios. Se toman muestras aleatorias de hogares de cada barrio y se pide a los miembros de las muestras que valoren en una escala de 1 (totalmente en contra) a 5 (totalmente a favor) su reacci6n al servicio prapuesto. La tabla adjunta muestra los resultados.
N; ni Xi
Si
Barrio 1
Barrio 2
Barrio 3
Barrio 4
240 40 2,5 0,8
190 40 3,6 0,9
350 40 3,9 1,2
280 40 2,8 0,7
a) Halle un intervalo de confianza al 90 por ciento de la reacci6n media de los hogares de la barrio 1. b) Utilice un metoda de estimaci6n insesgada para estimar la reacci6n media de todos los hogares a la nueva ruta. c) Halle intervalos de confianza al 90 y al 95 por ciento de la reacci6n media de todos los hogares a la nueva ruta. 20.30. En una muestra aleatoria estratificada de estudiantes de una pequefia universidad, se pide a los miembros de la muestra que valoren en una escala de 1 (pocas) a 5 (muchas) las oportunidades para realizar actividades extracurriculares. La tabla adjunta muestra los resultados. Estudiantes de primer Estudiantes de tercer y segundo aiio y cuarto aiio N; 1'li Xi Sf
632 50 3,12 1,04
529 50 3,37 0,86
a) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harlan todos los estudiantes de primer y segundo afio de este campus. b) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harfan todos los estudiantes de tercer y cuarto afio de este campus. c) Halle el intervalo de confianza al 95 por ciento de la valoraci6n media que harlan todos los estudiantes de este campus.
20.31. Vuelva al ejercicio 20.28. a) Halle el intervalo de confianza al 90 por ciento de la cantidad total de tiempo dedicada a reuniones por todos los profesores catedraticos de esta universidad en un cuatrimestre. b) Halle el intervalo de confianza al 90 por ciento de la cantidad total de tiempo dedicada a reuniones por todos los prafesores de esta universidad en un cuatrimestre. 20.32. Una empresa tiene tres divisiones y los auditores estan intentado estimar la cantidad total de facturas pendientes de cobra de la empresa. Se toman muestras aleatorias de estas facturas en cada una de las tres divisiones y se obtienen los resultados que muestra la tabla.
Ni nj Xi S;
Division 1
Division 2
Division 3
120 40 237 $ 93 $
150 45 198 $ 64 $
180 50 131 $ 47 $
a) Uti lice un metoda de estimaci6n insesgada para hallar una estimaci6n puntual del valor total de todas las facturas pendientes de cobro de esta empresa. b) Halle el intervalo de confianza al 95 por ciento del valor total de todas las facturas pendientes de cobra de esta empresa. 20.33. De las 1.395 universidades que hay en un pais, 364 son escuelas universitarias. En una muestra aleatoria de 40 escuelas universitarias, se observa que en 10 de elias se utiliza el libra de texto La estadistica puede ser divertida. En otra muestra aleatoria de 60 facultades, se utiliza este libra de texto en 8 de elias. a) Estime la proporci6n de todas las universidades que utilizan este libra de texto empleando un metodo de estimaci6n insesgada. b) Halle el intervalo de confianza al 95 por ciento de la proporci6n de todas las escuelas universitarias que utilizan este libro de texto. 20.34. Una consultora ha desarrollado un curso breve sobre metodos modernos de predicci6n para ejecutivos de empresa. Al primer curso han asistido 150 ejecutivos. Con la informaci6n suministrada por ellos, se ha Ilegado a la conclusi6n de que las cualificaciones tecnicas de 100 asistentes al curso eran mas que suficientes para seguir la materia, mientras que las de los 50 restantes no 10 eran. Despues de terminar el
Capitulo 20 . Otros temas relacionados con el muestreo
curso, se han enviado cuestionarios a muestras aleatorias independientes de 25 personas de cada uno de estos grupos para obtener informacion con el fin de mejorar la presentacion de los cursos posteriores. Seis del grupo mas cualificado y 14 del grupo menos cualificado han indicado que creen que el curso es demasiado teorico. a) Estime la proporcion de todos los asistentes al curso que tienen esta opinion utilizando un metodo de estimacion insesgada. b) Halle intervalos de confianza al 90 por ciento y al 95 por ciento de esta proporcion pobl acional. 20.35. Una universidad tiene 152 profesores ayudantes, 127 titulares y 208 catedraticos. Un periodista del periodico estudiantil tiene interes en saber si los profesores estan real mente en su despacho a las horas indicadas. Decide investigar muestras de 40 profesores ayudantes, 40 titulares y 50 catedraticos. Envfa estudiantes voluntarios a los despachos de los miembros de la muestra durante las horas indicadas. Se observa que 31 de los profesores ayudantes, 29 de los titulares y 34 de los catedraticos estan realmente en su despacho a esas horas. a) Uti lice un metoda de estimacion insesgada para haHar una estimacion puntual de la propOl'cion de todos los profesores que estan en su despacho a las horas indicadas. b) Halle el intervalo de confianza al 90 por ciento y al 95 por ciento de la proporcion de todos los profesores que estan en su despacho a las horas indicadas. 20.36. Vuelva al ejercicio 20.28. Si se toma una muestra total de 130 profesores, averigiie cuantos son catedraticos utili zando cada uno de los sistemas siguientes: a) Afijacion proporcional. b) Afijacion optima, suponiendo que las desviaciones tfpicas poblacionales de los estra-
837
tos son iguales que los valores muestrales correspondientes. 20.37. Vuelva a los datos del ejercicio 20.29. Si se torna una muestra total de 160 hogares, averi gLie cuantos deben ser del barrio I utili zando cada uno de los sistemas sigui entes: a) Afijacion proporcional. b) Afijacion optima, suponiendo que las desviaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes. 20.38. Vuelva al ejercicio 20.30. Si se toma una muestra total de 100 estudiantes, averigue cuantos son estudiantes de primero y de segundo ano utilizando cada uno de los sistemas siguientes: a) Afijacion proporcional. b) Afijacion optima, suponiendo que las desviaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes. 20.39. Vuelva a los datos del ejercicio 20.32. Si se torna una muestra total de 135 facturas pendientes de cobro, averigiie cuantas deben ser de la division 1 utilizando cada uno de los si stemas siguientes: a) Afijacion proporcional. b) Afijacion optima, suponiendo que las desviaciones tfpicas poblacionales de los estratos son iguales que los valores muestrales correspondientes.
20.40. Vuelva a los datos del ejemplo 20.5. Si se toma una muestra total de 100 universidades, averigiie cuantas seran probablemente escuelas universitarias (en vez de facultades) por medio de los siguientes sistemas: a) Afijacion proporcional. b) Afijacion optima, suponiendo que las desviaciones tfpicas pobl acionales de los estratos son iguales que los valores muestrales correspondientes.
20.5. Eleccion del tamaiio de la muestra Un importante aspecto de la planificaci6n de cualquier estudio es la elecci6n del numero de miembros de la muestra. Hay varios factores que pueden ser relevantes. Si se piensa que con el metodo utilizado para contactar con los miembros de la muestra probablemente la tasa de falta de respuesta sera alta, debe tenerse en cuenta esta posibilidad. En muchos casos, los recursos de los que dispone el investigador, en 10 que se refiere a tiempo y dinero,
838
Estadfstica para administraci6n y economfa
limitan los resultados. Sin embargo, en este apartado dejamos de lado estas consideraciones y relacionamos el tamano de la muestra con las varianzas de los estimadores de los panimetros poblacionales y, por consiguiente, con la amplitud de los intervalos de confianza resultantes.
Tamano de la muestra para el muestreo aleatorio simple: estimacion de la media 0 el total poblacional Consideremos el problema de estimar la media poblacional a partir de una muestra aleatoria si mple de n observaciones. Si la variable aleatoria x representa la media muestral, en el Capitulo 7 vimos que la varianza de esta variable aleatoria es Var(X) =
(52
x
(52
(N - n)
11
(N - 1)
= - x - --
Si se conoce la varianza poblacional (5 2, resolviendo la ecuaci6n Var(x), podemos hallar el tamano de la muestra, 11, que se necesita para lograr cualquier valor especffico de para la varianza de la media muestral. Existen metodos parecidos si la cantidad que nos interesa es el total poblacional.
si
Tamafio de la muestra: media muestreo aleatorio simple
0
total de la poblacion,
Consideremos la estimaci6n de la media de una poblaci6n de N miembros, que tiene la varianza (52. Si se especifica la varianza deseada, ~, de la media muestral, el tamaiio de la muestra necesario para estimar la media poblacional por medio de un muestreo aleatorio simple es
n 1.
2.
=
2
(N - lki
+ (5
2
(20.22)
A menudo es uti I especificar directamente la amplitud de los intervalos de confianza de la media poblacional en lugar de (5~. Eso se logra facilmente, ya que, por ejemplo, el intervale de confianza al 95 por ciento de la media poblacional tiene una amplitud de aproximadamente 1,96(5x a cada lade de la media muestral. Si el objeto de interes es el total poblacional, la varianza del estimador muestral de esta cantidad es N2(J~ y el intervalo de confianza al 95 por ciento de ella tiene una amplitud de aproximadamente 1,96N(Jx a cad a lade de la Nx.
Una dificultad obvia que plantea el uso practico de la ecuaci6n 20.22 es que implica la varianza poblacional, (52, que normalmente no se conoce . Sin embargo, un investigador a menudo tiene una idea aproximada de cual es el valor de esta cantidad . A veces la varianza poblacional puede estimarse a partir de una muestra preliminar de la poblaci6n.
EJEMPLO 20.7. Creditos hipotecarios (tamano de la muestra) Supongamos, como en el ejemplo 20.1, que en una ciudad se solicitaron 1.118 creditos hipotecarios el ano pas ado y que se toma una muestra aleatoria simple para estimar la cantidad media de creditos hipotecarios. Basandose en estudios anteriores realizados con esas poblaciones, se estima que la desviaci6n tfpica poblacional es de 20.000 $ aproximadamente. EI intervalo de confianza al 95 por ciento de la media poblacional
Capitulo 20. Otros temas relacionados con el muestreo
839
debe tener una amplitud de 4.000 $ a cada lado de la media muestral. l,Cuantas observaciones muestrales se necesitan para lograr este objetivo?
Solucion En primer lugar,
N=1.l18
(J
=
1,96O',r = 4.000
20.000
EI tamafio de la muestra necesario es, pues,
n=
NO' 2 (N - 1)O'~
+ 0'2
=
(1.118)(20.000)2
(1.117)(2.041)2
+ (20.000)2
= 885 '
POI' 10 tanto, deberfa ser suficiente una muestra aleatoria simple de 89 observaciones para alcanzar nuestro objetivo.
Tamano de la muestra para el muestreo aleatorio simple: estimacion de la proporcion poblacional Consideremos un muestreo aleatorio simple para estimar una proporci6n poblacional P. Recuerdese que ya hemos visto antes en este libro que ~
Var(p) =
2
0' -
=
P(l - P)
n
P
(N - n) X ---
(N - 1)
Despejando n, tenemos el tamafio de la muestra de las ecuaciones 20.23 y 20.24.
Tamafio de la muestra: proporcion poblacional, muestreo aleatorio simple Consideremos la estimaci6n de la proporci6n P de individuos de una poblaci6n de tamafio N que poseen un cierto atributo. Si se especifica la varianza deseada, ()~, de la proporcion muestral, el tamafio de la muestra necesario para estimar la proporci6n poblacional mediante un muestreo aleatorio simple es
n
NP(l - P)
= - ---;:--- - - - -
(N - l)O'~
+ P(1
- P)
(20.23)
EI mayor valor posible de esta expresi6n, cualquiera que sea el valor de P, es
0,25N
= - ---;::--- -
n max
(N - I )O'~
+ 0,25
(20.24)
EI intervalo de confianza al 95 por ciento de la proporci6n poblacional debe tener una amplitud de aproximadamente 1,96 () p a cad a lade de la proporcion muestral.
840
Estadfstica para administraci6n y economfa
EJEMPLO
20.S.
Estudio sobre la estadfstica en las universidades (tamaiio de la muestra)
Supongamos, al igual que en el ejemplo 20.3 , que se toma una muestra aleatoria simple de 1.395 universidades que hay en un pais para estimar la proporcion en la que la asignatura de estadfstica para los negocios es anual. Cualquiera que sea la verdadera proporcion, el intervalo de confianza al 95 por ciento no debe tener una amplitud de mas de 0,04 a cada lado de la proporcion muestral. (,Cuantas observaciones muestrales deben tomarse?
Solucion Sabemos que
o sea (Jp- = 00204 ,
EI tamafio de la muestra necesario es, pues, n
max
=
0,25N
(N - l)(Jt
+ 0,25
=
(0,25)(1.395)
0.394)(0,0204)2 + 0,25
= 420 1 '
Por 10 tanto, se necesita una muestra de 421 observaciones.
Tamano de la muestra para un muestreo aleatorio estratificado con un grado de precision especificado Tambien es posible obtener formulas para hall ar el tamafio de la muestra necesario para lograr un grado de precision especificado cuando se utiliza el muestreo aleatorio estratificado.
Varianza del estimador de la media poblacional, muestreo estratificado Sea la variable aleatoria Xst el ~stimador de la media poblacional obtenido mediante un muestreo estratificado y sea >s (j = 1, 2, ... , K) las medias muestrales de los estratos individuales. Dado que
(20.25) se deduce que la varianza de
Xst es
2 1 ~ N? V (X-) 1 ~ N2. (JJ x (Nj - n) V ar (X-) SI = (J x" = 2 1.... ; ar j = 2 1.... J n. -N-"---.--1"N j= t J J N j= t
(20.26)
donde las (Jf son las varianzas poblacionales de los K estratos.
Ahora puede utilizarse la ecuacion 20.26, dada cualquier eleccion de nt, n2' ... , n K, para hallar la varianza correspondiente del estimador de la media poblacional. Sin embargo, el
Capitulo 20.
Otros temas relacionados con el muestreo
841
tamafio total de la muestra, 17, necesario para obtener un determinado valor de esta varianza dependera de la manera en que se repartan las observaciones muestrales entre los estratos. En el apartado 20A hemos analizado dos metodos que se emplean frecuentemente, la afijacion proporcional y la afijacion optima. En cualquiera de los dos casos, sustituyendo los nj en la ecuacion 20.26, podemos resolver la ecuacion resultante y hallar el tamafio de la muestra, n. Los resultados se indican en las ecuaciones 20.27 y 20.28.
Tamano total de la muestra para estimar la media global (varianzas poblacionales de los estratos especificadas), muestreo aleatorio estratificado Supongamos que se subdivide una poblacion de N miembros en K estratos que contienen N 1 , N2 , ••• , NK miembros. Sea (J2 la varianza poblacional del j-esimo estrato y supongamos que se desea obtener una estimaclon de la media del conjunto de la poblacion. Si se especifica la varianza deseada, (J~ , del estimador muestral, el tamano total de la muestra necesario, n, se obtiene de la forma sfguiente:
1.
Afijacion proporcional: K
I NpJ j=! 17
1
= N(1x~ Sf
2.
(20.27)
K
+ NL. - ~
j=l
N(12 )}
Afijacion optima:
17
=
1
N(1} sl
+ -NL. ~
j=l
EJEMPLO
20.9.
(20.28)
K
N(12 }}
Cadena de restaurantes en tres estados (tamafio de la muestra)
Tomemos, al igual que en el ejemplo 20A, una muestra aleatoria estratificada para estimar el numero medio de pedidos por restaurante de un nuevo plato cuando el numero de restaurantes que hay en los tres estados es
Supongamos tambien que la experiencia de la cadena de restaurantes sugiere que las desviaciones tfpicas poblacionales de los tres estados es probable que sean aproximadamente (12
= 11
Si se necesita un intervalo de confianza al 95 por ciento de la media poblacional cuya amplitud sea de tres pedidos por restaurante a cada lado de la estimacion puntual muestral, l,cuantas observaciones muestrales se necesitan en total?
842
Estadfstica para administraci6n y economfa
Solucion Observese que
1,960"x-,' = 3,
por 10 que O"x" = 1,53
K
L:
NiO"J = (60(13)2 + (50)(11)2 + (45)(9)2 = 19.835
j=l
y
[(60)(13) + (50)(11) + (45)(9)f - -- - 15-5- - - - - = 19.421
-1 ( L:K NO"- )2 N J J
j=l
En el caso de la afijacion proporcional, el tamano de la muestra necesario es K
L:
- I
n=
NjO"J
NO"~ J~ ~ ~ x"
NL.
j=1
19.835 N0"2 = (l55)(1 ,53i + 19.835/155 = 40,4 JJ
Por 10 tanto, bastara una muestra de 41 observaciones para conseguir el nivel de precision necesario. Si se utiliza la afijacion optima, el tamano de la muestra necesario es
por 10 que puede conseguirse el mismo grado de fiabilidad con 40 observaciones si se utiliza este metodo de afijacion. En este caso concreto, como las desviaciones tfpicas poblacionales son bastante cercanas, la afijacion optima solo representa un ahOlTo muy pequeno en comparacion con la afijacion proporcional.
EJERCICIOS
Ejercicios aplicados 20.41. Debe estimarse la cantidad media de los 812 creditos hipotecarios solicitados en una ciudad el afio pasado. Basandose en la experiencia, una agencia inmobiliaria sabe que es probable que la desviaci6n tfpica poblacional sea de alrededor de 20.000 $. Si el intervalo de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 2.000 $ a cada lado de la media muestral, i,cuantas observaciones muestrales se necesitan si se toma una muestra aleatoria simple?
20.42. Un concesionario de autom6viles tiene unas existencias de 400 autom6viles usados. Para estimar el mimero medio de kil6metros de estos vehfculos, pretende tomar una muestra aleatoria simple de autom6viles usados. Los estudios anteriores sugieren que la desviaci6n tfpica poblacional es de 10.000 kil6metros . EI intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 ki16metros a cada lado de su estimaci6n muestraJ. i,De que tamafio debe ser la muestra para satisfacer este requisito?
Capftulo 20.
20.44. Un profesor de una c1ase de 417 alumnos esta considerando la posibilidad de hacer un examen fi nal que los alumnos puedan realizar en casa. Quiere tomar una muestra aleatoria de alumnos para estimar la proporcion que prefiere este tipo de examen. Si el intervale de confianza al 90 por ciento de la proporcion poblacional debe tener una amplitud maxima de 0,04 a cada lado de la proporcion muestral , i de que tamano debe ser la muestra?
843
rna que las desviaciones tfpicas de los valores de estos estratos seran 150 $, 200 $, 300 $ Y 400 $, respectivamente. Si el interv alo de confianza al 90 por ciento de la media del conjunto de la poblacion debe tener una amplitud de 25 $ a cada lado de la estimacion muestral, halle el tamano total de la muestra necesario utili zando tanto la afijacion proporcional como la optima.
4 "'. Un club de campo quiere encuestar a una mues2O.•
Ira aleatoria de 320 socios para estimar la propOl·cion que es probable que asista a una funcion a principio de temporada. EI nLimero de observaciones muestrales debe ser 10 suficientemente grande para garantizar que el intervalo de confianza al 99 por ciento de la poblacion tiene una amplitud maxima de 0,05 a cada lado de la proporcion muestral. iDe que tamano debe ser la muestra?
Otros temas relacionados can el muestreo
20.46. Debe estimarse la renta media de los hogares de una ciudad que puede dividirse en tres distritos. La tabla muestra la informacion relevante.
20.45. Un auditor quiere estimar el valor medio de las facturas pendientes de cobro de una empresa. La poblacion se divide en cuatro estratos, que contienen 500, 400, 300 Y 200 facturas, respectivamente. Basandose en la experiencia, se esti-
Distrito
Tamaiio de la poblacion
Dcsviacion tipica estimada ($)
1 2 3
1.150 2.120 930
4.000 6.000 8.000
Si el intervale de confianza al 95 por ciento de la media poblacional debe tener una amplitud de 500 $ a cada lado de la estimacion muestral, halle el nLimero de observaciones muestrales que se necesitan en total utilizando la afijacion proporcional y la optima.
20.6. Otros metodos de muestreo Hemos analizado brevemente el muestreo aleatorio simple y el estratificado. Estos no son los unicos metodos que se utilizan para elegir una muestra. En este apartado se analizan algunos otros.
Muestreo por conglomerados Supongamos que un investigador quiere estudiar una poblaci6n que se encuentra repartida en una amp Ii a zona geografica, como una gran ciudad 0 una regi6n. Si se utiliza una muestra aleatoria simple 0 una muestra aleatoria estratificada, se plantean dos problemas inmediatos. En primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente precisa de los miembros de la poblaci6n. Puede no disponer de esa lista 0 es posible que pueda conseguirla con un elevado coste. En segundo lugar, aunque el investigador posea una lista de la poblaci6n, los miembros de la muestra resultante estaran repartidos casi inevitablemente por una gran zona. En ese caso, sera bastante caro que los entrevistadores contacten con cada uno de los miembros de la muestra. Naturalmente, este ultimo problema no se plantea si se envfa el cuestionario por correo. Sin embargo, con este medio de contacto tambien puede oCUITir que la tasa de falta de respuesta sea inaceptablemente alta y que el investigador prefiera por ese motivo las entrevistas personales.
844
Estadfstica para adm inistracion. y economfa
Ante el dilema de no tener una lista fiable de la poblacion 0 querer hacer entrevistas personales con miembros de la muestra cuando los recursos presupuestarios son limitados, el investigador puede recurrir a otro metodo de muestreo que se conoce con el nombre de muestreo por conglomerados. Este metoda es atractivo cuando una poblacion puede subdividirse en unidades relativamente pequefias y geognificamente compactas Ilamadas conglomerados. Por ejemplo, una ciudad podrfa subdividirse en distritos 0 en barrios, incluso aunque no se disponga de una lista completa de los residentes 0 de los hogares. En un muestreo por conglomerados, se selecciona una muestra aleatoria simple de la poblacion y se contacta con cada individuo de cada uno de los conglomerados de la muestra; es decir, se realiza un censo completo en cada uno de los conglomerados elegidos. En las siguientes ecuaciones, mostramos como pueden hacerse inferencias vaIidas sobre la media poblacional y la proporcion poblacional a partir de los resultados de una muestra de conglomerados .
Estimadores en el muestreo por conglomerados Se subdivide una poblacion en M conglomerados, se selecciona una muestra aleatoria simple de m de estos conglomerados y se obtiene informacion de cad a miembro de los conglomerados de la muestra. Sean n" n2 , . •. , nn el numero de miembros de la poblacion que hay en los m y las conglomerados de la muestra. Sean las medias de estos conglomerados ' •.• , 2 proporciones de miembros de los conglomerados que poseen un atributo de interes P" P2 , ... , Pm' EI objetivo es estimar la media J1 y la proporcion P de la poblacion total.
x" x
1.
xm
Utilizando metodos de estimacion insesgada, tenemos que k
x- C
L
=
-
njX;
;= 1
(20.29)
111
L 11;
;= 1
Y k
~
Pc
L nj P ;
;= !
(20.30)
HI
L
n;
;= 1
2.
Las estimaciones de la varianza de estos estimadores, basadas en metodos de estimacion insesgada, son ~2
(J -
Xc
=
M
_(I
nf(x; - XJ ;= 1
m ' - - - - - - - -Mmn2 m- 1
2 )
(20.31 )
y
(20.32) m
donde jj =
I ;= ,
de la muestra.
nj /
m es el numero medio de individuos que hay en los conglomerados
Capitulo 20. Otros temas relacionados con el muestreo
845
Basandose en estos estimadores, se obtienen los intervalos de confianza util izando el muestreo por conglomerados.
Estimacion de la media poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervale de confianza a1100(1 - ex )% de la media poblacional utilizando el muestreo por conglomerados es
(20.33)
Tambien se hallan intervalos de confianza de la proporci6n poblacional utili zan do el muestreo por conglomerados.
Estimacion de la proporcion poblacional, muestreo por conglomerados Siempre que el tamafio de la muestra es grande, el intervalo de confianza a1100(1 - IX)% de la proporcion poblacional utilizando el muestreo por conglomerados es
(20.34) Observese que pueden hacerse inferencias con una informaci6n previa relativamente pequefia sobre la poblaci6n. Lo unico que se necesita es una divisi6n en conglomerados identificables. No es necesario saber cual es el numero total de miembros de la poblaci6n. Basta con saber cual es el numero que hay en cada uno de los conglomerados de la muestra y este puede averiguarse durante el estudio, ya que se toma un censo completo en cada conglomerado de la muestra. Ademas, dado que los miembros de la muestra estan geograficamente cerca unos de otros dentro de los conglomerados, es relativamente barato para los entrevistadores contactar con ellos.
EJEMPLO 20.10. Muestreo por conglomerados en el caso de las rentas familiares (estimacion)
)
Income Clusters
Se toma una muestra aleatoria simple de 20 man zan as de una zona residencial que contiene un total de 1.100 manzanas. A continuaci6n, se entra en contacto con cada hogar de las manzanas de la muestra y se obtiene informaci6n sobre la renta familiar. El fichero de datos Income Clusters contiene la renta anual media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano y que viven en las manzanas de la muestra. Estime la renta familiar media y la proporci6n de familias que tienen una renta de menos de 15.000 $ al ano en esta zona residencial. Solucion Se sabe que m
=
20
Y
M = 1.1 00
El numero total de hogares que hay en la muestra es 111
L i= l
ni = (23
+ 31 + .,. + 41)
= 607
846
Estadfstica para administracion y economfa
Para obtener estimaciones puntuales, III
L
+ (31)(19.197) + ... + (41)(16.493) =
n;x,; = (23)(26.283)
15.848.158
;=1
y III
L
nJ5; = (23)(0,1304) + (31)(0,4516) + ... + (41)(0,3659) = 153
;= I
Nuestras estimaciones puntuales son, pues,
- L nix; 15.848.158 = L ni = 607 = 26.109
Xc
~
Pc =
L nij; 153 L n; = 607 = 0,2521
Por 10 tanto, basandose en esta evidencia muestral, se estima que en esta zona residencial la renta anual media de los hogares es de 26.109 $ y el 25,21 por ciento de los hogares tiene una renta de menos de 15.000 $ al ano. Para obtener estimaciones de intervalos de la media poblacional, el tamano medio de los conglomerados debe ser
L ni = -607 = 30 35
it = -
20
m
'
Ademas,
por 10 que
(J'
2 Xc
=
M - m
Mmn
2
x
L (n7(x; m- 1
xc)2
=
(980)(69.270.551.000)
(1.000)(20)(30,35)2
= 3.684.914
y tomando la rafz cuadrada, (JX = 1.920
El intervalo de confianza al 95 por ciento de la media poblacional es 26.109 - (1,96)(1.920) < /1- < 26.109
+ (1,96)(1.920)
o sea 22.346 < /1- < 29.872 EI intervalo de confianza al 95 por ciento de la renta media de todas las familias de esta zona va, pues, de 22.346 $ a 29.872 $.
Capitulo 20. Olros temas relacionados con el muestreo
84 7
Para obtener estimaciones de intervalos de la proporcion poblacional , (23)2(0,1304 - 0,02521)2
+ ... + (41)2(0,3659
- 0,2521)2
19
m- l
=38,1547
De donde
(980)(38,1547) - - - - ---;:: = 00020297 (1.000)(20)(30,35)2 ' y tomando la rafz cuadrada,
El intervalo de confianza al 95 por ciento de la proporcion poblacional es 0,2521 - (1,96)(0,0451) < P < 0,2521
+ (1,96)(0,0451)
o sea 0,164 < P < 0,340 Nuestro intervalo de confianza al 95 por ciento del porcentaje de hogares cuya renta anual es de menos de 15.000 $ va de 16,4 a 34,0 por ciento. El muestreo por conglomerados se parece superficialmente al muestreo estratificado. En ambos casos, la poblacion se divide primero en subgrupos. Sin embargo, la similitud es bastante ilusoria. En el muestreo aleatorio estratificado, se toma una muestra de cada estrato de la poblacion en un intento de garantizar que se da el debido peso a importantes segmentos de la poblacion. En cambio, en el muestreo por conglomerados se toma una muestra aleatoria de conglomerados, por 10 que algunos conglomerados no tienen miembros en la muestra. Dado que dentro de los conglomerados los miembros de la poblacion probablemente son bastante homogeneos, se corre el riesgo de que importantes subgrupos de la poblacion no esten representados en absoluto 0 esten muy subrepresentados en la muestra final. En consecuencia, aunque la gran ventaja del muestreo por conglomerados se encuentra en su comodidad, esta comodidad puede muy bien conseguirse a costa de una imprecision mayor de las estimaciones muestrales. Otra distincion entre el muestreo por conglomerados y el muestreo estratificado es que en el primero se toma un censa campleta de miembros del conglomerado, mientras que en el segundo se toma una muestra aleatoria de miembros del estrato. Sin embargo, esta diferencia no es esencial. De hecho, a veces un investigador puede extraer una muestra aleatoria de miembros de un conglomerado en lugar de tomar un censo completo.
Muestreo bietapico En much as investigaciones, la poblacion no se encuesta en una sola etapa sino que a menudo es comodo realizar primero un estudio piloto en el que se contacta con una propor-
848
Estadfstica para administraci6n y economfa
cion relativamente pequena de los miembros de la muestra y se analizan los resultados obtenidos antes de realizar la mayor parte del estudio. El principal inconveniente de ese metodo es que puede IIevar mucho tiempo. Sin embargo, tiene varias ventajas que compensan este factor. Una de las ventajas importantes es que el investigador puede probar, con un pequeno coste, el cuestionario propuesto para asegurarse de que las distintas preguntas se entienden perfectamente. El estudio piloto tambien puede sugerir otras preguntas cuya importancia se habfa pasado por alto. Ademas, este estudio tambien debe dar una estimacion de la tasa probable de falta de respuesta. Si esta fuera inaceptablemente alta, podrfa ser deseable modificar algo el metodo para recabar las respuestas. La realizacion de un estudio bietapico, comenzando con un estudio piloto, se conoce con el nombre de muestreo bietapico. Este enfoque tiene otras dos ventajas . En primer lugar, si se emplea un muestreo aleatorio estratificado, el estudio piloto puede utilizarse para obtener estimaciones de las varianzas de los distintos estratos. Estas pueden utilizarse, a su vez, para estimar la afijacion optima de la muestra a los distintos estratos. En segundo lugar, los resultados del estudio piloto pueden utilizarse para estimar el numero de observaciones necesarias para obtener estimadores de los parametros poblacionales con un nivel especificado de precision. Los ejemplos siguientes sirven para iIustrar estas cuestiones. Consideremos una senciIIa situacion en la que se utiliza una muestra aleatoria simple para estimar una media poblacionai. AI principio, la informacion sobre esta poblacion es relativamente escasa, por 10 que se realiza una encuesta piloto para hacerse una idea del tamano que debe tener la muestra.
EJEMPLO 20.11. Valor medio de las facturas pendientes de cobro (tamano de la muestra) Un auditor desea estimar el valor medio de las facturas pendientes de cobro en una poblacion total de 1.120 facturas. Quiere hallar un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de aproximadamente 4 $ a cada lado de la media muestral. Para empezar, toma una muestra aleatoria simple de 100 facturas y observa una desviacion tfpica muestral de 30,27 $. l,Cuantas facturas mas debe tener la muestra?
Solucion En el apartado 20.5, hemos visto que el tamano de la muestra necesario es
donde N = 1.120 es el numero de miembros de la poblacion en este caso. Para que el intervalo de confianza al 95 por ciento tenga la amplitud exigida, 1,960"; = 4 por 10 que 0";, la desviacion tfpica de la media muestral, debe ser 4 0"- = = 204 x 1,96 '
Capitulo 20.
Otros temas relacionados can el muestreo
849
La desviaci6n tfpica poblacional, (J, se desconoce. Sin embargo, como consecuencia del estudio inicial de 100 facturas pendientes de cobro, se estima que es 30,27. El numero total de observaciones muestrales necesario es, pues, n =
N(J2 (N - 1)(J~
+ (J2
=
(l.120)(30,27i (l.119)(2,04)2
+ (30,27)2
= 1841 '
Dado que ya se han tornado 100 observaciones, senln suficientes 85 mas para satisfacer el objetivo del auditor.
EJEMPLO
20.12. Renta (tamano de la muestra)
Un investigador quiere tomar una muestra aleatoria estratificada para estimar la renta familiar media de una ciudad en la que el numero de familias que hay en cada uno de los tres distritos es N2 = 2.120 Para empezar, el investigador hace un estudio piloto, tomando una muestra de 30 hogares de cada distrito y obteniendo desviaciones tfpicas muestrales de 3.657 $, 6.481 $ y 8.403 $, respectivamente. Sup6ngase que el objetivo es obtener, con el tamafio mas pequefio posible, un intervalo de confianza al 95 por ciento de la media poblacional que tenga una amplitud de 500 $ a cada lado de la estimaci6n muestral. (,Cuantas observaciones adicionales deben tomarse en cada distrito?
Solucion El requisito de que debe conseguirse un grado especificado de precisi6n con el menor numero de observaciones muestrales posible implica que debe utilizarse la afijaci6n 6ptima. Recuerdese que en la ecuaci6n 20.20 hemos visto que los numeros 12 1, n2 Y n3 que deben muestrearse en los tres estratos son los siguientes: nJ" =
N(J "
K J J
X
n
(J' - 1,~,-~ ') ")
don de las (Ji son las desviaciones tfpicas poblacionales de los estratos. Utilizando nuestras estimaciones muestrales en lugar de estas cantidades, n = I
n = 2
n = 3
( 1.150)(3.657) (1.150)(3.657)
+ (2.120)(6.481) + (930)(8.403) (2.120)(6.481)
(1.150)(3.657)
+ (2.l20)(6.481) + (930)(8.403) (930)(8.403)
0.150)(3.657)
+ (2.120)(6.481) + (930)(8.403)
x
12 =
0 163n ,
o,533n
x n
=
x n
= 0303n ,
Hemos especificado las propiedades de la muestra total que debe afijarse a cada estrato con el sistema 6ptimo. Queda por averiguar el numero total n de observaciones muestrales.
850
Estadfstica para administraci6n y economfa
Metodos de muestreo no probabillsticos Hemos analizado algunos sistemas de muestreo en los que es po sible especificar la probabilidad de que se extraiga una determinada muestra de la poblacion. Esta caracteristica de los metodos de muestreo permite hacer inferencias estadfsticas validas basadas en los resultados muestrales. De 10 contrario, no podrian obtenerse estimaciones puntuales insesgadas e intervalos de confianza con un contenido probabilistico especificado que tuvieran una estricta validez estadistica. No obstante, en much as aplicaciones practicas se utili zan metodos no probabilisticos para seleccionar rniembros de la muestra, principalmente por comodidad. Supongamos, por ejemplo, que queremos evaluar las reacciones de los estudiantes de nuestra universidad a algun tema de interes. Una posibilidad seria preguntar a nuestros amigos cual es su opinion. Este grupo no constituirfa una muestra aleatoria de la poblacion de todos los estudiantes. Por 10 tanto, si analizamos los datos como si procedieran de una muestra aleatoria, la inferencia resultante carecerfa de validez estadfstica. Las organizaciones que realizan encuestas utilizan a menudo una version mas sofisticada del enfoque que acabamos de describir, Hamada muestreo por cuotas. Se asignan encuestadores a un lugar y se les dice que contacten con un numero especificado de personas de una determinada edad, raza y sexo. Estas cuotas asignadas representan las proporciones del conjunto de la poblacion que se consideran adecuadas. Sin embargo, una vez decididas las cuotas, los entrevistadores tienen flexibilidad para elegir los miembros de la muestra. Su eleccion normalmente no es aleatoria. El muestreo por cuotas puede producir y a menudo produce estimaciones bastante precisas de los parametros poblacionales. Su inconveniente es que, como no se elige la muestra utilizando metodos probabilfsticos, no existe una forma valida de averiguar la fiabilidad de las estimaciones resultantes.
EJERCICIOS
Ejercicios aplicados 20.47. Una empresa de estudios de mercado quiere estimar la cantidad semanal media de tiempo que estan encendidos los televisores en los hogares de una ciudad que contiene 65 barrios. Se selecciona una muestra aleatoria simple de 10 barrios y se pregunta a cada hogar de cada barrio de la muestra. La tabla adjunta muestra los resultados. Barrio 1 2
3 4 5 6 7 8
9 10
Numero de hogares
Tiempo medio de uso del televisor (horas)
28
29,6 18,4 32,7 26,3 22,4 31,6 19,7
35 18 52 41
38 36 30
23 42
23,8 25,4 24,1
a) Halle una estimaci6n puntual de la media poblacional de la cantidad de tiempo que
estan encendidos los televisores en esta ciudad. b) Halle el intervalo de confianza al 90 por ciento de la media poblacional. 20.48. Un dirigente sindical quiere estimar el valor medio de las primas pagadas a los administrativos de una empresa en el primer mes de un nuevo plan. Esta empresa tiene 52 subdivisiones y se toma una muestra aleatoria simple de 8. A continuaci6n, se obtiene informaci6n de las n6minas de cada administrativo de cada subdivisi6n de la muestra. La tabla adjunta muestra los resultados. Subdivisi6n 1 2
3
Numero de administrativos
Prima media (d6Iares)
69 75 41 36 59
83 64
7
82 64
42 108 136 102 95
8
71
98
4
5 6
Capitulo 20.
a) Halle media b) Halle ciento
una estimaci6n puntual de la prima por administrativo de este meso el intervalo de confianza al 99 por de la media poblacional.
20.49. En el estudio del ejercicio 20.47 , se pregunta a los hogares si tienen televi si6n por cable. La tabla adjunta muestra el numero que tiene televisi6n por cable. Barrio Numero
2
3
4
5
6
7
8
9
10
12 11 10 29 15 13 20 14 9
26
a) Halle una estimaci6n puntual de la proporci6n de todos los hogares de la ciudad que tienen televisi6n por cable. b) Halle el intervalo de confianza al 90 por ciento de esta proporci6n poblacional. 20.50. En el estudio del ejercicio 20.48, se pregunt6 a los administrativos de las ocho subdivisiones de la muestra si estaban sati sfechos con el funcionamiento del plan de primas. La tabla adjunta muestra los resultados. Subdivision Numero satisfecho
2
3
4
5
678
24 25
11
21
35 44 30 34
a) Halle una estimaci6n puntual de la prop orci6n de todos los administrativos satisfechos con el plan de primas. b) Halle el intervalo de confianza al 95 por ciento de esta proporci6n poblacional. 20.51. Una ciudad esta dividida en 50 subdivisiones geogrMicas. Se necesita una estimaci6n de la proporci6n de los hogares de la ciudad interesados en un nuevo servicio de jardinerfa. Una muestra aleatoria de tres subdivisiones contiene 6 11, 521 Y 734 hogares, respectivamente. EI nLlmero que expresa interes por el servicio es 128, 131 Y 172, respectivamente. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todos los hogares de la ciudad interesada en el servicio de jardinerfa.
..
Otros temas relacionados con el muestreo
851
20.52. Un banco tiene 720 creditos hipolecarios para la adquisici6n de viviendas en situaci6n de morosidad. Necesita una estimaci6n del valor catastral medio de estas viviendas. Al principio, se considera una muestra aleatoria de 20 y se halla una desviaci6n tfpica muestral de 37.600 $. Si el banco requiere un intervalo de confianza al 90 por ciento de la media poblacional que tenga una amplitud de 5.000 $ a cada lado de la medi a muestral, i,cuantas viviendas mas deben considerarse? 20.53. Una universidad tiene 3.200 estudiantes de grado y 800 estudiantes de postgrado. Los investigadores tienen interes en saber cuanto dinero se gastan estos estudiantes en un ano en libros de texto. Al principio se toman muestras aleatorias simples de 30 estudiantes de grado y 30 de postgrado. Las desviaciones tfpicas muestrales de las cantidades gas tad as son 40 $ y 58 $, respectivamente. Se necesita un intervale de confianza al 90 por ciento de la media del conjunto de la poblaci6n que tenga una amplitud de 5 $ a cada lado de la estimaci6n puntual muestral. Estime el men or numero total de observaciones muestrales adicionales necesario para lograr este objetivo. 20.54. Una empresa tiene una flota de 480 autom6viles: 100 pequefios, 180 de tamano intermedio y 200 grandes. Para estimar los costes totales anuales medios de reparaci6n de estos autom6viles, se toma una muestra aleatoria preliminar de 10 autom6viles de cada tipo. Las desviaciones t[picas muestrales de los costes de reparaci6n son 105 $ en el caso de los autom6viles pequefios, 162 $ en el de los autom6viles de tamano intermedio y 183 $ en el de los autom6viles grandes. Se necesita un intervalo de confianza al 95 por ciento del coste total anual medio de reparaci6n por autom6vil que tenga una amplitud de 20 $ a cada lado de la estimaci6n puntual muestral. Estime el menor numero total de observaciones muestrales adicionales que deben tomarse.
RESUMEN
En este capitulo, hemos centrado la atenci6n en el problema de un investigador que quiere descubrir algo de una poblaci6n que no es necesariamente grande. EI investigador pretende recoger informaci6n solamente de un Subconjunto de miembros de la poblaci6n y pide asesoramiento para hacerlo. En primer lugar, deben
considerarse los pasos necesarios en un plan de muestreo. A continuaci6n, deb en distinguirse los errores de muestreo y los errores ajenos al muestreo; deben formularse ecuaciones para estimar una media poblacional, un total poblacional y una proporci6n poblacional para el muestreo aleatorio simple, asf como para el
852
Estadfstica para administracion y economfa
muestreo estratificado; debe decidirse el tamano de la muestra para esti mar una media poblacional, un total poblacional y una proporc ion poblacional utilizando el muestreo aleatorio simpl e 0 el muestreo estratificado si se especifica la varianza deseada de la media muestral; debe considerarse el muestreo por conglomerados y las ecuaciones establecidas para hallar los intervalos de confianza de la media poblacional y de la proporcion poblacional, si el tamano de la muestra
es grande. Hemos mencionado brevemente el metodo de muestreo bietapico y e l metodo de muestreo no probabilfstico. Dado que la estadistica se ocupa en gran parte de los problemas que plante an las afirmaciones sobre una poblacion a partir de la informacion muestral, nos interesa comprender este capitu lo. Para un analisis mas detallado de los disenos de muestreo, veanse las notas que se encuentran al final de este capitulo.
TERMINOS CLAVE estimacion: media poblacional, aleatorio, 820 media poblacional, conglomerado, 845 media poblacional, estratificado, 827 proporcion poblacional, aleatorio, 823 proporcion poblacional, conglomerado, 845 proporcion poblacional, estratificado, 831 total poblacional, aleatorio, 821 total poblacional, estratificado, 829
error ajeno al muestreo, 817 tamano de la muestra: error de muestreo, 817 afijacion optima, 834 afijacion proporcional, 833 factor de correccion en el caso de una poblacion finita, 820 media poblacional, aleatorio, 838 metodos no probabilfsticos, 850 muestreo aleatorio simple, 819 media poblacional, muestreo aleatorio estratificado, 826 estratificado, 840 muestreo por conglomerados, 844 proporcion poblacional, muestreo por cuotas, 850 aleatorio, 839 muestreo bietapico, 848 muestreo sistematico, 819
EJERCICIOS V APLICACIONES DEL CAPiTULO 20.55. Ha recibido el encargo de disenar y realizar una encuesta en su ciudad sobre la eficacia de una campana publicitaria por radio destinada a promocionar una nueva pelfcula. a) Explique que haria. b) Analice las posibilidades de que haya errores ajenos al muestreo y los medios para reducir 10 mas posible su importancia. c) (,Hasta que punto espera que la falta de respuesta sea un problema en esta encuesta? 20.56. Basandose en una muestra aleatoria de 10 miembros de su clase, estime la cantidad media de dinero que gastan los miembros de la clase en libros de texto cada cuatrimestre. 20.57. Explique minuciosamente la distincion entre muestreo aleatorio estratificado y muestreo por conglomerados. Ponga ejemp!os de problemas de muestreo en los que podria ser uti! cada una de estas tecnicas. 20.58. Se hace un examen a 90 estudiantes y se toma una muestra aleatoria de 10 calificaciones: 93
71
62
75
8 1 63
87
59
84
72
a) Halle el intervalo de confianza a! 90 par ciento de la media poblacional de las calificaciones. b) Sin hacer los calculos, indique si el intervalo de confianza al 95 por ciento de la media poblacional serfa mas amplio 0 mas estrecho que el obtenido en el apartado (a). 20.59. Una empresa tiene 272 facturas pendientes de cobro en una determinada categoria. Se toma una muestra aleatoria de 50 facturas. La media muestral es de 492,36 $ y la desviacion tipica muestral es de 149,92 $. a) Halle el intervalo de confianza al 99 por ciento de la media poblacional del valor de estas facturas pendientes de cobro. b) Halle el intervalo de confianza al 95 por ciento del valor total de estas facturas pendientes de cobro. c) Indique sin hacer los calculos si el intervalo de confianza al 90 por ciento del total poblacional serra mas amplio 0 mas estrecho que el intervalo obtenido en el apartado (b). 20.60. En el Senado de Estados Unidos hay 100 senadores. Se obtuvo informacion de los individuos
Capitulo 20.
responsables de gestionar la carrespondencia de 61 despachos de senadores. De estos, 38 indicaron que debian recibir un numero minimo de cartas sobre una cuesti6n antes de escribir una carta en respuesta. a) Suponga que estas observaciones constituyen una muestra aleatoria de la poblaci6n y halle el intervalo de confianza al 90 por ciento de la proporci6n de despachos de senadores que siguen esta polftica. b) En rea!idad, no se obtuvo informaci6n de una muestra aleatoria de despachos de senadores. Se enviaron cuestionarios a los 100 despachos, pero s610 respondieron 6l. (,C6mo influye esta informaci6n en su respuesta al apartado (a)? Vease la referencia bib!iognifica 2. 20.61. Una empresa tiene 148 representantes de ventas. Se toma una muestra aleatoria de 60 y se observa que en el caso de 36 de los miembros de la muestra, eJ volumen de pedidos de este mes es mayor que el del mismo mes del ano pasado. Halle el intervalo de confianza al 95 por ciento de la proporci6n poblacional de representantes de ventas que tienen un volumen de pedidos mayor. 20.62. Una empresa tiene tres subdivisiones, en las que hay un total de 970 directivos. Se toman muestras aleatarias independientes de directivos de cada subdivisi6n y se halla el numero de anos que lleva en la empresa cada miembro de las muestras. La tabla adjunta muestra los resultados. Subdivision 1 Subdivision 2 Subdivision 3 N; Hi Xi
Si
352 30 9,2 4,9
287 20 12,3 6,4
331 30 13,5 7,6
a) Halle el intervalo de confianza al 99 por ciento del numero medio de anos que lIevan en la empresa los directivos de la subdivisi6n 1. b) Halle el intervalo de confianza al 99 par ciento del numero medio de anos que llevan en la empresa todos los directivos. 20.63. De las 300 paginas de un libro, 180 son principalmente poco tecnicas, mientras que el resto es tecnico. Se toman muestras aleatorias independientes de paginas tecnicas y no tecnicas y se anota el numero de erratas par pagina. La tabla resume los resultados.
Otros temas relacionados con el muestreo
N;
"j x I· s·I
853
Ttknicas
No tecnicas
120 20 1,6 0,98
180 20 0,74 0,56
a) Halle el intervalo de confianza al 95 par ciento del numero medio de erratas por pagina de este !ibro. b) Halle el intervalo de confianza al 99 por ciento del numero total de erratas del libro. 20.64. En el analisis del ejercicio 20.63, se observa que 9 de las paginas tecnicas de la muestra y 15 de las paginas no tecnicas de la muestra no contienen ninguna errata. Halle el intervalo de confianza al 90 por ciento de la proporci6n de todas las paginas de este Iibro que no contiene erratas. 20.65. Vuelva a los datos del ejercicio 20.62. Si se torna una muestra de un total de 80 directivos, averiglie cuantos miembros de la muestra pertenecerfan a la subdivisi6n 1 utilizando cada uno de los siguientes sistemas: a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las desviaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes. 20.66. Vuelva a los datos del ejercicio 20.63. Si se torna una muestra de un total de 40 paginas, averiglie cuantas paginas de la muestra sedan tecnicas utilizando cada uno de los siguientes sistemas: a) La afijaci6n proporcional y b) La afijaci6n 6ptima, suponiendo que las desviaciones tfpicas de los estratos son iguales que las cantidades muestrales correspondientes. 20.67. Se pretende tomar una muestra de los estudiantes de su universidad para conocer su opini6n sobre la cantidad de espacio que hay en la biblioteca. Se decide utilizar una mllestra estratificada por ano: estudiantes de primer ano, de segundo ano, etc. Analice los factores que se tendrfan en cuenta para decidir el numero de observaciones muestrales que deben tomarse ell cada estrato. 20.68. Un concesionario de automoviles tiene unas existencias de 328 autom6viles usados. Hay que estimar el numero medio de ki16metros de
854
Estadfstica para administraci6n y economfa
estos vehfculos. La experiencia dice que es probable que la desviacion tfpica poblacional sea de unos 12.000 kilometros. Si el intervalo de confianza al 90 por ciento de la media poblacional debe tener una amplitud de 2.000 kilometros a cada lade de la media muestral, (,de que tamano debe ser la muestra si se emplea el muestreo aleatorio simple?
20.69. Debe tomarse una muestra aleatoria simple de 527 estudiantes de administracion de empresas de una universidad para estimar la proporcion que es partidaria de que se ponga mas enfasis en la etica empresarial en el programa de estudios. (,Cuantas observaciones son necesarias para garantizar que el intervalo de confianza al
95 par ciento de la proporcion poblacional tiene una amplitud maxima de 0,06 a cada lado de la proparcion muestral?
20.70. Suponga que la junta electoral debe ayudar a resolver un conflicto electoral entre dos candidatos (0 quiza una persona debe hacer de experto estadfstico en un juicio relacionado con el resultado de unas renidas elecciones). Son muchas las cuestiones que se plantean. (,Deben recontarse todos los votos de todas las circunscripciones? Si solo se recuentan los de algunas, (,c uales? Analice las ventajas y los inconvenientes de algunos disenos muestrales que podrfan utilizarse para seleccionar los votos que van a recontarse.
Bibl iografla l. 2.
3. 4. 5. 6. 7. 8.
Cochran, W. G., Sampling Techniques , Nueva York, Wiley, 1977, 3." ed. Cui nan, M. J., «Processing Unstructured Organizational Transactions: Mail Handling in the U.S. Senate», Organizational Science, 3, 1992, pags. 117-l37. Deming, W. E. , Sample Design in Business Research, Nueva York, Wiley, 1960. Hogg, Robert y Allen T. Craig, Introduction to Mathematical Statistics, Nueva York, Macmillan, 1977, 4.' ed. Kish, Leslie, Survey Sampling, Nueva York, Wiley, 1965. Levy, Paul S. y Stanley Lemeshow, Sampling of Populations: Methods and Applications, Nueva York, Wiley, 1991. Minitab for Windows Version 13, State College, PA, Minitab, Inc., 2000. Schaeffer, Richard L., William Mendenhall y Lyman Ott, Elementary Survey Sampling, Belmont, CA, Duxbury Press, 1996, 5." ed.
Teoria estadistica de la decision / ,
/
Esquema del capitulo 21 .1 . La toma de decisiones en condiciones de incertidumbre 21.2. Soluciones que no implican la especificacion de probabilidades: criterio maximin, criterio de la perdida de oportunidades minimax Criterio maximin Criterio de la perdida de oportunidades minimax 21.3. Valor monetario esperado; TreePlan Arboles de decision La utilizacion de TreePlan para resolver un arbol de decision Analisis de sensibilidad 21.4. Informacion muestral : anal isis y valor bayesianos Utilizacion del teorema de Bayes EI valor de la informacion muestral EI valor de la informacion muestral visto por medio de arboles de decision 21.5. Introduccion del riesgo: analisis de la utilidad EI concepto de utilidad Criterio de la utilidad esperada para tomar decisiones
Introducci6n Pod ria decirse que el tema de este capitulo recoge la esencia de los problemas de gesti6n que se plantean en cualquier organizaci6n. De hecho, su aplicabilidad va mucho mas alia, ya que afecta a muchos aspectos de nuestra vida diaria. Analizaremos situ aciones en las que una persona, un grupo 0 una empresa tienen varios cursos de acci6n posibles y deben elegir uno de ellos en un mundo en el que hay incertidumbre sobre la futura conducta de los facto res que determinan las consecuencias del curso de acci6n que se elija. En este capitulo analizamos cuatro criterios para tomar decisiones. EI criterio maximin y el criterio de la perdida de oportunidades minimax son criterios no probabiifsticos para tomar decisiones. Es decir, estos criterios «no tienen en cuenta la probabilidad de los resultados de cada alternativa; centran meramente la atenci6n en el valor monetario de los resultados» (vease la referencia bibliografica 4) . Dos criterios para tomar decisiones que incluyen informaci6n sobre las probabilidades de que se prod uzca cada resultado son el criterio del valor monetario esperado y el criterio de la utilidad esperada.
856
Estadfstica para administracion y economfa
21.1. La toma de decisiones en condiciones de incertidumbre Todos nos vemos obligados a actuar en un entomo cuyo rumbo futuro es incierto. Por ejemplo, podemos estar considerando la posibilidad de ir a un partido de fUtbol, pero dudamos porque existe la posibilidad de que llueva. Si supieramos que no va allover, irfamos al partido; si estuvieramos seguros de que va a llover durante varias horas, no irfamos. Pero no podemos predecir con absoluta seguridad el tiempo que va a hacer, por 10 que debemos tomar la decision contemplando un incierto futuro. Por poner otro ejemplo, en algun momenta al final de los estudios universitarios, el estudiante tiene que decidir que va a hacer cuando se gradue. Es po sible que ya tenga varias ofertas de empleo. Racer el doctorado tambien es una posibilidad. La decision es claramente importante. Recabani, desde luego, informacion sobre las opciones. Sabra que sueldos de partida se ofrecen y se habra enterado de cuales son las actividades de las empresas entre las que puede elegir y de como encaja en esas actividades. Sin embargo, nadie tiene una idea muy clara de donde estara dentro de uno 0 dos afios si acepta una determinada oferta. Esta importante decision se toma, pues, en condiciones de incertidumbre sobre el futuro. En el mundo empresarial, a menu do existen circunstancias de este tipo, como muestran los siguientes ejemplos: 1.
En una recesion, una empresa debe decidir si despide 0 no a algunos trabajadores. Si la recesion economica va a ser breve, puede ser preferible quedarse con estos trabaj adores , que pueden ser diffciles de sustituir cuando mejore la demanda. Sin embargo, si se prolonga la recesion, conservarlos serfa caro. Desgraciadamente, el arte de la prediccion economica no ha llegado a la fase en la que es po sible predecir con un alto grado de certeza la duracion 0 la gravedad de una recesion. 2. Un inversor puede creer que los tipos de interes han alcanzado un maximo. En ese caso, los bonos a largo plazo parecerfan muy atractivos. Sin embargo, es imposible estar segura de como evolucionaran en el futuro, y si continuaran subiendo, la decision de invertir en bonos a largo plazo serfa sub6ptima. 3. Los contratistas a menudo deben hacer ofertas para conseguir la adjudicacion de un proyecto. Tienen que decidir la cuantfa de la oferta. En este caso, hay dos cuestiones inciertas. En primer lugar, el contratista no sabe de que cuantfa tiene que ser la oferta para conseguir el contrato. En segundo lugar, no puede estar seguro de cuanto Ie costara cumplir el contrato. De nuevo, a pesar de la incertidumbre, debe tomar alguna decision. 4. El coste de hacer prospecciones petroleras en alta mar es enorme y, a pesar de contar con excelente asesoramiento geologico, las compafifas petroleras no saben, antes de hacer las prospecciones, si se descubrira una cantidad comercialmente viable. La decision de hacer 0 no prospecciones petroleras debe tomarse en un entomo incierto. Nuestro objetivo es estudiar los metodos para abordar el tipo de problemas de toma de decisiones que acabamos de describir. Una persona que tiene que tamar una decision se enfrenta a un numero finito, K, de acciones posibles, que llamaremos a j , ab ... , aK . En el momento en que tiene que elegir una accion, no sabe como evolucionara en el futuro un factor que determinara las consecuencias de la accion elegida. Se supone que un numero finito, H, de estados de la naturaleza posibles puede caracterizar las posibilidades de este factor. Estos se representan por medio de Sl' S2, .. . , SH' Por ultimo, se supone que la persona que tiene que tomar la decision es capaz de especificar la recompensa monetaria 0 ren-
Capitulo 2 1. Teoria estadistica de la decision
857
dim iento de cada combinacion accion-estado de la naturaleza. Sea Mij el rendimiento de la accion Q j en el supuesto de que ocurra el estado de la naturaleza Sj. Las acciones, los estados de la naturaleza, los rendimientos monetari os y las tablas de rendimientos forman parte del marco general para analizar cualquier problema de toma de decisiones.
Marco para analizar los problemas de toma de decisiones La persona que tiene que tomar una decisi6n tiene K cursos de acci6n posibles: 8 1 , 8 2 , .. . , 8 K . Las acciones a veces se IIaman alternativas. 2. Hay H estados de la naturaleza inciertos posibles: 51' 52' ... , 5 H . Los estados de la naturaleza son los resultados posibles que el que toma la decisi6n no controla. A veces se IIaman sucesos. 3. Cada combinacion posible accion-estado de la naturaleza tiene un resultado que representa un beneficia 0 una perdida, IIamado rendimiento monetario, Mi' que corresponde a la acci6n 8 j y al estado de la naturaleza 5 .. La tabla de todos los resLltados de un problema de decisi6n se llama tabla de rendimie'ntos. 1.
La Tabla 21.1 muestra la forma general de una tabla de rendimientos. Tabla 21.1. Tabla de rendimientos de un problema de decision en el que hay K acciones posibles y H estados de la naturaleza posibles.
Estado de la naturaleza
Accion S1
S2
...
al
Mi l
MI2
...
Cl2
J'v!21
M22
...
M 2H
ClK
MKI
MK2
.. .
MKH
aJsi
SH
Mu/
Cuando una persona que tiene que tomar una decision se encuentra ante distintos cursos de accion, la eleccion correcta depended en gran medida de los objetivos. Es posible describir varias lfneas de ataque que se han empleado en la solucion de problemas de toma de decisiones empresariales. Sin embargo, debe tenerse presente que cada problema tiene sus propias caracterfsticas y que los objetivos de los que toman las decisiones pueden variar considerablemente y ser, de hecho, bastante complejos. Se plantea un a situacion de este tipo cuando se observa la posicion de un directivo intermedio de una gran empresa. En la pnktica, sus objetivos pueden ser algo distintos de los de la empresa. AI tomar decisiones, es muy probable que sea consciente de su propia posicion, as! como del bien general de la empresa. A pesar del cankter individual de los problemas de toma de deci siones, es posible eliminar algunas acciones que no se consideranin en ningun caso.
Acciones admisibles e inadmisibles Si el rendimiento de una acci6n 8 . es al menos tan alto como el de 8 j , cualquiera que sea el estado de la naturaleza, y si el rerl'dimiento de 8 . es mayor que el de 8 j al menos en un estado de la naturaleza, se dice que la accion 8 . domi~8 a la acci6n 8j' Se dice que cualquier acci6n que es dominada de esta forma es inadinisible. Las acciones inadmisibles se eliminan de la fista de posibifidades antes de seguir anafizando un problema de toma de decisiones. Se dice que cualquier acci6n que no es dominada por alguna otra y que, por 10 tanto, no es inadmisible es admisible.
858
Estadfstica para administraci6n y economfa
En este capItulo nos basaremos en el ejemplo siguiente. EJEMPLO
21.1. Un fabricante de
teh~fonos m6viles (acciones admisibles)
Consideremos un fabricante que planea introducir un nuevo telefono movil. Puede elegir entre cuatro procesos de produccion, A, B, C Y D, que van desde una modificacion relativamente pequefia de las instalaciones existentes hasta una gran ampliacion de la planta. La decision sobre el curso de accion debe tomarse en un momenta en el que no se conoce la demanda posible del producto. Por comodidad, decimos que esta demanda potencial puede ser «baja», «moderada» 0 «alta» . Tambien se supone que el fabricante puede calcular para cada proceso de produccion el beneficio durante la vida de la inversion correspondiente a cada uno de los tres niveles de demanda. La Tabla 21.2 muestra estos niveles de beneficios (en dol ares) para cada combinacion proceso de produccionnivel de demanda. Averigiie si hay alguna accion inadmisible. Tabla 21.2. Beneficios estimados de un fabricante de telefonos m6viles correspondientes a diferentes combinaciones de proceso-demanda.
Accion
Estado de la naturaleza
Proceso de produccion
Demanda baja
Demanda moderada
Demanda alta
A B C D
70.000 80.000 100.000 100.000
120.000 120.000 125.000 120.000
200.000 180.000 160.000 150.000
Solucion En este ejemplo, hay cuatro acciones posibles que corresponden a los cuatro procesos de produccion posibles y tres estados de la naturaleza posibles que corresponden a los tres niveles de demand a del producto posibles. Consideremos el proceso de produccion D de la Tabla 21.2. El rendimiento de este proceso sera exactamente igual que el de C si hay un bajo nivel de demanda y mas bajo que el del proceso C si el nivel de demanda es moderado 0 alto. Por 10 tanto, no tiene senti do elegir la opcion D, ya que hay otra opcion con la que los rendimientos no pueden ser menores y podrfan ser mayores. Dado que la accion C es necesariamente al menos tan rentable como la D y posiblemente mas, se dice que la accion C domina a la D. Dado que el proceso de produccion D es dominado por otra alternativa, el proceso de produccion C, se dice que el D es inadmisible. Esta accion no debe seguir considerandose, ya que serfa suboptimo adoptarla. Por 10 tanto, se eIiminani y, en el amilisis posterior del problema, solo se considerani la posibilidad de adoptar el proceso A, el B 0 el C. El problema de toma de decisiones esbozado es esencialmente de caracter discreto. Es decir, solo hay un numero finito de alternativas y un numero finito de estados de la naturaleza posibles. Sin embargo, muchos problemas practicos son continuos. Por ejemplo, es posible que sea mejor medir el estado de la naturaleza en un continuo que describirlo por medio de una serie de posibilidades discretas. En el ejemplo del fabricante de telefonos moviles, es posible preyer un intervale de niveles posibles de demanda en Iugar de especificar simplemente tres niveles. En algunos problemas, como mejor se re-
Capftulo 21.
Teorfa estadfstica de la decision
859
presentan las acciones posibles es en un continuo; por ejemplo, en el caso en el que un contratista debe decidir la cuantfa de la oferta para conseguir la adjudicacion de un contrato. En el resto de este capitulo centramos la atencion en el caso discreto. Los principios que implica el analisis del caso continuo no son diferentes. Sin embargo, los detalies de ese analisis se basan en el ca1culo y no se examinan mas aquf.
EJERCICIOS
Ejercicios basicos 21.1. Un inversor esta considerando tres alternativas -un certificado de dep6sito, un fondo de acciones de bajo riesgo y un fonda de acciones de alto riesgo- para una inversi6n de 20.000 $. Considera tres estados de la naturaleza posibles: S j: mercado de val ores fuerte S2: mercado de valores moderado S3: mercado de valores d6bil La tabla de rendimientos (en d61ares) es la siguiente: Accion
Estado de la naturaleza
Alternativas de inversion posibles Certificado de dep6sito Fondo de acciones de bajo riesgo Fondo de acciones de alto riesgo
S2
1.200 4.300 6.600
1.200 1.200 800
1.200 -600 - 1.500
21.2. Un fabricante de desodorantes esta a punto de ampliar la capacidad de producci6n para fabricar un nuevo producto. Tiene cuatro procesos de produccion alternativos. La tabla adjunta muestra los beneficios estimados, en d61ares, de estos procesos correspondientes a tres niveles de demanda del producto posibles. Accion
Estado de la naturaleza
Proceso de produccion
Demanda baja
Demanda moderada
Demanda alta
A
100.000 150.000 250.000 250.000
350.000 400.000 400.000 400.000
900.000 700.000 600.000 550.000
B C D
i,Es inadmisible alguna de estas acciones?
i,Es inadmisible alguna de estas acciones?
21.2. Soluciones que no implican la especificacion de probabilidaes: criterio maximin, criterio de la perdida de 0 ortunidades minimax Antes de elegir el proceso de produccion, es probable que nuestro fabricante de telefonos moviles se pregunte cuales son las probabilidades de que se materialice realmente cada uno de estos niveles de demanda. Este capitulo se ocupa en su mayor parte de analizar las soluciones a un problema de toma de decisiones que requiere la especificaci6n de las probabilidades de los resultados correspondientes a los diversos estados de la naturaleza. Sin embargo, en este apartado se presentan dos criterios de decision que no se basan en esas probabilidades y que, en realidad, no tienen ningun contenido probabilfstico. Estos enfoques (y otros del mismo tipo) solo dependen, mas bien, de la estructura de la tabla de rendimientos. Los dos metodos examinados en este apart ado se Haman criteria maximin y criteria de la perdida de aportunidades minimax. Se examinan en relacion con la tabla de rendimientos del fabric ante de telefonos moviles del ejemplo 21.1 dejando de lado la estrategia inad-
860
Estadfstica para administraci6n y economfa
misible de elegir el proceso de producci6n D. El fabricante debe elegir, pues, entre las tres acciones posibles, enfrentandose a tres estados de la naturaleza posibles.
Criterio maximin Consideremos el peor resultado posible de cada acci6n, cualquiera que sea el estado de la naturaleza que se materialice. El pear resultada es simplemente el menor rendimiento que es razonable pensar que podrfa obtenerse. El criterio maximin selecciona la acci6n que tiene el rendimiento minimo, es decir, maximizamas el rendimiento minima. En el caso del problema del fabricante de telefonos m6viles, el men or rendimiento, cualquiera que sea el proceso de producci6n que se emplee, se obtiene cuando el nivel de demanda es bajo. Es evidente que, como muestra la Tabla 21.3, el valor maximo de estos rendimientos minimos es 100.000 $. Se obtiene si se utiliza el proceso de producci6n C. Por 10 tanto, el criterio maximin selecciona el proceso de producci6n C. Tabla 21.3.
Accion
Aplicacion del criterio maximin al ejemplo 21.1.
Estado de la naturaleza
Rendimiento minimo
Proceso de produccion
Demanda baja
Demanda moderada
Demanda alta
Rendimiento minimo de cada proceso
A B C
70.000 80.000 100.000
120.000 120.000 125.000
200.000 180.000 160.000
70.000 80.000
100.000 (maximo)
Dado que el valor maximo del rendimiento minima de cada proceso de producci6n es 100.000 $, se deduce que con el criterio maximin se selecciona el proceso de producci6n C como curso de acci6n. EJEMPLO
21.2. Oportunidad de inversion (maximin)
Un inversor quiere elegir entre invertir 10.000 $ durante un ano a un tipo de in teres garantizado del 12 por ciento e invertir la misma cantidad durante ese periodo en una cartera de acciones ordinarias. Si eJige el tipo de interes fijo, tendni con seguridad un rendimiento de 1.200 $. Si elige la cartera de acciones, el rendimiento dependera del comportamiento del mere ado durante el ano. Si el mere ado esta boyante, se espera un beneficia de 2.500 $; si el mercado se mantiene estable, el beneficio esperado es de 500 $; Y si esta deprimido, se espera una perdida de 1.000 $, Elabore la tabla de rendimientos de este inversor y halle la elecci6n de la acci6n mediante el criterio maximin.
Solucion La Tabla 21.4 muestra los rendimientos (en d6Iares); un rendimiento negativo indica una perdida. El rendimiento minimo de la inversi6n a un tipo de in teres fijo es de 1.200 $, ya que este es el rendimiento que se obtendni independientemente de 10 que ocurra en la bolsa de valores. EI rendimiento minimo de la cartera de acciones es una perdida de 1.000 $, o sea, un rendimiento de - 1.000 $, que se produce cuando el mercado esta deprimido. Dado que el mayor rendimiento minimo es el de la inversion a un tipo de interes fijo, se deduce que se selecciona el tipo de interes fijo como curso de acci6n mediante el criterio maximin.
Capftulo 21.
Tabla 21.4.
Accion Opcion de inversion Tipo de interes fijo Cartera de acciones
Teorfa estadfstica de la decision
861
Aplicaci6n del criterio maximin al ejemplo 21.2.
Estado de la naturaleza
Rendimiento minimo
Estado boyante
Estado estable
Estado deprimido
Rendimiento minimo de cada opcion de inversion
1.200 2.500
1.200 500
1.200 -1.000
1.200 (maximo) -1.000
En estos ejemplos, se observa claramente la forma general de la regia de decision basada en el criterio maximin. EI objetivo del criterio maximin es maximizar el rendimiento mznima.
Regia de decision basad a en el criterio maximin Supongamos que una persona que tiene que tomar una decisi6n tiene que elegir entre K acciones admisibles 8 1, 8 2, ... , 8K' dados H estados de la naturaleza posibles 51' 52' ... , 5H" Sea M;- el rendimiento correspondiente a la i-esima acci6n y el j-esimo estado de la naturaleza. D~be buscarse el menor rendimiento posible de cada acci6n . Por ejemplo, en el caso de la acci6n 8 1 , este es el menor de M 11 , M 12 , ... , M1H" Sea este minimo M1*' don de
En terminos mas generales, el menor rendimiento posible de la acci6n
EI criterio maximin selecciona la acci6n miento minimo es mayor) .
8j
8j
viene dado por
cuyo M; es mayor (es decir, la acci6n cuyo rendi-
La caracterfstica positiva del criterio maximin para tomar decisiones es que genera el mayor rendimiento po sible que puede garantizarse. Si se utiliza el proceso de producci6n C, el fabricante de te16fonos m6viles tiene asegurada un rendimiento de al menos 100.000 $, cualquiera que sea al final el nivel de demanda. Asimismo, en el caso del inversor del ejemplo 21.2, la eleccion del tipo de interes fijo genera un beneficio seguro de 1.200 $. En ninguno de los dos ejemplos, ninguna accion alternativa puede garantizar tanto. Sin embargo, es precisamente dentro de esta garantfa donde surgen las reservas sobre el criterio maximin, ya que a menudo debe pagarse un precio por esa garantfa. EI precio es aquf la perdida de la oportunidad de percibir un rendimiento mayor, eligiendo alguna otra accion, par muy improbable que parezca que es la peor situacion posible. Asf, por ejemplo, el fabric ante de telefonos moviles puede estar casi seguro de que la demanda sera alta, en cuyo caso el proceso de produccion C serfa una mala elecci6n, ya que genera el menor rendimiento con este nivel de demanda. Puede considerarse, pues, que el criterio maximin es una estrategia muy cauta para elegir entre distintas acciones alternativas. Esa estrategia puede ser adecuada en algunas circunstancias, pero solo un pesimista extremo la utilizarfa invariablemente. Por este motivo. a veces se llama criteria del pesimisma. «EI criterio maximin se utiliza frecuentemente en situaciones en las que el planificador piensa que no puede permitirse equivocarse (Ia planificacion militar podrfa ser un ejemplo, al igual que la inversi6n de los ahorros de toda nuestra vida). EI planificador elige una decision que obtenga los mejores resultados posibles en el peor caso po sible (mas pesimista)>> (vease la referencia bibliografica 1).
862
Estadfstica para administraci6n y economfa
Criterio de la perdida de oportunidades minimax La persona que tiene que tomar decisiones y quiere utilizar el criterio de la perdida de oportunidades minimax debe imaginar que se encuentra en una situacion en la que ha elegido una accion y se ha producido uno de los estados de la naturaleza. Puede mirar la decision tom ada con satisfaccion 0 con decepcion porque, tal como se han desarrollado las cosas, habria sido preferible una accion alternativa. La persona que toma decisiones determina entonces el <
Tabla de perdidas de oportunidades Supongamos que elaboramos una tabla de rendimientos de forma rectangular, en la que las filas corresponden a las acciones y las columnas a los estados de la naturaleza. Si se resta cad a rendimiento de la tabla del rendimiento mayor de su columna, la tabla resultante se llama tabla de perdidas de oportunidades.
Considerando la diferencia entre el rendimiento monetario efectivo de una decision y el rendimiento optimo correspondiente al mismo estado de la naturaleza, la persona que toma decisiones puede seleccionar la accion que minimiza la maxima perdida.
Regia de decision basada en el criterio criterio de la perdida de oportunidades minimax Dada la tabla de perdidas, las acciones dictadas por el criterio de la perdida de oportunidades minimax se encuentran de la forma siguiente: 1.
2.
Se halla en cad a fila (acci6n), la maxima perdida. Se elige la acci6n correspondiente al minimo de estas perdidas maximas.
EI criterio de la perdida de oportunidades minimax selecciona la acci6n cuya perdida maxima es menor; es decir, el criterio de la perdida de oportunidades minimax produce la menor perdida de oportunidades posible que puede garantizarse.
Consideremos de nuevo el caso del fabricante de de teletonos moviles del ejemplo 21.1. Mostraremos que se selecciona el proceso B mediante el criterio de la perdida de oportunidades minimax. Supongamos que el nivel de demanda del nuevo producto es bajo. En ese caso, la mejor eleccion de una accion habrfa sido el proceso de produccion C, que generaba un rendimiento de 100.000 $. Si se hubiera elegido esa accion, el fabricante habrfa tenido una perdida de O. Si se hubiera elegido el proceso A, el beneficio resultante habrfa sido de 70.000 $ solamente. El grado de perdida del fabricante, en este caso, es la diferencia entre el mejor rendimiento que podrfa haberse obtenido (100.000 $) y el rendi miento de 10 que final mente fue una peor elecci6n. Por 10 tanto, la perdida serfa igual a 100.000 $ - 70.000 $ = 30.000 $. Asirnismo, dada una baja demand a, si se hubiera elegido el proceso B, la perdida serfa 100.000 $ - 80.000 $ = 20.000 $ Continuando de esta forma, se calculan las perdidas que implican el nivel moderado de demanda y el nivel alto de demanda. En cada caso, la perdida es igual a 0 en el caso de la mejor elecci6n de la acci6n (el proceso C en el caso de la demand a moderada y el A en el
Capitulo 21.
Teoria estadistica de la decisi6n
863
de la demanda alta). Estas perdidas de oportunidades por no tomar la mejor decision, dado un estado de la naturaleza, se muestran en la Tabla 21.5, cuya ultima columna indica la maxima perdida de un proceso dado. Es evidente que el criterio de la perdida de oportunidades minimax selecciona el proceso de produccion B, ya que la perdida maxima de este proceso es la men or de los procesos A, B y C. Ni el criterio maximin ni el criterio de la perdida de oportunidades minimax permiten a la persona que toma las decisiones introducir en el proceso de toma de decisiones sus opiniones personales como la probabilidad de que se produzcan los estados de la naturaleza. Dado que la mayorfa de los problemas empresariales practicos se producen en un entorno con el que esta al menos algo familiarizado el responsable de to mar las decisiones, eso representa un despilfarro de pericia. En el siguiente apartado analizamos las probabilidades de los resultados de cada accion alternativa. Tabla 21.5.
Aplicaci6n del criterio de la perdida de oportunidades minimax al ejemplo 21.1.
Accion
Estado de la naturaleza
Perdida
Proceso de produccion
Demanda baja
Demanda moderada
Demanda alta
Perdida maxima de cada proceso
A B
30.000 20.000 0
5.000 5.000 0
0 20.000 40.000
30.000 20.000 (minimo) 40.000
C
EJERCICIOS
Ejercicios basicos 21.3. Considere el ejercicio 21.1, en el que un inversor esta considerando tres alternativas -un certificado de dep6sito, un fondo de acciones de bajo riesgo y un fondo de acciones de alto riesgopara hacer una inversi6n de 20.000 $. Considera tres estados de la naturaleza posibles: SI: mercado de val ores fuerte S2: mercado de val ores moderado 53: mercado de valores debil La tabla de rendimientos (en d61ares) es la siguiente: Accion
Estado de la naturaleza
Alternativas de inversion posibles Certiticado de deposito Fondo de acciones de bajo riesgo Fondo de acciones de alto riesgo
1.200 4.300 6.600
1.200 1.200 800
1.200 -600 - 1.500
a) l,Que acci6n se selecciona mediante el criterio maximin? b) l,Que acci6n se selecciona mediante el criterio de la perdida de oportunidades minimax?
21.4. Considere el fabricante de desodorantes del ejercicio 21.2 que esta a pun to de ampliar la capacidad de producci6n para fabricar un nuevo producto. Tiene cuatro procesos de producci6n alternativos . La tabla adjunta muestra los benefi cios estimados, en d61ares, de estos procesos correspondientes a tres niveles de demanda del producto posibles. Acdon
Estado de la naturaleza
Proceso de produccion
Demanda baja
Demanda moderada
Demanda alta
A B C D
100.000 150.000 250.000 250.000
350.000 400.000 400.000 400.000
900.000 700.000 600.000 550.000
a) l,Que acci6n se selecciona mediante el criterio maximin? b) l,Que acci6n se selecciona mediante el criterio de la perdida de oportunidades minimax? 21.5. Gtro criterio para seleccionar una decisi6n es el criterio maximax, llamado a veces criterio del
864
Estadfstica para administracion y economfa
optimismo. Este criterio elige la accion que tiene el mayor rendimiento posible. a) i,Que accion elegirfa el fabricante de telefonos moviles con los rendimientos de la Tabla 21.2 segun este criterio? b) i,Y el inversor del ejemplo 21.2?
Ejercicios aplicados 21.6. EI fabricante de telefonos moviles del ejemplo 21.1 tiene tres acciones admisibles: [os procesos A, B Y C. Cuando se consideran conjuntamente, se elige el proceso B segun el criterio de la perdida de oportunidades minimax. Suponga ahora que hay una cuarta alternativa admisible, el proceso de produccion E. Los rendimientos estimados de esta accion son 60.000 $ en el caso en el que la demanda es baja, 115.000 $ en el que es moderada y 220.000 $ en el que es alta. Demuestre que cuando se consideran conjuntamente los procesos A, B, C Y E, se elige el A seglll1 el criteria de la perdida de oportunidades minimax. Por 10 tanto, aunque la introduccion del proceso E entre las acciones no lleva a elegir ese proceso, sf !leva a elegir una accion diferente a la que se habrfa elegido. Comente el atractivo intuitivo del criterio de la perdida de oportunidades minimax a la luz de este ejemplo. 21.7. Considere un problema de decision que tiene dos acciones posibles y dos estados de la naturaleza. a) Ponga un ejemplo de una tabla de rendimientos en la que amhas acciones son admisibles y se elige la misma accion tanto segun el criterio maximin como segun e[ criterio de la perdida de oportunidades minimax. b) Ponga un ejemplode una tabla de rendimientos segun la cual se eligen diferentes acciones
segun el criterio maXlmll1 y segun el criterio de la perdida de oportunidades minimax. 21.8. Considere un problema de decision que tiene dos acciones admisibles y dos estados de la naturaleza posibles. Describa la forma que debe tener la tabla de rendimientos para que se elija la misma accion con el criterio maximin que con el criterio de la perdida de oportunidades minimax. 21.9. Un empresario tiene la pasibilidad de abrir una zapaterfa en centro comercial consolidado y de ex ito. Pero tam bien puede abrirla con un coste mas bajo en un nuevo centro, que acaba de inaugurarse. Si resulta que el nuevo centro tiene mucho exito, se espera que los beneficios anuales que obtenga la zapaterfa por estar en ese centro sean de 130.000 $. Si el centro solo tiene un exito moderado, los beneficios anuales serfan de 60.000 $. Si no tiene exita, la perdida anual serfa de 10.000 $. Los beneficios que se espera obtener abriendo la zapaterfa en el centro comercial consolidado tambien dependen en alguna medida del grado de exito del nuevo, ya que los clientes podrfan sentirse atrafdos por e1. Si el nuevo centro no tuviera exito, los beneficios esperados de la zapaterfa situada en el centro consolidado serfan de 90.000 $. Sin embargo, si el nuevo centro tuviera un exito moderado, los beneficios esperados serfan de 70.000 $, mientras que si tuviera mucho exito serfan de 30.000 $. a) Elabore la tabla de rendimientos del problema de toma de decisiones del dueiio de esta 7.apaterfa. b) i,Que accion se elige segun el criterio maximin? c) i,Que accion se elige segun el criterio de la perdida de oportunidades minimax?
21.3. ,,-alor monetario es erado; TreePlan Un importante ingrediente del amilisis de muchos problemas de toma de decisiones empresari ales probablemente sea la valoracion que hace el responsable de tomarlas de la probabilidad de que se produzcan los distintos estados de 1a natura1eza relevantes en la determinacion del rendimiento final. Los criterios analizados en el apartado 21.2 no permiten incorporar este tipo de valoracion al proceso de toma de decisiones. Sin embargo, un directivo casi siempre tendn'i una buena impresion del entorno en el que se toma la decision y quemi tenerlo en cuenta antes de decidir un curso de accion. EI analisis de este apartado supone que cada estado de 1a naturaleza tiene una probabilidad de ocurrencia y demostrara como se emplean estas probabilidades para tomar una decision.
Capftulo 21.
865
Teorfa estadfstica de la decisi6n
Generalmente, cuando hay H estados de la naturaleza posibles, debe asignarse una probabilidad a cada uno. Estas probabilidades se representan por medio de PI' P 2' ... , PH' por 10 que la probabilidad Pj corresponde al estado de la naturaleza Sj. La Tabla 21.6 muestra el planteamiento general de este problema de toma de decisiones. Tabla 21.6.
Rendimientos con probabilidades de los estados de la naturaleza.
Acdon
Estado de la naturaleza
a/si
S1(P\)
S2(P 2)
...
M2fl
MKN
Cll
Mil
MI2
Cl2
M21
M22
... ...
ClK
MKI
MK2
...
SH(PH) MIN
Dado que debe ocurrir uno y solo uno de los estados de la naturaleza, estas probabilidades suman necesariamente 1, por 10 que
Cuando la persona que toma la decision elige una accion, vera que cada eleccion tiene una probabilidad especffica de recibir el rendimiento correspondiente y, por 10 tanto, podra calcular el rendimiento esperado de cada accion. EI rendimiento esperado de esta accion es, pues, la suma de los rendimientos individuales, ponderados por sus probabilidades. Estos rendimientos esperados a menudo se Uaman valores monetarios esperados de las acciones.
Criterio del valor moneta rio esperado (VME) Supongamos que una persona que tiene que tomar una decision tiene K acciones posibles, ai' a2 , ... , a K y se enfrenta a H estados de la naturaleza. Sea Mr el rendimiento correspond iente a la i-esima accion y el j -esimo estado y P la probabilidad de que ocurra el j-esimo estado de la H
naturaleza, cumpliendose que
I
J
Pj = 1. EI valor monetario esperado de la acci6n ai'
VME(a), es H
VME(a)
=
P1Mi/
+ P 2M i2 + ... + PHMiH =
L PjMij
(21.1 )
j= l
EI criterio del valor monetario esperado adopta la accion que tiene el mayor valor moneta rio esperado; es decir, dada una eleccion entre acciones alternativas, el criterio del VME dicta la eleccion de la accion cuyo VME es mayor.
Volvamos al fabricante de telefonos moviles del ejemplo 21.1 y caIculemos el VME de cada uno de los procesos de produccion. EI fabricante probablemente tendra alguna experiencia en el mercado de su producto y, basandose en esa experiencia, podrfa hacerse una idea de la probabilidad de que la demanda sea baja, moderada 0 alta. Supongamos que sabe que el 10 por ciento de todas las veces que se ha introducido antes este tipo de producto
866
Estadfstica para administracion y economfa
tuvo una baja demanda, el 50 pOl' ciento tuvo una demanda moderada y el 40 por ciento tuvo una demanda alta. A falta de mas informacion, es razonable postular, en el caso de la introduccion de este nuevo tipo de telefono movil , las siguientes probabilidades de los estados de la naturaleza:
= pes ]) = probabilidad de que la demanda sea baja = 0,1 P 2 = P(S2) = probabilidad de que la demand a sea moderada = 0,5
p]
P 3 = P(S3) = probabilidad de que la demand a sea alta = 0,4
Dado que debe ocurrir uno y solo uno de los estados de la naturaleza, estas probabilidades suman necesariamente 1; es decir, los estados de la naturaleza son mutuamente excluyentes y colectivamente exhaustivos. Estas probabilidades se afiaden a la tabla de rendimientos (Tabla 21.2) y dan la Tabla 21.7. Tabla 21.7. Rendimientos y probabilidades de los estados de la naturaleza correspondientes al ejemplo 21.1 del fabricante de telefonos m6viles.
Accion
Estado de la naturaleza
Proceso de produccion
Demanda baja
A
70.000 80.000 100.000
B C
(P
= 0,10)
Demanda moderada (P
= 0,50)
120.000 120.000 125.000
Demanda alta (P
= 0,40)
200.000 180.000 160.000
Si el fabricante de telefonos moviles adopta el proceso de produccion A, recibira un rendimiento de 70.000 $ con una probabilidad de 0,1, 120.000 $ con una probabilidad de 0,5 y 200.000 $ con una probabilidad de 0,4. En el caso del fabric ante de telefonos moviles, los valores monetarios esperados de las tres acciones admisibles son:
+ (0,5)(120.000) + (0,4)(200.000) = 147.000 $ (Proceso B) = (0,1)(80.000) + (0,5)(120.000) + (0,4)(180.000) = 140.000 $ (Proceso C) = (0,1)(100.000) + (0,5)(125.000) + (0,4)(160.000) = 136.500 $
VME (Proceso A) = (0,1)(70.000) VME VME
El fabricante de telefonos moviles elegirfa el proceso de produccion A. Es interesante sefialar que ni el criterio maximin ni el criterio de la perdida de oportunidades minimax llevan a esta eleccion. Sin embargo, se ha afiadido la informacion de que parece que hay muchas mas probabilidades de que el nivel de demanda sea alto que de que sea bajo, por 10 que el proceso A es una opcion relativamente atractiva.
Arboles de decision EI analisis de un problema de decision por medio del criterio del valor monetario esperado puede representarse graficamente mediante un mecanismo llamado arbol de decision. Cuando se analizan decisiones en condiciones de riesgo, el diagrama del arbol es un instrumento grafico que obliga a la persona que toma las decisiones a «examinar todos los resultados posibles, incluidos los desfavorables. Tambien la obliga a tomar decisiones de una manera logica y consecutiva» (v ease la referencia bibliografica 4). Los arboles de decision son especialmente titiles cuando debe tomarse una sucesion de decisiones. Todos contienen
Capftulo 21.
Teorfa estadfstica de la decisi6n
867
D Nodos de decision (0 de accion). Estos cuadrados indican que debe tomarse una decision y a veces se Haman nodos cuadrados. o Nodos de sucesos (estados de la naturaleza). Estos empalmes circulares, de los que salen ramas, representan un estado de la naturaleza posible, al que se asigna la probabilidad correspondiente. Estos nodos a veces se Haman nodos circulares. Nodos terminales. Una barra vertical representa el final de la rama decision-suceso. Originalmente, se utilizaba un triangulo para representar este punto. A veces no se representa de ninguna forma. Despues de definir rigurosamente un problema, la persona que toma la decision traza el arbol de decision, asigna probabilidades a los sucesos (estados de la naturaleza) posibles y estima el rendimiento de cada combinacion decision-suceso posible (cada combinacion de accion y estado de la naturaleza). Ahora el responsable de tomar la decision esta preparado para encontrar la decision optima. Ese proceso se llama «resolver el arbol» (v ease la referencia bibliografica 1). Para resolver un arbol de decision, hay que trabajar hacia atras (lo que se llama plegar el arbol). Calculemos el valor monetario esperado (VME) de cada estado de la naturaleza comenzando por la parte situada mas a la derecha del arbol de decision y retrocediendo hasta los nodos de decision situados a la izquierda. La Figura 21.1 muestra un diagrama de arbol del fabricante de telefonos moviles. Se dan los siguientes pasos para elegir la accion que tiene el mayor VME: 1.
Comenzando por el lado izquierdo de la figura, vemos que salen ramas del nodo de decision (indicado con un cuadrado) que representan las tres acciones posibles: proceso A, proceso B y proceso C. A continuacion, salen los nodos de sucesos (representados por un circulo), de los que salen ramas que representan los estados de la naturaleza (los niveles de demanda) posibles.
Figura 21 .1. Acciones
Arbol de decision del fabricante de telefonos moviles (*Ia accion que tiene el maximo
VME = 147.000 $
VME).
Baja (0,1)
Rendimientos
70.000 $
Moderada (0,5)
*Proceso A
~
Estados de la naturaleza (probabilidades)
120.000 $ Alta (0,4) 200.000 $ VME = 140.000 $
VME = 147.000 $
Baja (0,1) 80.000 $
Proceso B
Moderada (0,5)
120.000 $
Alta (0,4) 180.000 $ VME = 136.500 $
Proceso C
Baja (0,1)
Moderada (0,5)
Alta (0,4)
100.000 $
125.000 $
160.000 $
868
Estadfstica para administraci6n y economfa
2.
3. 4.
5.
Se asigna la probabilidad correspondiente a cada estado de la naturaleza (baja, moderada, alta). En la parte situada mas a la derecha se insertan los rendimientos correspondientes a las combinaciones accion-estado de la naturaleza. Los calculos se realizan de derecha a izquierda, comenzando por estos rendimientos. Se calcula en cada empalme circular la sum a de las probabilidades de las distintas ramas multiplicadas por su rendimiento. De esa manera, se obtiene el VME de cada accion. La decision optima es la que tiene el VME mas alto y se indica en el punto en el que hay un cuadrado. Por 10 tanto, se elige el proceso A mediante el criterio del valor monetario esperado. La eleccion de esta accion da como resultado un valor monetario esperado 0 beneficio esperado de 147.000 $ para el fabricante de telefonos moviles.
La utilizacion de TreePlan para resolver un arbol de decision TreePlan, desarrollado por Michael Middleton (vease la referencia bibliografica 3) e incluido en este libro, es un complemento de Excel que puede utilizarse para trazar arboles de decision. Calcula el VME e indica la decision optima. Entre en la pagina web www.treeplan.com para la documentacion y los detalles que permitiran continuar utilizando este complemento una vez concluido este curso (vease la referencia bibliografica 5).
EJEMPLO 21.3. Oportunidad de inversion (criterio del VME) El inversor del ejemplo 21.2 tenia que decidir entre una inversion a un tipo de interes fijo y una CaItera de acciones. Supongamos que este inversor es, de hecho, muy optimista sobre la futura evolucion del mercado de valores y cree que la probabilidad de que el mercado este boyante es 0,6, mientras que la probabilidad de cada uno de los otros dos estados es 0,2. La tabla adjunta muestra los rendimientos y las probabilidades de los estados de la naturaleza:
Acdon
Estado de la naturaleza
Inversion
Estado boyante
Estado estable
Estado deprimido
(P = 0,60)
(P = 0,20)
(P = 0,20)
1.200 2.500
1.200 500
1.200 - 1.000
Tipo de interes fijo Cartera de acciones ~Que
inversion debe elegir segun el criterio del valor monetario esperado?
Soluci6n Dado que el rendimiento de la inversion a un tipo de interes fijo es de 1.200 $, independientemente de 10 que ocurra en la bolsa de valores, el valor monetario esperado de esta inversion es 1.200 $. El VME de la cartera de acciones es
VME (Cartera de acciones)
=
(0,6)(2.500)
+ (0,2)(500) + (0,2)( -
1.000)
=
1.400 $
Capitulo 21 .
Teoria estadistica de la decision
869
Dado que este es el valor monetario esperado mas alto, el inversor elegira la cartera de acciones ordinarias, segun el criteria del valor monetario esperado. Resolvamos ahora este ejemplo con el TreePlan. Una vez instalado el TreePlan, la forma mas faci! de acceder a el es abrir una nueva hoja de dlculo Excel y pulsar Ctrl-t (el arbol comenzara donde aparezca el cursor; asegurese de que tiene suficiente espacio para la tabla de decisi6n y para el arbol). Pulse en «New Tree» y aparecen'i el arbol con dos nodos de decisi6n (Figura 21.2). El arbol de decisi6n completo se encuentra en la Figura 21.3. A continuaci6n, analizamos un problema que requiere una sucesion de decisiones.
r--_--'"'A:..-_-t _____~______L
___C__________Q. __ JilLI_JL--l-___Ii_____E L_.__.L__l
Events 2~ Action Buoyant Steady Depressed 3 (prob =0.6) (prob=0 .2) (prob=0.2) _:~. Fixed Interest 1,200 1,200 1,200 5 IStock Portfolio 2,500 500 -1 ,000 1
6 7
'if'
--9
io_-
r ------- - - ---~ --- - --- ~ --- ---- ----- ----- l
!
11 12
,
'~! Decision 1
01
.
13 14 15 16
!,
: ~:J
0
0
!,
0
:
!
.
I
Decision 2
!
I
1
i~
01
!
0 0 1______ - - - - - -- - - - - - - -- - - - - - - - - - - - - - - -- - - ,
1
Figura 21.2.
I
\
i
A
B
Ie: 0 :
Inicio del programa TreePlan.
E
'
G: H I
F
I
:
J
'K'
L
J]---.------ ~=-~~~~==~~~~===~::::=~~=:::~~~===~~==~=~~~~~~~~=:==~~==~-=~=~-~~-~~~~~=_===_,---
1..1
:
l.J
!
~J
I
__~__!
!
6
1
j
iJ 8 -I
"9
EMV(Fi xed)
: I
1400
!
! Stock Portfolio is ,: Optimal Decision
Stock Portfolio
15 1
I
EMV(Stock)
17 18 19 20
i '
I :
i 0.6 i Buoyant: 2,500i 2500 :I
..1..2~ 13 I
'
!
1,200 I
I
: 1
~1
1200
:
~ 1_1
:~I
---1 ----------------------
!Action 2 is chosen
10
--I
Payoffs !
Fixed Interest
0.2 Steady 1400
500 0.2 Depressed
i '" 500: i
' i
I -1,000 :
!_____________________________________________ ~ _______________~!QQ9__________ J
41Figura 21.3.
Arbol de decisi6n del ejemplo 21 .3 elaborado utilizando TreePlan; decisi6n 6ptima: seleccionar la cartera de acciones.
870
Estadfstica para administracion y economfa
EJEMPLO
21.4. Fabricante de medicamentos (criterio del VME)
Un fabricante de medicamentos tiene los derechos de patente de una nueva formula que reduce los niveles de coiesterol. EI fabricante puede vender la patente por 50.000 $ 0 realizar pruebas intensivas sobre la eficacia del medicamento. El coste de realizar estas pruebas es de 10.000 $. Si se observa que el medicamento es ineficaz, no se comerciaJizani y el coste de las pruebas se considerara una perdida. Hasta ahora, las pruebas realizadas con medicamentos de este tipo han sido eficaces en un 60 por ciento e ineficaces en un 40 por ciento. Si las pruebas revelaran ahora que el medicamento es eficaz, el fabricante tiene de nuevo dos opciones. Puede vender los derechos de patente y los resultados de las pruebas por 120.000 $ 0 puede comercializar el mismo el medicamento. Si 10 comercializa, se estima que los beneficios generados por las ventas (excluidos los costes de las pruebas) ascendenin a 180.000 $ si la campana de ventas tiene mucho ex ito, pero solo a 90.000 $ si tiene un exito moderado. Se estima que estos dos niveles de penetracion en el mercado son igual de probables. Segun el criterio del valor monetario esperado, i,que debe hacer el fabricante del medicamento? Solucion Lo mejor es abordar el problema construyendo un arbol de decisi6n. La Figura 21.4 muestra el arbol completo. i------- ------ ---------- --------:----------- -------- ------------------- ------------- o~5 -----------pay-offs -l
I I
I
High Success
170,000 1
I
Market
1I
I
170000
I
1Optimal Decision: Retain Patent EMV of Action 1 is $71,000
I I
125000 0.6 Effective
I
0.5 Moderate Success
I
$80,000
I
80000
II
I I I
II
125000
I I
I I
Sell Patent & Test Results
1
I
----------------------
II i I I I
l
110,000!
II
110000
1
0.4
Ineffective • --- .. ----- ------- -------. ------- .. -------- ---.
·10.000
iI I
I II
·10000
I I
I Sell Patent ----. ------------------- . ---- . ---- .. ------. ------••• ---- --. ------ •• ----
50 ,000 1I
l _______________________s.!!.~QQ_________________________________________________________________________
Figura 21.4.
J
Arbol de decisi6n del ejemplo 21.4; decisi6n 6ptima: conservar la patente y, si las pruebas demuestran que el medicamento es eficaz, comercializarlo (VME = 71.000 $).
EI fabricante puede decidir vender la patente, en cuyo caso no tiene que hacer nada mas, 0 quedarsela y realizar pruebas sobre la eficacia del medicamento. Hay dos estados de la naturaleza posibles: el medicamento es eficaz (con una probabilidad de 0,6) 0 es ineficaz (con una probabilidad de 0,4). En el segundo caso, ahf termina todo. Sin embargo, si el medicamento demuestra ser eficaz, hay que tomar una segunda decision: comercializarlo 0 vender los derechos de patente y los resultados de las pruebas. Si se
Capftulo 21.
Teorfa estadfstica de la decision
8 71
adopta la primera opcion, el nivel de exito de la comercializacion determin a el resultado final, que puede ser moderado 0 alto (cada uno con una probabilidad de 0,5). A continuacion, se examinan los rendimientos de todas las combinaciones accionestado de la naturaleza. Comencemos por la parte inferior del arbol de decision . Si la decision inicial del fabricante es vender la patente, recibe 50.000 $. Si se queda con ella, pero el medicamento resulta ineficaz, el fabricante tiene una perdida de 10.000 $, que es el coste de las pruebas. Esta perdida se muestra como un rendimiento negativo de esa cuantfa. Si se observa que el medicamento es eficaz y se vende la patente y los resultados de las pruebas, el fabricante recibe 120.000 $, de los que debe restarse el coste de las pruebas, por 10 que queda un rendimiento de 110.000 $. Por Ultimo, si se comercializa el medicamento, los rendimientos en los casos de exito moderado y grande son 90.000 $ y 180.000 $, respectivamente, menos el coste de las pruebas, por 10 que quedan 80.000 $ y 170.000 $, respectivamente. Una vez lIegados a este punto, el problema de decision se resuelve yendo hacia atras de derecha a izquierda. Este paso es necesario, ya que no puede saberse cwi! es la accion que debe elegirse en el primer punto de decision hasta que se conoce el valor monetario esperado de la mejor opcion en el segundo punto de decision. Comencemos, pues, suponiendo que inicialmente se conserva la patente y que las pruebas demuestran que el medicamento es eficaz. Si se vende la patente y los resultados de las pruebas, se obtiene un beneficio de 110.000 $. EI valor monetario esperado de la comercializacion del medicamento es
VME = (0,5)(170.000)
+ (0,5)(80.000)
= 125.000 $
Dado que es de mas de 110.000 $, la mejor opcion en esta fase, segun el criterio del valor monetario esperado, es comercializar el medicamento. Esta cantidad se introduce, pues, en el nodo cuadrado del segundo punto de decision y se considera que es el rendimiento que obtiene el fabric ante si su decision inicial es conservar la patente y las pruebas indican que el medicamento es eficaz. Aquf mostramos la tabla de rendimientos correspondiente a la decision inicial con las probabilidades de los estados de la naturaleza. EI valor monetario esperado de la venta de la patente son los 50.000 $ seguros, mientras que el valor monetario esperado de conservar la patente es (0,6)(125.000) + + (0,4)( - 10.000) = 71.000 $. En ese caso, segun el criterio del valor monetario esperado, debe conservarse la patente. Estado de la naturaleza Accion Conservar la patente Vender la patente
Medicamento eficaz (P 125.000 50.000
=
0,60)
Medicamento ineficaz (P
=
0,40)
-10.000 50.000
Si el objetivo del fabricante es maximizar el valor monetario esperado (es decir, el beneficio esperado), debe conservar la patente. Si las pruebas demuestran que el medicamento es eficaz, el fabricante debe comercializarlo. Esta estrategia genera un beneficio esperado de 71.000 $. En la Figura 21.4 se obtiene el mismo resultado utilizando el TreePlan.
872
Estadfstica para admin istracion y economfa
Amllisis de sensibilidad En el caso del fabricante de telefonos moviles, este ha seleccionado el proceso de produccion A utilizando el criterio del valor monetario esperado. Esta decision se basa en el rendimiento estimado de cada combinacion accion-estado de la naturaleza y en la probabilidad estimada de que ocurra cada estado de la naturaleza. Sin embargo, a menudo la persona que tiene que tomar una decision no esta segura de esas estimaciones, por 10 que es util preguntarse en que intervalo de especificaciones de un problema de decision es optima una determinada accion segun el criterio del valor monetario esperado. El amilisis de sensibilidad trata de responder a esas preguntas y el caso mas sencillo es aquel en el que se permite que varfe una unica especificacion del problema. Para ilustrarlo, supongamos que el fabric ante de telefonos moviIes esta de acuerdo con que la probabilidad de que la demanda sea alta es de 0,4, pero esta menos segura en el caso de los otros dos estados de la naturaleza. Sea P la probabilidad de que la demanda sea baja, por 10 que la probabilidad de que sea moderada debe ser (0,6 - P). Segun el criterio del valor monetario esperado, Len que intervalo de valores de P serfa optima la adopcion del proceso A? Utilizando los rendimientos de la Tabla 2l.7, los valores monetarios esperados son VME(B)
= =
VME(C)
= (P)(lOO.OOO) + (0,6 -
VME(A)
(P)(70.000) (P)(80.000)
+ (0,6 + (0,6 -
P)(120.000) P)(l20.000)
+ (0,4)(200.000) = 152.000 + (0,4)(180.000) = 144.000 -
P)(125.000)
+ (0,4)(160.000) = 139.000 -
50.000P 40.000P 25.000P
La eleccion del proceso A seguira siendo optima siempre que el VME correspondiente sea mayor que el de cada uno de los otros dos procesos. Por 10 tanto, para que se prefiera el proceso A al proceso B, debe cumplirse que 152.000 - 50.000P
~
144.000 - 40.000P
o sea 8.000
~
lO.OOOP
por 10 que ~
P
0,8
Este resultado debe cumplirse, ya que, segun nuestros supuestos, la probabilidad de que la demanda sea baja no puede ser de mas de 0,6. Asimismo, para que se prefiera el proceso A al proceso B, 152.000 - 50.000P
~
139.000 - 25.000P
o sea 13.000
~ 25.000P
por 10 que P
~
0,52
Si los rendimientos son los que indica la Tabla 2l.7 y la probabilidad de que la demanda sea alta es 0,4, entonces la mejor eleccion segun el criterio del valor monetario esperado es el proceso de produccion A, siempre que la probabilidad de que la demanda sea baja no sea de mas de 0,52.
Capitulo 21.
Teoria estadistica de la decision
873
Supongamos ahora que el fabricante de telefonos moviles no esta segura del rendimiento estimado de 200.000 $ si elige el proceso A y la demanda es alta. Veamos en que intervalo de rendimientos el proceso A sera la eleccion optima, cuando se mantienen todas las demas especificaciones del problema en sus niveles iniciales, mostrados en la Tabla 21.7. Si M es el rendimiento del proceso A cuando la demanda es alta, el valor monetario esperado de este proceso es VME(A)
=
(0,1)(70.000)
+ (0,5)(120.000) + O,4M = 67.000 + O,4M
Los val ores monetarios esperados de los procesos Bye son, al iguaJ que antes, de 140.000 $ Y 136.500 $. Por 10 tanto, el proceso A sera la mejor eleccion segun el criterio del valor monetario esperado, siempre que 67.000
+ U,4M
~
140.000
o sea O,4M
~
73.000
o sea M
~
182.500
Si todas las demas especificaciones siguen siendo las que muestra la Tabla 21.7, se seleccionara el proceso de produccion A segun el criterio del valor monetario esperado, siempre que el rendimiento del proceso A cuando la demanda es alta sea al menos de 182.500 $.
EJERCICIOS
Ejercicios aplicados 21.10. Un estudiante ya tiene ofertas de trabajo. Ahora debe decidir si va a otra entrevista en otra empresa. Considera que el tiempo y el esfuerzo de acudir a otra entrevista tienen un coste de 500 $, en los que incurrini independientemente de que acepte el trabajo que ofrece esa empresa. Si el empresario ofrece un puesto preferible a sus demas alternativas, se considerarfa que es un beneficio que vale 5.000 $ (de los que debe restarse el coste de 500 $). De 10 contrario, habrfa despilfarrado el tiempo y el esfuerzo. a) Elabore la tabla de rendimientos del problema de decision del estudiante. b) Suponga que el estudiante cree que la probabilidad de que este empresario Ie ofrezca un trabajo preferible a otras alternativas es de 0,05. Segiin el criterio del valor monetario esperado, i,debe ir a vel' a este empresario? 21.11. Un directivo tiene que elegir entre dos acciones, a1 Y a2· Hay dos estados de la naturaleza posibles, SI y S2 . La tabla adjunta muestra los rendi-
mientos. Si el directivo cree que los dos estados de la naturaleza son igual de probables, i,que accion debe elegir, segun el criterio del valor monetario esperado? Estado de la naturaleza Accioll
72.000 78.000
51 .000 47.000
21.12. EI inversor del ejercicio 21.1 cree que la probabilidad de que la bolsa de valores este fuerte es de 0,2, la probabilidad de que este moderada es de 0,5 y la probabilidad de que este debil es 0,3. a) i,Que accion debe elegir segiin el criterio del valor monetario esperado? b) Construya el arbol de decision del problema del inversor. 21.13. EI fabricante de desodorantes del ejercicio 21.2 sabe que historicamente el 30 pOI' ciento de los nuevos productos de este tipo ha tenido una elevada tlemanda, el 40 por ciento ha tenido una
874
Estadfstica para administracion yeconomfa
demanda moderada y el 30 por ciento ha tenido una demanda baj a.
criterio del valor monetario esperado la elecci6n de la acci6n del ejercicio 21.12?
a) Segun el criterio del valor monetario esperado, l.que proceso de producci6n debe utili zarse? b) Construya el arbol de decisi6n del problema de este fabricante.
21.18. Vuelva al problema del fabric ante de desodorantes de los ejercicios 2l.2, 21.4 Y 21.13.
21.14. Considere un problema de decisi6n con dos acciones admisibles y dos estados de la naturaleza posibles, que tienen ambos la misma probabilidad de ocurrir. a) A verigiie si es verdadera 0 falsa cada una de las siguientes afirmaciones en un problema de ese tipo.
i. La acci6n elegida segun el criterio del valor monetario esperado siempre sera igual que la acci6n elegida segun el criterio maximin. ii. La acci6n elegida segun el criterio del valor monetario esperado siempre sera igual que la acci6n elegida segun el criterio de la perdida de oportunidades minimax . iii. La acci6n elegida segun el criterio del valor moneta rio esperado siempre sera aquella que tenga el mayor rendimiento medio posible. b) l.Seria su respuesta sobre la afirmaci6n (iii) del apartado (a) la misma si los dos estados de la naturaleza no tuvieran la misma probabilidad de ocurrir?
21.15. Un problema de decisi6n tiene K acciones posibles y H estados de la naturaleza posibles. Si una de estas acciones es inadmisible, demuestre que no puede elegirse segun el criterio del valor monetario esperado. 21.16. El empresario del ejercicio 2l.9 cree que la probabilidad de que el nuevo centro comercial tenga mucho exito es de 0,4, que la probabilidad de que tenga un exito moderado es de 0,4 y que la probabilidad de que no tenga exito es de 0,2. a) Segun el criterio del valor monetario esperado, l.d6nde debe abrir la zapateria? b) Construya el arbol de decisi6n.
21.17. Vuelva al problema de decisi6n de los ejercicios 21.1 , 2l.3 Y 2l.12. Este inversor esta de acuerdo con la valoraci6n de que la probabilidad de que el mercado este fuerte es de 0,2. Sin embargo, esta menos segura de las valoraciones de la probabilidad de los otros dos estados de la naturaleza. l.En que intervalo de probabilidades de que el mercado de valores este debil da el
a) El fabricante esta de acuerdo con la valoraci6n de que la probabilidad de que la demanda sea baj a es de 0,3, pero est a menos segura de las probabilidades de los otros dos niveles de demanda. l.En que intervalo de probabilidades de que la demanda sea moderada generara el criterio del valor monetario esperado la elecci6n de la acci6n del ejercicio 21.13? b) Considere dado el resto de las especificaciones del problema de los ejercicios 2l.2 y 21.13. l.En que intervalo de beneficios de una demanda alta cuando se utiliza el proceso A dara el cliterio del valor monetario esperado la elecci6n de la acci6n del ejercicio 21.13?
21.19. Vuelva al problema del empresario de los ejercicios 2l.9 y 21.16. a) El duefio de la zapateria esta contento con la valoraci6n de que la probabilidad de que el nuevo centro comercial no tenga exito es de 0,2, pero esta menos seguro de las valoraciones de la probabilidad de los otros dos estados de la naturaleza. l.En que intervalo de probabilidades de que el nuevo centro comercial tenga mucho exito lIevani el criterio del valor monetario esperado a la elecci6n de la acci6n del ejercicio 21.16? b) Suponiendo que las demas especificaciones del problema son las de los ejercicios 2l.9 y 21.16, l.en que intervalo de niveles de beneficios correspondientes a la instalaci6n en el nuevo centro si resulta que tiene mucho exito llevara el criterio del valor monetario esperado a la elecci6n de la acci6n del ejercicio 21.16?
21.20. Un fabricante recibe habitualmente contratos para entregar grandes pedidos de piezas a la industria automovilfstica. EI proceso de producci6n del fabricante es tal que cuando funciona correctamente, el 10 por ciento de todas las piezas producidas no satisface las especificaciones de la industria. Sin embargo, es propenso a tener un determinado fallo, cuya presencia puede comprobarse al comienzo de una serie de producci6n. Cuando el proceso funciona con este fallo , el 30 por ciento de las piezas producidas no satisface las especificaciones de la industria. El fabric ante ofrece piezas para un contrato por el que obtendra un beneficio de 20.000 $ si s610
Capitulo 21 . Teoria estadistica de la decisi6n
es defectuoso el 10 por cie nto de las piezas y un beneficio de 12.000 $ si es defectuoso el 30 por ciento de las piezas. El coste de comprobar el fallo es de 1.000 $ y, si se observa que es necesaJia una reparaci6n, esta cuesta otros 2.000 $. Si se incurre en estos costes, deben restarse del beneficio. Hist6ricamente, se ha observado que el proceso de producci6n funciona COlTectamente el 80 pOl' ciento del tiempo. El fabricante debe decidir si comprueba el proceso al comienzo de una serie de producci6n. a) Segun el criterio del valor monetario esperado, i,cmil es la decisi6n 6ptima? b) Construya el arbol de decisi6n. c) Suponga que no se sabe cual es la proporci6n de ocasiones en las que el proceso de producci6n funciona correctamente. i,En que intervalo de val ores de esta proporci6n serfa 6ptima la decisi6n seleccionada en el apartado (a) segun el criterio del valor monetario esperado?
21.21. Un contratista tiene que decidir si presenta una oferta para la adjudicaci6n de un proyecto de construcci6n. EI coste de la preparaci6n de la oferta es de 16.000 $. Incurrira en este coste independientemente de que se Ie adjudique 0 no el contrato. EI contratista pretende hacer una oferta que generara 110.000 $ de beneficios (menos el coste de la preparaci6n de la oferta). Sabe que el 20 por ciento de las ofertas preparadas de esta forma ha tenido exito. a) Elabore la tabla de rendimientos. b) i,Debe prepararse y presentarse una ofelta segun el criterio del valor monetario esperado? c) i,En que intervalo de probabilidades de que la oferta tenga exito debe prepararse y presentarse una oferta segun el criterio del valor monetario esperado?
21.22. El jueves por la tarde, el jefe de una pequefia sucursal de una agencia de alquiler de coches observa que tiene seis coches para alquilar al dfa siguiente. Sin embargo, puede pedir que Ie envfen mas coches de la central con un coste de 20 $ cada uno. Cada coche que se alquila genera un beneficio esperado de 40 $ (el coste de envfo del coche debe restarse de este beneficio). Cada c1iente que pidc un coche cuando no hay ninguno disponible se cuenta como una perdida de 10 $ de fondo de comercio. Revisando los datos de los viernes anteriores, el jefe observa que el numero de coches solicitados ha ido de 6 a 10; los porcentajes se muestran en la tabla adjunta. EI jefe debe decidir si pide coches a la central y, en caso afirmativo, cuantos .
875
Numero de pedidos
6
7
8
9
10
Porcentaje
10
30
30
20
10
a) Elabore la tabla de rendimientos. b) Si se utiliza el criterio del valor monetario esperado, i,cuantos coches deben pedirse?
21.23. Un contratista ha decidido presentar una oferta para la adjudicaci6n de un proyecto. Las ofertas deben presentarse en multiplos de 20.000 $. Se estima que la probabilidad de que se consiga el contrato con una oferta de 240.000 $ es de 0,3, la probabilidad de que se consiga con una oferta de 220.000 $ es de 0,3 y la probabilidad de que se acepte una oferta de 200.000 $ es de 0,5. Se piensa que cualquier oferta de menos de 200.000 $ tendra exito con toda seguridad y que cualquier oferta de mas de 240.000 $ fracasara con toda seguridad. Si el fabricante consigue el contrato, debe resolver un problema de disefio con dos opciones posibles en esta fase. Puede contratar consultores externos, que Ie garantizaran una soluci6n satisfactoria, por un precio de 80.000 $. 0 puede invertir 30.000 $ de sus propios recursos en un intento de resolver el problema internamente; si fracasa este intento, debe contratar a los consultores. Se estima que la probabilidad de resolver con exito el problema internamente es de 0,6. Una vez que ha resuelto este problema, el coste adicional de cumplir el contrato es de 140.000 $. a) Este contratista tiene potencialmente dos decisiones que tomar. i,Cuales son? b) Construya el arbol de decisi6n. c) i,Cual es el curso de acci6n 6ptimo segtm el criterio del valor monetario esperado?
21.24. Considere un problema de decisi6n con dos acciones, a 1 y a2, Y dos estados de la naturaleza, 51 y 52' Sea Mij el rendimiento correspondiente a la acci6n a i Y el estado de la naturaleza 5j. Suponga que la probabilidad de que OCUlTa el estado de la naturaleza SI es P, por 10 que la probabilidad de que ocurra el estado S2 es (l - P). a) Demuestre que se selecciona la acci6n a 1 segun el criterio del VME si
b) Demuestre, pues, que si al es una acci6n admisible, existe una probabilidad, P, de que se elija. Sin embargo, si a ] no es admisible, no puede elegirse, cualquiera que sea el valor de P.
876
Estadfstica para administraci6n y economfa
Las decisiones que se toman en el mundo de la empresa pueden suponer a menudo una cantidad considerable de dinero y el coste de tomar una decision suboptima puede ser elevado. Esa es la razon por la que puede muy bien compensarle a la persona que tiene que tomar una decision hacer un esfuerzo para conseguir la mayor informacion relevante posible antes de tomar la decision. En concreto, quemi informarse 10 mas posible sobre las probabilidades de que ocurran los distintos estados de la naturaleza que determinan el rendimiento final. Esta caracteristica del examen detenido de un problema de decision no ha sido evidente hasta ahora en nuestro analisis. El fabricante de telefonos moviles del apartado 2l.3 valoraha las probabilidades de que la demanda del nuevo telefono movil fuera baja, moderada yalta en 0,1, 0,5 Y 0,4, respectivamente. Sin embargo, esta valoracion no reflejaba mas que las proporciones historicas logradas por otros productos anteriores. En la practica, podria muy bien querer realizar algun estudio de mercado sobre las perspectivas del nuevo producto. Con ese estudio, estas probabilidades a priori 0 iniciales de los tres niveles de demanda pueden modificarse y general' nuevas probabilidades, llamadas probabilidades a posteriori. La informacion (en este caso, los resultados del estudio de mercado) que lleva a modificar las probabilidades de los estados de la naturaleza se llama informacion muestral.
Utilizaci6n del teorema de Bayes En el Capitulo 4 explicamos el mecanisme para modificar las probabilidades a priori para obtener probabilidades a posteriori. Eso se hace pOl' medio del teorema de Bayes, que reformulamos por comodidad en el marco de nuestro problema de decision.
Teorema de Bayes Sean S1' S2' .. ., SH H sucesos mutuamente excluyentes y colectivamente exhaustivos, que corresponden a los H estados de la naturaleza de un problema de decisi6n. Sea A algun otro suceso. Sea la probabilidad condicionada de que ocurra S1' dado que ocurre A, P(SjIA) y la probabilidad de A, dado Sj' P(Als). EI teorema de Bayes establece que la probabilidad condicionada de si' dado A, puede expresarse de la forma siguiente:
pes IA) _ _P(_A-,-Is,--;)P_(s--,---;) i peA) P(Als)P(s)
(21.2)
En la terminologfa de este apartado, P(s) es la probabilidad a priori de Sj y se transforma en la probabilidad a posteriori, P(SjIA), dada la informacion muestral de que ha ocurrido el suceso A. Supongamos ahora que el fabricante de telefonos moviles contrata a una empresa de estudios de mercado para predecir el nivel de demanda de su nuevo producto. Naturalmente, la empresa Ie cobrara el estudio. Mas adelante en este capitulo, veremos si el rendimiento justifica el coste. La empresa afirma que las perspectivas son «malas», «regulares» o «buenas» en funcion de su estudio. EI analisis del historial de la empresa de estudios de mercado revela la calidad de sus predicciones anteriores en este campo. La Tabla 21.8
Capitulo 21.
Tabla 21.B.
Teoria estadistica de la decision
877
Proporcion de los distintos tipos de perspectivas segun la empresa de estudios de mercado correspondientes a los distintos niveles de la demanda. Estado de la naturaleza
Accion Valoracion
Demanda baja (s 1)
Demanda moderada (S2)
Demanda alta (S3)
0,6 0,2 0,2
0,3 0,4 0,3
0,1 0,2 0,7
Malas Regulares Buenas
muestra la proporcion de veces que la empresa dijo que las perspectivas eran malas, regulares 0 buenas correspondiente a cada nivel efectivo de demanda. Por ejemplo, el 10 por ciento de las veces en que la demanda fue alta, la empresa dijo que las perspectivas eran «malas». Por 10 tanto, en la notaci6n de la probabilidad condicionada, representando la demanda baja, moderada yalta por medio de Sj, S2 Y S3, respectivamente, se deduce que P(malas ls j)
=
0,6
P(malas ls2) = 0,3
P(malasl s3) = 0,1
Es s610 una casualidad que la suma de P(malasls j) = 0,6, P(malas ls2) = 0,3 y P(malas IS3) = 0,1 sea 1,0. Estas probabilidades condicionadas no tienen que sumar 1. Tomemos, por ejemplo, el caso de «regulares»; observese que la suma de P(regulares ls j) = 0,2, P(regulares ls2) = 0,4 y P(regulares ls3) = 0,2 s610 es 0,8 y no 1,0. Supongamos ahora que se consulta a la empresa de estudios de mercado y esta dice que las perspectivas del telefono m6vil son «malas». Dada esta nueva informaci6n, las probabilidades a priori
de los tres niveles de demanda pueden modificarse utilizando el teorema de Bayes. En el caso de un bajo nivel de demanda, la probabilidad a posteriori es P(malas ISj)P(sj) P(s j lmalas) = - - - - - - - -- - -- - - - - - -- P(malas IS j)P(s j) + P(malas IS2)P(S2) + P(malas IS3)P(S3) - --
(0,6)(0,1)
0,06
-------- = -
(0,6)(0,1)
+ (0,3)(0,5) + (0,1)(0,4)
0,25
=
024 '
Asimismo, en el caso de los otros dos niveles de demanda las probabilidades a posteriori son P(s21 malas)
=
P(s3Imalas) =
(0,3)(0,5) 0,25 (0,1)(0,4) 0,25
= 0,6 = 0,16
A continuaci6n, pueden utilizarse las probabilidades a posteriori para caIcu!ar los valores monetarios esperados. La Tabla 21.9 muestra los rendimientos (sin el coste del estudio), junto con las probabilidades a posteriori de los tres niveles de demanda. Esta tabla es simpie mente una modificaci6n de la 21.7, en la que se han sustituido las probabilidades a priori por las probabilidades a posteriori.
878
Estadfstica para administraci6n y economfa
Tabla 21.9. Rendimientos del fabricante de telefonos m6viles y probabilidades a posteriori de los estados de la naturaleza, cuando la empresa de estudios de mercado dice que las perspectivas son «malas» .
Aecion
Estado de la naturaleza
Proeeso de produecion
Demanda baja
A B C
70.000 80.000 100.000
*
(P
= 0,24)*
Demanda moderada (P
= 0,60)*
120.000 120.000 1250.000
Demanda alta (P
= 0,16)*
200.000 180.000 160.000
Probabilidades a. posteriori.
Los valores monetarios esperados de los tres procesos de producci6n pueden hallarse exactamente de la misma forma que antes. Son los siguientes: VME (Proceso A)
=
(0,24)(70.000)
+ (0,60)(120.000) + (0,16)(200.000)
=
120.800 $
VME (Proceso B) = (0,24)(80.000) + (0,60)(120.000) + (0,16)(180.000) = 120.000 $ VME (Proceso C) = (0,24)(100.000) + (0,60)(125.000) + (0,16)(160.000) = 124.600 $
Si la empresa de estudios de mercado considera que las perspectivas son «malas», entonces, segun el criterio del valor monetario esperado, debe utilizarse el proceso de produccion C. Segun la valoracion de la empresa de estudios de mercado, la demanda baja es mucho mas probable y la demanda alta es considerablemente men os probable que antes. Este cambio de opinion sobre las perspectivas de mercado es suficiente para inducir al fabricante de telefonos moviles a cambiar su preferencia por el proceso A (basada en las probabilidades a priori) por el proceso C. Siguiendo el mismo razonamiento, es posib\e saber que decisiones se tomarfan si las perspectivas de exito del mercado del telefono movil se consideraran «regulares» 0 «buenas». De nuevo , es posible hallar las probabilidades a posteriori de los tres niveles de demanda por medio del teorema de Bayes. Si se considera que las perspectivas son «regulares», son 1
P(sll regulares)
= 15
P(s2Iregulares) =
10
15
4
P(s3Iregulares) = 15
Si se considera que son «buenas», 2 P(sllbuenas) = 45
15 P(s2 Ibuenas) = 45
28 P(s3Ibuenas) = 45
Utilizando estas probabilidades a posteriori, calculamos par medio del programa Excel los val ores monetarios esperados de cada uno de los procesos de produccion correspondientes a cada valoracion. La Tabla 21.10 contiene estos valores monetarios esperados. Podrfan variar dependiendo del numero de decimales utilizados para expresar las probabilidades a posteriori. Como hemos mostrado antes, si la empresa de estudios de mercado afirma que las perspectivas son «malas», se prefiere el proceso C segun el criterio del valor monetario esperado. Si hace otra prediccion, se elegini el proceso A, segun este criterio.
Capitulo 21 . Teoria estadistica de la decision
879
Tabla 21.10. Valores monetarios esperados del fabricante de telefonos m6viles correspondientes a tres predicciones posibles realizadas por la empresa de estudios de mercado.
Accion
Estado de la naturaleza (perspectivas)
Proceso de produccion
Malas
Regulares
Buenas
A B
120.800 120.000 124.600
138 .000 L33.333 132.667
167.556 155.556 145.667
C
Recuerdese que en el problema del fabric ante de telefonos m6viles, cuando se utilizaban las probabilidades a priori de los niveles de demanda, la decision optima segLin el criterio del valor monetario esperado era utilizar el proceso A. Puede ocurrir (si la empresa de estudios de mercado dice que las perspectivas son «malas») que se tome una decision diferente cuando la informacion muestral lleva a modificar estas probabilidades a priori. Por 10 tanto, resulta que al fabricante Ie interesarfa consultar a la empresa de estudios de mercado. Naturalmente, si la eleccion del proceso A hubiera resultado optima, cualquiera que hubiera sido la prediccion, la informacion muestral posiblemente no tendria ningLin valor. EJEMPLO 21.5. Reconsideraci6n del problema del fabricante de medicamentos (valor monetario esperado) En el ejemplo, 2l.4, un fabricante de medicamentos tenia que decidir si vendia la patente de una formula que reducfa el colesterol antes de someter el medicamento a una prueba (despues, si conservaba la patente y se observaba que el medicamento era eficaz, tambien tenia que tomar otra decision, que era comercializar el medicamento 0 vender la patente y los resultados de la prueba). En el caso de la decision inicial, los dos estados de la naturaleza eran Sl: el medicamento es eficaz, y S2: el medicamento es ineficaz. Las probabilidades a priori cOITespondientes, calculadas basandose en la experiencia anterior, son El fabric ante de medicamentos tiene la opcion de realizar con un coste moderado una prueba inicial antes de tomar la primera decision. La prueba no es infalible. En el caSa de medicamentos que despues han resultado eficaces, el 60 por ciento de las veces el resultado de la prueba preliminar fue positivo y el resto fue negativo. En el caso de medicamentos ineficaces, el 30 por ciento de las veces el resultado de la prueba preliminar fue positivo y el resto fue negativo. Dados los resultados de la prueba preliminar, l,que debe hacer el fabricante? Suponga que sigue siendo posible vender la patente por 50.000 $ si el resultado de la prueba preliminar es negativo.
Solucion Observese, en primer lugar, que si se conserva la patente y las pruebas exhaustivas demuestran que el medicamento es eficaz, entonces en ausencia de informacion muestral sobre la situacion del mercado, la decision optima en esta fase es, al igual que en el ejemplo 21.4, comercializar el medicamento. La informacion suministrada por la prueba preliminar es iITelevante para tomar esa decision. Sin embargo, podrfa influir en la decision inicial de vender 0 no la patente. Por 10 tanto, solo se considera esta decision.
880
Estadfstica para administraci6n y economfa
Las probabilidades condicionadas de los resultados muestrales, dados los estados de la naturaleza, son P(positivo!s,) = 0,6
P(negativo!s,) = 0,4
P(positivo! S2) = 0,3
P(negativo!s2) = 0,7
Si el resultado de la prueba preliminar es positivo, entonces la probabilidad a posteriori del estado s[ (eficaz), dada esta informacion, es .. P(positivo!s,)P(s,) pes, !pOSltlVO) = .. . P(pOSItlVO! s,)P(s,) + P(posltivo !S2)P(S2)
(0,6)(0,6) (0,6)(0,6) + (0,3)(0,4) = 0,75
Ademas, como las dos probabilidades a posteriori deben sumar 1, entonces P(s2!positiyo) = 0,25. La tabla de rendimientos adjunta es igual que la del ejempl0 21.4, con la adicion de estas probabilidades a posteriori. Estado de la naturaleza Accion
Medicamento eficaz (P = 0,75)*
Medicamento inefizaz (P = 0,25)*
Conservar la patente Vender la patente
125.000 50.000
-10.000 50.000
" Probabilidades a posteriori.
EI valor monetario esperado, si se vende la patente, es de 50.000 $, mientras que si se conserva, es (0,75)(125.000)
+ (0,25)( -10.000) = 91.250 $
Por 10 tanto, si el resultado de la prueba inicial es positivo, la patente debe conservarse, segun este criterio. Consideremos ahora el caso en el que el resultado de la prueba preliminar es negativo. La probabilidad a posteriori del estado s, es, segun el teorema de Bayes, .
P(sdnegatlvo)=
.
P(negativo!s,)P(s,)
. P(negatJvo!s,)P(s,) + P(negatIVo!s2)P(S2)
(0,4)(0,6) --04615 (0,4)(0,6) + (0,7)(0,4) ,
Por 10 tanto, la probabilidad a posteriori del estado s2 es P(S2! negativo) = 0,5385
Una vez mas, si se vende la patente, el valor monetario esperado son los 50.000 $ que se recibiran. Si se conserva la patente, el valor monetario esperado de esta decision es (0,4615)(125.000) + (0,5385)( - 10.000) = 52.302,50 $ Asf pues, aunque el resultado de la prueba preJiminar sea negativo, la decision optima, segun el criterio del valor monetario esperado, es conservar la patente.
Capitulo 21 . Teoria estadistica de la decision
88 1
En este ejemplo, pues, cualquiera que sea la informacion muestral, la accion elegida es la misma. EI fabricante debe conservar la patente cualquiera que sea el resultado de la prueba preliminar. Dado que la informacion muestral no puede influir en la decision, no tiene senti do, desde luego, recogerla. De hecho, como la realizacion de la prueba preliminar tiene costes, serra suboptimo recogerla. Por 10 tanto, segun el criterio del valor monetario esperado, el fabricante de medicamentos debe conservar la patente y, si las pruebas demuestran que el medicamento es eficaz, debe comercializarlo. La prueba preliminar no debe realizarse.
EI valor de la informacion muestral Se ha demostrado como puede tenerse en cuenta la informacion muestral en el proceso de toma de decisiones. El valor potencial de esa informacion se halla, por su puesto, en que permite saber con mayor precision cmlIes son las probabilidades de que ocurra cada uno de los estados de la naturaleza relevantes y eso penlite tener una base Imis solida para tomar una decision. En este apartado mostramos como puede asignarse un valor moneta rio a la informacion muestraI. Esto es importante, ya que la obtencion de informaci6n muestral normal mente tiene costes y la persona que debe tomar una decision qui ere saber si los beneficios esperados son mayores que este coste. EI ejemplo 21.5 muestra una situacion en la que una misma accion era optima, cualqui era que fuera el resultado muestral. En ese caso, la informacion muestral carece claramente de valor, ya que se habrfa elegido la misma accion sin ella. He aquf la regIa general: si la informacion muestral no puede influir en la eleccion de la accion, tiene un valor O. En el resto de este apartado solo nos referiremos, pues, a las circunstancias en las que el resultado muestral puede afectar a la eleccion de la accion. Un caso de ese tipo es nuestro ejemplo del fabricante de telefonos moviles que esta considerando la posibilidad de introducir un nuevo producto. Este fabricante tiene que elegir entre tres procesos de produccion y se enfrenta a tres estados de la naturaleza, que reprcscntan difcrcntcs nivelcs de demanda del producto. En el apartado 21.3 hemos mostrado que en ausencia de informacion muestral y utilizando solamente las probabilidades a priori, se selecciona el proceso A que tiene un valor monetario esperado de 147.000 $. Ahora bien, en la practica, una vez obtenida la informacion muestral, la persona que debe tomar una decision normalmente no sabe que estado de la naturaleza ocurrini, pero tiene valoraciones probabilfsticas mas fundadas de estos estados. Sin embargo, antes de analizar el valor de la informacion muestral en este modelo general, es util considerar el caso extrema en el que puede obtenerse informacion perfecta, es decir, el caso en el que la persona que tiene que to mar una decision puede obtener informacion que Ie diga con seguridad que estado oculTira. i, Que valor tiene esa informacion perfecta para la persona que debe tomar una decision?
Valor esperado de la informacion perfecta, VEIP Supongamos que una persona tiene que elegir entre K acciones posibles y se enfrenta a H estad os de la naturaleza, S1' S2' ... , Sw La informacion perfecta corresponde al caso en el que se sabe que estado de la naturaleza ocurrira. EI valor esperado de la informacion perfecta se obtiene de la forma siguiente: 1.
Se averigua que acci6n se elegira si solo se utili zan las probabilidades a priori P(S1)' P(S2) , ... , P(SH) ·
882
Estadfstica para administraci6n y economfa
2.
3.
Se hall a para cad a estado de la naturaleza posible, Si' la diferencia, Wi' entre el rendimiento de la mejor eleccion de la accion, si se supiera que ocurrira ese estado, y el rendimiento de la accion que se elegirfa solo si se utilizaran las probabilidades a priori. Este es el valor de la informacion perfecta, cuando se sabe que ocurrira si' EI valor esperado de la informacion perfecta, VEIP, es, pues,
(21.3)
Volvamos al caso del fabricante de telefonos moviles y calculemos el VEIP. En este ejemplo, la informacion perfecta corresponde al caso en el que se sabe cmil sera el nivel de demanda de los tres posibles. En ausencia de informacion muestral y basandose tinicamente en las probabilidades a priori, se elegira el proceso A. Sin embargo, volviendo a la Tabla 21.7, si el nivel de demand a es bajo, la mejor eleccion sera el proceso C. Como 6ste tiene un rendimiento que es 30.000 $ mayor que el del A, el valor de saber que la demanda sera baja es de 30.000 $. Asimismo, si se sabe que la demanda sera moderada, se elegira de nuevo el proceso C. En este caso, el rendimiento de la mejor elecci6n es 5.000 $ mayor que el del proceso A, que es, pues, el valor de saber que la demanda sera moderada. Si se sabe que la demanda sera alta, se elegira el proceso A. POl' 10 tanto, esta informacion carece de valor, ya que se habria tornado la misma decision sin ella. El valor de la informacion perfecta depende de la informacion. El valor esperado de la informaci6n perfecta se halla utilizando las probabilidades a priori de los distintos estados de la naturaleza. En el caso del fabricante de tel6fonos moviles, las probabilidades a priori son 0,1 en el caso en el que la demanda es baja, 0,5 en el caso en el que es moderada y 0,4 en el caso en el que es alta. Se deduce, pues, que para este fabricante el valor de la informacion perfecta es de 30.000 $ con una probabilidad de 0,1, 5.000 $ con una probabilidad de 0,5 y 0 $ con una probabilidad de 0,4. EI valor esperado de la informacion perfecta es, pues, VEIP
=
(0,1)(30.000)
+ (0,5)(5.000) + (0,4)(0)
=
5.500 $
Esta cantidad monetaria representa, pues, el valor esperado para el fabricante de telefonos moviles de saber cual sera el nivel de demanda. Cuando los problemas son mas complejos, existen programas informaticos para calcular el VEIP. Aunque normalmente no se dispone de informacion perfecta, puede ser util calcular su valor esperado. Dado que, naturalmente, ninguna informacion muestral puede ser mejor que perfecta, su valor esperado no puede ser mayor que el valor esperado de la informacion perfecta. POl' 10 tanto, el valor esperado de la informacion perfecta es un limite superior del valor esperado de cualquier informacion muestral. POI' ejemplo, si el fabricante de telefonos moviles recibe informacion con un coste de 6.000 $, no es necesario que trate de obtener mas informacion sobre la calidad de esta informacion. No deberia comprarla, por muy fiable que sea, segtin el criterio del valor monetario esperado, ya que su valor esperado no puede ser de mas de 5.500 $. Consideremos ahora el problema mas general de calcular el valor de la informacion muestral que no es necesariamente perfecta. Consideremos de nuevo el problema de toma de decisiones del fabricante de telefonos moviles, que tiene la opcion de que una empresa de estudios de mercado valore las perspectivas del nuevo telefono m6vil. Estas perspectivas pueden considerarse «malas», «regulares» 0 «buenas». En el apartado 21.4 hemos mostrado que en los dos ultimos casos se elige, aun asi, el proceso A. Por 10 tanto, si la empresa de estudios de mercado dice que las perspectivas son «regulares» 0 «buenas», la eleccion inicial de la accion no varia y no se ganara nada consultando a esta empresa.
Capitulo 21.
Teoria estadistica de la decision
883
Sin embargo, si dice que las perspectivas son «malas», la Tabla 21.10 muestra que la eleccion optima es el proceso C. Esta eleccion optima generaria un valor monetario esperado de 124.600 $, mientras que el proceso A, que, de no ser asf, se habrfa utilizado, da un valor monetario esperado de 120.800 $. La diferencia entre estas cantidades, 3.800 $, representa la ganancia generada por la informacion muestral si la empresa dice que las perspectivas son «malas». Las ganancias generadas por la informacion muestral son 0 $ en el caso en el que las perspectivas son «buenas» 0 «regulares» y 3.800 $ si son «malas». Ahora necesitamos saber que probabilidades hay de que se materialicen estas ganancias, por 10 que en nuestro ejemplo debemos hallar la probabilidad de que la empresa de estudios de mere ado diga que las perspectivas son «malas». En general, si A representa una parte de la informacion muestral y SI' S2' ... , S H los H estados de la naturaleza posibles, entonces
En el ejemplo del telefono movil, si SI, S2 Y S3 representan un nivel de demanda bajo, moderado y alto, respectivamente, entonces P(sJ)
= 0,1
P(malasls J ) = 0,6
= 0,5
P(S3)
P(malas IS2) = 0,3
P(malas 1 S3)
P(S2)
= 0,4 = 0,1
Por 10 tanto, la probabilidad de que la empresa diga que las perspectivas son «malas» es P(malas) = P(malaslsl)P(SI) + P(malas ls2)P(s2) + P(malas ls3)P(s3) = (0,6)(0,1) + (0,3)(0,5) + (0,1)(0,4) = 0,25 De la misma forma, utilizando las probabilidades condicionadas de la Tabla 2l.8, las probabilidades de las otras dos valoraciones de la empresa son P(regulares) = 0,30
P(buenas) = 0,45
Por 10 tanto, el valor de la informacion muestral es de 3.800 $ con una probabilidad de 0,25, de 0 $ con una probabilidad de 0,30 y de 0 $ con una probabilidad de 0,45 . Se deduce, pues, que el valor esperado de la informacion muestral es VEIM = (0,25)(3.800)
+ (0,30)(0) + (0,45)(0)
= 950 $
Esta cantidad monetaria representa, pues, el valor esperado de la informacion muestral para la persona que tiene que to mar una decision. Segun el criterio del valor monetario esperado, esta informacion muestral merecera la pena si su coste es menor que su valor esperado. El valor esperado neto de la informacion muestral es la diferencia entre su valor esperado y su coste. Supongamos que la empresa de estudios de mere ado cobra 750 $ por su valoracion. El valor esperado neto de esta valoracion para el fabricante de telefonos moviles es, pues, 950 $ - 750 $ = 200 $. Por 10 tanto, el rendimiento esperado del fabricante sera 200 $ mayor si se compra la informacion muestral que si no se compra. Esta cantidad representa el valor esperado de tener esa informacion, teniendo en cuenta su coste. En este caso, la estrategia optima del fabricante es comprar el informe de la empresa de estudios de mercado y utilizar el proceso de produccion A si la empresa dice que las perspectivas son «buenas» 0 «regulares» y el C si dice que son «malas». EI VME de esta estrategia es de 147.200 $, es decir, los 147.000 $ que se obtendrfan si no se dispnsiera de informacion muestral mas el valor esperado neto de la informacion muestral.
884
Estadfstica para administraci6n y economfa
Valor esperado de la informacion muestral, VEIM Supongamos que una persona tiene que elegir entre K acciones posibles ante H estados de la naturaleza, 5" 52' ... , 5 H . Puede obtener informaci6n muestral. Supongamos que hay M resultados muestrales posibles, A" A2 , .. . , AM' EI valor esperado de la informaci6n muestral se obtiene de la forma siguiente. 1. 2.
Se averigua que acci6n se elegirfa si s610 se utilizaran las probabilidades a priori. Se averiguan las probabilidades de obtener cada resultado muestral:
3.
Se halla para cad a resultado muestral posible Ai' la diferencia, Vi' entre el valor monetario esperado de la acci6n 6ptima y el de la acci6n elegida si s610 se utilizan las probabilidades a priori. Este es el valor de la informacion muestral, dado que se observ6 Ai'
4.
EI valor esperado de la informacion muestral, VEIM, es, pues, (21.4)
EI valor de la informacion muestral visto por medio de arboles de decision El valor esperado de la informacion muestral puede calcularse de otra forma (equivalente), que es desde el punto de vista aritmetico algo m
+ (0,30)(138.000) + (0,45)(167.556) =
147.950 $
Capitulo 21.
Figura 21.5. Arbo les de decision del fabricante de telefonos moviles correspondientes a las valoraciones realizadas por la empresa de estud ios de mercado de que las perspectivas son (a) «malas» , (b) «regulares» y (c) «buenas» (* accion que tiene el maximo VME) .
Teoria estadistica de la decisi6n
885
(a) "malas" Acciones
Estados de la naturaleza
Rendimientos
(probabilidades) VME = 120.S00 $
120.000 $
Alta (0,16)
VME = 120.000 $
VME = 124,600 $
70.000 $
Moderada (0,60)
Proceso A
~
Baja (0,24)
200.000 $
Baja (0,24) SO.OOO $
Proceso B
Moderada (0,60) Alta (0,16)
VME = 124.600 $ *Proceso C
Baja (0,24) Moderada (0,60) Alta (0,16)
120.000 $
lS0.000 $
100.000 $
125.000 $
160.000 $
(b) "regulares" Acciones
Estados de la naturaleza
Rendimientos
(probabilidades) VME = 13S.000 $
70.000 $
Moderada (2/3)
*Proceso A
~
Baja (1/15)
120.000 $
Alta (4/15) 200.000 $
VME = 138,000 $
VME = 133.333 $
Baja (1/15) SO.OOO $
Proceso B
Moderada (2/3)
120.000 $
Alta (4/15) 180.000 $
VME = 132.667 $ Proceso C
Baja (1/15) Moderada (2/3) Alta (4/15)
100.000 $
125.000 $
160.000 $
886
Estadfstica para administraci6n y economfa
(c) '"buenas'" Estados de la naturaleza (probabilidades)
Acciones
VME
= 167.556 $
Baja (2/45)
~
120.000 $ Alta (28/45)
=167.556 $
VME
= 155.556 $
Baja (2/45)
Proceso B
Moderada (1/3)
Alta (28/45)
VME
= 145.667 $
Baja (2/45)
Proceso C
Moderada (1/3)
Alta (28/45)
Figura 21.6. Decision del fabricante de telefonos moviles de comprar los servicios de la empresa de estudios de mercado (* accion con el maximo VME) .
70.000 $
Moderada (1/3)
* Proceso A
VME
Rendimientos
Acciones
200.000 $
80.000 $
120.000 $
180.000 $
100.000 $
125.000 $
160.000 $
Estados de la naturaleza (probabilidades) VME = 124.600 $
Figura 21.5(a)
VME - Coste de la muestra (750 $) = 147.200 $
UME
=
138.000 $
Figura 21.5(b)
VME
Figura 21.5(c)
=147.200 $
VME
= 147.000 $
Figura 21.1
Capitulo 21.
887
Teoria estadistica de la decision
Sin embargo, es necesario restar de esta cantidad el coste de 750 $ de la informaci6n muestral, por 10 que quedan 147.200 $. Dado que esta cantidad es superior al rendimiento esperado cuando no se obtiene informaci6n muestral, la mejor estrategia, segun el criterio del valor monetario esperado, es comprar los servicios de la empresa de estudios de mercado. La decisi6n 6ptima tiene, como se indica a la izquierda de la Figura 21.6, un valor monetario esperado de 147.200 $.
EJERCICIOS
Ejercicios aplicados 21.25. Un fabricante debe deciclir si lanza, con un coste cle 100.000 $, una campana publicitaria cle un producto cuyas ventas han side bastante bajas. Se estima que una campana que tuviera mucho exito aumentarfa los beneficios en 400.000 $ (de los que habrfa que restar el coste de la campana) y una campana que tuviera un exito moderado los aumentarfa en 100.000 $, pero una campana que no tuviera exito no los aumentarfa nada. Hist6ricamente, el 40 por ciento de todas las campanas parecidas ha tenido mucho exito, el 30 pOI ciento ha tenido un exito moderado y el resto no ha tenido exito. Este fabricante consulta a un experto en meclios de comunicaci6n y Ie pide que valore la eficacia que puede tener la campana. El historial de este experto muestra que ha valorado favorablemente el 80 por ciento de las campanas que han tenido mucho exito, el 40 pOI ciento de las que han tenido un exito moderado y el 10 pOI ciento de las que no han tenido exito. a) Halle las probabilidades a priori de los tres estados de la naturaleza. b) En ausencia de un informe del experto en medios de comunicaci6n, l.debe lanzarse esta campana publicitaria, segun el criterio del VME? c) Halle las probabilidades a posteriori de los tres estados de la naturaleza, suponienclo que el experto valora favorablemente la campana. d) Dado un informe favorable del experto, l.debe lanzarse la campana publicitaria, segun el criterio clel VME? e) Halle las probabilidades a posteriori de los tres estados de la naturaleza, suponiendo que el experto no valora favorablemente la campana. f) Si el informe del experto no es favorable, l.debe lanzarse la campana publicitaria segun el critelio del VME?
21.26. Vuelva al ejercicio 21.2. EI fabric ante de desodorantes tiene cuatro procesos de producci6n posibles entre los que elegir, dependiendo de la opini6n sobre el futuro nivel de demanda. Basanclose en la experiencia anterior, las probabilidades a priori son de 0,3 en el caso de la demand a alta, de 0,4 en el de la demand a moderada y de 0,3 en el de la demanda baja. La tabla adjunta muestra las proporciones de valoraciones segun las cuales las perspectivas son «malas», «regulares» y «buenas»; estas valoraciones han sido realizadas por una empresa de mercado sobre productos similares que han 10grado estos niveles de demanda. Acci6n Valoraci6n Malas Regulares Buenas
Estado de la naturaleza Demanda baja
Demanda moderada
Demanda alta
0,5 0,3 0,2
0,3 0,4 0,3
0,1 0,2 0,7
a) Si no se consulta a la empresa de estudios de mercado, l.que acci6n debe elegirse, segun el criterio del VME? b) Halle las probabilidades a posteriori cle los tres niveles de demanda, suponiendo que la empresa de estudios de mercado dice que las perspectivas son «malas». c) l.Que acci6n debe elegirse, segun el criterio del VME, si la empresa de estudios de mercado dice que las perspectivas son «malas»? d) Halle las probabilidades a posteriori de los Ires niveles de demand a, suponiendo que la empresa de estudios de mercado dice que las perspectivas son «regulares». e) l.Que acci6n debe elegirse, segun el criterio del VME, si la empresa de estudios de merC
888
Estadfstica para administraci6n y economfa
g) i,Que accion debe elegirse, segun el criterio del VME, si la empresa de estudios de mercado dice que las perspectivas son «buenas»? 21.27. EI empresario del ejercicio 21.9 tiene dos cursos de accion posibles. Su decisi6n se basa en su opini6n sobre el exito probable del nuevo centro comercial. Historicamente, el 40 por ciento de los centros de este tipo ha tenido mucho exito, el 40 por ciento ha tenido un exito moderado y el 20 por ciento no ha tenido exito. Una empresa de consultorfa hace valoraciones de las perspectivas de este tipo de centro comercial. La tabla adjunta muestra la proporcion de valoraciones segun las cuales las perspectivas son «buenas» , «regula res» y «malas», dado el resultado obtenido real mente. Accion Valoracion Buenas Razonables Malas
Estado de la naturaleza (nivel de ex ito) Mucho exito
Exito moderado
Ninglin exito
0,6 0,3 0,1
0,3 0,4 0,3
0,2 0,3 0,5
a) i,Cmiles son las probabilidades a priori de los tres estados de la naturaleza? b) Si el empresario no busca asesoramiento de la empresa de consultorfa, i,que accion debe elegir, segun el criterio del VME? c) i,Cuales son las probabilidades a posteriori de los tres estados de la naturaleza, suponiendo que la empresa de consultorfa dice que las perspecti vas son «buenas»? d) Segun el criterio del VME, suponiendo que la empresa de consultorfa dice que las perspectivas son «buenas», i,que curso de accion debe adoptar? e) i,Cuales son las probabilidades a posteriori de los tres estados de la naturaleza, suponiendo que la empresa de consultorfa dice que las perspectivas son «regulares»? t) Segtin el criterio del VME, suponiendo que la empresa de consultorfa dice que las perspectivas son «regu lares», i,que curso de accion debe adoptar? g) i,Cuiiles son las probabilidades a posteriori de los tres estados de la naturaleza, suponiendo que la empresa de consultorfa dice que las perspectivas son «malas» ? h) Si se sigue el criterio del VME, i,que accion debe elegirse, suponiendo que la empresa de consultorfa dice que las perspectivas son «malas» ?
21.28. Considere el fabricante de medicamentos del ejemplo 21.5 , que tiene que decidir si vende la patente de un medicamento que reduce el colesterol antes de probarlo. En el ejemplo hemos visto que, cualquiera que sea el resultado de una prueba preliminar de la eficacia del meclicamento, la decision optima era conservar la patente. Despues, este fabricante clesanollaba una prueba preliminar superior, que podia realizarse cle nuevo con un coste mocleraclo. En el caso cle los medicamentos que despues resultaban eficaces, esta nueva prueba daba un resultaclo positivo el 80 por ciento de las veces, rnientras que obtenfa un resultaclo positivo solamente un 10 por ciento cle los medicamentos que resultaban ineficaces. a) Halle las probabilidades a posteriori de los dos estaclos de la natw'aleza, dado un resultado positivo cle esta nueva prueba preliminar. b) Segun el criterio clel VME, i,debe venderse la patente si el resultaclo cle la nueva prueba es positivo? c) Halle las probabiliclacles a posteriori de los clos estados cle la naturaleza, clado un resultado negativo cle esta nueva prueba preliminar. d) Segun el criterio del VME, i,debe venclerse la patente si el resultado de la nueva prueba es negativo? 21.29. En el ejercicio 21.20, un proveeclor de piezas para la industria automovilfstica tenia que cleciclir si comprobaba el proceso cle produccion en busca de un fallo antes de empezar una serie cle procluccion. Los dos estados de la naturaleza eran s 1: 1a reparacion no es necesaria (el 10 por ciento de toclas las piezas proclucidas no cumple las especificaciones) S2: la reparacion es necesaria (el 30 por ciento de todas las piezas producidas no cumple las especificaciones) Las probabilidades a priori, basadas en los datos historicos de este proceso de produccion, son
El fabricante, antes de iniciar una nueva serie de producci6n, puede producir una pieza y ver si cumple las especificaciones, basando la decision de comprobar 0 no el proceso de produccion en la informacion muestral resultante. a) Si la pieza comprobada cumple las especificaciones, i,cuiiles son las probabilidades {/ posteriori de los estados de la naturaleza?
Capftulo 21 .
b) Si la pieza comprobada cumple las especificac iones, i,debe comprobarse el proceso de produccion segun el criterio del VME? c) Si la pieza comprobada no cumple las especificaciones, i,cuales son las probabilidades a posteriori de los estados de la naturaleza? d) Si la pieza comprobada no cumple las especificaciones, l,debe comprobarse el proceso de produccion seglm el criterio del VME? 21.30. Continuando con el ejercicio 21.29, suponga ahora que antes de tomar la decision de comprobar 0 no el proceso de produccion, se fabrican dos piezas y se examinan. a) Si no es necesaria real mente una reparacion, i,cuales son las probabilidades de que ambas piezas, una de ellas 0 ninguna no cumpla las especificaciones? b) Calcule las mismas probabilidades que en el apartado (a), suponiendo que es necesario real mente reparar el proceso de produccion. c) Calcule las probabilidades a posteriori de los estados de la naturaleza y averigue la accion optima segun el criterio del valor monetario esperado, dada cada una de las siguientes circunstancias: i. Ninguna de las dos piezas cumple las especificaciones. ii. Solo una incumple las especificaciones. iii. Ninguna de las piezas incumple las especificaciones. 21.31. Una fabr ica de bombillas envla grandes pedidos de bombillas a gran des usuarios industriales. Cuando el proceso de produccion funciona correctamente (10 cual ocurre el 90 por ciento del tiempo), el 10 por ciento de todas las bombillas producidas tiene un defecto. Sin embargo, el proceso puede tener de vez en cuando algun fa110 y, en ese caso, la tasa de bombillas defectuosas es del 20 por ciento. La fabrica considera que el coste, en fondo de comercio, de un envio con una tasa mas alta de bombillas defectuosas a un usuario industrial es de 5.000 $. Si se sospecha que un envio contiene esta proporcion mas alta de bombillas defectuosas, puede venderlo a una cadena de tiendas de descuento, aunque eso supone una reduccion de los beneficios de 600 $, independientemente de quc cl cnVIO contenga 0 no una elevada proporcion de bombillas defectuosas. Las decisiones de esta empresa se tom an siguiendo el criterio del VME. a) Se prepara un envlo. En ausencia de mas informacion, i,debe enviarse a un usuario 1l1dustrial 0 a una cadena de descuento?
Teorfa estadfstica de la decisi6n
889
b) Suponga que se comprueba una bombilla del envlo. Averigiie adonde debe enviarse en cada una de las circunstancias siguientes: i. Esta bombilla tiene defectos. ii. Esta bombilla no tiene defectos. c) Suponga que se comprueban dos bombillas del envlo. A verigue ad6nde debe enviarse en cada una de las circunstancias siguientes: i. Ambas bombillas tienen defectos. ii. Solo una bombilla tiene defectos. iii. Ninguna de las dos bombillas tiene defectos. d) Indique sin hacer los calculos como puede abordarse este problema de decision si se comprueban 100 bombillas antes de enviarlas. 21.32. Vuelva al problema del inversor del ejercicio 21.1. a) Explique que se entiende por «informacion perfecta» en el contexto del problema de este inversor. b) Las probabilidades a priori de que la bolsa de valores este fuerte son de 0,2, las de que este moderada son de 0,5 y las de que este debil son de 0,3. i,Cual es el valor esperado de la informacion perfecta para este inversor? 21.33. En el caso del fabricante de desodorantes del ejercicio 21.2, las probabilidades a priori de que la demanda sea alta son de 0,3, las de que sea moderada son de 0,4 y las de que sea baja son de 0,3. Halle el YElP de este fabricante. 21.34. En el caso del empresario del ejercicio 21.9, las probabilidades a priori de que el nuevo centro comercial tenga mucho exito son de 0,4, las de que tenga un exito moderado son de 0,4 y las de que no tenga exito son de 0,2. l,Cual es el valor esperado de la informacion perfecta para el empresario? 21.35. EI fabricante de piezas de automovil del ejercicio 21.20 debe decidir si comprueba el proceso de produccion antes de comenzar una nueva serie de produccion. Dado que el proceso de produccion funciona correctamente el 80 por ciento del tiempo, i,cual es el valor de la informaci6n perfecta para este fabricante? 21.36. Antes de demostrar como se balla el valor esperado de la informacion muestral, hemos analizado por separado la determinacion del valor esperado de la informacion perfecta. En realidad, no era necesario, ya que la informacion perfecta no es mas que un tipo especial de informacion muestral. Dado el metodo general para ballar el
890
Estadfstica para administraci6n yeconomfa
valor esperado de la informaci6n muestral, muestre c6mo especializarlo al caso de la informaci6n perfecta. 21.37. Vuelva al ejercicio 21.25. EI fabric ante esta considerando la posibilidad de hacer una campana publicitaria y busca primero el asesoramiento de un experto en medios de comunicaci6n. a) i, Que valor esperado tiene para el fabricante el asesoramiento del experto en medios de comunicaci6n? b) El experto cobra 5.000 $. i,Cual es el valor esperado neto del asesoramiento del expelto? c) Este fabricante se enfrenta a un problema de decisi6n en dos etapas. Primero, debe decidir si compra asesoramiento al experto. A continuaci6n, debe decidir si lanza la campana publicitaria. Construya el arbol de decisi6n completo e indique que debe hacer el fabricante. 21.38. Vuelva al ejercicio 21.26. Halle los mayores honorarios que debe pagar el fabricante de desodorantes a la empresa de estudios de mercado, segun el criterio del valor monetario esperado. 21.39. Vuelva al ejercicio 21.27. Halle el valor esperado que tiene para el empresario una valoraci6n de las perspectivas del centro comercial realizada por la empresa de consultoria.
21.40. Vuelva al ejercicio 21.28. Antes de decidir si vende la patente de la nueva f6rmula para reducir el colesterol, el fabricante de medicamentos realiza una nueva prueba preliminar. Halle el valor esperado que tiene para el fabricante el resultado de la prueba. 21.41. Vuelva al ejercicio 21.29. EI proveedor de piezas de autom6vil puede producir y examinar una pieza antes de decidir si comprueba el proceso de producci6n. i,Cual es el VEIM? 21.42. Considere la fabrica de bombillas del ejercicio 21.31. La empresa puede comprobar una bombilla 0 mas antes de decidir si envfa un pedido a un usuario industrial 0 a una cadena de descuento. a) i,Que valor esperado tiene para la empresa la comprobaci6n de una bombilla? b) i,Que valor esperado tiene para la empresa la comprobaci6n de dos bombillas? c) i,Cual es la diferencia entre los valores esperados de comprobar dos bombillas y una bombilla? d) Si la primera bombilla comprobada es defectuosa, i,cual es el valor esperado de comprobar la segunda? e) Si la primera bombilla comprobada no es defectuosa, i,cuat es el valor esperado de comprobar la segunda?
21.5. Introducci6n del riesgo: analisis de la utilidad El criterio del valor monetario esperado para tomar decisiones tiene much as aplicaciones pnicticas. Es decir, en muchos casos, una persona 0 una empresa creen que la acci6n que ofrece el mayor valor monetario esperado es el curso de acci6n preferido. Sin embargo, no siempre es asf, como 10 demuestran los ejemplos siguientes.
1.
Muchas personas compran un seguro de vida a plazo con el que, con un gasto relativamente pequeno, los beneficiarios de la persona asegurada son indemnizados generosamente en caso de muerte durante la vigencia de la p6liza. Actualmente, las companfas de seguros pueden calcular la probabilidad que tiene una persona de cualquier edad de morir durante un periodo de tiempo especffico. Por 10 tanto, fijan sus tarifas de manera que el precio de la p61iza sea mayor que la cantidad de dinero que esperan pagar en caso de fallecimiento. La diferencia cubre los costes de la compania de seguros y genera, en promedio, un margen de beneficio. Se deduce, pues, que para la persona asegurada el rendimiento esperado de la p6liza del seguro de vida es men or que su coste. Por 10 tanto, si todo el mundo tomara decisiones siguiendo el criterio del valor monetario esperado, el segura de vida a plazo no se compraria. No obstante, much as personas 10 compran, 10 que demuestra que estan dispuestas a sacrificar algunos rendimientos esperados a cambio de tener la seguridad de que sus herederos tendran un colch6n financiero en caso de fallecimiento.
Capitulo 21.
2.
Teoria estadistica de la decision
891
Supongamos que un inversor esta considerando la posibilidad de comprar acciones de un grupo 0 mas de empresas cuyas perspectivas considera brillantes. En principio, es posible postular los distintos estados de la naturaleza que influiran en los rendinuentos de la inversion en cada una de estas empresas. De esta forma, podrfa averiguarse cual es el valor monetario esperado de una inversion de una cantidad fija en cada empresa. Segun el criterio del valor monetario esperado, el inversor deberfa invertir todo el capital de que dispone en la empresa cuyo valor monetario esperado es mayor. En realidad, muchos inversores en la bolsa de valores no siguen esa estrategia sino que reparten su dinero en efectivo en una cartera de acciones. El abandono de la opcion de «poner todos los huevos en la misma cesta», aunque genera un rendimiento esperado menor, protege de la posibilidad de perder mucho dinero si resulta que las acciones de la empresa que tiene el mayor rendimiento esperado marchan mal. Al optar por una cartera de acciones, el inversor muestra su disposicion a sacrificar algun valor monetario esperado a cambio de que las probabilidades de experimentar grandes perdidas financieras sean menores.
En cada uno de estos ejemplos, la persona que toma las decisiones ha mostrado una preferencia por un criterio de eleccion distinto del valor monetario esperado y en cada circunstancia esta preferencia parece muy razonable. Los dos ejemplos tienen un denonUnador comun, adem as de los rendimientos esperados. En ambos casos, la persona que toma decisiones quiere tener en cuenta el riesgo. El comprador de un segura de vida a plazo esta dispuesto a aceptar un rendimiento esperado negativo a cambio de la posibilidad de tener un gran rendimiento positivo en caso de fallecimiento. De esa forma, expresa una preferencia por el riesgo (naturalmente, se protege del riesgo de que su familia salga mal parada economicamente por su faliecinUento). En cambio, el inversor que, al repartir su inversion en una cartera de acciones, acepta un rendinUento esperado menor para reducir las posibilidades de experimentar una gran perdida muestra aversion al riesgo. El criterio del valor monetario esperado no es adecuado ni para las personas que prefieren el riesgo ni para las que son reacias a el. Afortunadamente, no es demasiado diffcil modificarlo para abordar las situaciones en las que el riesgo es un factor relevante. La idea es esencialmente sustituir los rendimientos monetarios por cantidades que reflejen no solo las cantidades monetarias que van a recibirse sino tambien la actitud de la persona hacia el riesgo.
EI concepto de utili dad En el ejemplo 21.3 hemos analizado el problema de un inversor que elige entre una inversion a un tipo de interes garantizado y una cartera de acciones. La primera generarfa un rendimiento de 1.200 $, mientras que la segunda generarfa un rendimiento de 2.500 $ Y 500 $ si la bolsa de valores estuviera boyante 0 se mantuviera estable, pero una perdida de 1.000 $ si estuviera deprimida. Este inversor erda que las probabilidades respectivas de estos tres estados de la naturaleza eran 0,6, 0,2 Y 0,2. En ese caso, el valor monetario esperado de elegir la cartera de acciones era 1.400 $, que era 200 $ mayor que el de la inversion a un tipo de interes fijo. En esta coyuntura, necesitamos averiguar si este rendimiento esperado mayor compensa el riesgo de perder ,1.000 $, como ocurrirfa si el mere ado estuviera deprimido. Un inversor muy rico, que pudiera sufrir con comodidad esa perdida, decidirfa casi con toda seguridad que compensa el riesgo. Sin embargo, la postura de una persona relativamente pobre, para la cual una perdida de 1.000 $ serfa desastrosa, puede ser muy distinta. En el caso de ese inversor, los rendimientos deben ser sustituidos por
892
Estadfstica para administracion y economfa
algunas otras cantidades que reflejen mejor la catistrofe que supondrfa una perdida de 1.000 $. Estas cantidades deben medir el valor 0 utilidad que tiene para el inversor una perdida de 1.000 $ en comparaci6n, por ejemplo, con una ganancia de 500 $ 0 de 2.500 $. Los estudios pioneros de investigadores como Von Neumann y Morgenstern (vease la referencia bibliografica 6) mejoraron el concepto de utilidad, que aun hoy desempena un papel fundamental en economfa. El analisis de la utilidad constituye la base para sol uci onar problemas de decisi6n en presencia de preferencia 0 de aversi6n al riesgo. Para empleario, s610 se necesitan unos supuestos bastante suaves y normalmente bastante razonubles. Supongamos que una persona se enfrenta a varios rendimientos posibles, que pueden ser 0 no monetarios. Se supone que puede ordenar (posiblemente con empates) la utilidad o satisfacci6n que Ie reportarfa cada uno. Asf, si prefiere el rendimiento A al B y el B ul C, debe preferir el A al C. Tambien se supone que si prefiere el rendimiento A al B y el B al C, existe un juego de azar que ofrece A con una probabilidad P y C con una probabilidad (l - P), tal que al individuo Ie dara igual aceptar el juego que recibir B con seguridad. Dados estos y otros supuestos generalmente inocuos en cuyos detalles no es necesario que nos detengamos, es posible mostrar que la persona racional elige la acci6n cuya utilidad esperada es mayor. Por consiguiente, el problema de decisi6n se analiza exactamente igual que en los apartudos anteriores, pero con utilidades en lugar de rendimientos. Es decir, se construye una tabla de utilidad en lugar de una tabla de rendimientos y, a continuaci6n, se emplean las probabilidades de los estados de la naturaleza para comparar las utilidades esperadas. Veamos ahora c6mo se averiguan las utilidades correspondientes a los distintos rendimientos. Los rendimientos posibles en orden ascendente en el caso de nuestro inversor son - 1.000 $, 500 $, 1.200 $ y 2.500 $. El primer paso es obtener una funci6n de utilidad.
Como se obtiene una funcion de utili dad Supongamos que una persona puede recibir varios rendimientos alternativos. La transformacion de los rendimientos en utilidades se realiza de la forma siguiente: 1.
2.
Las unidades en las que se mide la utilidad son arbitrarias. Por 10 tanto, puede fijarse una escala como convenga. Sea L el rendimiento mas bajo de todos y H el mas alto. Asignamos la utilidad 0 al rendimiento L y la utilidad 100 al rendimiento H. Sea I cualquier rendimiento comprendido entre L y H. Hallamos la probabilidad P tal que la persona es indiferente entre las siguientes alternativas: a) b)
3.
Recibir el rendimiento I con seguridad. Recibir el rendimiento H con la probabilidad P y el rendimiento Leon la probabilidad (1 - P).
La utilidad que tiene para el individuo el rendimiento I es, pues, 100P. La curva que relaciona la utilidad y el rendimiento se llama funcian de utilidad.
EI primer paso no tiene ningun misterio y nos permite tener una c6moda medida para medir la utilidad. La elecci6n de los numeros 0 y 100 para representar la utilidad del menor rendimiento y la del mayor es totalmente arbitraria. Podrfa muy bien utilizarse cualquier otro par de numeros, mientras la utilidad del rendimiento mayor sea mayor que la del menor, sin afectar al res to dei analisis. A efectos practicos, el segundo paso es el mas diffcil, debido en parte a que presupone que el individuo puede manipular las probabilidades de una manera coherente. En la practica, la probabilidad debe averiguarse mediante el metoda de prueba y error, haciendo preguntas como «(,preferirfa recibir I con seguridad 0 participar en un juego de azar en el que
Capftulo 21.
Teorfa estadfstica de la decision
893
podria recibir H con una probabilidad de 0,9 y L con una probabilidad de 0,1 ?». 0 quiza «l,preferirfa recibir I con seguridad 0 participar en un juego de azar en el que podria obtener H con una probabilidad de 0,8 y L con una probabilidad de 0,2?». Este proceso continlia hasta que se alcanza el punto de indiferencia. La logica del ultimo paso es bastante sencilla. Dado que H tiene una utilidad de 100 y L tiene una utilidad de 0, la utilidad esperada si se obtiene H con una probabilidad de P y L con una probabilidad de (1 ~ P) es
lOOP
+ 0(1
~
P) = lOOP
Dado que el individuo es indiferente entre este juego y recibir I con seguridad, la utilidad del rendimiento I es lOOP. Volvamos ahora a nuestro inversor. En primer lugar, asignamos una utilidad de 0 al menor rendimiento, ~ l.000 $, Y una utilidad de 100 al mayor, 2.500 $. Queda por averiguar las utilidades de los rendimientos intermedios, 500 $ y 1.200 $. Se averiguan planteando al individuo una serie de preguntas, como «preferiria recibir 500 $ con seguridad 0 participar en un juego en el que podrfa ganar 2.500 $ con una probabilidad P y perder 1.000 $ con una probabilidad de (1 ~ P)?». Se prueba con diferentes valores de la probabilidad P hasta que se halla el valor con el que el individuo es indiferente entre las dos alternativas. Este proceso se repite en el caso del rendimiento de 1.200 $. Supongamos que el inversor es indiferente entre un rendimiento de 500 $ y el juego de azar que tiene una P = 0,6 y entre un rendimiento de 1.200 $ y el juego que tiene una P = 0,8. Las utilidades de los rendimientos intermedios son, pues, Rendimiento 500 $:
Utili dad = (100)(0,6) = 60
Rendimiento 1.200 $:
Utilidad = (100)(0,8) = 80
En la Figura 21.7 representamos por medio de puntos las cuatro utilidades de este inversor en relacion con los rendimientos correspondientes. Figura 21.7. Funci6n de uti li dad de un inversor.
100 -a 80 Cll -a 60
5 500 1.200 2.500 Rend imiento
Trazamos una curva por estos puntos para indicar la forma general de la funcion de utilidad de este inversor. La forma de esta curva es interesante, ya que caracteriza la actitud del inversor hacia el riesgo. Como no podia ser de otra forma, la utilidad aumenta a medida que aumenta el rendimiento. Observese, sin embargo, que la tasa de aumento de la utili dad es mayor en los rendimientos mas bajos y disminuye a medida que aumenta el rendimiento. Eso significa un desagrado por los rendimientos mas bajos que es mas que acorde con su cantidad monetaria, 10 que indica una aversion al riesgo. Esta aversion puede verse en la actitud del inversor hacia los juegos de azar que Ie proponen. Por ejemplo, el inversor es indiferente entre un rendimiento segura de 500 $ y un juego en el que puede
894
Estadfstica para administraci6n y economfa
ganar 2.500 $ con una probabilidad de 0,6 y perder l.000 $ con una probabilidad de 0,4. El valor monetario esperado de este juego es (0,6)(2.500)
+ (0,4)( - l.000) = 1.100 $
que es considerablemente mayor que el rendimiento segura preferido de 500 $. La cuantfa de esta diferencia es una medida del grado de aversi6n al riesgo. La forma de la Figura 2l.7 es caracterfstica de la aversi6n al riesgo. Segun Friedman y Savage, «una importante clase de reacciones de los individuos al riesgo puede racionalizarse mediante una extensi6n bastante simple del amilisis ortodoxo de la utilidad» (vease la referencia bibliogrMica 2). Desarrollaron gnificos de funciones de utilidad similares a los tres tipos de funciones de utilidad que se muestran en la Figura 21.8.
-0
-0
-0
co :Q
co :Q
co :Q
5
5
5
(a) Aversi6n al riesgo
Figura 21.8.
(b) Preferencia por el riesgo
(c) Indiferencia hacia el riesgo
Funciones de utilidad: (a) aversion al riesgo; (b) preferencia por el riesgo; (c) indiferencia hacia el riesgo.
La funci6n de la parte (a) de la figura, en la que la utilidad aumenta a una tasa decreciente a medida que aumenta el rendimiento, tiene la misma forma que la Figura 21.7, reflejando una vez mas una aversi6n al riesgo. En la parte (b) de la figura, la utilidad aumenta a una tasa creciente a medida que los rendimientos son mayores. Eso implica un gusto por los rendimientos mas altos que es mas que acorde con las cantidades monetarias en cuesti6n, 10 que muestra una preferencia por el riesgo. Por ultimo, la parte (c) de la Figura 21.8 muestra el caso intermedio en el que la utilidad aumenta a una tasa constante en el caso de todos los rendimientos. En este caso, los valores monetarios de los rendimientos constituyen una verdadera medida de su utili dad para el individuo, que demuestra asf indiferencia hacia el riesgo. Las tres curvas de la Figura 21.8 caracterizan la aversi6n al riesgo, la preferencia por el riesgo y la indiferencia hacia el riesgo. Sin embargo, un individuo no tiene por que mostrar solamente una de estas actitudes ante toda la variedad de rendimientos posibles. La Figura 21.9 ilustra una situaci6n mas compleja. En esta figura, en los rendimientos comprendidos entre M j y M 2 , la funci6n de utilidad tiene la forma de la Figura 21.8(a), 10 que indica una aversi6n al riesgo entre estos rendimientos. Sin embargo, en el caso de los rendimientos comprendidos entre M2 y M 3 , esta funci6n de utilidad tiene la forma de la Figura 21.8(b). Por 10 tanto, entre estos rendimientos el individuo muestra una preferencia por el riesgo. Por ultimo, en el caso de los rendimientos mas altos, entre M3 y M 4 , la posici6n se invierte de nuevo y el individuo es renuente al riesgo. Esa funci6n de utili dad puede surgir en los problemas practicos. Por ejemplo, un inversor puede muy bien ser reacio a
Cap itulo 21.
Teoria estadistica de la decisi6n
895
experimentar grandes perdidas y estar dispuesto al mismo tiempo a aceptar algun riesgo para obtener un rendimiento positivo bast ante alto en lugar de un rendimiento moderado. Sin embargo, si puede lograrse un rendimiento satisfactoriamente alto con un riesgo moderado, puede ser reacio a arriesgarse mucho mas ante la posibilidad de obtener un rendimiento aun mayor. Figura 21.9. Funcion de utilidad que muestra una ave rsion al riesgo entre los ren dimientos M1 y M2 , Y los rendimientos M3 y M4 Y una preferencia por el riesgo entre los rendimientos M2 y M3 ·
M2
M3
Rendimiento
Criterio de la utili dad esperada para tomar decisiones Una vez halladas las utilidades, no queda mas que resolver el problema de decision averiguando el curso de accion que tiene la utilidad esperada mas alta. Las utilidades esperadas se obtienen como siempre, empleando las probabilidades de los estados de la naturaleza, como se muestra en la ecuacion 21.5.
EI criterio de la utilidad esperada Supongamos que una persona tiene K acciones posibles, 8 1 , 8 2 , •.. , 8K' Y se enfrenta a H estados de la naturaleza. Sea Vii la utilidad correspondiente a la i-esima acci6n y el j-esimo estado y P la probabilidad de que ocurra el j-esimo estado de la naturaleza. En ese caso, la utilidad esperada, VE(8) , de la acci6n 8 i es H
UE(aJ
= PIUn + P2Ui2 + ... + PHUiH =
L
PjUij
(21.5)
j = 1
Dada una elecci6n entre acciones alternativas, el criterio de la utilidad esperada dicta la elecci6n de la acci6n cuya utilidad esperada es mayor. Partiendo de unos supuestos generalmente razonables, puede demostrarse que una persona racional debe adoptar este criterio. Si el individuo es indiferente al riesgo, el criterio de la utilidad esperada y el criterio del valor monetario esperado son equivalentes.
La Tabla 21.11 muestra las utilidades y las probabilidades de los estados de la naturaleza de nuestro inversor. Si se elige la inversion a un tipo de interes fijo, esta garantizada una utilidad de 80, cualquiera que sea el estado de la naturaleza. En el caso de la cartera de acciones, la utilidad esperada es (0,6)(100)
+ (0,2)(60) + (0,2)(0) =
0,72
Dado que esta cantidad es men or que 80, este inversor debe invertir a un tipo de interes fijo, segun el criterio de la utilidad esperada.
896
Estadfstica para administraci6n y econom fa
Tabla 21.11.
Utilidades y probabilidades de los estados de la naturaleza de un inversor.
Accion
Estado del mercado
Inversion Tipo de interes fijo Cartera de acciones
Estado boyante (P = 0,60)
Estado estable (P = 0,20)
Estado deprimido (P = 0,20)
80 100
80 60
80 0
En el ejemplo 21.3 se selecciono la inversion en la cartera de acciones segun el criterio del valor monetario esperado. Sin embargo, la introduccion en el analisis de otro factor -eJ grado de aversion de este inversor al riesgo- !leva a la conclusion de que la opcion del tipo de interes fijo es la mejor. Este ejemplo sirve para ilustrar que a veces, cuando el riesgo es un factor importante, el criterio del valor monetario esperado no es adecuado para resolver problemas de decision. EI criterio de la utilidad esperada es el mas aplicable e intelectualmente defendible de todos los introducidos para abordar problemas de decision. Su principal inconveniente radica en la dificultad para extraer informacion sobre que juegos de azar se consideran igual de atractivos que los diferentes rendimientos asegurados. Este tipo de informacion es esencial para averiguar las utilidades. En una amplia variedad de problemas en los que puede suponerse con seguridad que el individuo es indiferente al riesgo, eJ criterio del valor monetario esperado sigue siendo aplicable. Ese serfa normal mente el caso, por ejemplo, de una pequena proporcion del ingreso total de la empresa. Sin embargo, si (como puede ocurrir en el desarrollo de una nueva compaiifa aerea, por ejemplo) las posibles perdidas de un proyecto pueden poner en peligro una empresa, las utilidades deben reflejar correctamente la aversion al riesgo. Una empresa puede intentar repartir este riesgo creando proyectos de colaboracion con otras empresas del sector 0 con posibles clientes.
EJERCICIOS
Ejercicios aplicados 21.43. Una persona se enfrenta a un problema en el que los rendimientos posibles (en d61ares) son 1.000
3.000
6.000
9.000
10.000
21.44. El empresario del ejercicio 21.9 tiene seis rendimientos posibles (en d6Iares): - 10.000
30.000
60.000
70.000
90.000
130.000
12.000
Se asigna la utilidad 0 al rendirniento de 1.000 $ Y la utilidad 100 al rendirniento de 12.000 $. Esta persona es indiferente al liesgo en el caso de los rendimientos comprendidos en ese intervalo. a) Halle las utilidades de los cuatro rendimientos intermedios. b) Halle en el caso del rendimiento intermedio la probabilidad P de que el individuo sea indiferente entre recibir I con seguridad y una apuesta en la que se reciben 12.000 $ con una probabilidad P y 1.000 $ con una probabilidad (1 - P) .
Asigne una utili dad de 0 a una perdida de 10.000 $ y una utili dad de 100 a un beneficio de 130.000 $. La tabla adjunta muestra para el caso de cada rendimiento intermedio la probabilidad P de que el empresario sea indiferente entre recibir I con seguridad y un juego de azar en el que recibirfa 130.000 $ con una probabilidad P y perderfa 10.000 $ con una probabilidad (1 - P).
Rendimiento 30.000 p
0,35
60.000
70.000
90.000
0,60
0,70
0,85
Capftulo 21.
a) (,Cuales son las utilidades de los rendimien-
tos intermedios? b) Suponga que las probabilidades de que el nuevo centro comercial tenga mucho exito, tenga un exito moderado y no tenga exito son 0,4, 0,4 y 0,2, respectivamente. (,Que accion deberfa elegirse si se quiere maximizar la utilidad esperada? 21.45. EI empresario del ejercicio 21.44 no sabe que valor P asignar a la indiferencia entre recibir 30.000 $ con seguridad y un juego de azar en el
Teorfa estadfstica de la decision
897
que recibirfa 130.000 $ con una probabilidael P y perderfa 10.000 $ con una probabi lielael (l - P). Suponiendo que el resto de las especificaciones del problema son las del ejercicio 21.44, (,en que intervalo de valores de esta probabilidad generara el criterio de la utilidad esperada la misma eleccion de la accion ?
21.46. Considere el contrati sta del ejercicio 21.21. En realidad, este contratista es indiferente entre presentar y no presentar una oferta. (,Que implica eso sobre la funcion de utilidad del contratista?
RESUMEN Este capftulo pretende ser una introduccion al analisis de las decisiones. Todos debemos vivir y trabajar en un entomo cuyo futuro es incierto. La toma de decisiones de las empresas no es una excepcion. Hemos analizado el marco de un problema de decision, hemos estudiado varios criterios para seleccionar una accion optima, hemos analizado el valor de la informacion muestral y hemos examinado las situaciones en las que la persona
que tiene que tomar una decision puede estar mas interesada en tener en cuenta el riesgo que en maximizar los valores monetarios esperados. En la segunda situacion, hemos examinado una funcion de utilidad. En este capitulo, hemos analizado cuatro criterios para to mar decisiones: maximin, perdida de oportunidades minimax, valor monetario esperado y utili dad esperada. Hemos utilizado el TreePlan para construir arboles de decision.
TERMINOS CLAVE accion, 856 accion admisible, 857 accion inadmisible, 857 analisis de sensi bilidad, 872 arboles de decision, 866 aversion al riesgo, 891 criterio de la perdida de oportunidades minimax, 862 criterio de la utilidad esperada, 895 criterio del valor monetario esperado, 865 criterio maximin, 860 estados de la naturaleza, 857
funcio n de utilidad, 892 informacion perfecta, 881 indiferencia al riesgo, 894 nodos de decision, 867 nodos de sucesos, 867 nodos terminales, 867 preferencia por el riesgo, 891 probabilidad a priori, 876 tabla de perdida de oportunidades, 862 tabla de perdidas, 862 tabla de rendimientos, 857 teorema de Bayes, 876
TreePlan, 868 valor de la informacion muestral, 881 valor de la informacion perfecta, 881 valor esperado de la informacion pelfecta, 882 valor esperado neto de la informacion muestral, 883 valor monetario esperado, 865 VEIM,884 VEIP, 881 VME,865
EJERCICIOS V APLICACIONES DEL CAPiTULO 21.47. Un consultor esta considerando la posibilidad de presentar ofertas detalladas para la adjudicacion de dos contratos. La preparacion de la oferta para el primero cuesta 100 $, mientras que la preparacion de la oferta para el segundo cuesta 150 $. Si se acepta la oferta para el primer contrato y se realiza el trabajo, el beneficio es de 800 $. Si se acepta la oferta para el se-
gundo contrato y se realiza el trabajo, el beneficio es de 1.200 $. Los costes de Ia preparacion de la oferta deben restarse de estos beneficio~ EI consultor puede presentar, si 10 desea, ofertas para los dos contratos. Sin embargo, no tiene los recursos necesarios para realizar los dos trabajos si multaneamente. Si presenta una oferta, esta es aceptada y el consultor no puede rea-
898
Estadistica para administraci6n y economia
lizar el trabajo, 10 contabiliza como un coste de 200 $ de perdida de fondo de comercio. En el proceso de toma de decisiones, hay cuatro estados de la naturaleza posibles: s I: se rechazan ambas ofertas S2: se acepta la oferta para el primer contrato y se rechaza la oferta para el segundo S3: se acepta la oferta para el segundo contrato y se rechaza la oferta para el primero S4: se aceptan ambas ofertas a) El consultor tiene cuatro cursos de acci6n posibles. z,Cwlles son? b) Elabore la tabla de rendimientos del problema de decision de este consultor. e) z,Que acci6n se elige segun el criterio maximin? d) z,Que acci6n se elige segun el criterio de la perdida de oportunidades minimax? 21.48. Vuelva al ejercicio 21.47. El consultor cree que la probabilidad de que se acepte la oferta para el primer contrato es de 0,7 y la probabilidad de que se acepte la oferta para el segundo es de 0,4. Tambien cree que la aceptaci6n de una oferta es independiente de la aceptaci6n de la otra. a) z,Cuales son las probabilidades de los cuatro estados de la naturaleza? b) Segun el criterio del valor monetario esperado, z,que acci6n debe elegir el consultor y cua! es el valor monetario esperado de esta acci6n? e) Construya el arbol de decisi6n del problema del consultor.
d) z,Cual es el valor esperado de la informaci6n
perfecta para este consultor? e) El consultor tiene la posibilidad de conseguir «informaci6n privilegiada» sobre las perspectivas de la oferta para el primer contrato. Esta informaci6n es total mente fiable en el sentido de que Ie permitirfa saber con seguridad que oferta se aceptaria. Sin embargo, no dispone de mas informaci6n sobre las perspectivas de la oferta para el segundo contrato. Z, Cual es el valor esperado de esta «informaci6n privilegiada»? 21.49. Vuelva a los ejercicios 2l.47 y 21.48. Este consultor se enfrenta a nueve rendimientos posibles (en d6Iares):
- 250
- 150
0
550
700
750
950
l.950
Se asigna una utilidad de 0 a una perdida de 250 $ Y una utilidad de 100 a un beneficio de 1.050 $. La tabla adjunta muestra las probabilidades, P, de cada rendimiento intermedio, /, por las que el consultor es indiferente entre un rendimiento de I con seguridad y un juego de azar en el que ganarfa 1.050 $ con la probabilidad P y perderfa 250 $ con la probabilidad (1 - P). Segun el criterio de la utilidad esperada, z,que acci6n debe elegir el consultor y cual es la utilidad esperada de esa acci6n? Rendimiento - 150 - 100 p
0,05
0
550 700
750
950
0,10 0,20 0,65 0,70 0,75 0,85
Bibliografla 1.
2. 3. 4. 5. 6.
Eppen, G. D., F. J. Gould et al. , Introductory Management Science: Decision Modeling with Spreadsheets, Upper Saddle River, NJ, Prentice Hall, 1998, 5." ed. Friedman, Mi lton y L. J. Savage, «The Utility Analysis of Choices Involving Risk», Journal of Political Economy, 56, 1948, pags. 279-304. Middleton, Michael, profesor, University of San Francisco, www.usaf.edu/ ~ middleton. Render, Barry y Ralph M. Stair, Jr. , Quantitative Analysis for Management, Upper Saddle River, NJ, Prentice Hall, 2000, 7. a ed. TreePlan Documentation, disponible en www.treeplan.com. Von Neumann, John y Oskar Morgenstern, The Theory of Games and Economic Behavior, Princeton, NJ, Princeton University Press, 1953, 3. a ed.
TABLAS
Tabla 1.
DEL APENDICE
Funci6n de distribuci6n acumulada de la distribuci6n normal estandar.
o
z
Z
F(z)
Z
F(z)
Z
F(z)
Z
F(z)
Z
F(z)
Z
F(z)
0,00 0,01 0,02 0,03 0,04 0,05
0,5000 0,5040 0,5080 0,5120 0,5160 0,5 199
0,31 0,32 0,33 0,34 0,35
0,6217 0,6255 0,6293 0,6331 0,6368
0,61 0,62 0,63 0,64 0,65
0,7291 0,7324 0,7357 0,7389 0,7422
0,91 0,92 0,93 0,94 0,95
0,8186 0,8212 0,8238 0,8264 0,8289
1,21 \ ,22 1,23 1,24 1,25
0,8869 0,8888 0,8907 0,8925 0,8944
1,5 1 1,52 1,53 1,54 1,55
0,9345 0,9357 0,9370 0,9382 0,9394
0,06 0,07 0,08 0,Q9 0,10
0,5239 0,5279 0,5319 0,5359 0,5398
0,36 0,37 0,38 0,39 0,40
0,6406 0,6443 0,6480 0,6517 0,6554
0,66 0,67 0,68 0,69 0,70
0,7454 0,7486 0,7517 0,7549 0,7580
0,96 0,97 0,98 0,99 1,00
0,8315 0,8340 0,8365 0,8389 0,841 3
1,26 1,27 1,28 1,29 1,30
0,8962 0,8980 0,8997 0,9015 0,9032
1,56 1,57 1,58 1,59 1,60
0,9406 0,941 8 0,9429 0,9441 0,945 2
0,11 0, 12 0, 13 0,14 0,15
0,5438 0,5478 0,5517 0;5557 0,5596
0,41 0,42 0,43 0,44 0,45
0,659\ 0,6628 0,6664 0,6700 0,6736
0,7 1 0,72 0,73 0,74 0,75
0,7611 0,7642 0,7673 0,7704 0,7734
1,01 1,02 1,03 1,04 1,05
0,8438 0,8461 0,8485 0,8508 0,8531
1,3 1 1,32 1,33 1,34 1,35
0,9049 0,9066 0,9082 0,9099 0,9115
1,61 1,62 1,63 1,64 1,65
0,9463 0,9474 0,9484 0,9495 0,9505
0,16 0,17 0, 18 0,19 0,20
0,5636 0,5675 0,57 14 0,5753 0,5793
0,46 0,47 0,48 0,49 0,50
0,6772 0,6803 0,6844 0,6879 0,6915
0,76 0,77 0,78 0,79 0,80
0,7764 0,7794 0,7823 0,7852 0,7881
1,06 1,07 1,08 1,09 1,10
0,8554 0,8577 0,8599 0,8621 0,8643
1,36 1,37 \ ,38 1,39 1,40
0,9131 0,9147 0,9162 0,9177 0,9192
1,66 1,67 1,68 \,69 1,70
0,9515 0,9525 0,95 35 0,9545 0,9554
0,21 0,22 0,23 0,24 0,25
0,5832 0,5871 0,5910 0,5948 0,5987
0,5 1 0,52 0,53 0,54 0,55
0,6950 0,6985 0,7019 0,7054 0,7088
0,81 0,82 0,83 0,84 0,85
0,7910 0,7939 0,7967 0,7995 0,8023
1,1 1 1, 12 1,13 1,14 1,1 5
0,8665 0,8686 0,8708 0,8729 0,8749
1,41 1,42 1,43 1,44 1,45
0,9207 0,9222 0,9236 0,9251 0,9265
1,7 1 1,72 1,73 1,74 1,75
0,9564 0,9573 0,9582 0,9591 0,9599
0,26 0,27 0,28 0.29 0,30
0,6026 0,6064 0,6 103 0,6 141 0,6179
0,56 0,57 0,58 0,59 0,60
0,7123 0,7157 0,7190 0,7224 0,7257
0,86 0,87 0,88 0,89 0,90
0,8051 0,8078 0,8106 0,8133 0,8 159
1, 16 1,17 1, 18 1, 19 \ ,20
0,8770 0,8790 0,8810 0,8830 0,8849
1,46 1,47 1,48 1,49 1,50
0,9279 0,9292 0,9306 0,93 19 0,9332
1,76 1,77 1,78 1,79 1,80
0,9608 0,9616 0,9625 0,9633 0,9641