UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA La Universidad Católica de Loja
MODALIDAD MODALID AD ABIERT ABIE RTA A Y A DISTANCIA ESCUELA DE ECONOMÍA
E STADÍSTICA II Guía didáctica 4 CRÉDITOS
1. Datos informativos CICLOS
S T C E L P T U
AUTOR: Ing. Wehrli Enrique Pérez. Ing. Karina Bajaña Zambrano.
CARRERAS
3
•
4
• Contabilidad y Auditoría • Administraci Administración ón en Banca
5
• Administraci Administración ón •
Administración de Emp resas Turísticas y Hoteleras
y Finanzas
de Empresas
Economía
Reciba asesoria virtual en: www.utpl.edu.ec
19508
MATERIAL DE USO DIDÁCTICO PARA ESTUDIANTES DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA, PROHIBIDA SU REPRODUCCIÓN TOTAL O PARCIAL POR CUALQUIER MEDIO
ESTADÍSTICA II Guía didáctica
Wehrli Enrique Pérez Karina Bajaña Zambrano © UNIVERSIDAD TÉCNICA PARTICULAR PARTICULAR DE LOJA Diagramación, diseño e impresión: EDITORIAL DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA Call Center: 593 - 7 - 2588730, Fax: 593 - 7 - 2611418 C. P.: 11- 01- 608 www.utpl.edu.ec San Cayetano Alto s/n Loja-Ecuador Cuarta edición Primera reimpresión ISBN-978-9942-08-120-9 Reservados todos los derechos conforme a la ley. No está permitida la reproducción total o parcial de esta guía, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright. Abril, 2012
ESTADÍSTICA II Guía didáctica
Wehrli Enrique Pérez Karina Bajaña Zambrano © UNIVERSIDAD TÉCNICA PARTICULAR PARTICULAR DE LOJA Diagramación, diseño e impresión: EDITORIAL DE LA UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA Call Center: 593 - 7 - 2588730, Fax: 593 - 7 - 2611418 C. P.: 11- 01- 608 www.utpl.edu.ec San Cayetano Alto s/n Loja-Ecuador Cuarta edición Primera reimpresión ISBN-978-9942-08-120-9 Reservados todos los derechos conforme a la ley. No está permitida la reproducción total o parcial de esta guía, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el permiso previo y por escrito de los titulares del Copyright. Abril, 2012
2. Índice 3. Intro Introducció ducciónn ........................................................................................................................................ 4. Biblio Bibliografí grafíaa .........................................................................................................................................
7 8
4.1 Básica .................................................................................................................................................. 4.2 Complementaria ................................................................................................................................
8 8
Orientaciones generales para el el estudio estudio ...................................................
9
6. Proceso de enseñanza-aprendizaje para el logro de competencias .....................................................................................................................................
11
PRIMER BIMESTRE 6.1 6.2 6.3 6.4
Competenc Compet encias iasGe Genér nérica icas s .............................................................................................................. 11 Planificac Plani ficaciónpa iónparael raeltraba trabajodel jodelalum alumno no .............................................................................. 11 Sistem Sis temad adee eeval valuac uación ión ................................................................................................................. 13 Orientacion Orient acioneses esespecíf pecíficas icasparae paraelapre laprendiza ndizajepor jeporcomp competenc etencias ias .................................. 15
CAPÍTULO1:REGRESIONLINEAL ..................................................................................................................
15
1.1. Introducción .......................................................................................................................................... 15 1.2. Supuestos generales del modelo ....................................................................................................... 15 1.3. Supuesto específico de Normalidad .................................................................................................. 16 1.4. Modelo de Regresión Lineal Simple .................................................................................................. 16 1.5. Coeficiente de Determinación R ....................................................................................................... 22 1.6. Potencia de Explicación del Modelo .................................................................................................. 23 1.7. Coeficiente de Correlación ƿ .............................................................................................................. 24 1.8. Coeficiente de Correlación Muestral r ................................................................................................ 24 1.9. Relación entre el Coeficiente de Determinación y el C oeficiente de Correlación ........................ 24 1.10. Prueba de Significancia del modelo ............................................................................................... 27 1.11. Valor p ................................................................................................................................................. 28 1.12. Tabla de Análisis de Varianza .......................................................................................................... 29 1.13. Estimación de σ² ............................................................................................................................. 30 1.14. Análisis Residual ................................................................................................................................ 35 ²
Autoevaluación 1 ..........................................................................................................................................
40
CAPÍTULO2:REGRESIONMULTIPLE..............................................................................................................
41
2.2. Suposiciones del modelo ..................................................................................................................... 2.3. Supuesto específico de Normalidad .................................................................................................. 2.4. Método de Mínimos Cuadrados ......................................................................................................... 2.5. Coeficiente de Determinación Múltiple R2 ....................................................................................... 2.6. Potencia de Explicación del Modelo R2 * 100% ............................................................................ 2.7. Coeficiente de Determinación Múltiple Ajustado ............................................................................. 2.8. Prueba de Significancia ....................................................................................................................... 2.9. Tabla de Análisis de Varianza ............................................................................................................ Autoevaluación 2 .........................................................................................................................................
41 41 42 42 43 44 44 46 56
.
CAPÍTULO3:ANÁLISISDER CAPÍTULO3: ANÁLISISDEREGRESIÓN:CONST EGRESIÓN:CONSTRUCCIÓNDE RUCCIÓNDEMODELOS MODELOS ...................................................... 57
3.1. Introducción .......................................................................................................................................... 3.2. Modelo de orden superior ................................................................................................................... 3.3. Modelo con interacción ....................................................................................................................... 3.4. Determinación de cuándo agregar variables v ariables ................................................................................... 3.5. Determinación de cuándo agregar variables, v ariables, el caso general ...................................................... Autoevaluación 3 ..........................................................................................................................................
57 57 62 65 70 75
SEGUNDO BIMESTRE 6.5 Compet Competenc encias iasge genér nérica icas s ............................................................................................................. 77 6.6 Plan Planifica ificación ciónparae paraeltra ltrabajod bajodelalu elalumno mno .............................................................................. 77 6.7 Orien Orientacio tacionese nesespec specífica íficaspar sparaela aelaprend prendizaj izajepor eporcompe competenci tencias as .................................. 80 CAPÍTULO4:NÚMEROSÍNDICES
4.1. Introducción .......................................................................................................................................... 80 4.2. Precios relativos .................................................................................................................................... 80 4.3. Índices de precios agregados ............................................................................................................. 80 4.4. Índices de precios agregados no ponderado .................................................................................... 82 4.5. Índice de precios agregados ponderados ......................................................................................... 82 4.6. Cálculo de un índice de precios agregados ponderados a partir de precios relativos ............... 84 4.7. Algunos índices de precios importantes ............................................................................................ 86 4.8. Deflactar una serie mediante índices de precios ............................................................................. 88 Autoevaluación 4 .......................................................................................................................................... 93 CAPÍTULO5:PRONÓSTICOS...........................................................................................................................
94
5.1. Introducción .......................................................................................................................................... 5.2. Serie de Tiempo .................................................................................................................................... 5.3. Pronóstico .............................................................................................................................................. 5.4. Componentes de una serie de tiempo ............................................................................................... 5.5. Componente de tendencia .................................................................................................................. 5.6. Componente cíclico .............................................................................................................................. 5.7. Componente estacional ....................................................................................................................... 5.8. Componente irregular .......................................................................................................................... 5.9. Métodos de suavizamiento ................................................................................................................. 5.10. Promedios móviles ............................................................................................................................. 5.11. Promedios móviles ponderados ....................................................................................................... 5.12. Suavizamiento exponencial .............................................................................................................. 5.13. Proyección de tendencia ................................................................................................................... 5.14. Componentes de tendencia y estacionales ....................................................................................
94 94 94 94 94 94 94 94 94 95 101 101 109 112
5.15. Modelo multiplicativo ....................................................................................................................... 113 5.16. Cálculo de los índices estacionales ................................................................................................. 113 5.17. Desestacionalización de una serie de tiempo ............................................................................... 118 5.18. Uso de una serie de tiempo desestacionalizada para la identificación de tendencias ........... 120 5.19. Ajustes estacionales ........................................................................................................................... 123 Autoevaluación 5 .......................................................................................................................................... 124 CAPÍTULO6:MÉTODOSNOPARAMÉTRICOS................................................................................................. 126
6.1. Introducción .......................................................................................................................................... 126 6.2. Prueba de los signos ............................................................................................................................ 126 6.3. Caso de muestras pequeñas ............................................................................................................... 126 6.4. Nivel de Significación y Valor p ......................................................................................................... 127 6.5. Caso de muestras grandes .................................................................................................................. 130 6.6. Nivel de significación y Valor p......................................................................................................... 131 6.7. Prueba de hipótesis acerca de la mediana ...................................................................................... 132 6.8. Prueba de los rangos con signo de Wilcoon .................................................................................... 134 6.9. Distribución Muestral De T Para Poblaciones Poblaciones Idénticas ................................................................. 137 6.10. Prueba de Mann - Whitney - Wilcoxon .......................................................................................... 138 6.11. Caso para muestras pequeñas ......................................................................................................... 138 6.12. Caso de muestras grandes ................................................................................................................ 141 6.13. Distribución Muestral De T Para Poblaciones Poblaciones Idénticas ............................................................... 141 6.14. Prueba de Kruskal-Wallis ................................................................................................................. 143 6.15. Correlación de rangos ........................................................................................................................ 145 6.16. Prueba de significancia de correlación de rangos ........................................................................ 147 Autoevaluación 6 .......................................................................................................................................... 149
7. Solucionario .......................................................................................................................................
150
Guía didáctica: Estadística II
PRELIMINARES
3. Introducción La Estadística II es una asignatura de carácter genérica que se desarrolla de manera conjunta en las carreras del área administrativa de la UTPL, distribuida de la siguiente manera: Economía, Administración de Empresas, Asistencia Gerencial y Relaciones Públicas en quinto ciclo; Contabilidad y Auditoría, Administración en Banca y Finanzas en el cuarto ciclo, y en Administración de Empresas Turísticas en el tercer ciclo. Esta asignatura contempla un total de 4 créditos académicos. La importancia de la materia radica en su aplicación para la toma de decisiones. En los últimos años hemos visto que se aplica estadística en todas las áreas, las oficinas de estadística del gobierno publican cada mes nueva información numérica sobre la inflación, el desempleo, y la inseguridad. Los especialistas, asesores financieros y los que determinan las políticas de una empresa y del gobierno estudian los datos para tomar decisiones basadas en la información, para ofrecer un tratamiento adecuado en sus estrategias. “Un día las estadísticas serán tan necesarias para la vida ciudadana como el leer y escribir ” por Herbert George Wells (1866-1946) La asignatura de Estadística II está estructurada en 6 capítulos. En el primer bimestre se estudia los tres primeros capítulos, muestran cómo construir modelos de regresión, sean estos modelos de regresión simple o modelos de regresión múltiple, interpretar sus resultados, así mismo la construcción e interpretación de la tabla ANOVA (Análisis de Varianza) para determinar la validez del modelo mediante una Prueba de Hipótesis. El segundo bimestre comprende tres capítulos. En el capítulo 4 veremos el uso de los números índices, permiten hacer comparaciones entre los precios actuales por unidad de un artículo en particular con los precios de los mismos productos en el año base. Este tipo de procedimiento se utiliza para determinar un índice de precios (Inflación). También se analizarán los índices de precios agregados ponderados y los no ponderados quienes miden la variación combinada de un grupo de artículos. En el capítulo 5 llamado “Pronósticos”, trata de realizar una estimación de lo que podría ocurrir en un futuro con una serie de tiempo, y ver la tendencia que tienen los datos que en algunos casos se presenta como una línea creciente, también se observaran otras que no necesariamente tienen un comportamiento lineal. Y el último capítulo llamado métodos no paramétricos, que son alternativas más robustas para Probar Hipótesis sobre el valor central que siguen un conjunto de datos. La asignatura de Estadística II es parte fundamental de su formación por esto le motivo para que realice un estudio sistematizado, utilizando el texto básico paralelo con la guía didáctica, y que utilice los recursos virtuales como videoconferencias y el sistema de aprendizaje EVA. Estamos gustosos de presentarles este material didáctico que ha sido elaborado para que le acompañe durante su proceso formativo. ¡Éxito en su estudio!
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
7
Guía didáctica: Estadística II
PRELIMINARES
4. Bibliografía 4.1 Básica El texto básico es: Anderson D. Sweeney D. y Williams T. (2009). Estadística para Administración y Economía . Décima edición”. Cosegraf. México Los autores del libro son expertos en el tema, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal. Pérez W. (2011). Guía didáctica de Estadística II . Loja-Ecuador: Editorial UTPL. La guía didáctica ha sido elaborada en base al libro de Anderson D., y otros. Estadística para Administración y Economía, décima edición. Contiene el desarrollo de los principales temas de la estadística utiliza recursos didácticos como autoevaluaciones, actividades recomendadas, casos prácticos y ejemplos, todo esto junto con el texto básico serán sus principales herramientas para el desarrollo de la asignatura.
4.1 Complementaria Berenson M. Levine D. Krenhbiel T. (2001). Estadística para administración . México. Editorial Pearson Educación. Este libro es bastante didáctico por cuanto los contenidos se encuentran agrupados de forma sistemática, al igual que sus ejercicios, lo que permite manejar, de mejor manera, los diferentes temas tratados. Lind D. Marchall W. Wathen S. (2004). Estadística para Administración y Economía . Onceava edición Alfaomega. Colombia. Los autores del libro son expertos en la materia, lo cual les permite presentar un texto con gran cantidad de ejercicios, utilizando el Excel como herramienta principal.
8
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRELIMINARES
5. Orientaciones generales para el estudio Estimado estudiante, considere las siguientes indicaciones para obtener los mejores resultados en el estudio de la materia: Materiales: 1. Usted dispone del libro básico y guía didáctica, realice una lectura simultánea deteniéndose en los ejemplos que se indican en cada uno. 2. El trabajo a distancia y la evaluación presencial han sido elaborados en función del texto básico y la guía didáctica por lo que su lectura debe concentrarse en estas dos herramientas. 3. Para una mejor comprensión de cada tema realice las actividades complementarias y las autoevaluaciones propuestas al final de cada unidad. Puede comparar las respuestas en el solucionario adjunto al final de este texto. 4. Dispone del Entorno Virtual de Aprendizaje EVA, encontrará un mensaje semanal con la explicación de los contenidos críticos de la asignatura, claves de respuesta de las evaluaciones a distancia y presenciales, o alguna comunicación específica. 5. Dispone de un horario de tutoría semanal, utilícelo para obtener información y explicación de los contenidos de la materia. La tutoría puede realizarse por Internet a través del Entorno Virtual de Aprendizaje EVA, correo electrónico o teléfono. Contenidos: 6. Los conocimientos previos que se requieren para la asignatura son las nociones generales de economía que revisó en Microeconomía II. 7. Para mejor comprensión de los contenidos se utiliza gráficos y algunos ejemplos. Estudio de la materia: 8. En la guía didáctica dispone de la planificación bimestral, luego de revisarla verifique el cumplimiento de los indicadores de aprendizaje, de esta forma podrá medir sus avances académicos, aptitudes y habilidades desarrolladas con el estudio de la materia. 9. Realice un estudio sistemático, distribuyendo su tiempo de manera que disponga de al menos dos horas diarias para leer los contenidos y una semana para que prepare las pruebas bimestrales. 10. Le sugiero que utilice un método específico para su estudio, por ejemplo el método científico. Este supone la observación, inducción, planteamiento y demostración de hipótesis y elaboración de conclusiones. Este método tiene algunas tipologías por lo que le sugiero utilizar la lógica (hacer analogías), deducciones y síntesis. 11. Utilice activamente los recursos tecnológicos como EVA, biblioteca virtual, videoconferencias, recursos educativos abiertos, etc. Antes de ello le propongo que:
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
9
Guía didáctica: Estadística II
PRELIMINARES
Verifique el horario de tutorías con su profesor. Revise las fechas propuestas para las tutorías por videoconferencia, éstas se dictan una vez por bimestre, es su oportunidad para resolver dudas sobre los contenidos de la materia. Durante su estudio utilice una libreta de notas para que durante las tutorías formule todas las preguntas que tiene respecto del tema.
12. Recuerde que ante alguna duda comuníquese con su tutor vía correo electrónico o por teléfono.
10
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
6. Proceso de enseñanza-aprendizaje para el logro de competencias PRIMER BIMESTRE
6.1 COMPETENCIAS GENÉRICAS - Adquirir hábitos y técnicas de estudio eficaces - Capacidad de abstracción, análisis y síntesis - Capacidad de aplicar los conocimientos en la práctica - Capacidad de investigación - Capacidad para identificar, plantear y resolver problemas - Capacidad creativa e innovadora - Capacidad para tomar decisiones 6.2 PLANIFICACIÓN PARA EL TRABAJO DEL ALUMNO. Competencias Específicas
Indicadores de Aprendizaje
Desarrollar el Utiliza la regresión pensamiento lógico lineal simple para la para la aplicación toma de decisiones en aspectos económicos y la interpretación de resultados, gráficas y análisis de datos en modelos reales.
Contenido Unidades/Temas Unidad 1: Regresión lineal 1.1 Supuestos generales del modelo 1.2 Supuesto especifico de normalidad 1.3 Modelo de regresión lineal simple 1.4 Coeficiente de determinación 1.5 Coeficiente de correlación muestral 1.6 Relación entre el coeficiente de determinación y el coeficiente de correlación 1.7 Prueba de significancia del modelo 1.8 Valor p 1.9 Tabla de análisis de varianza 1.10 Estimación de σ 2 1.11 Análisis residual
Actividades de Aprendizaje • • • • •
Lectura comprensiva Desarrollo de autoevaluación Elaboración de cuadro sinópticos Elaborar ejercicios Desarrollo de la evaluación a distancia
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Cronograma Orientativo Tiempo estimado Semanas: 1y2 8 horas de estudio a la semana y 8 horas de interacción por el EVA
La Universidad Católica de Loja
11
Guía didáctica: Estadística II
Utiliza la regresión múltiple para la toma de decisiones
PRIMER BIMESTRE
Unidad 2: Regresión múltiple 2.1 Supuestos del modelo 2.2 Supuesto específico de normalidad 2.3 Método de Mínimos Cuadrados 2.4 Coeficiente de determinación Múltiple R2 2.5 Potencia de explicación del Modelo R2 2.6 Coeficiente de determinación Múltiple Ajustado 2.7 Prueba de significancia 2.8 Tabla de análisis de varianza
Construye modelos de Unidad 3: Análisis de regresión: Construcción regresión de modelos 3.1 Modelo de orden superior 3.2 Modelo con interacción 3.3 Determinación de cuando agregar variables 3.4 Determinación de cuando agregar variables, el caso general
• • • • •
• • • • •
12
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Semanas: 3y4 8 horas de estudio a la semana y 8 horas de interacción por el EVA
Lectura comprensiva Desarrollo de autoevaluación Elaboración de cuadro sinópticos Desarrollo de la evaluación a distancia Interacción con el EVA
Semanas: 5y6 8 horas de estudio a la semana y 8 horas de interacción por el EVA
Resolver Semanas: autoevaluaciones 7 y 8 • Resolver trabajo a distancia • Realizar cuadros sinópticos •
Unidades del 1-3
Lectura comprensiva Desarrollo de autoevaluación Elaboración de cuadro sinópticos Desarrollo de la evaluación a distancia Interacción con el EVA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
6.3 Sistema de evaluación 2. Heteroevaluación
Formas de Evaluación
Competencia: Criterio Comportamiento ético s e d u t i t c A
*
n ó i c a u l a v e o t u A . 1
e t a v r i t e a j b P O
s o t n e i m i c o n o C
e d e t r a P
o y a s n E
n ó i c c a r e t n I
a b e u r P
A V E l e n e
o a y v a i t s n e E j b e O d
x
x
x
x
Cumplimiento, puntualidad y responsabilidad
x
x
x
x
x
Esfuerzo e interés en los trabajos
x
x
x
x
x
Respeto a las personas comunicación
y a las normas de
x
x
x
Presentación, orden y ortografía
x
x
Emite juicios de valor argumentadamente
x
x
x
x
x
x
Investigación (cita fuentes de consulta)
x x
Análisis y profundidad en el desarrollo de los temas
e d a i g e t a r t s E
e j a z i d n e r p A
x
x
x
10% 20% 30% 2
x
x
x
x
x
4
x
x
x
Aporta con criterios y soluciones
Puntaje
x
x
x
Contribución en el trabajo colaborativo y de equipo
PORCENTAJE
x
x
x
Dominio del contenido
n ó i c a u l a v e o C . 3
y
x
Creatividad e iniciativa s e d a d i l i b a H
Evaluación Presencial
Evaluación a Distancia**
6
TOTAL
o t a a n l u a n p t ó e i 1 l c o p a u l m m o a i x C v á ( e M
x
x
x
) a i c n a t s i d
x
70%
14
s e d a d i v i t c A
20 Puntos
a v e l e n e y s e l a i c n e s e r P
Para aprobar la asignatura se requiere obtener un puntaje mínimo de 28/40 puntos, que equivale al 70%. *
Son estrategias de aprendizaje, no tienen calificación; pero debe responderlas con el fin de autocomprobar su proceso de aprendizaje.
** Recuerde: que la evaluación a distancia del primer bimestre y segundo bimestre consta de dos partes: una objetiva y otra de ensayo, debe desarrollarla y entregarla en su respectivo Centro Universitario.
Señor estudiante:
Tenga presente que la finalidad de la valoración cualitativa es principalmente formativa.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
13
Guía didáctica: Estadística II
PRIMER BIMESTRE
6.4 Orientaciones específicas para el aprendizaje por competencias
UNIDAD 1 REGRESIÓN LINEAL Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 14 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.
INTRODUCCIÓN La Regresión Lineal es un modelo estadístico que utiliza una fórmula para explicar la relación lineal entre una variable “y” en términos de otras variables “xi”, para i=1, 2,…, p en un conjunto de individuos o unidades analizadas.
RECUERDE: La variable y es la variable a ser explicada o también llamada variable dependiente, y las variables x se las denomina variables de explicación o variables independientes. El modelo es de la forma: y = β₀ + β₁x₁ + β₂x₂ + ... + β p x p + ε Los valores βi para i=1,2,…, p son llamados coeficientes de regresión (parámetros del modelo), y serán calculados (estimados) por un método estadístico. El valor ε es la expresión de la variable aleatoria del error del modelo conformado por todos los εi errores en cada individuo u observaciones. En esta unidad vamos a estudiar el modelo más sencillo de análisis de regresión en el cual solo intervienen dos variables, la variable de explicación o independiente x y la variable a ser explicada o dependiente y; a este modelo se lo conoce como modelo de Regresión Lineal Simple.
SUPUESTOS GENERALES DEL MODELO En Estadística, todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse para no utilizar un método inapropiado o concluir de forma incorrecta.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
15
Guía didáctica: Estadística II
PRIMER BIMESTRE
En el modelo de regresión lineal simple y = β₀ + β₁x + ε , los supuestos son: ⇨
El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero; E [εi] = 0;
⇨
Es decir que la varianza del error, será la misma para todos los valores de la variable x , en este caso al modelo se lo conoce con el nombre de modelo homocedástico. Cuando la varianza no es constante al modelo se lo conoce con ;el nombre de modelo heterocedástico. Var ( εi) = σ²
⇨
La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes. Cov (εi ε j) = 0; i ≠ j ; i = 1,2,...,n;
SUPUESTO ESPECÍFICO DE NORMALIDAD Es muy común utilizar el supuesto adicional de normalidad, en un modelo de regresión. La variable aleatoria sigue una distribución Normal con media cero y varianza σ², esto se expresa como ε~N ( 0 , σ² ). Se puede demostrar que si y= β₀ + β₁ x + ε, y además ε~N (0, σ²); entonces es una función lineal de , por lo tanto es una variable aleatoria también distribuida normalmente. y~N (β₀+β₁x, σ²) Este es un supuesto muy importante que debe cumplirse cuando utilizamos regresión lineal simple.
MODELO DE REGRESIÓN LINEAL SIMPLE En regresión lineal simple tratamos de explicar a y en términos de x, con el modelo: y = β₀ +β₁ x + ε
Donde β₀ y β₁ son los parámetros del modelo y son desconocidos, pero se los puede estimar por β₀ y β₁ respectivamente. Por otra parte, es la variable aleatoria que representa el error de estimación.
IMPORTANTE:Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada:
16
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
^
^
^
y i = β0 + β1 xi = b0 + b1xi
i = 1,2,...,n, son las observaciones ^
^
Para realizar las estimaciones de β₀ y β₁ mediante β y β utilizaremos el Método de Mínimos Cuadrados. 0
1
Este es un método mediante el cual se utilizan los datos para hallar la ecuación de regresión estimada. La ecuación de regresión como ya habíamos visto antes es: ŷ = b₀ + b₁ x₁
Los valores de b₀ y b₁ se los halla con las siguientes fórmulas: b1 =
∑
n i =1
−
−
( xi − x )( yi − y )
∑
n i =1
− 2
( xi − x)
−
−
b₁ = x - b₁ x
Donde:
xi : Valor de la variable independiente en la i-ésima observación. yi : Valor de la variable dependiente en la i-ésima observación. −
x
: Media de la variable independiente.
−
y
: Media de la variable dependiente. n : Número total de observaciones.
Ejemplo 1.1 A seis clientes del servicio de cajeros automáticos de un banco se les pide califiquen la calidad de tal servicio en una escala de cero a veinte; para el efecto se escogen los clientes de acuerdo al número de años que han estado relacionados con el banco que ofrece el servicio. Se selecciona un cliente por cada año de “antigüedad”, mínimo un año y máximo seis1. Los resultados se muestran en la siguiente tabla. Xi
(Angüedad en años)
1
2
3
4
5
6
(Califcación)
4.8
7.3
8.4
11.0
13.1
15.2
Yi
Tabla 1.1 1. Zurita, G. Probabilidad y Estadística. Fundamentos y Aplicaciones . Primera edición. Ecuador. Centro de Difusión y Publicaciones - ESPOL.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
17
Guía didáctica: Estadística II
PRIMER BIMESTRE
Se nos pide: determinar los estimadores de Mínimos Cuadrados para un modelo de Regresión Lineal Simple. Desarrollo: Con las instrucciones que nos han dado ya estamos preparados para realizar el ejercicio con las fórmulas anteriores para determinar el modelo de Regresión Simple que se ajuste a estos datos. −
−
−
−
−
Cliente i
xi
yi
(xi - x )
(yi- y )
(xi - x )(yi - y )
(xi - x )²
1
1
4,8
-2,5
-5,17
12,92
6,25
2
2
7,3
-1,5
-2,67
4,00
2,25
3
3
8,4
-0,5
-1,57
0,78
0,25
4
4
11
0,5
1,03
0,52
0,25
5
5
13,1
1,5
3,13
4,70
2,25
6
6
15,2
2,5
5,23
13,08
6,25
36,00
17,50
Totales
−
−
x
y
3,5
9,97
Utilizando las ecuaciones ya antes vistas procedemos a calcular el valor de b ₁
b1 =
36.00 17, 50
b₁=2,057 Ahora calculamos el valor de b₀ −
−
b₀ = y - b₁ x
b₀ = 9,97 - (2,057 + 3,5) b₀ = 2,775
Por lo tanto, la ecuación de regresión estimada es: ⇨
^ y = 2,775 + 2,057x
El gráfico de los datos con la recta de regresión estimada, se presenta a continuación:
18
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 1.1 Como la pendiente de la ecuación es positiva nos indica que a medida que se incrementa los años de antigüedad del cliente, se incrementará la calificación que este le da al servicio que el Banco le ofrece. Si nosotros quisiéramos estimar el valor de la calificación (variable y) que le daría al Banco un cliente que tiene 6,5 años de antigüedad, haríamos lo siguiente: Ya tenemos nuestra ecuación de regresión estimada que es ŷ = 2,775 + 2,057x, solo reemplazaríamos en la variable x el valor de años de antigüedad del cliente y así obtendremos la calificación estimada que daría este cliente en particular. ŷ= 2,775 + 2,057(6,5)=16,15
Dado que el modelo es de la forma y = β₀ +β₁ x + ε , entonces ε = y - ( β₀ +β₁ x ). ∧
∧
ŷ₁ = β ₀ + β ₁ xi
Pero la expresión en paréntesis se la reemplaza por cada observación i se estima como: − εi =y i - y i
. De esta forma el error para
Así, en cada observación evaluamos el error de estimación. Cliente i
xi
yi
ŷi = 2,775 + 2,057 (xi)
Ei = yi - ŷi
1
1
4,8
4,83
-0,03
2
2
7,3
6,89
0,41
3
3
8,4
8,95
-0,55
4
4
11,0
11,00
-0,00
5
5
13,1
13,06
0,04
6
6
15,2
15,12
0,08
Totales
−
−
x
y
3,5
9,97
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
19
Guía didáctica: Estadística II
PRIMER BIMESTRE
Ejemplo 1.2 ¿Esperaría que los automóviles más confiables fueran los más caros? Consumer Reports evalúo 15 de los mejores automóviles sedan, la confiabilidad se evalúo con una escala de 5 puntos: mala (1), regular (2), buena (3), muy buena (4) y excelente (5). Los precios y la evaluación sobre la confiabilidad de estos 15 automóviles son los siguientes:
Marca y Modelo
Confiabilidad
Precio
x i
y i
Acura TL BMW 330i Lexus IS300 Lexus ES330 Mecedes-Benz C320 Lincoln LS Premium (V6) Audi A4 3.0 Quattro Cadillacc CTS Nissan Maxima 3.5 SE Infiniti I35 Saab 9-3 Aero Infiniti G35 Jaguar X-Type 3.0 Saab 9-5 Arc Volvo S60 2.5T
4 3 5 5 1 3 2 1 4 5 3 4 1 3 3
33.150 40.570 35.105 35.174 42.230 38.225 37.605 37.695 34.390 33.845 36.910 34.695 37.995 36.955 33.890
Tabla 1.2 Consumer Reports, febrero de 2004 2
Se nos pide ahora determinar la ecuación de regresión utilizando el criterio de mínimos cuadrados para determinar los valores de b ₀ y b₁ Realizando un diagrama de dispersión con estos datos, observamos que hay una tendencia lineal.
Figura 1.2 2. Anderson D. Sweeney D. Williams T. (2009). Estadística para administración y economía. Decima edición. México. 20
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Realizando los cálculos, tenemos:
Calculando el valor de b₁: b1 =
∑
n i =1
−
∑ b1 =
−
( xi − x)( yi − y ) n i =1
− 2
( xi − x )
−36.086, 53
27, 73
= −1.3 01, 20
ahora calculamos el valor de b ₀ −
−
b₀ = y - b₁ x b₀ = 36.562,27 - (1.301,35* 3,13) b₀ = 40.639,35 Por lo tanto, la ecuación de regresión estimada es:
⇨
ŷ = 40.639,35 - 1.301,20x
Como se puede apreciar al estimar la recta de regresión, b ₁ tiene signo negativo, lo que nos indica que la pendiente de esta recta es negativa. Interprete los resultados, analizando la ecuación de regresión estimada, y observando detenidamente el gráfico de dispersión. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
21
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 1.3 En este ejemplo, se puede observar a medida que la confiabilidad del automóvil aumenta, disminuye el precio del mismo. Ahora se pide que se estime el precio de un automóvil sedán cuya evaluación de confiabilidad es 4. Como ya tenemos la ecuación de regresión, podemos estimar cuanto sería el precio de un automóvil cuyo valor de confiabilidad fue de 4, en este caso, en la ecuación de regresión evaluamos en la variable x el valor de 4 de la siguiente forma:
⇨
ŷ = 40.639,35 - 1.301,20 (4) = 35.434,55
Es decir, a estos automóviles si alguien le asigna el valor de confiabilidad de 4, el costo del mismo será de $ 35.434,55
COFICIENTE DE DETERMINACIÓN R2 IMPORTANTE:El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable y ; es decir de la variable a ser explicada, por el modelo de regresión que se ha estimado. Se lo denota como R 2. Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT), este cociente es no negativo y su valor se encuentra entre cero y uno, y se lo define de la siguiente manera: R
2
=
SCR
SCT
en donde: La Suma Cuadrática de Regresión se la define como la suma de la diferencia al cuadrado de los valores estimados de y es decir los valores de ŷi con el valor promedio de los mismos; n
SCR
^
−
= ∑ (Y i − Y )
2
i =1
La Suma Cuadrática Total se la define como la suma de la diferencia al cuadrado de los valores observados de y , con el valor promedio de los mismos; 22
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
n
SCT
−
= ∑ (Y i − Y )
2
i =1
y; la Suma Cuadrática del Error o Residuos que se la define como la suma de la diferencia al cuadrado de los valores observados de y , y los valores estimados de y es decir los valores de ŷi. Y es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada. A este lo utilizaremos más adelante cuando veamos la estimación de σ². n
SCE
^
= ∑ (Y i − Y i )
2
i =1
De tal forma que existe una relación entre estas tres sumas cuadráticas: SCT = SCR + SCE En caso de que solo tengamos información de dos de las tres sumas cuadráticas, podemos utilizar la fórmula anterior para encontrar aquella que nos hace falta, de la siguiente forma. Si poseemos información de la SCT y de la SCR, y nos piden hallar el valor de la SCE, al despejar la ecuación nos queda que; SCE= SCT - SCR
Siguiendo la misma analogía, y ahora poseemos información de la SCT y de la SCE, y nos piden hallar el valor de la SCR, al despejar la ecuación nos queda que; SCR= SCT – SCE
POTENCIA DE EXPLICACIÓN DEL MODELO Se define como el porcentaje R 2 * 100%, es aquel porcentaje que va a explicar que tan bueno es el modelo.
RECUERDE: Si el porcentaje se acerca más a 100% significa que el modelo de regresión tiene perfecta explicación para los datos, si por el contrario el porcentaje se acerca más a 0%, significa que el modelo de regresión no puede explicar los datos. En la práctica encontrar 0% ó 100% es imposible, por lo que debemos acostumbrarnos a encontrar porcentajes menores de 100% en las ecuaciones de regresión y realizar diversos tipos de pruebas para comprobar que tan bueno es un modelo alternativo.
COEFICIENTE DE CORRELACIÓN Ρ
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
23
Guía didáctica: Estadística II
PRIMER BIMESTRE
El coeficiente de correlación nos indica el grado de relación lineal que existe entre las variables que están siendo objeto de estudio, en nuestro caso la relación lineal entre las variables x y y , es un número que se encuentra entre -1 y 1.
IMPORTANTE: A medida que el valor de ρ se acerque a 1, entonces decimos que la relación entre el par de variables es perfecta linealmente con pendiente positiva, si el valor de ρ se va acercando a -1, se indica que la relación entre el par de variables es perfecta linealmente pero con pendiente negativa, y, si este valor de ρ se va acercando a cero (0) diremos que la relación lineal entre este par de variables va desapareciendo o “no existe”. Entiéndase por “no existe”, que estas variables no están relacionadas linealmente, pero puede ser que estén relacionadas de forma exponencial, cuadrática, logarítmica, etc. Se define al coeficiente de correlación entre el par de variables x y y como: -1≤ρ xy ≤1
COEFICIENTE DE CORRELACIÓN MUESTRAL R El coeficiente de correlación muestral realiza las mismas acciones que el coeficiente de correlación , para datos que son tomados de una misma muestra y en los cuales se quiere medir la relación lineal que existe entre ellas. También es un número que se encuentra entre -1 y 1 como el coeficiente de correlación, y se lo calcula de la siguiente manera: n
−
−
∑ ( xi − x)( y i − y ) r xy =
i =1 n
−
−
2 2 ∑ ( xi − x ) ( y i − y ) i =1
RELACIÓN ENTRE EL COEFICIENTE DE DETERMINACIÓN Y EL COEFICIENTE DE CORRELACIÓN Se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación de la siguiente forma: r xy=±√R² Donde el signo es positivo o negativo dependiendo del signo de la pendiente en el modelo de regresión que se ha estimado, es decir el signo que tenga b ₁.
Ejemplo 1.3 Con los datos del Ejemplo 1.2, que trataba sobre de la confiabilidad de los automóviles, determine la SCT, SCE y SCR, calcule además el coeficiente de determinación y el coeficiente de correlación muestral. Desarrollo:
24
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Procedemos a calcular los valores de la SCT, SCR y SCE, con las fórmulas que ya hemos visto en líneas previas, y nos queda de la siguiente manera: SCT; la sumatoria de cada uno de los valores observados restados del valor de la media al cuadrado, es decir; SCT= (33.150 – 36.562,27) 2 + (40.570 – 36.562,27) 2 +… + (33.890 – 36.562,27) 2 SCT = 94.072.518,93.
SCE; la sumatoria de cada uno de los valores observados restados de cada uno de los valores estimados al cuadrado. Los valores estimados son aquellos donde al reemplazar el valor de la variable independiente x , en la ecuación de regresión que se ha encontrado este genera los valores estimados de y. La ecuación de regresión estimada es ŷ =40.639,35 - 1.301,20x , entonces reemplazamos cada uno de los valores que toma la variable x de la siguiente forma: 35.434,56 36.735,76 : : 36.735,76
Al encontrar cada uno de los valores de ŷ, hacemos resta de los valores observados de y con los valores de ŷ y esto lo elevamos al cuadrado, de la siguiente forma:
SCE= (33.150 - 35.434,56) 2 + (40.570 - 36.735,76) 2 + … + (33.890 - 36.735,76) 2 SCE= 47.116.825,86
Y la
n
SCR
^
−
= ∑ (Y i − Y )
2
pero también podemos obtenerla por la diferencia entre la SCT con la SCE,
i =1
de esta forma.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
25
Guía didáctica: Estadística II
PRIMER BIMESTRE
Sabemos que la SCT = SCR+SCE, despejando la SCR nos que lo siguiente: SCR = SCT - SCE SCR = 94.072.518,93 - 47.116.825,86 SCR = 46.955.693,07 En la tabla adjunta se muestran los cálculos de cómo se ha desarrollado el ejercicio.
El coeficiente de determinación es: R
2
=
SCR SCT
=
46.955.693, 07 94.072.518, 93
= 0, 50
Y el coeficiente de correlación muestral es: r xy=±√R² r xy=-√0,50 r xy≠-0,71 En este caso el coeficiente de correlación muestral es negativo porque la pendiente de la ecuación de regresión b₁ lo es, como ya lo habíamos mencionado.
26
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
PRUEBA DE SIGNIFICANCIA DEL MODELO Al momento de nosotros realizar un modelo de regresión lineal simple, y al hacer las estimaciones siempre esperamos obtener un modelo como el que ya hemos visto, la variable que es la variable a ser explicada en términos de la variable x: ŷ = b₀ + b₁ x i
¿Qué pasaría si b₁ es cero? Entonces el modelo quedaría de la siguiente forma: ŷi = b₀
Si esto llegase a pasar, entonces no existirá relación alguna entre este par de variables, por lo que sería conveniente realizar un contraste de hipótesis para determinar si el valor de b ₁ es o no cero. El contraste de hipótesis sería el siguiente: H₀: β₁ = 0 Vs.
Donde en la H0 sugiere que el valor de la constante β₁ es igual a cero, versus, la H 1 que postula que esta constante tiene un valor diferente a cero. El estadístico de prueba para este contraste es el siguiente: F
SCR / p
MCR =
=
MCE
SCE / n
−
−
1
p
Con (1 - α ) * 100% de confianza se rechaza la H 0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α ) * 100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir; se rechaza H 0 si;
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
27
Guía didáctica: Estadística II
PRIMER BIMESTRE
F =
MCR MCE
>
F (α , p − 1, n − p)
Figura 1.4 Valor p O también conocido como p-value por sus siglas en inglés, el valor p es la probabilidad de que se rechace la hipótesis nula H 0, en cualquiera de los contrastes de hipótesis que se vayan a realizar, y como tal es un número que se encuentra entre 0 y 1.
¿Cómo sabemos cuándo debemos rechazar o no la hipótesis nula? Es fácil determinar cuando tenemos que rechazar la hipótesis nula (h 0); Si el “valor p > 0.1”, entonces no existe evidencia estadística para rechazar la hipótesis nula (h0); Si el “valor p < 0.05”, entonces existe evidencia estadística para rechazar la hipótesis nula (h 0); y; si el valor p está “0.05 < p < 0.1”, entonces en este caso no podemos concluir nada,
Nota No decimos se “ acepta” la hipótesis nula, sino que “ no se rechaza” la hipótesis nula.
28
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 1.5 TABLA DE ANÁLISIS DE VARIANZA IMPORTANTE:La tabla de análisis de varianza o también conocida como tabla ANOVA, se utiliza en regresión para analizar la validez del modelo de regresión que hemos estimado. En la tabla adjunta podemos destacar en columnas las Fuentes de Variación, Grados de Libertad, las Sumas y Medias Cuadráticas, el valor del Estadístico de Prueba F y la columna del valor p. Algunas fórmulas ya son conocidas para nosotros, como son las sumas cuadráticas. En los Grados de libertad vemos que intervienen los valores de n y p, donde el valor de n como ya habíamos mencionado es el tamaño de la muestra y p es el número total de parámetros que estamos estimando. También se puede observar las Medias Cuadráticas de Regresión y Error que son el cociente de las Sumas Cuadráticas con sus respectivos Grados de Libertad, el Estadístico de Prueba F, que es el cociente entre la Media Cuadrática de Regresión con la Media Cuadrática del Error y el valor p, que nos indicará si rechazamos o no H0 (hipótesis nula). Fuentes de Variación
Grados de Libertad
Regresión
p-1
Error
n-p
Total
n-1
Sumas Cuadráticas
Medias Cuadráticas
Estadístico de Prueba F
Valor p
Tabla 1.3 UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
29
Guía didáctica: Estadística II
PRIMER BIMESTRE
ESTIMACIÓN DE σ ²
RECUERDE:Como ya sabemos σ ²eslavarianzadelError ; y como ya habíamos mencionado en líneas previas la suma cuadrática del error ó SCE es la medida de variabilidad de las observaciones reales con respecto a la línea de regresión estimada. La SCE dividida para sus grados de libertad (n-p), es decir; MCE es un estimador insesgado de σ ².Para denotarestevalorutilizaremoss². s
2
SCE =
n
−
p
o en otras palabras
s² = MCE en el caso de que requiera estimar σ , el cual lo llamaremos s, conocido también como el error estándar deestimación,procedemosacalcularlaraízcuadradades²;esdecir;
Ejemplo 1.4 Continuando con el Ejemplo 1.2 de los automóviles sedán y la confiabilidad en los mismos, se pide construir la tabla de análisis de varianza, ANOVA, y comprobar la hipótesis de existe una relación entre las variables que están siendo tratadas. Para construir la tabla ANOVA, podemos hacerlo de dos formas, la primera es que haremos uso de los datos que ya hemos calculado, y la otra forma es mediante la ayuda del Software Excel. Para construir la tabla ANOVA necesitamos del valor de n, del valor de p, y los valores de las sumas cuadráticas que ya tenemos, y reemplazamos en tabla descrita en líneas previas. p = 2; n = 15; SCR = 46.955.693,1; SCE =47.116.825,86; SCT = 94.072.518,9; Fuentes de Variación
Grados de Libertad
Regresión
1
46.955.693,1 46.955.693,1
Error
13
47.116.825,9
Total
14
94.072.518,9
30
Sumas Cuadráticas
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Medias Cuadráticas
Estadístico de Prueba F
Valor p
12,96
≅ 0,00
3.624.371,2
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Como ya habíamos mencionado antes, se rechaza la hipótesis nula si F =
F
=
MCR MCE
>
F (α , p − 1, n − p)
49.955.693,1 3.624.371, 2
=
12, 96 > F (0.01,1 .13)
12,96 > 9,07
Figura 1.6 Debido a que el estadístico de prueba es mayor que el percentil (1 - α )*100 de la distribución F de Fisher, como se puede apreciar en la figura 1.6, por lo tanto el valor p es un número aproximadamente cero con dos decimales de precisión, entonces existe evidencia estadística para rechazar H 0 que postula que β₁= 0 , a favor de H1quepostulaque≠0. Adicionalmente, para calcular la estimación de la varianza del error de estimación: s²=MCE s²=3.624.371,2
Y para calcular el error estándar de estimación: s=√3.624.371,2=1.903,78
Ejemplo 1.5 Veamos ahora como con Excel podemos realizar estos mismos cálculos.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
31
Guía didáctica: Estadística II
PRIMER BIMESTRE
Primero debemos confirmar de que en la pestaña de “ Datos” de Excel, podamos visualizar el ícono de “ Análisis de Datos” en el extremo derecho del menú, como se muestra aquí:
Figura 1.7 Si no lo podemos ver, es porque no está instalado y nos debe aparecer una pantalla como esta:
Figura 1.8 Si nos parece como el segundo ejemplo (donde no se visualiza “ Análisis de Datos”), entonces necesitamos hacer un procedimiento previo. Vamos a dar enter en el “ Botón de Office” (Círculo arriba a la izquierda del Excel) y luego daremos enter en “ Opciones de Excel ”.
Figura 1.9
32
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Luego en el menú de la izquierda seleccionamos la opción “ Complementos”, se despliega un cuadro de opciones. Comprobar en la parte inferior que nos encontramos en “ Administrar = Complementos de Excel” y a continuación daremos enter en el botón “ Ir”, en donde aparece el siguiente cuadro, donde debemos dar enter hasta habilitar la opción “ Herramientas para Análisis ” y daremos enter en “ Aceptar”.
Figura 1.10 Ahora, ya podemos verificar que en el menú de Excel “Datos”, aparece “ Análisis de Datos”.
Figura 1.11 Solucionado esto, ahora procedemos a resolver el ejercicio de regresión. En una hoja de Excel tenemos la información tanto de la variable como de la variable , en el menú de Datos escogemos la opción “ Análisis de datos”, aparece un cuadro de diálogo llamado “ Análisis de datos / Funciones para análisis ” que presenta una serie de opciones con los que podemos trabajar, en nuestro caso escogeremos la opción “ Regresión” y hacemos clic en aceptar.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
33
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 1.12 A su vez aparecerá otro cuadro de diálogo donde en “Rango Y de entrada” escogemos los valores de la variable dependiente desde el nombre que caracteriza a la variable, y así mismo en “ Rango X de desde el nombre que caracteriza a entrada”, escogemos los valores de la variable independiente esta variable, marcamos la opción de “ Rótulos”, la opción de “ Nivel de confianza” en el cual escribimos 99%, y escogemos por último las opciones de salida, si queremos ver los resultados en una nueva hoja de cálculo, en un libro nuevo, o que empiece a mostrar los resultados en cualquiera de las celdas del libro en el que se está trabajando, como se muestra en la figura 1.13; y clic en “ Aceptar”.
Figura 1.13 Como se puede observar en los resultados de Excel, este presenta un resumen de lo que se ha trabajado, Excel muestra el valor del coeficiente de determinación; el coeficiente de correlación muestral aquí es denominado “Coeficiente de correlación múltiple ”, aunque no nos da el signo que este lleva, pero nosotros sabemos que signo debe llevar con solo ver el signo de b 1, presenta además el error estándar de estimación aquí llamado “ Error típico” y el número de observaciones que hay. La tabla de Análisis de Varianza o ANOVA muestra las fuentes de variación como ya lo hubiéramos mencionado en líneas anteriores, con sus respectivos grados de libertas (gl), las sumas cuadráticas (SC), las medias cuadráticas (MC), el valor calculado mediante el estadístico de prueba F, y el valor p que si nos damos cuenta para este ejemplo es un número aproximadamente cero con dos decimales de precisión.
34
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Lo mismo que ya habíamos hallado antes; y con estos resultados concluimos exactamente lo mismo, que existe evidencia estadística para rechazar H 0 a favor de H1. Resumen Estadísticas de la regresión Coeficiente de 0,71 correlación múltiple R^2 R^2 ajustado
0,50 0,47
Estadísticas de la regresión Error típico 1.903,78 Observaciones 15 ANÁLISIS DE VARIANZA gl 1 Regresión 13 Residuos 14 Total
SC MC 46.955.693,08 46.955.693,1 47.116.825,86 3.624.371,22 94.072.518,93
Coeficientes Intercepción Confiabilidad x
Error típico
40.639,35 1.234,78 -1.301, 20
361,51
F 12,96
Valor p 0,0032
Estadístico t Probabilidad 32,93
6,6095E-14
-3,60
0,0032
Y en las últimas filas se muestran los parámetros estimados, para este caso b₀ y b₁ ,que si comparamos con nuestros resultados, nos daremos cuenta que son los mismos.
⇨
ŷ = 40.639,35 - 1.301,20x
ANÁLISIS RESIDUAL En esta sección vamos a analizar lo que nosotros conocemos como los residuos (errores de estimación), que como sabemos es la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ. Lo que nos permite observar en el análisis residual es que se cumplan los supuestos bajo los cuales hemos construido el modelo de regresión, en este caso del supuesto general de que la varianza del error es la misma para todos los valores de x, Var (∈i) = σ² Un tipo de comprobación de este supuesto es visual, haciendo un gráfico de dispersión entre los residuos y la variable x. Dependiendo de los datos, en esta prueba gráfica pueden ocurrir tres casos.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
35
Guía didáctica: Estadística II
PRIMER BIMESTRE
Caso 1: El primer caso es que se cumplen con el supuesto de que la varianza es la misma para todos los valores de y, es decir la varianza es constante, como se muestra en el gráfico a continuación:
Figura 1.14 Caso 2: El otro caso que podría ocurrir es el siguiente, en el cual no se cumple el supuesto de que la varianza sea constante, sino que depende de los valores de la variable :
Figura 1.15 Caso 3: El tercer gráfico que podría ocurrir es aquel que al hacer la grafica de los residuos, este no represente la relación que existe entre el par de variables.
Figura 1.16
36
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Ejemplo 1.6 Siguiendo con el ejemplo de los automóviles sedán, hemos calculado anteriormente los valores del Error o Residuos y estos los graficamos junto con los valores observados de x (variable independiente). Los datos y el gráfico se presentan a continuación:
Confiabilidad Residuos 4 -2.284,56 3 3.834,24 5 971,63 5 1.040,63 1 2.891,85 3 1.489,24 2 -431,96 1 -1.643,15 4 -1.044,56 5 -288,37 3 174,24 4 - 739,56 1 -1.343,15 3 219,24 3 -2.845,76 Tabla 1.4
Figura 1.17 Lo que se puede observar en el gráfico es que al parecer si cumple con el supuesto de que la varianza es constante, tiene un aparecido con el gráfico de la figura 1.14, pero los altos valores de los residuos según el eje, podrían confundir nuestra apreciación. Una forma de reducir este riesgo de observación es el de estandarizar los residuos y observar el gráfico con los residuos estandarizados. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
37
Guía didáctica: Estadística II
PRIMER BIMESTRE
Para estandarizar los residuos lo que hacemos es al residuo le restamos su media que se supone es cero por los supuestos, y se lo divide para la raíz cuadrada de la MCE es decir s. Realizamos los pasos para el primer resultado, los demás se realizan de manera similar; solo se cambian los valores del error. ^
ei
=
ei
−
µ
MCE
^
e1
2.284, 56
−
0
3.624.371, 22
^
e1
−
=
2.284, 56
− =
1.903, 78
^
e1
38
=
1.20
−
Confiabilidad
Residuos
4 3 5 5 1 3 2 1 4 5 3 4 1 3 3
-2.284,56 3.834,24 971,63 1.040,63 2.891,85 1.489,24 -431,96 -1.643,15 -1.044,56 -288,37 174,24 -739,56 -1.343,15 219,24 -2.845,76
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
Residuos Estandarizados -1,20 2,01 0,51 0,55 1,52 0,78 -0,23 -0,86 -0,55 -0,15 0,09 -0,39 -0,71 0,12 -1,49
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 1.18 Como nos podemos dar cuenta el gráfico prácticamente es el mismo, solo que a diferentes escalas, pues en el primero el eje Y está representado por los residuos, en cambio el otro gráfico en el eje Y muestra los residuos estandarizados. Por lo tanto podemos concluir que el modelo de regresión lineal empleado en este caso, es un modelo válido.
Actividades recomendadas
Es conveniente desarrollar actividades recomendadas que le permitan establecer el nivel de comprensión de los temas estudiados en esta unidad, por lo que le sugiero efectuar lo siguiente: 1. 2. 3. 4. 5. 6.
Identifique un caso real donde pueda utilizar la regresión lineal. De ese caso, identifique el cumplimiento de los supuestos generales del modelo. El caso real, ¿cumple el supuesto específico de normalidad?. Justifique su respuesta. Plantee un caso en el que determine la SCT, SCE y SCR. Del caso anterior calcule el coeficiente de determinación. De ese mismo caso calcule el coeficiente de correlación muestral.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
39
Guía didáctica: Estadística II
PRIMER BIMESTRE
Autoevaluación 1 Le sugiero, resolver a continuación, la presenta autoevaluación que le ayudará a conocer la comprensión de esta unidad. En caso de resolverla satisfactoriamente (80% o más) podría pasar a la siguiente unidad y, en caso contrario, se debería revisar nuevamente el tema o los temas en los que haya tenido dificultad.
En los siguientes enunciados conteste con una V o una F, dentro de los paréntesis correspondientes, si considera que el enunciado es verdadero o es falso, respectivamente. 1.
(
)
La variable y es la variable a ser explicada o también llamada variable dependiente
2.
(
)
En estadística no todos los métodos de estimaciones de parámetros se realizan bajo ciertos supuestos que deben verificarse
3.
(
)
Para estimar los valores de β₀ y β₁ se necesita encontrar la ecuación de regresión estimada
4.
(
)
El coeficiente de determinación es aquel que indica la proporción de la varianza de la variable x.
5.
(
)
Se define al coeficiente de determinación como el cociente entre la suma cuadrática de regresión (SCR) y la suma cuadrática total (SCT)
6.
(
)
El valor del coeficiente de determinación se ecuentra entre cero y uno
7.
(
)
El coeficiente de correlación nos indica el grado de relación exponencial que existe entre las variables que están siendo objeto de estudio
8.
(
)
No se puede determinar el valor del coeficiente de correlación muestral a partir del coeficiente de determinación
9.
(
)
El valor p es la probabilidad de que se acepta la hipótesis nula H0 .
10. (
)
Los residuos (errores de estimación) son la diferencia entre los valores observados de y con los valores estimados a partir de la ecuación de regresión ŷ.
40
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
UNIDAD 2 REGRESION MÚLTIPLE Para el desarrollo de este capítulo, vaya revisando conjuntamente con esta guía el capítulo 15 del texto básico Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición.
INTRODUCCIÓN IMPORTANTE:El modelo de regresión múltiple busca la explicación de la variable dependiente y; en términos de dos o más variables independientes x; en vez de solo una variable x como lo hace la regresión lineal simple. Si recordamos el modelo en regresión lineal simple es: y = β₀ + β₁x + є En regresión múltiple el modelo será: y = β₀ + β₁ xXi₁ + β₂ xi₂ + ... + β ρXiƿ + єi En el modelo de regresión lineal simple solo teníamos dos parámetros a estimar β₀ y β₁ , a través del método de mínimos cuadrados, algo que varía ahora en el modelo de regresión múltiple que tendremos que estimar β₀, β₁, β₂ hasta βρ, como ya hemos visto en el modelo anterior. De forma similar, los p parámetros en el modelo tendríamos que estimarlos mediante el método de mínimos cuadrados como ya habríamos hecho en el caso de regresión lineal simple.
SUPOSICIONES DEL MODELO En regresión múltiple los supuestos son similares a los supuestos de regresión lineal simple:
⇨El valor esperado o media, de los errores de estimación del modelo sobre las observaciones es cero;
ε [εi] = 0
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
41
Guía didáctica: Estadística II
PRIMER BIMESTRE
La varianza del error, será la misma para misma todos los valores de las variables X, X i1, xi2, ... , xip al igual que en regresión lineal al modelo será llamado homocedástico. Y cuando la varianza no es constante, al modelo se le da el nombre de modelo heterocedástico. Var ( єi ) = σ² La covarianza del error entre observaciones es cero, suponemos que las variables aleatorias del error son independientes. Cov (єi, єi)=0;i≠j;i=1,2,...,n
Supuesto específico de Normalidad La variable aleatoria ∈~ N (0, σ²) , es decir se distribuye normalmente con media cero y varianza σ² entonces; E[y] = E [β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i] y = β₀ + β₁Xi1, β₂xi2 +... +βp xip Al igual que en regresión lineal simple y es una función lineal de , por lo tanto y es una variable aleatoria distribuida normalmente. y ~ N (β₀ + β₁Xi1, β₂xi2 +... +βp xip, σ²)
MÉTODO DE MÍNIMOS CUADRADOS RECUERDE: En muchas ocasiones una variable (independiente) explica perfectamente a otra (dependiente), pero existen casos que una sola variable no es suficiente, y en ese caso se incorporan más variables al modelo.
Al igual que en regresión lineal simple, se presentan los parámetros del modelo, que son los β’s, que sabemos que son desconocidos pero estimables. El modelo de regresión múltiple y la ecuación de regresión estimada se presentan a continuación: y = β₀
+ β₁Xi1, β₂xi2 +... +βp xip + ∈i
ŷ = b₀ + b₁Xi1, b₂xi2 +... +bp xip
42
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Para las estimaciones del caso de regresión lineal simple, teníamos dos ecuaciones con dos incógnitas. En el caso de regresión múltiple tendremos dos o más ecuaciones con dos o más incógnitas, como veremos a continuación: n
n
∑ yi = bo * n + b *∑ xi 1
1
i =1
n
∑ xi
1
1
i =1
i =1
n
n
∑ xi
2
∑ xi
* yi = b0 *
i =1
i =1
n
∑ xi
* yi = b0 *
n
+ b2 *∑ xi 2 + ... + b p *∑ x ip
i =1
n
n
+ b1 *∑ x
2
i1
n
n
i =1
i =1
+ b2 *∑ xi1 *xi 2 + ... + b p * ∑ xi1 * xip
i =1
n
2
n
+ b1 *∑ xi 2 + xi1 + b2 *∑ x
i =1
i =1
i =1
i =1
n
n
n
n
∑ xip * yi = b *∑ xip + b *∑ xip + xi 0
i =1
1
i =1
1
+ b2 *∑ x
i =1
n
2
i2
* xi1 + ... + b2 *
∑x i i =1
ip
*xi 2 +
i =1
2
∑ xi
* bp *
2
* xip
i =1
n
n
2
n
2
∑ xip * xi
2
+ ... + b p * ∑ x
2
ip
i =1
i =1
Así tendremos tantas ecuaciones como parámetros se deban estimar. Dada la complejidad en la resolución de este sistema, utilizaremos Microsoft Excel para estimar los valores de los parámetros β’s.
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2 Al igual que en regresión lineal simple, el coeficiente de determinación R ² explica la proporción de la variación de la variable a ser explicada y , por el modelo de regresión múltiple que se ha estimado, y se lo denota de la misma forma:
R
2
=
SCR SCT
En donde SCT, SCR y SCE son las mismas fórmulas que utilizábamos en regresión lineal simple: n
^
−
SCR = ∑ ( yi − y ) i =1
n
2
^
SCE = ∑ ( yi − yi )
n
2
i =1
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
−
SCT = ∑ ( yi − y )
2
i =1
La Universidad Católica de Loja
43
Guía didáctica: Estadística II
PRIMER BIMESTRE
Si nos hacen falta alguna de las sumas cuadráticas, las podemos hallar despejando la fórmula como en regresión lineal simple, sabiendo que: SCT= SCR + SCE
Despejamos el término que nos hace falta: SCR= SCT – SCE SCE= SCT – SCR
Potencia de Explicación del Modelo R 2 * 100% Se lo define como el porcentaje R 2 * 100%, al porcentaje que va a explicar que tan bueno es el modelo.
RECUERDE:En regresión múltiple a medida que se aumenta el número de variables independientes, también aumenta el valor de este cociente. Aunque este incremento puede no ser significativo. En el caso de que este valor sea muy bajo puede deberse a que no se ha incluido alguna variable en el modelo, pero esto no significa que el valor de R 2 aumentará de forma significativa, solo lo hará siempre y cuando la variable a incluir aporta con gran información al modelo. Obviamente también cambiarán los valores de las sumas cuadráticas y específicamente el valor del Error disminuirá para que este cociente sea alto.
COEFICIENTE DE DETERMINACIÓN MÚLTIPLE AJUSTADO Se utiliza el coeficiente de determinación ajustado para comparar dos o más modelos que tengan en común la misma variable a ser explicada y, para determinar cual modelo ajusta mejor. Este número siempre será menor que el Coeficiente de Determinación, además, penaliza al modelo que contenga más variables explicativas. Su fórmula es:
Donde R² es el coeficiente de determinación, n es el número de observaciones y k es el número de variables independientes.
PRUEBA DE SIGNIFICANCIA Recordemos el modelo con el que estamos trabajando en regresión múltiple; nosotros tratamos de explicar a una variable dependiente y, mediante varias variables independientes x p = 1,2,...,p; 44
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
⇨
y = β₀ + β₁Xi1, β₂xi2 +... +βp xip + ∈i
Como sabemos los valores de los coeficientes β's son estimados mediante el método de mínimos cuadrados, y lo que se espera es que ninguno de estos coeficientes al momento de ser estimados sea cero (0), para esto postularemos un contraste de hipótesis en donde se rechace o no la posibilidad de que esto ocurra. El contraste de hipótesis es el siguiente: H₀: β₁ = β₂ = ... = Bp = 0 Vs. H₁ : Al menos uno de los β 's no es cero Donde en H0 se afirma que los valores de las constantes β₁, β₂, ... , β p son iguales a cero, versus, la H1 que postula que al menos una de estas constantes tiene un valor diferente a cero. El estadístico de prueba para este contraste es el mismo que ya utilizáramos cuando teníamos solo una variable de explicación: MCR F = ______ MCE Con (1 - α)*100% de confianza se rechaza la H 0 en favor de H1 si el valor del estadístico de prueba F es mayor que el percentil (1 - α)*100 de la Distribución F de Fisher con (p-1) grados de libertad en el numerador y (n-p) grados de libertad en el denominador, es decir; MCR F = ______ > T (α , p 1 , n p) MCE Si H0 es rechazada como es lo esperado, ahora tendremos que determinar cuál de todos los β’s, no es cero, es decir cuál de los β’s es realmente significativo para el modelo; y esto lo haremos mediante otro contraste de hipótesis, pero ahora analizaremos esto para cada uno de los valores de los β ’s, como se ve a continuación; En general, tendríamos varios contrastes, uno para cada uno de los βi ,así: H₀: β₂ = 0 Vs. H₁ : β₁≠0;i-1,2,...,(p-1)
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
45
Guía didáctica: Estadística II
PRIMER BIMESTRE
H0 postula que uno β₁ es igual a cero (0), versus H 1 que postula que el valor es diferente de cero (0). El estadístico de prueba para este contraste de hipótesis es:
donde b₁ ; es el valor estimado del parámetro βi y sbi es la estimación de la desviación estándar de b i, es decir; s
S b = i
n
−
2 ∑ i=1 ( xi − x)
dondes=√MCF,elerrorestándardeestimación.
A medida que se aumentan variables al modelo, para realizar los cálculos este se vuelve un poco difícil determinar las sumas cuadráticas, realizar cada uno de los contrastes de hipótesis, etc., por lo que recurriremos a Microsoft Excel para estos cálculos.
TABLA DE ANÁLISIS DE VARIANZA La tabla ANOVA que vamos a utilizar para Regresión Múltiple será la misma que hemos utilizado en Regresión Lineal Simple: Fuentes de Variación
Grados de Libertad
Sumas Cuadráticas n
Regresión
p-1
^
−
2 ∑ ( y i − y ) i =1 n
Error
n-p
^
∑ ( y − y ) i
2
i
Total
n-1
-
∑ ( y − y ) i
SCR P − 1
Estadístico de Prueba F F =
SCE n− p
i =1 n
Medias Cuadráticas
2
i
i =1
Tabla 2.1
46
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
MCR MCE
Valore p p = Prob (F p-1, n - p ≥F)
Guía didáctica: Estadística II
PRIMER BIMESTRE
Veamos el siguiente ejemplo:
Ejemplo 2.1 En el béisbol, el éxito de un equipo se suele considerar en función del desempeño en bateo y en lanzamiento de equipo. Una medida del desempeño en el bateo es la cantidad de cuadrangulares que anota el equipo y una medida del desempeño en lanzamiento es el promedio de carreras ganadas por el equipo que lanza. En general, se cree que los equipos que anotan más cuadrangulares (home run) y tienen un promedio menor de carreras ganadas ganan un mayor porcentaje de juegos. Los datos siguientes pertenecen a 16 equipos que participaron en la temporada de la Liga Mayor del Béisbol de 2003; se da la proporción de juegos ganados, la cantidad de cuadrangulares del equipo (HR) y el promedio de carreras ganadas (ERA) (www.usatoday.com, 17 de enero de 2004) 33.
Equipo Arizona Atlanta Chicago Cincinnati Colorado Florida Houston Los Angeles Milwaukee Montreal New York Philadelphia Pittsburgh San Diego San Francisco St. Louis
Proporción de ganados 0,519 0,623 0,543 0,426 0,457 0,562 0,537 0,525 0,42 0,512 0,41 0,531 0,463 0,395 0,621 0,525
HR
ERA
152 235 172 182 198 157 191 124 196 144 124 166 163 128 180
3,857 4,106 3,842 5,127 5,269 4,059 3,88 3,162 5,058 4,027 4,517 4,072 4,664 4,904 3,734
196
4,642
Tabla 2.2 Obtenga la ecuación de regresión estimada para predecir la proporción de juegos ganados en función de la cantidad de cuadrangulares. Interprete resultados. Desarrollo: Al usar el Software Excel con los mismos pasos como en Regresión Lineal Simple, con la diferencia de que cuando vayamos a seleccionar las variables independientes, tenemos que tomarlas en conjunto las dos columnas (o tres columnas en caso de que se cuenten con tres variables independientes) junto con el nombre que las caracteriza igual como hiciéramos en Regresión Lineal. 3. Anderson, D., Sweeney, D., y Williams, T. Estadística para administración y economía, decima edición México.
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
47
Guía didáctica: Estadística II
PRIMER BIMESTRE
En el menú Datos, opción “ Análisis de datos”, aparece el cuadro de diálogo en el que escogemos la opción “Regresión”, en el cuadro de diálogo “ Regresión”, como ya hiciéramos antes, el rango de entrada serán las celdas donde se encuentra la variable dependiente y, en este caso es la proporción de juegos ganados, como se muestra en la figura:
Figura 2.1 Para escoger el rango de entrada x, es decir las variables independientes en este caso son dos, señalaremos las dos columnas HR y ERA, como se muestra en la figura.
48
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
Guía didáctica: Estadística II
PRIMER BIMESTRE
Figura 2.2 Señalamos la opción “Rótulos”, “Nivel de confianza” con 99%, y en el “Rango de salida” escogemos la celda en la que queremos que se muestren los resultados, en este caso en la celda “W6” pero podemos escoger cualquier celda para esto. Al hacer clic en el botón aceptar, Excel muestra los siguientes resultados:
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
49