ESTADÍSTICA BÁSICA APLICADA CON SPSS
Alfonso García Pérez María Yolanda Cabrero Ortega
2
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Copyright © 2010 Alfonso García Pérez Pérez María Yolanda Cabrero Ortega ``No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisión además de las correspondientes correspondientes indemnizaciones para quien lo plagiara"
Edita: Universidad Nacional de Educación a Distancia
2
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Copyright © 2010 Alfonso García Pérez Pérez María Yolanda Cabrero Ortega ``No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro está registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisión además de las correspondientes correspondientes indemnizaciones para quien lo plagiara"
Edita: Universidad Nacional de Educación a Distancia
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
3
Contenido
Prólogo………………………………………………………. 5 Capítulo 1: Introducción al SPSS ……………………… 7 Capítulo 2: Estadística Descriptiva ……………………. 11 Capítulo 3: Intervalos y Contrastes básicos .………… 17 Capítulo 4: Análisis de la Varianza ……..………........... 19 Capítulo 5: Regresión Lineal y Correlación ..………… 31 Capítulo 6: Tablas de Contingencia …………............... 37
4
ESTADÍSTICA BÁSICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
5
Prólogo
El presente texto es dedicado al Tratamiento Informático del curso Estadística Aplicada a las Ciencias de la Salud. En él se analiza el uso de SPSS. No obstante, ya adelantamos que no es exhaustivo en cuanto al análisis de todos los Métodos a los que dicho paquete se puede aplicar, ya que la mejor manera de aprenderlo es utilizarlo y, en la mayoría de las ocasiones, los comentarios resultan redundantes ante la sencillez de manejo de este software. Dado que los ejemplos que analizaremos en este texto son los del libro Estadística Aplicada: Conceptos Básicos , no repetiremos aquí los enunciados de dichos ejemplos, indicándolos con la abreviatura CB y el número del ejemplo correspondiente. Por último, le recordamos que puede ver más grandes la reproducciones de la pantalla, es decir, las ventanas, utilizando el zoom de su pdf .
Alfonso García Pérez María Yolanda Cabrero Ortega
[email protected]
6
ESTADÍSTICA BÁSICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
7
Capítulo 1
Introducción al SPSS
1.1. Introducción Una de las características más destacadas de SPSS (en especial con respecto a BMDP o SAS) es que no es necesario conocer un lenguaje de programación para utilizarlo (aunque lo tiene). Su exitosa presentación de “Métodos Estadísticos a ejecutar ” en forma de persianas, permite comenzar a utilizarlo casi sin conocimientos previos del paquete. Por esta razón, este texto será simple y breve ya que, sin duda, la mejor manera de aprende a manejar SPSS es utilizarlo.
1.2. El editor de datos Lo primero que analizaremos es cómo introducir los datos de nuestro problema, definiendo las variables a analizar con posterioridad. Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1, en el que, si queremos ir tecleando los datos, elegiremos la opción Introducir datos, apareciendo, a continuación el editor de datos en blanco en el que debemos introducir los datos observados en el primer individuo de la primera variable en la primera fila de la primera columna. Para ir viendo cómo funciona el editor de datos, vamos a considerar un ejemplo Ejemplo 1.1 _____________________________________________ Se eligió al azar una muestra de 56 individuos de una población a los que se clasificó según su Edad, su Sexo y según si era o no Fumador, obteniéndose los siguientes datos:
8
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Menores de 20 años Hombre Mujer Sí fuma 11 3 No fuma 1 7 Entre 20 y 50 años Hombre Mujer Sí fuma 1 4 No fuma 2 5 Mayores de 50 años Hombre Mujer Sí fuma 13 1 No fuma 2 6 En determinados modelos, las variables deben ser categóricas ; es decir, deben definir categorías en las que clasificar los datos. Nosotros, de momento, utilizaremos datos de tipo numérico. Para ello, lo más simple es ir introduciendo los datos y más tarde, modificar, si es necesario, sus propiedades.
Figura 1.1 Para el ejemplo en cuestión, incluiremos (por este orden) datos de las tres variables: la variable Edad, con tres valores, 1 para los individuos menores de 20 años, 2 para los individuos entre 20 y 50 años y 3 para los individuos mayores de 50 años. Para la variable Sexo, dos valores, 0 para los hombres y 1 para las mujeres. Y, finalmente, la variable Fumador , con dos valores, 0 para los individuos que no fuman y 1 para los que sí fuman. Así, los datos de los individuos de la tabla anterior serán los de la Figura 1.2.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
9
Figura 1.2 Con objeto de introducir el nombre de las variables, pincharemos con el Ratón la pestaña de abajo Vista de variables, apareciendo un panel como el de la Figura 1.3. Pinchando el 1, podremos teclear el nombre de las tres variables así como sus principales características. Volveremos al editor de datos pinchando en la pestaña inferior, Vista de datos.
Figura 1.3 En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos. Si nuestros datos están ya en un archivo, debemos incluirlos en el Editor de datos con la opción: Archivo Abrir Datos (Figura 1.4) →
→
10
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Figura 1.4
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
11
Capítulo 2
Estadística Descriptiva 2.1. Distribuciones de Frecuencias, Representaciones Gráficas, Medidas de Posición y Dispersión El estudio de las técnicas estudiadas aquí, puede seguirse en el Capítulo 2 del texto CB. Una de las ventajas de SPSS es que, de una vez, obtenemos la mayoría de los resultados en los que estamos interesados. Ejemplo 2.1-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar
→
Estadísticos Descriptivos
Figura 2.1
→
Frecuencias
12
ESTADÍSTICA BÁSICA APLICADA CON SPPS
apareciéndonos una ventana de diálogo como la de la Figura 2.2
Figura 2.2 Ahora, pasamos la variable en estudio, nivel , al cuadro de la derecha, completamos lo estadísticos que queremos calcule en el botón Estadísticos, que en nuestro caso hemos elegido según la Figura 2.3
Figura 2.3 cerrando la ventana con el botón Continuar . Lo mismo hacemos con el botón Gráficos, con el que, en este caso, hemos elegido las opciones que aparecen en la Figura 2.4,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
13
Figura 2.4 Ya podemos ejecutar nuestras elecciones efectuadas con las anteriores ventanas de diálogo, presionando el botón Aceptar . No obstante, queremos señalar que, todo lo que hemos ido seleccionando, se ha ido traduciendo al lenguaje SPSS dentro de lo que aparece en el botón Pegar , que si lo presionamos aparecerá, en este ejemplo, FREQUENCIES VARIABLES=nivel /NTILES= 4 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM MEAN MEDIAN MODE SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER= ANALYSIS .
Ésta es la denominada Sintaxis SPSS o Lenguaje de Programación SPSS, que podemos salvar, guardar, modificar y ejecutar en lugar de utilizar las persianas que aparecen arriba del Editor de Datos. No obstante, como precisamente éstas son la ventaja de SPSS, no utilizaremos la sintaxis de este paquete sino dichas persianas, pero queremos que el lector tenga presente siempre la existencia subyacente de estos programas. O bien mediante los menús o bien con la sintaxis, para este ejemplo obtendríamos los siguientes resultados:
ESTADÍSTICA BÁSICA APLICADA CON SPPS
14
Estadísticos nivel N
Válidos Perdidos
Media Mediana Moda Desv. típ. Varianza Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Rango Mínimo Máximo Percentiles
34 0 11,3529 11,4500 12,50 1,87459 3,514 ,536 ,403 ,876 ,788 8,70 7,80 16,50 10,0500 11,4500 12,4000
25 50 75
nivel
Válidos
7,80 8,50 8,60 9,10 9,20 9,30 9,70 9,90 10,10 10,20 10,30 10,60 10,80 11,10 11,30 11,40 11,50 11,60 11,80 11,90 12,00 12,20 12,30
Frecuencia 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 2
Porcentaje 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 5,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 5,9
Porcentaje válido 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 5,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 2,9 5,9
Porcentaje acumulado 2,9 5,9 8,8 11,8 14,7 17,6 20,6 23,5 26,5 29,4 32,4 35,3 38,2 44,1 47,1 50,0 52,9 55,9 58,8 61,8 64,7 67,6 73,5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA 12,40 12,50 12,70 14,90 15,00 16,50 Total
2 3 1 1 1 1 34
15
5,9 8,8 2,9 2,9 2,9 2,9 100,0
5,9 8,8 2,9 2,9 2,9 2,9 100,0
79,4 88,2 91,2 94,1 97,1 100,0
Histograma
8
6
a i c n e u c 4 e r F
2
Media =11,3529 Desviación típica =1, 87459 N =34
0 8,00
10,00
12,00
14,00
16,00
18,00
nivel
El histograma final se puede editar y cambiar los colores, el título, etc. Con la secuencia Gráficos
→
Histograma
podemos volver a obtener el histograma anterior, pero lo que queremos señalar es que la persiana de Gráficos, permite obtener gráficos de ata calidad sin tener que realizar análisis estadístico alguno.
16
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Figura 2.5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
17
Capítulo 3
Intervalos y Contrastes básicos
3.1. Intervalos y tests t-Student SPSS calcula, básicamente, intervalos y tests de la t de Student. Aunque en CB resolvimos este ejemplo con un intervalo basado en la normal, lo ejecutaremos a continuación con uno basado en la t de Student. Dado que se consideran 35 observaciones, las diferencias apenas si existe entre ambas metodologías. Ejemplo 6.2-CB ___________________________________________ Después de introducir los datos, ejecutamos la secuencia Analizar
→
Comparar medias
→
Prueba T para una muestra
Figura 3.1
ESTADÍSTICA BÁSICA APLICADA CON SPPS
18
A continuación aparece (Figura 3.2) el siguiente cuadro de diálogo en donde hemos trasladado la variable en estudio al cuadro de la derecha. El 0 de la ventana Valor de Prueba es la hipótesis nula a contrastar. Con el botón Opciones podemos solicitar el intervalo de confianza para el coeficiente de confianza deseado.
Figura 3.2 El resultado obtenido es el siguiente: Estadísticos para una muestra
N Actividad
35
Media ,75300
Desviación típ. ,518283
Error típ. de la media ,087606
Prueba para una muestra Valor de prueba = 0 95% Intervalo de confianza para la diferencia Actividad
t 8,595
gl 34
Sig. (bilateral) ,000
Diferencia de medias ,753000
Inferior ,57496
Superior ,93104
Al final del segundo cuadro vemos el intervalo de confianza de confianza 0’95.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
19
Capítulo 4
Análisis de la Varianza
4.1. Un Factor: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.2 del texto CB. Ejemplo 8.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Cajas mediante la secuencia (Figura 4.1) Gráficos
→
Diagramas de Cajas
Figura 4.1 con lo que se abre la ventana de diálogo de la Figura 4.2
20
ESTADÍSTICA BÁSICA APLICADA CON SPPS
Figura 4.2 en la que seleccionamos definir, haciéndolo según la Figura 4.3
Figura 4.3 Ahora, con el botón Aceptar obtenemos los siguientes resultados,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
21
dieta Resumen del procesamiento de los casos Casos dieta 1 2 3
peso
N
Válidos Porcentaje 5 100,0% 5 100,0% 5 100,0%
Perdidos N Porcentaje 0 ,0% 0 ,0% 0 ,0%
N
Total Porcentaje 5 100,0% 5 100,0% 5 100,0%
peso
36,00
o s e 33,00 p
30,00
1
2
3
dieta
en donde destaca el último gráfico, el Diagrama de Cajas buscado, en donde se puede apreciar que puede aceptarse una dispersión parecida en los tres “tratamientos” del factor dieta.
ESTADÍSTICA BÁSICA APLICADA CON SPPS
22
El Análisis de la Varianza para un factor puede hacerse ahora con la secuencia Analizar
Comparar medias
→
ANOVA de un factor
→
pero preferimos seguir la secuencia (Figura 4.4) Analizar
Modelo lineal general
→
→
Univariante
por ser este análisis el más simple de Modelo Lineal General
Figura 4.4 La ventana de diálogo que aparece a continuación se completa como se indica
Figura 4.5
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
23
en la Figura 4.5. Con el botón Aceptar obtendríamos ahora los siguientes resultados Factores inter-sujetos
N dieta
1 2 3
5 5 5
Pruebas de los efectos inter-sujetos Variable dependiente: peso Suma de cuadrados Media Fuente tipo III gl cuadrática Modelo corregido 20,133(a) 2 10,067 Intersección 16800,267 1 16800,267 dieta 20,133 2 10,067 Error 105,600 12 8,800 Total 16926,000 15 Total corregida 125,733 14 a R cuadrado = ,160 (R cuadrado corregida = ,020)
F 1,144 1909,121 1,144
Significación ,351 ,000 ,351
de donde destaca el último cuadro que es la tabla de Análisis de la Varianza Ejemplo 8.2-CB ___________________________________________ Después de introducir los datos y de ver con un diagrama de cajas que puede admitirse la hipótesis de homocedasticidad, correríamos un Análisis de la Varianza como antes, obteniendo la tabla final Pruebas de los efectos inter-sujetos Variable dependiente: insulina Suma de cuadrados Media Fuente tipo III gl cuadrática Modelo corregido 154,920(a) 4 38,730 Intersección 957,071 1 957,071 estimula 154,920 4 38,730 Error 45,557 35 1,302 Total 1157,548 40 Total corregida 200,477 39 a R cuadrado = ,773 (R cuadrado corregida = ,747)
F 29,755 735,281 29,755
Significación ,000 ,000 ,000
ESTADÍSTICA BÁSICA APLICADA CON SPPS
24
que indica rechazar la hipótesis nula de igualdad de los efectos medios de los cinco estimulantes. Para ejecutar test de comparaciones múltiples elegimos el botón Post hoc y completamos el cuadro de diálogo con varios de estos tests, una vez trasladada la variable en estudio al cuadro de la derecha (Figura 4.6)
Figura 4.6 Los resultados así obtenidos (además de la tabla ANOVA anterior) aparecen a continuación,
Pruebas post hoc estimula Comparaciones múltiples Variable dependiente: insulina Intervalo de confianza al 95%.
DHS de Tukey
(I) estimula 1
2
3
(J) estimula 2 3 4 5 1 3 4 5 1 2 4
Diferencia entre medias (I-J) -,0263 -2,2800(*) -4,3900(*) -4,4363(*) ,0263 -2,2538(*) -4,3638(*) -4,4100(*) 2,2800(*) 2,2538(*) -2,1100(*)
Error típ. ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045
Significación 1,000 ,003 ,000 ,000 1,000 ,003 ,000 ,000 ,003 ,003 ,006
Límite inferior -1,6663 -3,9201 -6,0301 -6,0763 -1,6138 -3,8938 -6,0038 -6,0501 ,6399 ,6137 -3,7501
Límite superior 1,6138 -,6399 -2,7499 -2,7962 1,6663 -,6137 -2,7237 -2,7699 3,9201 3,8938 -,4699
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
25
5 -2,1563(*) 4 1 4,3900(*) 2 4,3638(*) 3 2,1100(*) 5 -,0463 5 1 4,4363(*) 2 4,4100(*) 3 2,1563(*) 4 ,0463 Scheffe 1 2 -,0263 3 -2,2800(*) 4 -4,3900(*) 5 -4,4363(*) 2 1 ,0263 3 -2,2538(*) 4 -4,3638(*) 5 -4,4100(*) 3 1 2,2800(*) 2 2,2538(*) 4 -2,1100(*) 5 -2,1563(*) 4 1 4,3900(*) 2 4,3638(*) 3 2,1100(*) 5 -,0463 5 1 4,4363(*) 2 4,4100(*) 3 2,1563(*) 4 ,0463 Basado en las medias observadas. * La diferencia de medias es significativa al nivel ,05.
,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045 ,57045
,005 ,000 ,000 ,006 1,000 ,000 ,000 ,005 1,000 1,000 ,009 ,000 ,000 1,000 ,010 ,000 ,000 ,009 ,010 ,018 ,015 ,000 ,000 ,018 1,000 ,000 ,000 ,015 1,000
Subconjuntos homogéneos insulina Subconjunto
DHS de Tukey(a,b)
Scheffe(a,b)
estimula 1 2 3 4 5 Significación 1 2 3 4 5 Significación
N 8 8 8 8 8 8 8 8 8 8
1 2,6650 2,6913
2
3
4,9450
1,000 2,6650 2,6913
1,000
7,0550 7,1013 1,000
4,9450
1,000 1,000 Se muestran las medias para los grupos en subconjuntos homogéneos.
7,0550 7,1013 1,000
-3,7963 2,7499 2,7237 ,4699 -1,6863 2,7962 2,7699 ,5162 -1,5938 -1,8805 -4,1342 -6,2442 -6,2905 -1,8280 -4,1080 -6,2180 -6,2642 ,4258 ,3995 -3,9642 -4,0105 2,5358 2,5095 ,2558 -1,9005 2,5820 2,5558 ,3020 -1,8080
-,5162 6,0301 6,0038 3,7501 1,5938 6,0763 6,0501 3,7963 1,6863 1,8280 -,4258 -2,5358 -2,5820 1,8805 -,3995 -2,5095 -2,5558 4,1342 4,1080 -,2558 -,3020 6,2442 6,2180 3,9642 1,8080 6,2905 6,2642 4,0105 1,9005
ESTADÍSTICA BÁSICA APLICADA CON SPPS
26
Basado en la suma de cuadrados tipo III El término error es la Media cuadrática (Error) = 1,302. a Usa el tamaño muestral de la media armónica = 8,000 b Alfa = ,05.
observándose en la última tabla los mismos grupos de tratamientos homogénenos obtenidos en el texto CB.
4.2. Un Factor: Diseño por Bloques Aleatorizados El estudio del test analizado aquí, puede estudiar en la Sección 8.3 del t exto CB. Ejemplo 8.3-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia (Figura 4.7) Analizar
Modelo lineal general
→
→
Univariante
Figura 4.7 para completar luego el cuadro de diálogo como se indica en la Figura 4.8
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
27
Figura 4.8 Ahora con el botón Modelo elegimos la opción Personalizado y, pasando las variables a la ventana de la derecha, la opción de Efectos principales, ya que en el diseño por bloques no consideramos la posibilidad de interacción entre las variables. Con los botones Continuar y Aceptar obtenemos los siguientes resultados, Factores inter-sujetos
N Vitamina
Raza
1 2 3 1 2 3 4
4 4 4 3 3 3 3
Pruebas de los efectos inter-sujetos Variable dependiente: Peso
Fuente Modelo corregido Intersección Vitamina Raza Error Total
Suma de cuadrados tipo III 165,000(a) 94696,333 84,667 80,333 64,667 94926,000
gl 5 1 2 3 6 12
Media cuadrática 33,000 94696,333 42,333 26,778 10,778
F 3,062 8786,258 3,928 2,485
Significación ,103 ,000 ,081 ,158
ESTADÍSTICA BÁSICA APLICADA CON SPPS
28
Total corregida
229,667 11 a R cuadrado = ,718 (R cuadrado corregida = ,484)
en donde la última tabla es la de Análisis de la Varianza obtenida en CB.
4.3. Dos Factores: Diseño Completamente Aleatorizado El estudio del test analizado aquí, puede estudiar en la Sección 8.5 del texto CB. Ejemplo 8.5-CB ___________________________________________ Después de introducir los datos, obtenemos la tabla de Análisis de la Varianza ejecutando la secuencia Analizar
Modelo lineal general
→
→
Univariante
y completando después la ventana de diálogo como se indica en la Figura 4.9
Figura 4.9
Hay muchas semejanzas con el caso anterior del diseño por bloques pero ahora sí se admite la interacción entre variables, por lo que no hace falta modificar el modelo; ahora lo requerimos completo. Por eso, presionando ya el botón Aceptar, obtenemos los siguientes resultados, en donde la última tabla es la misma de ANOVA obtenida en CB
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
29
Factores inter-sujetos
N Estación
Fármaco
1 2 3 4 1 2 3
12 12 12 12 16 16 16
Pruebas de los efectos inter-sujetos Variable dependiente: Alergia Suma de cuadrados Fuente tipo III gl Modelo corregido 10488,167(a) 11 Intersección 93633,333 1 Estación 4132,167 3 Fármaco 6017,167 2 Estación * Fármaco 338,833 6 Error 766,500 36 Total 104888,000 48 Total corregida 11254,667 47 a R cuadrado = ,932 (R cuadrado corregida = ,911)
Media cuadrática 953,470 93633,333 1377,389 3008,583 56,472 21,292
F 44,781 4397,652 64,691 141,303 2,652
Significación ,000 ,000 ,000 ,000 ,031
30
ESTADÍSTICA BÁSICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
31
Capítulo 5
Regresión Lineal y Correlación
5.1. Regresión Lineal Simple El estudio del test analizado aquí, puede estudiar en las Secciones 9.2 y 9.3 del texto CB. Como allí destacábamos, hay dos aspectos de interés: la representación gráfica de los datos y el Análisis de la Regresión Ejemplo 9.1-CB ___________________________________________ Después de introducir los datos, primero vamos a visualizar los datos dibujando un Diagrama de Dispersión mediante la secuencia (Figura 5.1) Gráficos
Interactivos
→
→
Diagrama de dispersión
Figura 5.1
ESTADÍSTICA BÁSICA APLICADA CON SPPS
32
La cantidad de oxígeno se pasa a la dependiente y la profundidad a la independiente, obteniéndose el siguiente gráfico en donde puede verse también la correlación entre ambas variables.
Regresión lineal
6,00
i x 4,00 o _ t n o c
2,00
1cont_oxi = 8,63 + -0,11 * profund R-cuadrado = 0,80
0,00 20,00
30,00
40,00
50,00
60,00
70,00
profund
La segunda cuestión importante es contrastar, mediante la tabla de Análisis de la Varianza para la Regresión Lineal, si puede admitirse la hipótesis nula de que la variable independiente no es significativa a la hora de predecir a la variable dependiente. Para ello ejecutamos la secuencia Analizar
Regresión
→
→
Lineal
completando la ventana de diálogo que aparece como se indica en la Figura 5.2, en donde. A demás de indicar cuál es la variable independiente y dependiente, hemos seleccionado el Método Hacia atrás. El resto de las opciones, como la de que nos dé los estimadores o el nivel de significación del test de la F de Snedecor de la tabla de Análisis de la Varianza para la Regresión Lineal, ya vienen dadas por defecto.
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
33
Figura 5.2 Los resultados así obtenidos son los siguientes, en donde de nuevo destaca la penúltima tabla ANOVA y las estimaciones de los coeficientes de regresión de la última tabla.
Regresión Variables introducidas/eliminadas(b) Variables Variables introducidas eliminadas Método profund(a) . Introducir a Todas las variables solicitadas introducidas b Variable dependiente: cont_oxi Modelo 1
Resumen del modelo R cuadrado R R cuadrado corregida ,896(a) ,803 ,763 a Variables predictoras: (Constante), profund Modelo 1
Error típ. de la estimación 1,20444
ANOVA(b) Suma de cuadrados gl Regresión 29,481 Residual 7,253 Total 36,734 a Variables predictoras: (Constante), profund Modelo 1
1 5 6
Media cuadrática 29,481 1,451
F 20,322
Sig. ,006(a)
ESTADÍSTICA BÁSICA APLICADA CON SPPS
34
b Variable dependiente: cont_oxi Coeficientes(a) Coeficientes no estandarizados Modelo 1
B (Constante) 8,631 profund -,108 a Variable dependiente: cont_oxi
Coeficientes estandarizado s
Error típ. 1,077 ,024
Beta -,896
t 8,010 -4,508
Sig. ,000 ,006
5.2. Regresión Lineal Múltiple El estudio del test analizado aquí, puede estudiar en las Secciones 10.2 y 10.3 del texto CB. Las opciones a ejecutar son las mismas que en la sección anterior, con la diferencia de que debemos incluir más de una variable independiente. Ejemplo 10.1-CB __________________________________________ Después de introducir los datos, ejecutamos Regresión
Lineal
→
completando el cuadro de diálogo como se indica en la Figura 5.3
Figura 5.3 Las tres últimas tablas que así se obtienen,
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
35
ANOVA(c) Suma de Modelo cuadrados gl 1 Regresión 2502,390 2 Residual 440,543 12 Total 2942,933 14 2 Regresión 2502,373 1 Residual 440,561 13 Total 2942,933 14 a Variables predictoras: (Constante), X2, X1 b Variables predictoras: (Constante), X2 c Variable dependiente: Y
Media cuadrática 1251,195 36,712 2502,373 33,889
F 34,081
Sig. ,000(a)
73,840
,000(b)
Coeficientes(a) Coeficientes no estandarizados Modelo 1
(Constante) X1 X2 2 (Constante) X2 a Variable dependiente: Y
B 2,086 ,057 1,050 1,977 1,057
Error típ. 6,739 2,613 ,326 4,373 ,123
Coeficientes estandarizado s Beta
t ,006 ,916 ,922
,309 ,022 3,219 ,452 8,593
Sig. ,762 ,983 ,007 ,659 ,000
Variables excluidas(b) Estadísticos de colinealidad Modelo 2
Beta dentro t Sig. X1 ,006(a) ,022 ,983 a Variables predictoras en el modelo: (Constante), X2 b Variable dependiente: Y
Correlación parcial ,006
Tolerancia ,154
indican considerar a X2 como única covariable independiente significativa y concluir con la recta ajustada Y = 1’977 + 1’057 X2
36
ESTADÍSTICA BÁSICA APLICADA CON SPPS
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
37
Capítulo 6
Tablas de Contingencia
6.1. Contraste de homogeneidad de varias muestras El estudio del test analizado aquí, puede estudiar en la Sección 12.3 del texto CB. Ejemplo 12.8-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.1) Datos
Ponderar casos
→
Figura 6.1
ESTADÍSTICA BÁSICA APLICADA CON SPPS
38
y, en el cuadro de diálogo resultante, ponderamos los datos con la variable frecu (Figura 6.2)
Figura 6.2 Ahora ya podemos realizar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.3) Analizar
Estadísticos descriptivos
→
→
Tablas de contingencia
Figura 6.3 Ahora debemos completar el cuadro de diálogo que se abre, teniendo en cuenta cuál variable forma las filas y cuál las columnas. Además, con el botón Estadísticos, le pedimos el Chi-cuadrado de Pearson, que es el utilizado en CB (Figura 6.4)
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA
39
Figura 6.4 Por último, en el botón Casillas le podemos pedir no sólo las frecuencias observadas sino las esperadas de cada casilla. (Figura 6.5)
Figura 6.5
Los resultados así obtenidos son los siguientes:
ESTADÍSTICA BÁSICA APLICADA CON SPPS
40
Tablas de contingencia Resumen del procesamiento de los casos Casos Válidos N Porcentaje 300 100,0%
Comunidad * Fumador
Perdidos N Porcentaje 0 ,0%
Total N Porcentaje 300 100,0%
Tabla de contingencia Comunidad * Fumador Fumador 1 Comunidad
1 2 3
Total
Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada Recuento Frecuencia esperada
2 13 16,0 17 16,0 18 16,0 48 48,0
87 84,0 83 84,0 82 84,0 252 252,0
Total 100 100,0 100 100,0 100 100,0 300 300,0
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson Razón de verosimilitudes Asociación lineal por lineal N de casos válidos
Valor 1,042(a) 1,069 ,927
gl 2 2 1
Sig. asintótica (bilateral) ,594 ,586 ,336
300
a 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 16,00.
destacando la última tabla en la que aparece el valor del estadístico chicuadrado de Pearson, 1’042 y el p -valor del test, 0’594, los m ismos valores que en CB.
6.2. Contraste de independencia de caracteres El estudio del test analizado aquí, puede estudiar en la Sección 12.4 del texto CB. El análisis con SPSS es idéntico al de la sección anterior. Ejemplo 12.9-CB __________________________________________ Después de introducir los datos, ejecutamos la secuencia (Figura 6.6)
ALFONSO GARCÍA PÉREZ y MARÍA YOLANDA CABRERO ORTEGA Datos
41
Ponderar casos
→
Figura 6.6 ponderándolos en este caso con la variable frecuen. Ahora ya podemos ejecutar el Análisis de la tabla de contingencia ejecutando la secuencia (Figura 6.7) Analizar
Estadísticos descriptivos
→
Figura 6.7
→
Tablas de contingencia