UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Universidad del Perú, Decana de América FACULTAD DE LETRAS ESCUELA PROFESIONAL DE LINGÜÍSTICA
ESTADÍSTICA APLICADA EN LAS INVESTIGACIONES LINGÜÍSTICAS Mg. Jeancarlo Joel García Guadalupe Lima, Perú
2016
1
INGRESANDO LOS DATOS: VISTA DE DATOS Y VISTA DE VARIABLES
El EDITOR DE DATOS es la primera ventana que se presenta y se abre automáticamente cuando se inicia la sesión. El EDITOR DE DATOS proporciona dos vistas: VISTA DE DATOS y VISTA DE VARIABLES. 2
Se puede ingresar o moverse entre ambas ventanas, seleccionando en las pestañas inferiores. VISTA DE DATOS Esta vista muestra los valores de datos reales o las etiquetas de valor definidas.
Las filas. Cada fila representa un caso o una observación. Por ejemplo, las respuestas de un cuestionario corresponde a una fila, en otros casos, cada fila puede representar a una persona. Las columnas. Cada columna representa una variable o una característica que se mide o una pregunta formulada. En un cuestionario, la columna corresponderá a cada pregunta del cuestionario. Las casillas. Denominadas celdas contienen valores de las variables, siendo este un valor único de una variable. La casilla o celda se encuentra en la intersección del caso y la variable. La diferencia con las hojas de cálculo, es que no pueden contener fórmulas o realizarse operaciones entre casillas. VISTA DE VARIABLES En la Vista de variables, se muestra la información de definición de las variables, que incluye: las etiquetas de la variable, tipo de dato (por ejemplo, cadena, fecha o numérico), nivel de medida (nominal, ordinal o de escala) y los valores perdidos definidos por el usuario.
3
Opciones de la vista de variables: Nombre El nombre de cada variable debe ser único, no se puede tener nombres duplicados, el primer carácter del nombre de la variable debe ser una letra o uno de estos caracteres: @, # o $; los caracteres posteriores pueden tener cualquier combinación de letras, números, que no sean signos de puntuación, punto (.), lo recomendable es que este nombre sea una abreviación o símbolo del nombre real de la variable (esto se realiza dándole una codificación, el código o nombre no debe ser mayor de ocho (8)caracteres). Por ejemplo, si tenemos las siguientes variables podemos codificarlas de forma abreviada: Variable Actitud lingüística Actitud lingüística hacia el castellano Actitud lingüística hacia una lengua
Código AL ALCAST ALNATIV
nativa Lugar de procedencia Escolaridad Locución verbal
LUGPROCE ESCOL LOCVERB
Tipo Nos sirve para definir el tipo de datos de cada variable, por defecto se asume que todas las variables nuevas son numéricas. Para definir el Tipo, debemos hacer clic en la casilla de la variable de interés, de manera que aparezca en el costado derecho de la casilla un botón cuadrado con puntos suspensivos (…). Al seleccionar el botón (Hacer clic), aparece el cuadro de diálogo Tipo de variable en donde se apreciarán los diferentes Tipos de variable. Los más usuales son el numérico y cadena. 4
Numérico. Se emplea en una variable numérica cuyos valores representan magnitudes o cantidades; este es el tipo de variable más usado, está relacionado con el formato estándar que se maneja en Windows, donde el separador decimal es coma (,) y no se tiene separación de miles. Por ejemplo: 1000,00. Así mismo se puede definir el número de decimales. Cadena. Se emplea cuando la variable no es numérica, es decir puede contener textos. Las mayúsculas y las minúsculas se consideran diferentes. Este tipo también se conoce como variable alfanumérica porque puede contener texto con número. Las variables de cadena pueden contener cualquier tipo de caracteres siempre que no exceda la longitud máxima de 255; las mayúsculas y las minúsculas se consideran diferentes ya que el programa trabaja bajo el código ASCII. Anchura Se puede definir el máximo de dígitos que contienen los registros de una variable; para el cálculo del ancho se incluyen los dígitos enteros y los decimales. Por ejemplo; Anchura 5 = XXX.XX ó X,XXX.X ó XX,XXX donde X representa un número aleatorio. Decimales Permite definir el número de dígitos decimales que pueden contener los registros de una variable numérica (Tipo Numérico, Coma o Puntos). Las propiedades Anchura y Decimales pueden ser editadas directamente desde la ventana de Tipo de variable, ya que al seleccionar estas opciones se habilita en el cuadro de diálogo las casillas Anchura y Decimales. Etiquetas Nos sirve para colocar el nombre largo de variable, se puede asignar etiquetas de variable descriptivas de hasta 256 caracteres de longitud. Las etiquetas de variable pueden contener espacios y caracteres reservados que no se admiten en los nombres de variable. El uso de la etiqueta es bastante útil para facilitar la interpretación de los resultados (Tablas, Gráficos o estadísticos), para las personas que no han participado en la generación de los procedimientos y desconocen el significado del nombre de la variable. El uso de la etiqueta es opcional, el programa en caso de no existir una etiqueta utiliza el nombre de la variable para generar los resultados. Valores En el caso de que se utilice códigos numéricos o literales para representar categorías variables numéricas o de cadena; por ejemplo: Variable: sexo
1 = masculino
2 = femenino
Variable: L1
1 = castellano
2 = ashaninka
Variable: edad1 = 16-30
2 = 31-45 5
3 = yanesha 3 = 46 a más
Variable: sintagma
1 = nominal
2 = verbal
3 = preposicional
Para especificar etiquetas de valor, de una variable que se quiere definir: Se hace clic en CASILLA DE VALORES… Nos desplegara la ventana de valores. Una vez que estamos en la ventana de etiquetas de valores, en el caso del ejemplo de la variable Sexo, en la casilla Valor se escribe el código (número o letra) y en la casilla Etiqueta escribimos el significado del código, una vez introducidos todos los códigos y etiquetas, presionamos aceptar:. Vamos haciendo clic en AÑADIR y en ACEPTAR.
Perdidos Se puede indicar los valores de los datos definidos como perdidos por el usuario. SPSS maneja dos tipos de valores perdidos; el primero es perdido por el sistema, el cual se identifica por la ausencia total de datos; es decir, casillas vacías y el segundo corresponde a los datos perdidos definidos por el usuario: * No sabe * No responde o se niega a responder * No aplica o sencillamente la pregunta no lo afecta, por ejemplo: preguntarle a una persona soltera la edad a la que se casó por primera vez, si no se ha casado nunca esta pregunta no lo afecta. El programa detecta automáticamente los valores perdidos por el sistema y los omite, adicionando un punto en la celda correspondiente (.) como valor perdido, mientras que los valores perdidos por el usuario deben ser definidos al programa o de lo contrario los cálculos se realizarán contando con estos valores, lo cual puede afectar severamente los resultados. Para definir un valor perdido por el usuario para una variable, se procede la siguiente forma:
6
En este cuadro encontramos tres diferentes posibilidades. *No hay valores perdidos. Los cálculos se realizan con la totalidad de los registros. *Valores perdidos discretos. Nos permite un máximo de tres valores perdidos que se pueden definir para una variable; se puede emplear los valores (números) que se deseen. Para este tipo de valores se recomienda que exista una distancia considerable entre los valores representativos y los perdidos con el fin de facilitar su identificación. Por ejemplo 999,9999. Para definir como perdidos los valores nulos o vacíos de una variable de cadena, escriba un espacio en blanco en uno de los campos debajo de la selección Valores perdidos discretos. * Rango más un valor discreto opcional. Se utiliza cuando tenemos varios valores perdidos, los cuales se encuentran dentro de un rango. Esta opción solo es para variables numéricas. En el caso de variables del tipo cadena: * Se considera como válidos todos los valores de cadena, incluidos los valores vacíos o nulos, a no ser que se definan explícitamente como perdidos. * Los valores perdidos de las variables de cadena no pueden tener más de ocho bytes. Columnas Se refiere a la visualización del ancho en la VISTA DE DATOS. Se puede especificar un número de caracteres para el ancho de la columna. Los anchos de columna también se pueden cambiar en la VISTA DE DATOS pulsando y arrastrando los bordes de las columnas. Alineación La Alineación determina la alineación de los datos dentro de la casilla (izquierda, derecha y centro). Por defecto es a la derecha para las variables numéricas y a la izquierda para las variables de cadena. Medidas
7
Este es el parámetro más importante de las variables, de su definición depende el tipo de análisis que podemos realizar con el programa. Dentro de la estadística se han catalogado cuatro diferentes escalas de medida, pero el SPSS la resume en tres:
* Nominal. Son variables numéricas cuyos valores (Números) indican una categoría de pertenencia. Para este tipo de medida, las categorías no cuentan con un orden lógico que nos permita establecer una comparación de superioridad u ordenación entre ellas. Por ejemplo: el sexo, tipo de familia, distrito de procedencia, el estado civil, libros favoritos, etc. * Ordinal. Son variables numéricas cuyos valores indican una categoría de pertenencia y a su vez las categorías poseen un orden lógico que nos indica una superioridad u ordenación. Como por ejemplo: ciclo de estudios, nivel educativo, etc. Entre las variables ordinales se incluyen escalas de Likert (frecuencia, acuerdo, desempeño). * Escala. Son variables numéricas sean estas discretas o continuas cuyos valores representan una magnitud o cantidad y no una categoría; los valores de este tipo de medida pueden ser empleados en operaciones aritméticas como la suma, la resta, la multiplicación y la división. Como por ejemplo: Edad, conocimiento de la ortografía, altura, peso, años de experiencia docente, número de empleos, rendimiento, etc. Nomina
Ordinal
Intervalo
Razón
o
o
o
o
o
l El orden de los datos es importante y significativo La diferencia de intervalo entre
los
datos
es
importante y significativa El cero es significativo y
o
representa ausencia Fuente. Adaptado de Méndez y Cuevas (2014, p. 6) Para variables de cadena si estos son ordinales, se debe tener en cuenta que el SPSS asume el orden alfabético de los valores de cadena, por ejemplo si tenemos chico, mediano y grande, el SPSS nos presentara chico, grande y mediano, por lo que es mejor emplear números en la codificación de datos. 8
Rol Se emplea cuando se quiere predefinir el rol que cumplirá una determinada variable. La asignación de roles sólo afecta a los cuadros de diálogo que admiten asignaciones de roles. Los roles que se tienen son: Entrada. La variable se utilizará como una entrada (por ejemplo, predictor, variable independiente). Destino. La variable se utilizará como una salida u objetivo (por ejemplo, variable dependiente). Ambos. La variable se utilizará como entrada y salida. Ninguna. La variable no tiene asignación de función Partición. La variable se utilizará para dividir los datos en muestras diferentes para entrenamiento, prueba y validación. Dividir. Las variables no se utilizan como variables de archivos divididos en IBM® SPSS® Statistics.
Ejemplo 1. Tabulación de datos del instrumento 1 de actitudes lingüísticas
9
1. En la VISTA DE VARIABLES se procederá a determinar los atributos de cada variable. En este caso las columnas que más nos interesan son NOMBRE, TIPO, ETIQUETA, VALORES Y MEDIDA. Como se puede apreciar en la captura de pantalla, los atributos son NUMÉRICOS, no tienen decimales y se precisan sus VALORES y la MEDIDA.
2. Se debe precisar los valores de cada variable. Para ello es recomendable tener un documento que ordene las variables y la codificación de sus valores.
10
LABORANDO LOS INSTRUMENTOS: CONFIABILIDAD
Conceptualización 11
La confiabilidad es un índice de consistencia interna que toma valores entre 0 y 1 que sirve para comprobar si el instrumento que se está evaluando recopila información defectuosa, y por tanto llevaría a conclusiones erradas, o si se trata de un instrumento fiable o confiable que hace mediciones estables y consistentes. En otras palabras, se refiere a la propiedad que consiste en que la aplicación repetida del instrumento, al mismo sujeto u objeto, produce iguales resultados. Así, los diversos estudios del producto, se relacionan y examinan en conjunto para poder determinar la confiabilidad del mismo bajo todas las perspectivas posibles, determinan problemas y correcciones de los ítems del instrumento. Sobre la interpretación del valor de la confiabilidad se cita a continuación a Kerlinger y Lee (2002): En este punto es necesario plantear la pregunta: ¿qué tan alto se requiere que sea el coeficiente de confiabilidad? No existe una respuesta rápida y rigurosa a esta pregunta. Por alguna razón, diversos investigadores han establecido .7 como el límite entre confiabilidades aceptables y no aceptables; sin embargo, no existe ninguna evidencia para apoyar esta regla arbitraria. De hecho, la mayoría de los autores de los libros de texto (sobre medición) no establecen dicho valor. Anastasi y Urbina (1997), por ejemplo, no mencionan tal regla. Nunnally (1978) afirma que un nivel satisfactorio de confiabilidad depende de cómo se utilice la medida. En algunos casos un valor de confiabilidad de .50 o .60 es aceptable; mientras que en otras un valor de .90 es apenas aceptable. Un valor bajo de confiabilidad puede ser aceptable si el instrumento de medición posee una validez alta. Gronlund (1985) señala que la mayoría de las pruebas realizadas por maestros poseen confiabilidades de entre .60 7 .85, y aun así son útiles en decisiones instruccionadles. Gronlund también brinda consideraciones que deben tenerse al decidir si un valor de confiabilidad es aceptable. Todas las consideraciones se centran en qué tipo de decisión se toma al utilizarse la prueba o el instrumento de medición. Si la decisión tomada por medio de la prueba es importante, final, irreversible, inconfirmable, concierne a individuos o tiene consecuencias duraderas, entonces es necesario un alto nivel de confiabilidad. Si la decisión tiene poca importancia, tomada en una etapa temprana, reversible, confirmable por medio de otros datos, concierne a grupos o tiene efectos temporales, entonces es aceptable un valor bajo de confiabilidad (pp. 600-601) 12
Alfa de Cronbach Alfa (Cronbach, 1951) es un coeficiente de correlación al cuadrado que mide la homogeneidad de las preguntas promediando todas las correlaciones entre todos los ítems para ver que, efectivamente, se parecen. Acerca de este coeficiente Muñiz (2003, p. 54) afirma que “
es función directa de las covarianzas entre los ítems,
indicando, por tanto, la consistencia interna del test”. Su interpretación consiste en que mientras más se acerque el índice al extremo 1, mayor es la fiabilidad o confiabilidad. En otras palabras, a mayor valor de alfa, mayor fiabilidad. Matos (2002) afirma que un valor de 0 indica ausencia total de consistencia interna y 1 supone la redundancia total entre los ítems. Su fórmula es la siguiente:
Donde: es la varianza del ítem i, es la varianza de los valores totales observados y es el número de preguntas o ítems. Otra fórmula conocida es:
Donde: : El número de ítems : Sumatoria de varianza de los ítems : Varianza de la suma de los ítems : Coeficiente de alfa de Cronbach
Sobre la interpretación del valor de la confiabilidad se leer a continuación a George y Mallery (2003, p. 231) citado por Gliem J. y Gliem R. (2003, p. 87): “George and 13
Mallery (2003) provide the following rules of thumb: _ > .9 – Excellent, _ > .8 – Good, _ > .7 – Acceptable, _ > .6 – Questionable, _ > .5 – Poor, and _ < .5 – Unacceptable”. Tabla Niveles de confiabilidad del coeficiente alfa de Cronbach Rango Nivel .9-1.0 Excelente .8-.9 Bueno .7-.8 Aceptable .6-.7 Cuestionable .5-.6 Pobre .0-.5 Inaceptable Fuente: Adaptado de George y Mallery (2003, p. 231) Otros valores son expuestos por Mora (2002): Nunnally (1995) proponen valores entre 0,75 y 0,9; Cea D’Ancona (1998), no inferiores a 0,8. Peterson (1994) considera como mínimo 0,7 para investigaciones preliminares y 0,8 para investigaciones básicas. Morales et. al. (2003), en 0,5 si es una investigación básica y sobre 0,85 si es una investigación diagnóstica o intervención. El programa SPSS permite calcular la confiabilidad de un instrumento. Para ello se tabulan los resultados de la aplicación del instrumento en la VISTA DE DATOS. La tabulación tendrá en cuenta que cada columna es un ítem (conocido popularmente como pregunta) y cada fila es una persona o informante. Una vez visualizados los resultados, cabe recordar que: En la tabla RESUMEN DE PROCESAMIENTO DE CASOS, se aprecia el número de personas que participaron de la prueba de confiabilidad. En la tabla ESTADÍSTICAS DE FIABILIDAD, se aprecia que el coeficiente alfa de Cronbach del instrumento y el número de items. Si el coeficiente es bajo, se deben reconsiderar el número de ítems y la cantidad de personas en la prueba piloto. En la tabla ESTADÍSTICOS DE ELEMENTO, se aprecia en la columna MEDIA el índice de dificultad de los ítems (en el caso de una prueba con ítems dicotómicos) o el promedio de las respuestas (en el caso de un cuestionario en escala de Líkert). En la tabla ESTADÍSTICA DE TOTAL ELEMENTO, se aprecia en la columna MEDIA DE LA ESCALA SI SE ELIMINA EL ELEMENTO el valor que tendría la media en el 14
caso de eliminar cada uno de los elementos o ítems, para contrastarlo podemos observar en la última ventana de ESTADÍSTICOS DE LA ESCALA la media de los ítems de todo el instrumento. La CORRELACIÓN ELEMENTO-TOTAL CORREGIDA es el coeficiente de homogeneidad corregido. Si es cero o negativo se debe eliminar el ítem o bien replantearse (Bojórquez, López, Hernández y Jiménez, 2013; García, González y Jornet, 2010). Finalmente, ALFA DE CRONBACH SI SE ELIMINA EL ELEMENTO equivale al valor de alfa si eliminamos cada uno de los ítems. En la tabla ESTADÍSTICOS DE ESCALA, se aprecian la media, la varianza, la desviación estándar y el número de ítems del instrumento.
Ejemplo 1. Confiabilidad de la técnica de las máscaras en castellano aplicado en Nueva Esperanza
15
1. Para obtener la confiabilidad o fiabilidad, se procede a hacer clic de en la opción ANÁLISIS DE FIABILIDAD. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Escalas > Análisis de fiabilidad.
2. En la ventana de ANÁLISIS DE FIABILIDAD, se coloca en la parte de ELEMENTOS cada uno de los ítems del instrumento. Después, se selecciona en MODELO la opción ALFA. Luego, hacemos clic en ESTADÍSTICOS.
16
3. En la ventana de ANÁLISIS DE FIABILIDAD: ESTADÍSTICOS, en la sección DESCRIPTIVOS PARA se activan las casillas ELEMENTO, ESCALA Y ESCALA SI SE ELIMINA EL ELEMENTO. Después, se hace clic en CONTINUAR. Finalmente, de regreso en la ventana ANÁLISIS DE FIABILIDAD se hace clic en ACEPTAR. En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS. Interpretación Resumen de procesamiento de casos N Casos
Válido Excluidoa Total
% 78
100,0
0
,0
78
100,0
a. La eliminación por lista se basa en todas las variables del procedimiento.
En la primera tabla, resumen de procesamiento de casos, se aprecia que fueron 78 personas las que participaron de la prueba de confiabilidad.
17
Estadísticas de fiabilidad Alfa de Cronbach
N de elementos
,805
24
En la segunda tabla, estadísticas de fiabilidad, se aprecia que el coeficiente alfa de Cronbach es igual a 0.805, entonces se afirma que dicho instrumento tiene una BUENA CONFIABILIDAD y que presenta consistencia interna. Además, se informa que el instrumento tiene 24 ítems. Estadísticas de elemento Desviación Media
estándar
N
Bondad1
5,83
1,283
78
Bondad2
6,22
,921
78
Claridad1
5,87
1,210
78
Claridad2
6,23
,836
78
Corrección1
5,90
1,146
78
Corrección2
6,22
,800
78
Riqueza1
4,64
1,765
78
Riqueza2
5,08
1,552
78
Familiaridad1
4,94
1,854
78
Familiaridad2
5,10
1,710
78
Diversión1
5,65
1,193
78
Diversión2
5,78
1,326
78
Modernidad1
4,62
1,597
78
Modernidad2
4,69
1,662
78
Inteligencia1
6,03
,882
78
Inteligencia2
6,26
,797
78
Humildad1
5,90
1,001
78
Humildad2
5,95
1,056
78
Cultura1
6,21
,873
78
Cultura2
6,08
,849
78
Alegría1
5,60
1,293
78
Alegría2
6,05
,910
78
Lealtad1
5,85
1,152
78
Lealtad2
6,09
,856
78
En la tercera tabla, estadísticas de elemento, se observa el promedio más bajo de respuestas lo tiene el ítem Modernidad1 (4.62), mientras el promedio más alto de respuestas lo tiene el ítem Inteligencia2 (6.26).
Estadísticas de total de elemento
18
Varianza de Media de escala
escala si el
Correlación total Alfa de Cronbach
si el elemento se
elemento se ha
de elementos
si el elemento se
ha suprimido
suprimido
corregida
ha suprimido
Bondad1
130,94
146,450
,378
,796
Bondad2
130,55
148,354
,474
,794
Claridad1
130,90
149,418
,303
,800
Claridad2
130,54
149,628
,465
,795
Corrección1
130,87
151,828
,237
,803
Corrección2
130,55
152,484
,340
,799
Riqueza1
132,13
150,035
,155
,812
Riqueza2
131,69
150,865
,172
,809
Familiaridad1
131,83
133,751
,528
,787
Familiaridad2
131,67
143,108
,338
,800
Diversión1
131,12
149,402
,309
,800
Diversión2
130,99
142,688
,486
,790
Modernidad1
132,15
149,846
,190
,808
Modernidad2
132,08
147,007
,250
,805
Inteligencia1
130,74
148,245
,504
,793
Inteligencia2
130,51
148,902
,530
,793
Humildad1
130,87
149,853
,367
,797
Humildad2
130,82
146,253
,489
,792
Cultura1
130,56
157,106
,090
,807
Cultura2
130,69
146,787
,599
,790
Alegría1
131,17
147,050
,355
,797
Alegría2
130,72
150,075
,401
,796
Lealtad1
130,92
145,449
,470
,792
Lealtad2
130,68
148,506
,508
,793
En la cuarta tabla, estadística de total elemento, se aprecia en la columna correlación elemento-total corregida ningún ítem tiene un valor negativo. Esto implica que todos los ítems deben considerarse. Estadísticas de escala Desviación Media 136,77
Varianza 159,842
estándar
N de elementos
12,643
24
En la quinta tabla, estadísticas de escala, se aprecia que la media de todo el instrumento es 136.77, la varianza es 159.842, la desviación estándar es 12.643 y que el instrumento consta de 24 ítems.
19
MIDIENDO CADA VARIABLE: ESTADÍSTICA DESCRIPTIVA
20
Los pasos para realizar la estadística descriptiva de los datos son los siguientes:
Se sigue la siguiente secuencia Analizar > Estadísticos descriptivos > Frecuencias
Luego, en la ventana de FRECUENCIAS se selecciona la variable.
21
Luego se seleccionan los análisis que se requieren.
También se seleccionan los tipos de gráficos y sus valores. Al hacer clic en continuar, en las ventas ESTADÍSTICOS y GRÁFICOS, finalmente se hace clic en aceptar y aparecerán las tablas y gráficos en la VENTANA DE RESULTADOS.
22
La VENTANA DE RESULTADOS es la ventana donde se visualizan los resultados de los análisis que se realizan con el programa. Se puede archivar estos resultados para usarlos después. Al lado izquierdo de esta ventana se encuentra un navegador de resultados que permite explorar todos los resultados obtenidos mediante los distintos procedimientos. Ejemplo 1. Elaboración de gráficos sobre actitudes lingüísticas en medida escala
Una vez copiados todos los datos del Excel a la VISTA DE DATOS y establecidos todos los atributos de las variables en la VISTA DE VARIABLES, se procede a hacer clic en la opción frecuencias: Analizar > Estadísticos descriptivos > Frecuencias.
23
Luego, en la ventana de FRECUENCIAS se selecciona la variable actitud lingüística.
Luego se seleccionan media, mediana, moda y suma en las MEDIDAS DE TENDENCIA CENTRAL. También se seleccionan los datos mínimo y máximo en las MEDIDAS DE DISPERSIÓN. Finalmente, se hace clic en continuar. Además, los resultados que se visualizarán varían porque las actitudes lingüísticas se están abordando en medida escala u ordinal. Para cada nivel de medición se recomiendan los siguientes análisis estadísticos: MEDIDA
ESTADÍSTICOS 24
Nominal Ordinal Escala
Rango Rango Rango
Mínimo Mínimo
Máximo Máximo
Moda Moda Moda
Media Media
Mediana Mediana
Desviación estándar
En la ventana de gráficos se selecciona la opción HISTOGRAMAS. Luego se hace clic en continuar.
A continuación aparecerá la VENTANA DE RESULTADOS. En la parte derecha se visualizan las tablas. En primer lugar la tabla correspondiente con lo configurado en la ventana FRECUENCIAS: ESTADÍSTICOS y luego la tabla con la distribución de frecuencias de la variable analizado.
25
Este es un ejemplo de tabla generado con los datos de la variable actitud lingüística en medida escala. Como se puede apreciar para elaborar el comentario de una tabla se tiene que contar con intervalos ya que los datos no agrupados pueden generar muchas frecuencias y porcentajes.
También aparecerán los gráficos configurados en la ventana FRECUENCIAS: GRÁFICOS. En este caso se aprecia un HISTOGRAMA. Los HISTOGRAMAS se recomiendan para datos en medida ESCALA, si en cambio los datos son ORDINALES, el resultado será un diagrama de barras. Cabe recordar que según las medidas de asimetría, visibles en el histograma, se puede mencionar la siguiente clasificación:
Asimétrica o sesgada a la derecha: los valores de la variable presentan tendencia por debajo de la media o promedio. 26
Asimétrica o sesgada a la izquierda: los valores de la variable presentan tendencia por encima de la media o promedio. Simétrica: no presenta ningún sesgo, los valores de la variable tienden a presentarse alrededor de la media o promedio.
También es importante recordar las medidas de apuntamiento: Mesocúrtica: la distribución de la variable no es alargada ni aplastada. Los datos presentan una dispersión normal. Leptocúrtica: la distribución de la variable es muy largada. Los datos presentan una dispersión inferior a la normal. Platicúrtica: la distribución de la variable es muy aplanada. Los datos presentan una dispersión superior a la normal.
Cuando la distribución de una variable es mesocúrtica y simétrica, se dice que la variable tiene una distribución normal. Si se hace doble clic en el gráfico se abrirá el EDITOR DE GRÁFICOS para cambiar el fondo de cada uno de los sectores, seleccionar otros gráficos o agregarles etiquetas. Una vez terminados los cambios, estos se pueden guardar o exportar.
27
Si se selecciona como gráfico la opción GRÁFICOS DE BARRAS se obtiene la siguiente visualización en la VENTANA DE RESULTADOS. En este caso se recomienda emplear los GRÁFICOS EN BARRAS en medidas NOMINAL u ORDINAL, si se emplea una variable cuantitativa (discreta o continua) se debe agrupar y tener una medida ORDINAL.
Si se selecciona como gráfico la opción GRÁFICOS CIRCULARES se obtiene la siguiente visualización en la VENTANA DE RESULTADOS. Como se puede apreciar, se recomienda que este gráfico se emplee con datos en medida NOMINAL u ORDINAL
28
Para elaborar un GRÁFICO DE TALLOS Y HOJAS se debe seguir la siguiente secuencia: Analizar > Estadísticos descriptivos > Explorar. Luego hacer clic en la opción.
Se ubica en la LISTA DE DEPENDIENTES la variable actitud lingüística en escala. En VISUALIZACIÓN se selecciona la opción GRAFICOS.
29
Luego en la ventana GRÁFICOS en la sección DIAGRAMAS DE CAJAS se selecciona NINGUNA y en la sección DESCRIPTIVOS se selecciona DE TALLOS Y HOJAS. Luego se hace clic en continuar y, finalmente, en aceptar.
El GRÁFICO DE TALLOS Y HOJAS se emplea con variables cuantitativas que tengan la medida ESCALA.
Si en la ventana GRÁFICOS en la sección DIAGRAMAS DE CAJAS se selecciona NIVELES DE LOS FACTORES JUNTOS y en la sección DESCRIPTIVOS se selecciona DE TALLOS Y HOJAS, se obtiene el siguiente gráfico.
30
Si en la ventana GRÁFICOS en la sección DIAGRAMAS DE CAJAS se selecciona DEPENDIENTES JUNTAS y en la sección DESCRIPTIVOS se selecciona DE TALLOS Y HOJAS, se obtiene el siguiente gráfico. Como se puede apreciar, al tratarse de gráficos relacionados a una sola variable no hay diferencia en el gráfico. Según Ochoa (2014, p. 66): Por último el gráfico de cajas, en la cual la línea oscura que se encuentra en la mitad de las cajas es la mediana (dividiendo en dos partes al conjunto de datos). La parte inferior de la caja indica el cuartil 1 (Q1) 25 %. El veinticinco por ciento de los casos o filas tienen valores por debajo del percentil 25. La parte superior de la caja representa el percentil 75 (o cuartil 3 Q3). El veinticinco por ciento de los casos o filas tienen valores por encima del percentil 75. Esto significa que el 50 % de los casos o filas se encuentran dentro de la caja. La amplitud de la caja nos muestra cuan variables son los datos. Las partes superior e inferior de la caja suelen denominarse bisagras. Las barras en forma de T que salen de las cajas se denominan cecas internas o patillas o bigotes. Tienen una extensión de 1,5 veces la altura de la caja o, si no hay ningún caso o fila con valor en dicho rango, hasta los valores mínimo y máximo. Si los datos se distribuyen con normalidad, se espera que aproximadamente el 95 % de los datos se encuentre entre las cercas internas. 31
Ejemplo 2. Diagrama de cajas que relaciona variables en escala y una variable nominal/ordinal
Se ubica el menú GRÁFICOS y luego se hace clic en GENERADOR DE GRÁFICOS. Gráficos > Generador de gráficos.
Luego en GALERÍA se selecciona DIAGRAMA DE CAJAS. Después, se arrastra al EJE X una variable en medida nominal y ordinal y en el EJE Y la otra variable. Finalmente, se hace clic en ACEPTAR. 32
Ejemplo 3. Elaboración de gráficos sobre actitudes lingüísticas en medida ordinal
Si se realiza el análisis de la variable ACTITUD LINGÜÍSTICA EN ESCALA ORDINAL, las tablas se pueden interpretar de la siguiente manera: Se aprecia que, de un total de 122 personas, 1 persona tiene una actitud lingüística muy negativa (0.8 %), 24 personas tienen una actitud lingüística negativa (19.7%), 53 personas tienen una actitud lingüística positiva (43.4%) y 44 personas tienen una actitud lingüística muy positiva (36.1%).
Los datos de la actitud lingüística en medida ORDINAL arrojan un gráfico que es un GRÁFICO DE BARRAS a pesar de que se seleccionó la opción HISTOGRAMA.
33
El GRÁFICO DE BARRA se asemeja al HISTOGRAMA cuando se trata de variables ORDINALES.
Los GRÁFICOS CIRCULARES son más adecuados cuando se trata de datos en medida NOMINAL u ORDINAL. Para guardar todo lo visualizado en la VENTANA DE RESULTADOS, se hace clic en guardar y se genera un archivo con la extensión .SPV
34
MIDIENDO CADA VARIABLE: INTERPRETANDO TABLAS Y GRÁFICOS DESCRIPTIVOS
35
VISUALIZACIÓN DE RESULTADOS SEGÚN LA ASOCIACIÓN DE PSICÓLGOS AMERICANOS (APA) La visualización de resultados de investigaciones y experimentos comprende el uso de tablas y figuras. Según la APA (2010, p. 127) una figura “puede ser un esquema, una gráfica, una fotografía, un dibujo o cualquier otra ilustración o representación no textual. En ocasiones, la frontera entre las tablas y las figuras podría ser imprecisa”. Así se concluye que cualquier tipo de ilustración que no sea considerada una tabla se denomina figura. Además, cabe recordar que las tablas se caracterizan por poseer una estructurada basada en filas y columnas. TABLAS Para escribir las tablas la APA da una serie de recomendaciones como (2010, p. 30) “no utilice las letras sufijas para enumerar las tablas y figuras; es decir, desígnelas como Tabla 5, Tabla 6, Tabla 7 o Figura 5”. Además, el título de la tabla se escribe en la parte superior y las notas en la parte inferior. FIGURAS Según la APA (2010, p. 53), en las investigaciones se pueden emplear muchos tipos de figuras como gráficos, diagramas, mapas, dibujos y fotografías. a. Los gráficos suelen mostrar la relación entre dos índices cuantitativos o entre una variable cuantitativa continua (que a menudo aparece en el eje y) y grupos de sujetos que aparecen en el eje x. b. Los diagramas generalmente muestran información no cuantitativa como el flujo de sujetos a través de un proceso, por ejemplo, el diagrama de flujo. c. Los mapas generalmente despliegan información espacial. d. Los dibujos muestran información de manera gráfica. e. Las fotografías contienen representaciones visuales directas de la información. Las figuras tienen leyendas y pies. La leyenda “explica los símbolos que se utilizan en la figura, se coloca dentro de la misma y se fotografía como parte de ella”. (APA, 2010, p. 160). El pie explica la figura, funciona como título de la figura y se sitúa en la parte inferior de la figura.
Tabla 1 36
Estadísticos descriptivos de la actitud lingüística
De los datos recolectados de 122 personas, se puede apreciar que el promedio de la actitud lingüística es de 87.01. Además, el valor que divide en dos partes iguales a los niveles de actitud lingüística, es decir, la mediana es de 85.5. Mientras que la puntuación que más veces se repite es 100. Finalmente, se observa que el valor mínimo registrado es de 39 y el valor máximo es de 120. Tabla 2 Estadísticos descriptivos de la actitud lingüística a la lengua nativa
En base a los datos recolectados de los 122 pobladores de comunidades de la Selva Central, se puede apreciar que el promedio de la actitud lingüística a la lengua nativa es de 87.96 y el valor que varía la media entre varias muestras, el error estándar de la media, es de 1.426. Además, el valor que divide en dos partes iguales a los niveles de actitud lingüística a la lengua nativa, es decir, la mediana es de 86.5. Mientras que la puntuación que más veces se repite es 97. La medida de dispersión respecto a la media, la desviación estándar, es de 15.746; por esta razón la medida de dispersión en torno a la media, la varianza, es igual a 247.94. La diferencia entre el valor más alto y más bajo, el rango, es de 73, ya que se observa que el valor mínimo registrado es de 47 y el valor máximo es de 120. Tabla 3 37
Niveles de actitud lingüística
Se aprecia que, de un total de 122 personas, 1 persona tiene una actitud lingüística muy negativa (0.8 %), 24 personas tienen una actitud lingüística negativa (19.7%), 53 personas tienen una actitud lingüística positiva (43.4%) y 44 personas tienen una actitud lingüística muy positiva (36.1%). Tabla 4 Niveles de actitud lingüística a la lengua nativa
De los 122 pobladores de las comunidades de la Selva Central, se observa que 1 persona tiene una actitud lingüística muy negativa (0.8 %), 20 personas tienen una actitud lingüística negativa (16.4%), 57 personas tienen una actitud lingüística positiva (46.7%) y 44 personas tienen una actitud lingüística muy positiva (36.1%). Así se deduce que los pobladores de las comunidades de la Selva Central tienen un porcentaje alto que tiene una actitud lingüística positiva y muy positiva a la lengua nativa.
Tabla 5 Niveles de actitud lingüística 38
Figura 1. Niveles de actitud lingüística En el año 2015, la actitud lingüística de los hablantes de las comunidades de la Selva Central es positiva de manera predominante. Esta característica se refleja en el estudio realizado puesto que la población tiene una actitud lingüística positiva con un porcentaje de 43.4%; mientras que el 36.1% de la población tiene una actitud lingüística muy positiva. En base a los mismos resultados, se puede afirmar que la actitud lingüística de las comunidades de la Selva Central no es negativa o, si lo es, evidencia un porcentaje muy bajo. Esta característica se concluye porque la actitud lingüística negativa tiene un porcentaje de 19.7 %; mientras que el 0.8 % de la población tiene una actitud lingüística muy negativa.
Tabla 6 Edades de los pobladores de Chirani, Loma Linda, Centro Maranquiari y 7 de junio 39
Figura 2. Edades de los pobladores de Chirani, Loma Linda, Centro Maranquiari y 7 de junio Durante el año 2015, de los 122 pobladores de las comunidades de la Selva Central, se observa que 38 personas tienen una edad que oscila entre 16-30 años (31.1 %), 33 personas tienen una edad que oscila entre 31-45 años (27%) y 51 personas tienen una edad mayor de 46 años (36.1%). Así se deduce que la mayoría de los pobladores de las comunidades de Chirani, Loma Linda, Centro Maranquiari y 7 de junio tienen más de 46 años.
Tabla 7 Niveles de actitud lingüística al castellano
40
Figura 3. Niveles de actitud lingüística al castellano En el año 2015, la actitud lingüística de los hablantes de las comunidades de la Selva Central es positiva de manera predominante. Esta característica se refleja en el estudio realizado puesto que la población tiene una actitud lingüística positiva con un porcentaje de 43.44%; mientras que el 36.07% de la población tiene una actitud lingüística muy positiva. En base a los mismos resultados, se puede afirmar que la actitud lingüística de las comunidades de la Selva Central no es negativa o, si lo es, evidencia un porcentaje muy bajo. Esta característica se concluye porque la actitud lingüística negativa tiene un porcentaje de 19.67 %; mientras que el 0.82 % de la población tiene una actitud lingüística muy negativa.
Tabla 8 Estadísticos descriptivos de la actitud lingüística al castellano 41
Figura 4. Niveles de actitud lingüística al castellano De los datos recolectados de 122 personas, se puede apreciar que el promedio de la actitud lingüística es de 87.01. La medida de dispersión respecto a la media, la desviación estándar, es de 16.934. Mientras que la puntuación que más veces se repite es 100. Finalmente, se observa que el valor mínimo registrado es de 39 y el valor máximo es de 120.
42
El GRÁFICO DE TALLOS Y HOJAS se emplea con variables cuantitativas que tenga la medida ESCALA.
Si en la ventana GRÁFICOS en la sección DIAGRAMAS DE CAJAS se selecciona DEPENDIENTES JUNTAS y en la sección DESCRIPTIVOS se selecciona DE TALLOS Y HOJAS, se obtiene el siguiente gráfico. Como se puede apreciar, al tratarse de gráficos relacionados a una sola variable no hay diferencia en el gráfico.
43
LAS PRUEBAS DE HIPÓTESIS EN LAS INVESTIGACIONES
Conceptualización 44
Las pruebas de hipótesis o pruebas de decisión estadística son necesarias para toda investigación cuantitativa. Fasold (1996, p. 150) menciona que “las pruebas de hipótesis conllevan métodos para hacer cuantificaciones y usarlas para decidir si una determinada hipótesis es correcta o no. Para probar las hipótesis se suelen emplear una serie de pasos o procedimientos: 1. Establecimiento de las hipótesis nula y alternativa La hipótesis nula según Fasold (1996, p.151) es “la negación de la hipótesis de trabajo con la que está emparejada”. La hipótesis de trabajo o alternativa según Fasold (1996, p. 151) es “una afirmación que diga que hay una relación extraordinaria entre las características cuantificadas de una población”. La importancia de la hipótesis nula en la prueba de hipótesis radica en que los valores obtenidos sirven de insumo para negarla. Fasold (1996, p. 151) afirma que “con los métodos estadísticos nunca pretendemos probar la hipótesis de trabajo directamente, sino indirectamente: rechazando la hipótesis nula”. De esta manera, si se rechaza la hipótesis nula, la única alternativa es aceptar la hipótesis de trabajo. 2. Tipos de pruebas estadísticas Según Fasold (1996, p. 155) “las pruebas estadísticas se pueden dividir en dos categorías generales: paramétricas y no paramétricas”. Pruebas paramétricas Estas pruebas se emplean cuando los datos que miden las variables están en escalas de intervalo o razón. El análisis de varianza (ANOVA), la correlación por r de Pearson y la t de Student Pruebas no paramétricas Estas pruebas se emplean cuando los datos que miden las variables están en escalas nominales u ordinales. 45
La distribución chi cuadrado
3. Regla estadística Cuando se obtiene el valor del estadístico con el SPSS, tendrá que estar “en el 5 % de la escala para que se rechace la hipótesis nula” (Fasold, 1996, p. 153). De esta manera se puede expresar según su probabilidad (p). De esta manera la probabilidad puede estar representada de la siguiente manera: (p < 0.01) El resultado es significativo en un 99 % con probabilidad de error menor al 1 % (p < 0.05) El resultado es significativo en un 95 % con probabilidad de error menor al 5 %
46
RELACIONANDO DATOS NO PARAMÉTRICOS: DISTRIBUCIÓN CHI CUADRADA
47
Conceptualización La distribución chi-cuadrada es un coeficiente que se emplea para pruebas estadísticas no paramétricas. Para una sola variable se emplea como prueba de bondad del ajuste. Para dos variables se emplea como prueba de homogeneidad o prueba de independencia. En estadística, la distribución chi-cuadrada de Pearson, denominada chi-cuadrada o ji cuadrado, es una distribución de probabilidad continua con un parámetro k que representa los grados de libertad de la variable aleatoria (asociación existente entre dos variables de tipo cualitativo). Sobre esta prueba Webster (2001, p. 472) menciona que la distribución chi-cuadrada “permitirá la comparación de dos atributos para determinar si existe una relación entre ellos”. Esta prueba se emplea con datos medibles en una escala nominal (Fasold, 1996, p. 155) y algunos autores como Matos (2010, pp. 130-131) la emplearon para datos ordinales. Con el SPSS el chi cuadrado se calcula con la prueba exacta de Fisher cuando hay variables con dos valores (tablas 2x2), es decir, con dos filas y dos columnas que presenten una casilla con una frecuencia esperada menor que 5. Para las demás tablas 2x2 se calcula el chi-cuadrado corregido de Yates. Para las tablas con cualquier número de filas y columnas, seleccione Chi-cuadrado para calcular el chi-cuadrado de Pearson y el chi-cuadrado de la razón de verosimilitud. Cuando ambas variables de tabla son cuantitativas, Chi-cuadrado da como resultado la prueba de asociación lineal por lineal. En el SPSS la opción Correlaciones da como resultado rho, el coeficiente de correlación rho de Spearman (sólo datos numéricos) para las tablas en las que tanto las columnas como las filas contienen valores ordenados. Cuando ambas variables de tabla (factores) son cuantitativas, Correlaciones da como resultado r, el coeficiente de correlación de Pearson, una medida de asociación lineal entre las variables. Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada valor o inérvalo de valores se indica la frecuencia absoluta observada o empírica.
Estadístico: 48
Donde: X2
: Chi-cuadrada
o
: Frecuencia observada
e
: Frecuencia esperada
Pruebas exactas Pruebas exactas proporciona dos métodos adicionales para calcular los niveles de significación de los estadísticos disponibles mediante los procedimientos Tablas cruzadas y Pruebas no paramétricas. Estos métodos, el método exacto y el de Monte Carlo, proporcionan el medio para obtener resultados exactos cuando los datos no cumplen alguno de los supuestos subyacentes necesarios para obtener resultados fiables con el empleo del método asintótico estándar. Ejemplo. Los resultados asintóticos obtenidos a partir de conjuntos de datos pequeños o dispersos, o de tablas no equilibradas pueden llevar a conclusiones erróneas. Las pruebas exactas permiten obtener un nivel de significación exacto sin confiar en supuestos que los datos podrían no cumplir. Por ejemplo, los resultados de un examen de admisión de 20 bomberos en una pequeña localidad muestran que los cinco aspirantes blancos superaron la prueba, mientras que los resultados de los aspirantes negros, asiáticos e hispanos son diversos. Una prueba de chi-cuadrado de Pearson, que contrasta la hipótesis nula de que los resultados son independientes de la raza, produce un nivel de significación asintótico del 0,07. Este resultado lleva a la conclusión de que los resultados del examen son independientes de la raza del aspirante. Sin embargo, dado que los datos incluyen sólo 20 casos y las casillas tienen frecuencias esperadas menores que 5, este resultado no es fidedigno. La significación exacta del chi-cuadrado de Pearson es 0,04, lo que conduce a la conclusión contraria. Según la significación exacta, se concluirá que los resultados del examen y la raza del aspirante están relacionados. Esto demuestra la importancia de la obtención de resultados exactos cuando no se pueden cumplir los supuestos del método asintótico. La significación exacta es siempre fiable, independientemente del tamaño, la distribución, la dispersión o el equilibrio de los datos.
49
Asintótica. Nivel de significación basado en la distribución asintótica del estadístico de contraste. Normalmente un valor menor que 0.05 se considera significativo y por consiguiente si el valor es igual o mayor no es significativo (Ochoa, 2014, p. 81; Matos 2010, pp. 130-131) para las pruebas de chi-cuadrado. (Matos, 2010, p. 130). La significación asintótica se basa en la asunción de que el conjunto de datos es grande. Si el conjunto de datos es pequeño o se distribuye de manera pobre, puede que no sea un buen indicador de la significación. Estimación de Monte Carlo. Una estimación no sesgada del nivel de significación exacto, calculada mediante el muestreo repetido a partir de un conjunto de tablas con iguales dimensiones y marginales de fila y columna que la tabla observada. El método de Monte Carlo permite estimar la significación exacta sin tener que confiar en los supuestos que requiere el método asintótico. Este método es más útil si el conjunto de datos es demasiado grande para calcular la significación exacta, pero los datos no cumplen los supuestos del método asintótico. Exacta. Se calcula con exactitud la probabilidad del resultado observado, o de un resultado más extremo aún. Típicamente, un valor de significación menor que 0,05 se considera significativo, indicando que hay alguna relación entre las variables de fila y de columna
50
Ejemplo 1. Sexo y contexto de uso (Corriges a alguien de tu familia) en Cubantía con la prueba solo asintótica
Para calcular la distribución chi-cuadrada, se procede a hacer clic de en la opción TABLAS CRUZADAS. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Estadísticos descriptivos > Tablas cruzadas. Luego se hace clic.
A continuación, aparece la ventana de TABLAS CRUZADAS. Seleccionamos la variable SEXO en la sección FILAS y CORRIGES A ALGUIEN DE TU FAMILIA. Luego se hace clic en la opción ESTADÍSTICOS.
51
Una
vez
en
esa
ventana
se
activan
las
opciones
CHI-CUADRADA
y
CORRELACIONES. Se hace clic en continuar.
De regreso en la ventana de TABLAS CRUZADAS. Activamos la opción MOSTRAR LOS GRÁFICOS DE BARRAS AGRUPADAS. Luego se hace clic en la opción ACEPTAR. Prueba de hipótesis 52
1. Planteamiento de la hipótesis Hipótesis nula (H0)
: El sexo NO se relaciona con el uso de la lengua cuando se
corrige a alguien de la familia. Hipótesis alternativa (H1): El sexo se relaciona con el uso de la lengua cuando se corrige a alguien de la familia. 2. Tipo de prueba estadística Se escoge la distribución chi-cuadrada (
) por tratarse de datos no paramétricos, en
este caso en el nivel nominal u ordinal. 3. Regla teórica para la toma de decisión Si el valor obtenido es inferior a 0.05 se acepta la hipótesis alterna = Sí hay relación Si el valor obtenido es superior a 0.05 se rechaza la hipótesis alterna = No hay relación En otras palabras: X < 0.05 = se acepta la hipótesis alterna = se rechaza la hipótesis nula = Sí hay relación X ≥ 0.05 = se rechaza la hipótesis alterna = se acepta la hipótesis nula = No hay relación 4. Cálculo del estadístico En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS. Resumen de procesamiento de casos Casos Válido N Sexo * Corriges a alguien de tu familia
Perdidos
Porcentaje 131
N
100,0%
Porcentaje 0
Sexo*Corriges a alguien de tu familia tabulación cruzada Recuento Corriges a alguien de tu familia Castellano Sexo
Total
Nomatsigenga
Total
Masculino
5
69
74
Femenino
4
53
57
9
122
131
53
Total
0,0%
N
Porcentaje 131
100,0%
Pruebas de chi-cuadrado
Valor
gl
Sig. asintótica (2
Significación
Significación
caras)
exacta (2 caras)
exacta (1 cara)
Chi-cuadrado de Pearson
,003a
1
,953
Corrección de continuidadb
,000
1
1,000
Razón de verosimilitud
,003
1
,953
Prueba exacta de Fisher
1,000
Asociación lineal por lineal
,003
N de casos válidos
131
1
,608
,954
a. 1 casillas (25,0%) han esperado un recuento menor que 5. El recuento mínimo esperado es 3,92. b. Sólo se ha calculado para una tabla 2x2
Medidas simétricas Error estándar Valor
asintóticoa
Aprox. Sb
Aprox. Sig.
Intervalo por intervalo
R de persona
-,005
,088
-,058
,954c
Ordinal por ordinal
Correlación de Spearman
-,005
,088
-,058
,954c
N de casos válidos
131
a. No se supone la hipótesis nula. b. Utilización del error estándar asintótico que asume la hipótesis nula. c. Se basa en aproximación normal.
54
5. Decisión El valor Sig. 0.953 > 0.05, entonces se puede afirmar con un 95 % de confianza que no hay relación entre las variables, es decir, existe independencia entre ambas variables. De esta manera, se acepta la hipótesis nula y se rechaza la hipótesis alternativa (p-valor > 0.05). 6. Interpretación El sexo NO se relaciona con el uso de la lengua cuando se corrige a alguien de la familia.
55
RELACIONANDO DATOS PARAMÉTRICOS: r DE PEARSON
Conceptualización El coeficiente de correlación r de Pearson es un estadístico paramétrico que permite medir la correlación o asociación entre dos variables cuando se trabaja con variables 56
numéricas, de intervalo o razón, con distribución normal. Se calcula en función de las varianzas y covarianzas entre ambas variables. Su fórmula es la siguiente:
Donde: N = Número de pares de valores ∑xy = Suma de los productos de pares de valores ∑x = Suma de los valores de x ∑y = Suma de los valores de y ∑x2 = Suma del cuadrado de los valores de x ∑y2 = Suma del cuadrado de los valores de y
Ejemplo 1. Relación de la edad (en medida ESCALA) y la actitud lingüística hacia el castellano (en medida ESCALA)
57
Para establecer la correlación, se procede a hacer clic de en la opción BIVARIADAS. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Correlaciones > Bivariadas. Luego se hace clic.
A
continuación,
aparece
la
ventana
de
CORRELACIONES
BIVARIADAS.
Seleccionamos la variable ACTITUD LINGÜÍSTICA HACIA AL CASTELLANO ESC y EDAD EN MEDIDA ESCALA. Luego activa las opciones de PEARSON, BILATERAL y MARCAR LAS CORRELACIONES SIGNIFICATIVAS. Finalmente, se hace clic en aceptar. Prueba de hipótesis 1. Planteamiento de la hipótesis 58
Hipótesis nula (H0)
: La edad NO se relaciona con la actitud lingüística hacia el
castellano. Hipótesis alternativa (H1): La edad se relaciona con la actitud lingüística hacia el castellano. 2. Tipo de prueba estadística Se escoge el coeficiente r de Pearson por tratarse de datos paramétricos, en este caso en el nivel intervalo o razón. 3. Regla teórica para la toma de decisión Si el valor obtenido es inferior a 0.05 se acepta la hipótesis alterna = Sí hay relación Si el valor obtenido es superior a 0.05 se rechaza la hipótesis alterna = No hay relación En otras palabras: X < 0.05 = se acepta la hipótesis alterna = se rechaza la hipótesis nula = Sí hay relación X ≥ 0.05 = se rechaza la hipótesis alterna = se acepta la hipótesis nula = No hay relación 4. Cálculo del estadístico En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS.
5. Decisión El valor Sig. 0.355 > 0.05, entonces se puede afirmar con un 95 % de confianza que no hay relación entre las variables, es decir, existe independencia entre ambas variables. De esta manera, se acepta la hipótesis nula y se rechaza la hipótesis alternativa (p-valor > 0.05). Además, según el valor de la correlación de Pearson (0.084), no hay relación lineal: Tabla 1 59
Valores para interpretar el coeficiente r Interpretación Una
perfecta
(negativa)
Valores Negativa Positiva Exacta -1 Exacta +1
Interpretación Una
perfecta
(positiva)
relación lineal Una fuerte
(negativa)
-0.70
+0.70
relación lineal Una fuerte (positiva) relación
relación lineal Una moderada
(negativa)
-0.50
+0.50
lineal Una moderada
relación lineal Una débil (negativa) relación
-0.30
+0.30
relación lineal Una débil (positiva) relación
(positiva)
lineal lineal No hay relación lineal 0 0 No hay relación lineal Fuente: Adaptado de Prashanti (2014, p. 263) y Tsai (2014, p. 44). Tabla 2 Valores para interpretar el coeficiente r Valor Interpretación 0.01-0.20 Correlación pequeña; relación casi insignificante 0.20-0.40 Correlación baja; relación clara pero pequeña 0.40-0.70 Correlación moderada; relación importante 0.70-0.90 Correlación alta; relación marcada 0.90-0.99 Correlación muy alta; relación muy dependiente Fuente: Fasold (1996, p. 170) citando a Guilford (1956, p. 145) y Williams (1968, p. 134). 6. Interpretación La edad NO se relaciona con la actitud lingüística hacia el castellano.
60
RELACIONANDO DATOS ORDINALES: p (rho) DE SPEARMAN
Conceptualización El coeficiente de correlación rho de Spearman rs ( como coeficiente de correlación de Spearman en la población) es una medida para calcular de la correlación (la asociación o interdependencia) entre dos variables. Es un estadístico no paramétrico que realiza mediciones con datos en medida ordinal o cuando no existe distribución normal. Según Fasold (1996, p. 173) “se usa cuando por lo menos una escala de medición es solo ordinal”.
61
Sobre esta prueba Webster (2001, p. 491) menciona sobre los datos clasificados que “esta clasificación ordinal permite medir los grados de correlación entre dos variables utilizando el coeficiente de correlación de rangos de Spearman”. Se calcula en base a una serie de rangos asignados. Su fórmula es la siguiente:
Donde: rs = Coeficiente de correlación por rangos de Spearman D = Diferencia entre rangos (X menos Y) N = número de datos
Ejemplo 1. Relación de la edad (en medida ORDINAL) y la actitud lingüística hacia el castellano (en medida ORDINAL)
62
Para establecer la correlación, se procede a hacer clic de en la opción BIVARIADAS. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Correlaciones > Bivariadas. Luego se hace clic.
A
continuación,
aparece
la
ventana
de
CORRELACIONES
BIVARIADAS.
Seleccionamos la variable ACTITUD LINGÜÍSTICA AL CASTELLANO ORD y EDAD EN MEDIDA ORDINAL. Luego activa las opciones de SPEARMAN, BILATERAL y MARCAR LAS CORRELACIONES SIGNIFICATIVAS. Finalmente, se hace clic en aceptar. Prueba de hipótesis 1. Planteamiento de la hipótesis 63
Hipótesis nula (H0)
: La edad NO se relaciona con la actitud lingüística hacia el
castellano. Hipótesis alternativa (H1): La edad se relaciona con la actitud lingüística hacia el castellano. 2. Tipo de prueba estadística Se escoge coeficiente de correlación de Spearman rs (Rho) por tratarse de datos paramétricos, en este caso en el nivel ordinal. 3. Regla teórica para la toma de decisión Si el valor obtenido es inferior a 0.05 se acepta la hipótesis alterna = Sí hay relación Si el valor obtenido es superior a 0.05 se rechaza la hipótesis alterna = No hay relación En otras palabras: X < 0.05 = se acepta la hipótesis alterna = se rechaza la hipótesis nula = Sí hay relación X ≥ 0.05 = se rechaza la hipótesis alterna = se acepta la hipótesis nula = No hay relación 4. Cálculo del estadístico En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS.
5. Decisión El valor Sig. 0.783 > 0.05, entonces se puede afirmar con un 95 % de confianza que no hay relación entre las variables, es decir, existe independencia entre ambas variables. De esta manera, se acepta la hipótesis nula y se rechaza la hipótesis alternativa (p-valor > 0.05). Además, según el valor de la correlación de Pearson (0.025), no hay relación lineal:
Interpretación
Valores Negativa Positiva 64
Interpretación
Una
perfecta
relación lineal Una fuerte relación lineal Una moderada
(negativa) (negativa) (negativa)
relación lineal Una débil (negativa) relación
Exacta -1
Exacta +1
-0.70 -0.50 -0.30
Una
perfecta
(positiva)
+0.70
relación lineal Una fuerte (positiva) relación
+0.50
lineal Una moderada
+0.30
relación lineal Una débil (positiva) relación
(positiva)
lineal lineal No hay relación lineal 0 0 No hay relación lineal Fuente: Adaptado de Prashanti (2014, p. 263) y Tsai (2014, p. 44). 6. Interpretación La edad NO se relaciona con la actitud lingüística hacia el castellano.
65
CALCULANDO LA INFLUENCIA: REGRESIÓN LINEAL SIMPLE
Conceptualización En la mayoría de las investigaciones se pretende relacionar dos variables. Para realizar dicha correlación se recurre a la correlación, regresión y determinación. La regresión consiste en obtener una ecuación que permita asociar las variables que se investigan. La regresión establece si hay la relación o no entre dos variables, encontrando una relación causal. Hay dos formas de obtener resultados, una con la 66
opción LINEALES y otra con ESTIMACIÓN CURVILÍNEA. La diferencia entre ambas opciones radica en que proporciona la ESTIMACIÓN CURVILINEA muestra el gráfico de dispersión o de puntos con la línea de tendencia que tienen los valores en análisis de dos variables. Además, en un análisis lineal se obtiene la ecuación de la recta que permita asociar las variables. Hay medidas de correlación que son incluidas en los análisis de regresión lineal simple: Coeficiente de correlación: indica el grado de asociación ente las variables. Coeficiente de determinación: indica el porcentaje (%) de variaciones de la variable dependiente que son explicadas por la variable independiente. Coeficiente de no determinación: indica el porcentaje (%) de variaciones de la variable dependiente que no son explicadas por las variables independientes. Coeficiente de alineación: indica el grado independencia entre las variables. Variaciones totales: indica el total de variaciones o desviaciones de la variable dependiente. Variaciones explicadas: indica las desviaciones de la variable dependiente que son explicadas por las variables independientes.
Ejemplo 1. Influencia de edad (en medida ESCALA) en la actitud lingüística hacia el castellano (en medida ESCALA) con la opción LINEALES
67
Para obtener la regresión lineal, se procede a hacer clic de en la opción LINEALES. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Regresión > Lineales. Luego se hace clic.
A continuación, aparece la ventana de REGRESIÓN LINEAL. Seleccionamos la variable ACTITUD LINGÜÍSTICA HACIA AL CASTELLANO ESC en la sección DEPENDIENTES y EDAD EN MEDIDA ESCALA en la sección INDEPENDIENTES. Luego se hace clic en la opción ESTADÍSTICOS.
68
Una vez aparecida la ventana REGRESIÓN LINEAL: ESTADÍSTICOS, se activa la opción ESTIMACIONES y AJUSTE DEL MODELO. Luego se hace clic en continuar. Finalmente de regreso a la ventana REGRESIÓN LINEAL se hace clic en aceptar. Prueba de hipótesis 1. Planteamiento de la hipótesis Hipótesis nula (H0)
: La edad NO influye en la actitud lingüística hacia el castellano.
Hipótesis alternativa (H1): La edad influye en la actitud lingüística hacia el castellano. 2. Tipo de prueba estadística Se escoge el modelo de regresión lineal por tratarse de una hipótesis causal. De esta manera se podrá determinar la relación causal entre la variable independiente y la variable dependiente. 3. Regla teórica para la toma de decisión Si el valor obtenido es inferior a 0.05 se acepta la hipótesis alterna = Sí hay influencia Si el valor obtenido es superior a 0.05 se rechaza la hipótesis alterna = No hay influencia En otras palabras: X < 0.05 = se acepta la hipótesis alterna = se rechaza la hipótesis nula = Sí hay influencia X ≥ 0.05 = se rechaza la hipótesis alterna = se acepta la hipótesis nula = No hay influencia 4. Cálculo del estadístico 69
En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS.
Observando el coeficiente de correlación (R = 0.084), se puede afirmar que existe una relación no significativa. Además, según el coeficiente de determinación (R cuadrado = 0.007), la edad tiene una influencia o afecta a la actitud lingüística en un 0.7 %; el restante 99.3 % se debe a otros factores propios del azar, involucrados como el error experimental.
El valor Sig. = 0.355 del análisis de varianza (ANOVA) de la regresión es superior a α = 0.05.
70
5. Decisión Como el valor Sig. 0.355 > 0.05, se puede afirmar con un 95 % de confianza que la variable independiente NO influye en la variable dependiente, es decir, existe independencia entre ambas variables. De esta manera, se acepta la hipótesis nula y se rechaza la hipótesis alternativa (p-valor > 0.05). 6. Interpretación La edad NO influye en la actitud lingüística hacia el castellano.
71
Ejemplo 2. Influencia de edad (en medida ESCALA) en la actitud lingüística hacia el castellano (en medida ESCALA) con la opción ESTIMACIÓN CURVILÍNEA
Para obtener la estimación curvilínea, se procede a hacer clic de en la opción ESTIMACIÓN CURVILÍNEA. Para encontrar la opción se debe seguir la siguiente secuencia: Analizar > Regresión > Estimación curvilínea. Luego se hace clic.
A continuación, aparece la ventana de ESTIMACIÓN CURVILÍNEA. Seleccionamos la variable ACTITUD LINGÜÍSTICA HACIA AL CASTELLANO ESC en la sección DEPENDIENTES y EDAD EN MEDIDA ESCALA en la sección INDEPENDIENTES. Luego activa las opciones de INCLUIR LA CONSTANTE EN LA ECUACIÓN, REPRESENTAR LOS MODELOS. En el apartado de MODELOS se activan las opciones de LINEAL y VER TABLA DE ANOVA. Finalmente, se hace clic en aceptar.
Prueba de hipótesis 72
1. Planteamiento de la hipótesis Hipótesis nula (H0)
: La edad NO influye en la actitud lingüística hacia el castellano.
Hipótesis alternativa (H1): La edad influye en la actitud lingüística hacia el castellano. 2. Tipo de prueba estadística Se escoge el modelo de regresión lineal por tratarse de una hipótesis causal. De esta manera se podrá determinar la relación causal entre la variable independiente y la variable dependiente. 3. Regla teórica para la toma de decisión Si el valor obtenido es inferior a 0.05 se acepta la hipótesis alterna = Sí hay influencia Si el valor obtenido es superior a 0.05 se rechaza la hipótesis alterna = No hay influencia En otras palabras: X < 0.05 = se acepta la hipótesis alterna = se rechaza la hipótesis nula = Sí hay influencia X ≥ 0.05 = se rechaza la hipótesis alterna = se acepta la hipótesis nula = No hay influencia 4. Cálculo del estadístico En la VENTANA DE RESULTADOS se aprecian las tablas generadas por el SPSS.
73
Observando el coeficiente de correlación (R = 0.084), se puede afirmar que existe una relación no significativa. Además, según el coeficiente de determinación (R cuadrado = 0.007), la edad tiene una influencia o afecta a la actitud lingüística en un 0.7 %; el restante 99.3 % se debe a otros factores propios del azar, involucrados como el error experimental.
El valor Sig. = 0.355 del análisis de varianza (ANOVA) de la regresión es superior a α = 0.05.
74
5. Decisión El valor Sig. 0.355 > 0.05, entonces se puede afirmar con un 95 % de confianza que la variable independiente NO influye en la variable dependiente, es decir, existe independencia entre ambas variables. De esta manera, se acepta la hipótesis nula y se rechaza la hipótesis alternativa (p-valor > 0.05). 6. Interpretación La edad NO influye en la actitud lingüística hacia el castellano.
75
Referencias Alvarado,
O.
(2011).
Manual
para
el
uso
de
SPSS.
Recuperado
de:
http://blog.uca.edu.ni/octavio/files/2011/10/MANUAL-PARA-EL-USO-DE-SPSS.pdf Bojórquez, J.; López, L.; Hernández, M. y Jiménez, E. (2013). Utilización del alfa de Cronbach para validar la confiabilidad de un instrumento de medición de satisfacción del
estudiante
en
el
uso
del
software
Minitab.
Recuperado
de:
http://www.laccei.org/LACCEI2013-Cancun/RefereedPapers/RP065.pdf Cronbach, L. (1951). Coefficient alpha and the internal structure of the test. Psychometrika, 16, 297-334. Fasold, R. (1996). La sociolingüística de la sociedad. Introducción a la sociolingüística. Madrid: Visor. García, R.; González, J. y Jornet, J. (2010). SPSS: análisis de fiabilidad. Recuperado de: http://www.uv.es/innomide/spss/SPSS/SPSS_0801B.pdf George, D. y Mallery, P. (2003). SPSS for Windows step by step: A simple guide and reference. 11.0 update (4.ta ed.). Boston: Allyn & Bacon. Gleim, J. y Gleim, R. (2003). Calculating, interpreting, and reporting Cronbach’s alpha reliability coefficient for likert type scales. Midwest Research Practice Conference in Adult, Continuing, and community Education, pp. 82-88. Ohio State: Ohio University Matos, T. (2010). Actitudes lingüísticas hacia el francés lengua extranjera (Tesis de maestría). Universidad de los Andes, Bogotá. Méndez, S. y Cuevas, A. (2014). Manual introductorio al SPSS Statistics Standard Edition
22.
Recuperado
de:
http://novella.mhhe.com/sites/dl/free/000001251x/1016239/Manual_de_SPSS.pdf Mejía, S. (2011). Material de apoyo para el adecuado uso de paquete SPSS. Recuperado de: https://es.scribd.com/doc/73071617/Material-de-Apoyo-SPSS Mendoza, M. (2011). Elaboración y validación del cuestionario: “Desempeños profesionales de directivos y profesores en pro de una educación creativa: Evaluación 76
y autoevaluación desde la perspectiva docente”. Revista Docencia e Investigación 21. Recuperado
de:
http://www.uclm.es/varios/revistas/docenciaeinvestigacion/pdf/numero11/03.pdf Mora, H. (2002). Breve guía de procedimientos para explorar validez y confiabilidad de cuestionarios.
Aplicaciones
con
SPSS
11.0.
Recuperado
de:
https://www.academia.edu/1982369/Validez_y_Fiabilidad_con_SPSS Muñiz, J. (2003). Teoría clásica de los tests. (3.ra ed.). Madrid: Pirámide. Ochoa, R. (2014). Análisis estadístico con el SPSS. La Paz. Recuperado: http://www.estadisticacondago.com/algebra%20lineal/MANUAL%20SPSS%202014.pdf Prashanti, T. (2014). Overview of Correlation and Regression. International Journal of Emerging Trends in Technology and Sciences 3 (4), pp. 263-269. Sturges, H. (1926). The choice of a class-interval. Journal of the American Statistical Association 21, pp. 65–66. Tsai, J. (2014). Factors Leading to Membership Intention in Social Networks: Couchsurfing (Tesis de maestría). Ming Chuan University, República de China. Webster, A. (2001). Estadística aplicada a los negocios y a la economía. (3.ra ed.). Bogotá: Mc Graw Hill.
77