Índice Introducción 1. Concepto de Estadística Inferencial 1.1. Elementos de una prueba estadística 1.2. Medidas de tendencia central 1.3. Medidas de variabilidad o dispersión de datos 1.4. Población 1.5. Muestra 2. Probabilidad 3. Distribución normal: modelo de probabilidad 5. Muestreo probabilístico 5.1. Muestreo aleatorio simple 5.2. Muestreo Sistemático 5.3. Muestreo Estratificado 5.4. Muestreo por conglomerados 6. Muestreo no probabilístico 6.1. Muestro Casual 6.2. Muestreo Intencional o de juicio 6.3. Muestreo por cuotas 7. Pruebas de Hipótesis 8. Pruebas paramétricas 8.1. Pruebas de hipótesis para una media poblacional 8.2. Pruebas de hipótesis para la diferencia entre dos medias poblacionales 8.3. Prueba de hipótesis para la proporción poblacional 8.4. Prueba de hipótesis para la diferencia entre dos proporciones poblacionales 9. Pruebas para muestras pequeñas 9.1. Inferencias con muestras pequeñas para una media poblacional 9.2. Inferencias con muestras pequeñas para la diferencia entre dos medias de población 9.3. Pruebas para la comparación de dos variancias de población 10. Prueba Ji-cuadrada 11. Análisis de variancia (ANOVA) Conclusión Bibliografía
Pág. 3 4 4 4 5 5 5 6 7 9 9 11 12 13 14 14 14 14 15 16 16 18 21 22 23 24 25 27 29 31 35 36
INTRODUCCIÓN ¿Cuál es la importancia de la estadística dentro del ámbito de lo educativo? Y ¿qué relación tiene la Estadística con la Pedagogía? Éstas son las preguntas que constantemente se hacen los estudiantes que dentro de la Licenciatura en Pedagogía se encuentran con la necesidad o aparente obligación de cursar dos semestres de Estadística. La Estadística, cabe mencionar, no es un mero relleno dentro del plan de estudios de la Licenciatura en Pedagogía, sino que se constituye en una verdadera necesidad para la realización de diversos proyectos, investigaciones y estudios de corte cuantitativo. Pero no se queda ahí, sino que todos los datos que mediante los análisis estadísticos son recuperados pueden y deben ser utilizados para realizar interpretaciones que van más allá de lo puramente cuantitativo, inmiscuyéndose en el área de lo cualitativo. Dentro de la misma Estadística es posible encontrar una diferenciación entre la Estadística llamada descriptiva que precisamente expresa realidades numéricamente, incorporando una serie de datos que pueden servir a diversos propósitos, y la Estadística Inferencial que se dirige a la toma de decisiones y la realización de inferencias, como su nombre lo dice, a partir de los datos que se obtienen. Por lo anterior es posible decir que la Estadística no se contenta solamente con recopilar datos, sino que los utiliza para realizar acciones a partir de ellos. La Pedagogía, al igual que otras ciencias humanas y sociales, se fundamenta en la Estadística de diversas maneras con el fin de analizar de forma cuantitativa realidades educativas. La Pedagogía requiere del conocimiento de los fundamentos estadísticos para la incorporación de datos en su quehacer, de manera que a partir de ellos, se propongan nuevos caminos, nuevas propuestas y soluciones novedosas a problemáticas distintas. Reconociendo la importancia de la Estadística, específicamente de la Estadística Inferencial, para la Pedagogía es que se realiza el siguiente trabajo que pretende brindar elementos tanto teóricos como prácticos. Se propone definir ciertos conceptos y presentar los procedimientos para la realización de ciertos problemas estadísticos con ejercicios que los ejemplifiquen. Para esto, el trabajo se divide en 11 breves capítulos donde se busca presentar la Estadística Inferencial, sus conceptos y sus aplicaciones. El recorrido va del concepto de la Estadística Inferencial como tal, a los conceptos de probabilidad, distribución normal como modelo de probabilidad, los conceptos de población y muestra. También se presentan los distintos tipos de muestreo probabilísticos y no probabilísticos y las pruebas de hipótesis más usuales dentro del campo de la Estadística. Es necesario precisar que por cada tipo de muestreo y prueba de hipótesis es posible encontrar un ejercicio para su mejor comprensión. Al final también se puede hallar, la bibliografía básica utilizada, así como ciertos links en Internet Inter net para sucesivas búsquedas. búsquedas . El presente trabajo, cabe repetir, es un acercamiento al campo de la Estadística Inferencial para mostrar que lo estadístico va de la mano de lo pedagógico y viceversa. No se encuentran peleados, sino que van de la mano hacia el estudio de distintas problemáticas.
2
1. CONCEPTO DE ESTADÍSTICA INFERENCIAL La Estadística Inferencial, es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Se dirige a la realización de inferencias, esto es, la toma de decisiones basándose en los datos recogidos de una muestra de la población o universo de estudio. La estadística inferencial comprende las técnicas con las que, con base únicamente en una muestra sometida a observación, se toman decisiones sobre una población o proceso estadísticos. Dado que estas decisiones se toman en condiciones de incertidumbre, suponen el uso de conceptos de probabilidad. Mientras que a las características medidas de una muestra se les llama estadísticas muestrales, a las características medidas de una población estadística, o universo, se les llama parámetros de la población. El procedimiento para la medición de las características de todos los miembros de una población definida se llama censo. Cuando la inferencia estadística se usa en el control de procesos, al muestreo, le interesa en particular el descubrimiento y control de las fuentes de variación en la calidad de la producción. 1.1. Elementos de un problema estadístico
1. 2. 3. 4.
Definición clara del objetivo del experimento y de la población pertinente. Diseño del experimento o del procedimiento de muestreo. Colección y análisis de los datos. Procedimiento para formular inferencias acerca de la población con base en la información muestral. 5. Obtención de una medida de la bondad o confiabilidad de la inferencia. 1.2. Medidas de tendencia central
Media aritmética El conjunto de n medidas o mediciones x1, x2, x3 ,…, xn , es igual a la suma de los valores dividida entre n. n
Media muestral x = Σ x i i i=1
n
Media poblacional: μ
3
Mediana Un conjunto de mediciones x1, x2, x3,…, xn , es el valor de x que se encuentra en el punto medio o centro cuando se ordenan los valores de menor a mayor. 1.3. Medidas de variabilidad o dispersión de los datos
Variancia (varianza) De N mediciones x1 , x2, x3,…, xN , se define como la media de los cuadrados de las desviaciones de las mediciones respecto a su propia media μ. La variancia poblacional se denota por σ2 y está dada por la fórmula. N 2
2 Variancia σ = Σ ( x x i i - μ ) i=1
N
Desviación estándar De un conjunto de mediciones de n mediciones x1 , x 2, x 3,…, x N , es igual a la raíz cuadrada positiva de la variancia. n
Desviación estándar
2
2 S = S = Σ ( x x i i – – x) i=1
n-1
1.4. Población
Conjunto que representa todas las mediciones de interés para quien obtiene la muestra. Consiste en un conjunto de individuos que comparten por lo menos una característica, sea ciudadanía común, la calidad de ser miembros de una asociación voluntaria o de una raza entre otros. Las poblaciones pueden ser infinitas o finitas. Una población infinita es la que contiene un número infinito de unidades elementales. Una población es finita cuando tiene un número finito de unidades elementales. 1.5. Muestra
Subconjunto de mediciones seleccionado de la población de interés.
4
2. PROBABILIDAD La probabilidad nació gracias a los juegos de azar. En el Renacimiento empiezan a surgir inquietudes entorno a contabilizar el número de posibles resultados de un dado lanzado varias veces, o problemas más prácticos sobre cómo repartir las ganancias de los jugadores cuando el juego se interrumpe antes de finalizar. A los matemáticos del siglo XVI como Pacioli, Cardano y Tartaglia se deben las primeras consideraciones sobre los juegos de azar. En 1654 Antoine Gombaud, el caballero de Méré, un jugador compulsivo, pidió a Blaise Pascal que le resolviese el problema del reparto de apuestas cuando se suspendía la partida antes de terminar. La solución consistió en darse cuenta de que el reparto de las apuestas debe hacerse en función de la probabilidad de ganar que tuviese cada jugador en el momento de interrumpirse el juego. Había nacido la probabilidad. El primero en dar una definición clásica de probabilidad fue Jakob Bernoulli en 1713, reformulada después por Abraham De Moivre de la siguiente manera: "...una fracción en la que el numerador es igual al número de apariciones del suceso y el denominador es igual al número total de casos en los que es suceso pueda o no pueda ocurrir. Tal fracción expresa la probabilidad de que ocurra el suceso".
El enfoque clásico de la probabilidad está basado en la suposición de que todos los resultados del experimento son igualmente posibles. La probabilidad se calcula de la siguiente manera: Probabilidad =
número de posibles resultados del evento número total de resultados posibles del evento
La probabilidad se refiere así a la frecuencia relativa de ocurrencia de cualquier resultado o evento dado, esto es, la probabilidad asociada a cualquier evento es el número de veces en que dicho evento puede ocurrir en relación con el número total de eventos.
5
3. DISTRIBUCIÓN NORMAL: MODELO DE PROBABILIDAD La distribución de probabilidad es simétrica respecto a su media. Debido a esta simetría se puede simplificar la tabla de las áreas listándolas entre la media y un número especificado z de desviaciones estándares a la derecha de μ . Las áreas de la izquierda de la media se pueden calcular utilizando el área correspondiente corr espondiente e igual a la de la derecha de la media.
La distancia de un valor dado de x a la media es ( x ). Al expresar esta distancia en x - μ ). unidades de desviaciones estándares σ, se obtiene
6
z = x - μ σ
Existe un correspondencia de uno a uno entre z y x ( z = 0 cuando x = μ ). ). El valor de z será positivo cuando x esté por arriba de la media, y negativo cuando x sea menor que dicha medida. Su media es igual a cero y su desviación estándar es igual a 1. El área bajo la curva es igual al 100 %, el cual es dividido en 50 % a cada lado de la media. Al igual que a cada lado de la media es posible encontrar 3 desviaciones estándares.
50 %
50 %
-3 -2 -1 0 1 2 3 Distribución Normal Estandarizada
Los valores de z son encontrados en la tabla presentada en la página anterior. Ejemplo:
La Mtra. de la experiencia educativa de Evaluación de los Aprendizajes desea conocer la probabilidad que hay de que sus alumnos obtengan un u n promedio entre 7 y 10, si la media de calificaciones ha sido de 9 con una desviación estándar de 1. 38. Su grupo cuenta con un total de 25 alumnos. z = x - μ = 7 − 9 = −1.44 σ
1.38
z = x - μ = 10 − 9 = 0.72 σ
z1 = 0.4251 = 42.51 % z2 = 0.2642 = 26.42 %
1.38
68.92 %
-3 -2 -1 0 1 2 3 z1 z2 z = 42.51 + 26.42 = 68.92 % es la probabilidad de que los alumnos obtengan entre 7 y 10 de promedio.
7
4. MUESTREO PROBABILÍSTICO El muestreo aleatorio le da a todos y a cada uno de los miembros de la población igual oportunidad de ser seleccionados para la muestra. Esta característica del muestro aleatorio indica que cada miembro de la población debe ser identificado antes de obtener dicha muestra aleatoria, requisito que generalmente se llena obteniendo una lista que incluya a todos y cada uno de los miembros de la población. El muestreo aleatorio simple, puede obtenerse mediante un proceso no muy distinto de la técnica, actualmente conocida, de poner todos los nombres en un pedazo de papel y luego sacar sólo algunos nombres del sombrero con los ojos vendados. Este procedimiento les da oportunidad a todos los miembros de la población de ser seleccionada para la muestra ya que sólo incluye un pedazo de papel por persona. Otra forma de seleccionar una muestra es con la utilización de la tabla de números aleatorios tal como la tabla H. 5.1 Muestreo Aleatorio Simple Simple
Es aquella que se extrae de la población, de tal modo que en cada etapa del muestreo, cada elemento que permanece en el arreglo de la población tiene una oportunidad de ser escogido. Ordenamiento: es una lista de todos los miembros o unidades en una población. Tabla de números aleatorios: es una formación no ordenada de enteros, usualmente dispuestos en grupos de dos, cinco o diez dígitos en renglones y columnas. Procedimiento:
Hacer una muestra completa del universo. Asignar un número a cada individuo del universo. A través de una tabla de números aleatorios o procedimiento similar, seleccionar un numero de individuos que van a constituir la muestra.
Ejemplo:
La secretaria de educación Pública del Estado de Veracruz realizará un estudio con respecto a la utilidad que le dan maestros y alumnos a la Enciclomedia. Para obtener la muestra muestra se seleccionan 10 escuelas de un total de 20 escuelas urbanas y suburbanas del municipio de Xalapa, Veracruz.
8
1. Benito Juárez 2. Carlos A. Carrillo 3. Emiliano Zapata 4. Hugo TOP 5. Miguel Hidalgo 6. E. C. Rebsamen 7. Francisco I. Madero 8. Francisco Javier Clavijero 9. Carolino Anaya 10. Josefa Ortiz de Domínguez 11. Américas 12. Euro hispanoamericana 13. Teresitas 14. Ignacio Allende 15. Simón Bolívar 16. Juan Escutía 17. Ignacio De la Llave 18. José Vasconcelos 19. Ricardo Flores Magón 20. Agustín Iturbide Las escuelas seleccionadas por medio de la tabla H, de acuerdo a la tabla siguiente fueron: Renglón 15 15 39 31
Columna 4 3 9 6
Combinaciones 2 8, 5, 13, 11, 14, 12 9, 1, 6,
1. Benito Juárez 2. Carlos A. Carrillo 3. Miguel Hidalgo 4. E. C. Rebsamen 5. Francisco Javier Clavijero 6. Carolino Anaya 7. Euro hispanoamericana 8. Teresitas 9. Ignacio Allende 10. Simón Bolívar
9
Ejemplo de tabla de números aleatorios 5.2 Muestreo Sistemático Sistemático
Este procedimiento no requiere de tabla de números aleatorios, ya que se hace el muestreo con una lista de miembros de la población por intervalos fijos. Una muestra sistemática es obtenida cuando los elementos son seleccionados en una manera ordenada, la manera de la selección depende del número de elementos incluidos en la población y el tamaño de la muestra. El número de los elementos en la población es, primero, dividido por el número deseado en la muestra. El cociente indicará si cada décimo, cada onceavo cada centésimo elemento en la población va hacer seleccionado y el primer elemento de la muestra es seleccionado al azar. 10
K=N n Ejemplo:
La maestra de taller de lectura y redacción desea regalar 5 libros de superación personal a su grupo vespertino que consta de 38 alumnos. Donde el número seleccionado es 4. Para seleccionar a los ganadores de los libros realizó el siguiente: K = 38 = 7.6 = 7 5 4 + 7 = 11 11 + 7 = 18 18 + 7 = 25 25 + 7 = 32 Los valores obtenidos corresponden al número de lista de los alumnos. 1=4 2 = 11 3 = 18 4 = 25 5 = 32 5.3 Muestreo Estratificado Estratificado
Los métodos para seleccionar una muestra se designan como diseños de muestreo, y la muestra obtenida se llama a menudo encuesta por muestras. Un método para reducir los sondeos de la opinión pública o de los consumidores, es dividir en segmentos, llamados estratos, la región geográfica en la cual residen los elementos (personas) de la población. Se seleccionan muestras dentro de cada estrato; después se combina esta información para hacer una inferencia acerca de toda la población. También se puede obtener información acerca de las características de cada estrato. Ejemplo:
Proporcional: Es aquella en la cual la fracción del muestreo es igual para cada estrato. Se desea conocer cual es la opinión de los estudiantes de pedagogía con relación a la ley del sida. (Se debe obtener una muestra aleatoriamente del 20 %)
11
Generaciones 2003 2004 2005 2006
Numero de porcentaje alumnos en cada estrato 197 20 % 210 20 % 200 20 % 220 20 %
Tamaño muestral de cada estrato 39 42 40 22
No proporcional: Es aquella en la cual si existen diferencias dife rencias en las fracciones de muestreo. Se desea conocer la opinión que tienen los alumnos del área de humanidades con respecto al presupuesto destinado para educación. Área de humanidades Facultades Pedagogía Sociología Filosofía Idiomas Antropología Letras total
Tamaño de población 750 420 280 435 200 280 2365
la porcentaje 30 % 20 % 12 % 13 % 13 % 12 % 100 %
Tamaño muestra 225 84 33 56 26 33 427
de
la
5.4. Muestreo por conglomerados conglomerados
El muestreo por conglomerados reduce el costo del muestreo, pero también selecciona gran cantidad de elementos en ellos no es un sustituto ademado para escoger un numero razonable de conglomerados. Las observaciones de los elementos de un conglomerado pueden tender a dar respuestas r espuestas similares. Este muestreo consiste en seleccionar primero al azar grupos llamados conglomerados de elementos individuales de la población, y tomar en luego los elementos o una submuestra de ellos de cada conglomerado para constituir así la muestra global.
12
6. MUESTREO NO PROBABILÍSTICO Es aquel método en el que los miembros de una población no tienen la misma oportunidad de ser escogidos para le muestra. Características: 1. Se elige la muestra aplicando criterio, es decir, juega un papel decisivo en su selección el punto de vista del investigador. 2. Puede ser circunstancial o intencional. 3. Las muestras circunstanciales o intencionales pueden ser representativas, pero no permiten calcular el error del muestreo ni el nivel de confianza co nfianza de las estimaciones. 6.1. Muestreo Casual
Es el muestreo más usual y se basa exclusivamente en lo que es más conveniente para el investigador, simplemente se excluyen de ella los casos más inconvenientes. Ejemplo:
En un universo de escuelas del estado de Oaxaca se toma como muestra total a las escuelas de uno de sus municipios. 6.2. Muestreo Intencional o de juicio
En este tipo de muestra involucra de forma considerable la lógica, el sentido común a la sano juicio pueden usarse para seleccionar una muestra que sea representativa de una población. Ejemplo:
Se desea conocer cuál es la eficiencia y rapidez del proceso de inscripción de la Facultad de Pedagogía. En el universo de estudiantes de la facultad, se toma como muestra a los primeros 40 alumnos que han concluido su inscripción. 6.3. Muestreo por Cuotas
En el, las diversas características de una población tales como edad, sexo, clase social o raza son muestreadas de acuerdo con el porcentaje que ocupan dentro de una población. Ejemplo:
En la escuela secundaria Federal 2 se desea realizar un estudio acerca de las relaciones entre padres e hijos, se toma como muestra a 30 estudiantes del sexo masculino, 30 del sexo femenino. 13
7. PRUEBA DE HIPÓTESIS Elementos de una prueba de hipótesis 1. Hipótesis nula, Ho 2. Hipótesis Hipótesis alternat alternativa, iva, Ha 3. Estadístico de prueba 4. Región de rechazo Error alfa / Error beta Se comete un error tipo I si se rechaza Ho cuando Ho es verdadera. La probabilidad de cometer un error tipo I se denota mediante . El valor de se denomina nivel de prueba. Se comete un error error tipo II si se acepta Ho cuando Ha es verdadera. La probabilidad de cometer un error tipo II se denota mediante .
Decisión
Ho es verdadera
Aceptar Ho
No hay error
Rechazar Ho
Error tipo I ó
Ho es falsa Error tipo II ó No hay error
1. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. 2. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. 3. Un aumento en el tamaño muestral n reducirá y de forma simultánea. 4. Si la hipótesis nula es falsa, es un máximo máximo cuando el valor real del parámetro se aproxima al hipotético. Entre más grande sea la distancia entre el valor real y el valor hipotético, será menor .
14
8. PRUEBAS PARAMÉTRICAS El valor (θ 0 0 + C ) de una estadística de prueba que separa las regiones de rechazo y de aceptación se llama valor crítico de la estadística.
α
θ 0
θ 0 0 + C
Región de aceptación
Región de rechazo
La posibilidad de rechazar la hipótesis nula cuando es cierta será igual al área bajo la curva normal sobre la región de rechazo. Una prueba estadística de una extremidad (o cola) es aquella en que la región de rechazo se localiza solamente en una cola o extremo de la distribución muestral de la estadística de prueba. Mientras que una prueba de dos extremidades o colas es la que sitúa la región de rechazo en ambos extremos de la distribución de muestreo de la estadística de prueba. El estadístico de prueba utilizado para muestras grandes es el siguiente: z = Ô - θ 0 σÔ
8.1. Prueba de Hipótesis para una media poblacional
1. Hipótesis nula:
H 0 : μ = μ 0
2. Hipótesis alternativa:
Prueba de una cola μ > μ 0 H a : μ > (o bien Ha : μ < μ < μ 0 ) 3. Estadística de prueba
Prueba de dos colas μ = μ 0 Ha : μ =
z = x -
0
σ o s (desviación estándar muestral)
σ/ n
15
4. Región de rechazo
Prueba de una cola z > zα (o sea, z < - z zα cuando la hipótesis alternativa μ < μ 0) Ha : μ <
α
0
zα
Prueba de dos colas z > zα /2 /2 o bien z < - zα /2 /2
α/2
α/2
- zα /2 /2
0
zα /2 /2
Suposiciones: Se seleccionaron aleatoriamente las n observaciones de la muestra de la población y n es grande, por ejemplo n > 30. Ejemplo:
La media del promedio general de 120 alumnos de la experiencia educativa “Comunicación y Educación” es de 8.6 con una desviación estándar de 1.4. Se quiere probar que el promedio de los alumnos de dicha experiencia es mayor a 9.0, utilizando un nivel de significancia de 0.05. H 0 : μ = 9.0 μ > 9.0 Ha : μ >
z = x - μ 0 = 8.6 − 9.0 = − 0.4 = − 3.08 σ/ n 1.4 / 120 0.13 α = 0.5
zobt. = − 3.08 0.4990 − 0.05
0.4490
z = 1.63
-3 -2 -1 0 1 2 3 z = 1.63 RA RR
Decisión: No se rechaza la hipótesis nula porque no evidencia estadística suficiente para demostrar que el promedio de los alumnos de la experiencia educativa “Comunicación y Educación” sea mayor a 9.0.
16
8.2. Prueba de Hipótesis para dos medias poblacionales
1. Hipótesis nula: H 0 : (μ 1 - μ 2) = D0 donde D0 es alguna diferencia especificada que se quiere probar. En muchos casos se deseará probar la hipótesis de que no haya una diferencia entre μ 1 1 y μ 2 -es decir, D0 = 0. 2. Hipótesis alternativa:
Prueba de una cola Ha : (μ 1 - μ 2) > D0 (o bien Ha : (μ 1 - μ 2) < D0) 3. Estadística de prueba
Prueba de dos colas Ha : (μ 1 - μ 2) = D0
z = ( x x1 – x2) - D - D0 σ
2
1
n1
σ +
σ o s (desviación estándar muestral)
2 1
n2
4. Región de rechazo
Prueba de una cola z > zα (o sea, z < - z zα cuando la hipótesis alternativa Ha : (μ 1 - μ 2) < D0)
α
0
zα
Prueba de dos colas z > zα /2 /2 o bien z < - zα /2 /2
α/2
- zα /2 /2
α/2
0
zα /2 /2
Suposiciones: Se seleccionaron las muestras aleatoria e independientemente de dos poblaciones, y n1 > 30 y n2 > 30. Ejemplo:
Una profesora desea comparar los resultados de un test de habilidad verbal aplicado en su grupo tanto a mujeres como a hombres. Se pidió la realización del test a 14 mujeres y a 11 hombres para su comparación. Las medias muestrales y las desviaciones muestrales fueron para las mujeres de 85 y 6; mientras que en los hombres fue de 80 y 7. ¿Proporcionan los datos evidencia que indique una diferencia en el promedio de los resultados del test de habilidad verbal entre mujeres y hombres? Se utilizará un nivel de significancia de 0.05. H 0 : (μ 1 1 - μ 2) = D0
17
Ha : (μ 1 - μ 2) = D0 z = ( x x1 – x2) - D - D0 = (85 – 80) – 0 = 5 = 0.71 2 2 σ σ (6)2 + (7)2 7.02 1 1 + 14 11 n1 n2 zobt. = 0.71
α = 0.05 / 2 = 0.025 0.4990 − 0.025
0.4740
z = 1.94 -3 -2 -1 0 1 2 3 z =- 1.94 z = 1.94 RR RR
Decisión: No se rechaza la hipótesis nula puesto que no se tiene suficiente evidencia estadística para expresar que halla diferencia entre el resultado de mujeres y hombres en la aplicación del test de habilidad verbal. 8.3. Prueba de Hipótesis para la proporción poblacional
1. Hipótesis nula:
H 0 : p = p0
2. Hipótesis alternativa:
Prueba de una cola H a : p > p0 (o bien H a : p < p0 ) 3. Estadística de prueba
z = p - p - p0 p0 q0 n
Prueba de dos colas H a : p = p0 donde p = x n
4. Región de rechazo
Prueba de una cola z > zα (o sea, z < - z zα cuando la hipótesis alternativa H a : p < p0)
Prueba de dos colas z > zα /2 /2 o bien z < - zα /2 /2
18
α
0
zα
α/2
α/2
- zα /2 /2
0
zα /2 /2
Ejemplo:
Aproximadamente 4 de cada 10 alumnos desertan de la Facultad de Arquitectura por falta de recursos económicos para continuar con los estudios. Para esto, se seleccionó una muestra de 350 alumnos para proporcionarles una ayuda económica. El resultado de esta ayuda fue que 120 alumnos que corrían riesgo de desertar continuaron sus estudios. ¿Son los datos suficientes para indicar una discriminación en la deserción de los estudiantes de Arquitectura? α = 0.05 H 0 : p = 0.40 Ha : p < 0.40 z = p - p - p0 = 0.34 – 0.40 = -0.06 = - 2.30 (0.40) (0.60) 0.026 p0 q0 350 n p = x / n = 120 / 350 = 0.34 zobt . = -2.30
0.4990 − 0.05
0.4490
z = 1.63 -3 -2 -1 0 1 2 3 z = 1.63 RR
Decisión: Se rechaza la hipótesis nula porque se tiene la evidencia estadística para expresar que hubo una discriminación con respecto a la deserción de los alumnos de la facultad de Arquitectura. 8.4. Prueba de Hipótesis para la diferencia entre dos Proporciones Poblacionales
1. Hipótesis nula : H 0 : (p 1 - p2) = D0 donde D0 es una diferencia especificada que se quiere probar. Para muchas pruebas se deseará utilizar la hipótesis de que no existe diferencia entre p1 y p2 -es decir, D0 = 0.
19
2. Hipótesis alternativa:
Prueba de una cola H a : (p1 - p2) > D0 (o bien Ha : (p1 - p2) < D0) 3. Estadística de prueba
z = ( p1 – p2 ) - D0 p1q1 p2q2 n1 n2
Donde
p1 = x1 n1
Prueba de dos colas Ha : (p1 - p2) = D0
p2 = x2 n2
Ya que se conocen p1 y p2, tendremos que aproximar sus valores para poder calcular la desviación estándar de ( p p1 – p2) que aparece en el denominador de la estadística z. Existen aproximaciones para dos casos. 4. Región de rechazo
Prueba de una cola z > zα (o sea, z < - z zα cuando la hipótesis alternativa Ha : (p1 - p2) < D0)
α
0
zα
Prueba de dos colas z > zα /2 /2 o bien z < - zα /2 /2
α/2
- zα /2 /2
α/2
0
zα /2 /2
Ejemplo:
Los directivos de la facultad de sociología infieren que la proporción de alumnos que ingresó a la licenciatura en sociología aumentó con respecto al año anterior. Los registros expresan que este año ingresaron 200 de 630 personas que presentaron el examen de admisión; mientras que el año anterior ingresaron 220 de 750 personas. ¿Proporcionan los datos evidencia estadística que indique un incremento de este año con respecto al año anterior? α = 0.025 H 0 : (p1 - p2) = D0 H a : (p1 - p2) = D0
20
(0.32 − 0.29) − 0 z = ( p1 – p2 ) - D - D0 = (0.32) (0.68) + (0.29) (0.71) p1q1 p2q2 630 750 n1 n2
p1 = x1 / n1 = 200 / 630 = 0.32 a = 0.025 / 2 = 0.0125
= 0.03 = 1.20 0.0248
p2 = x2 / n2 = 220 / 750 = 0.29 zobt . =1.20
0.4990 − 0.0125
0.4865
z = 2.21 -3 -2 -1 0 1 2 3 z = 2.21 RR
Decisión: No se rechaza la hipótesis nula porque no se tiene suficiente evidencia estadística para expresar que exista un incremento en el ingreso de estudiantes a la Licenciatura en Sociología de este año con respecto al anterior.
21
9. PRUEBAS PARA MUESTRAS PEQUEÑAS Distribución t de Student La distribución muestral de la estadística de prueba t tiene forma acampanada o de montículo, y es perfectamente simétrica respecto a t = = 0. Tabla de la distribución t de Student con v grados de libertad.
La variabilidad de t es el resultado de dos cantidades aleatorias, x y s, que son independientes entre sí. La variabilidad de t decrece decrece al aumentar n, porque la estimación s para δ se basará en más información.
22
La distribución de t depende del tamaño muestral n. El divisor (n – 1) de la suma de los cuadrados de las desviaciones, que aparece en la fórmula para s2, es el número de grados de libertad (g.l.) asociado a s2 y a la estadística t .
9.1. Inferencias con muestras pequeñas para para una media poblacional poblacional
1. Hipótesis nula:
H 0 : μ = μ 0
2. Hipótesis alternativa:
Prueba de una cola μ > μ 0 Ha : μ > (o bien Ha : μ < μ < μ 0 ) 3. Estadística de prueba
Prueba de dos colas μ = μ 0 Ha : μ =
t = x - 0 s/ n
4. Región de rechazo
Prueba de una cola t > tα (o sea, t < - t α cuando la hipótesis alternativa μ < μ 0) Ha : μ <
α
0
t α
Prueba de dos colas t > tα /2 /2 o bien t < - t α /2 /2
α/2
- t α /2 /2
α/2
0
t α /2 /2
Los valores de t, t α α , t α α /2 se basan en (n – 1) grados de libertad. Estos valores críticos tabulados se pueden encontrar en la Tabla “Valores críticos de t ” Ejemplo:
Se tomó, aleatoriamente, una muestra de 25 personas de la población total de aspirantes a ingresar a la universidad en la Licenciatura en Antropología. De la muestra, se produjo una media de 9.1 en el examen de admisión con una desviación estándar de 1.45. Se desea mostrar que la media poblacional excede de 8.5 con un nivel de significancia de 0.05.
23
H 0 : μ = 8.5 μ > 8.5 Ha : μ >
t = x - 0 s/ n
= 9.1 – 8.5 = 0.6 = 2.07 1.45 / 25 0.29
t obt. = 2.07
g.l. = 25 – 1 = 24 t α α = 1.711
t α α = 1.711 RR
Decisión: Se rechaza la hipótesis nula porque se tiene suficiente evidencia estadística para expresar que la media poblacional de los aspirantes que presentaron el examen de admisión para la Licenciatura en Antropología excede de d e 8.5. 9.2. Inferencias con muestras pequeñas para la diferencia entre dos Medias de Población
1. Hipótesis nula: H 0 : (μ 1 1 - μ 2) = D0 donde D0 es una diferencia especificada que se quiere probar. Para muchas pruebas tal vez se desee probar que no existe diferencia entre μ 1 1 y μ 2 es decir, D0 = 0. 2. Hipótesis alternativa:
Prueba de una cola H a : (μ 1 1 - μ 2) > D0 (o bien H a : (μ 1 1 - μ 2) < D0) 3. Estadística de prueba
t = ( x x1 – x2) - D - D0
s
Donde
2
n1
Prueba de dos colas H a : (μ 1 1 - μ 2) = D0
n1
+ 1
n2
n2
s = Σ (xi – x1) + Σ (xi – x2)2 i =1
2
1
1=1
n1 + n2 – 2
24
4. Región de rechazo
Prueba de una cola t > tα (o sea, t < - t α cuando la hipótesis alternativa μ < μ 0) Ha : μ <
α
0
t α
Prueba de dos colas t > tα /2 /2 o bien t < - t α /2 /2
α/2
α/2
- t α /2 /2
0
t α /2 /2
Los valores de t, t α α , t α α /2 se basan en (n – 1) grados de libertad. Estos valores críticos tabulados se pueden encontrar en la Tabla “Valores críticos de t ” Ejemplo:
Se realizó una comparación entre el desempeño de dos grupos de 12 alumnos, de los cuales, un grupo fue sometido a clases extra de Estadística Inferencial. Por su parte, el otro grupo se mantuvo solamente con la clase ya prevista, sin recibir la ayuda extra. Al término del periodo establecido se realizó un prueba con 30 reactivos para ver los resultados de cada grupo, los cuáles se encuentran ordenados en tabla que se presenta a continuación. Resultados de alumnos de clases previstas 25 26 18 20 22 14 15 19 28 17 13 16
Resultados de alumnos en clases extra 29 25 20 28 17 19 24 26 15 21 23 24
¿Con los datos presentados hay evidencia suficiente que señale que el desempeño de los alumnos que participaron de las clases extra tiene un mayor rendimiento que los que no participaron de dichas clases? α = 0.05 H 0 : (μ 1 1 - μ 2) = D0
25
Ha : (μ 1 - μ 2) > D0 2
n1
n2
2
s = Σ (xi – x1) + Σ (xi – x2)2= (264.96) + (202.96) = 467.92 = 21.27 i =1 1=1 12 + 12 – 2 22 n1 + n2 – 2 t = ( x x1 – x2) - D - D0 = (19.42 – 22.58) – 0 = – 3.16 = – 1.68 1 + 1 1.88 1 + 1 4.61 12 12 s n1 n2 t obt. obt. = - 1.68
g.l. = 12 + 12 = 24 – 2 = 22 t α α = 1.717
= 1.717 t α α = RR
Decisión: No se rechaza la hipótesis nula porque no hay suficiente evidencia estadística para expresar que los alumnos que qu e participaron en las clases extra de Estadística Es tadística Inferencial tengan un mejor rendimiento que aquellos que no participaron en ellas. 9.3. Pruebas para la comparación comparación de dos variancias variancias de población población
H 0 : σ 2 = σ 2
1. Hipótesis nula:
1
2
2. Hipótesis alternativa:
Prueba de una cola 2 > σ H a : σ 2 > σ 1 2
Prueba de dos colas H a : σ 2 = σ 2 1
2
(o bien H a : σ 2 < σ 2 ) 1
2
3. Estadística de prueba
Prueba de una cola F = s12 s22 (o bien, F = s22 s12 para 2 > σ H a : σ 2 > σ 1
2
Prueba de dos colas F = s12 s22 , donde s12 es la mayor variancia muestral
)
26
4. Región de rechazo
Prueba de una cola F > Fα
Prueba de dos colas F > Fα /2 /2
Cuando F = s12 / s22, los valores críticos, F α y F α /2/2, se basan en v1 = n1 – 1 y v2 = n2 – 1 grados de libertad. Estos valores tabulados, para α = 0.10, 0.05, 0.025, 0.01 y 0.005, se pueden encontrar em lãs Tablas 7, 8, 9, 10 y 11 del Apéndice del libro “Estadística para Administradores” citado en a Bibliografía.
α
0
F α
α/2
F α α /2 /2
0
Ejemplo:
Un maestro quiere conocer la variabilidad en las calificaciones de dos grupos de la experiencia educativa “Psicología del aprendizaje”, para lo cual se toman las siguientes muestras y los datos que arrojaron son los siguientes. n1 = 16 n2 = 13 S12 = 1.74 S22 = 1.86 α = 0.05
H 0 : σ 2 = σ 2 1
2
H a : σ 2 = σ 2 1
2
F = s12 = 1.86 = 1.0 1.07 2 s2 1.74 = 1.07 F =
v1 = n1 – 1 = 16 – 1 = 15 15 v2 = n2 – 1 = 13 – 1 = 12 12 α = 0.05 / 2 = 0.025
g.l. = 3.18
g.l. = 3.18 Decisión: No se rechaza la hipótesis nula porque no hay suficiente evidencia estadística para expresar que existe variabilidad entre las calificaciones de los dos grupos de la experiencia educativa “Psicología del Aprendizaje”.
27
10. PRUEBA JI-CUADRADA H 0 : σ 2 = σ 2
1. Hipótesis nula:
0
2. Hipótesis alternativa:
Prueba de una cola 2 > σ H a : σ 2 > σ 0
Prueba de dos colas H a : σ 2 = σ 2 0
(o bien H a : σ 2 < σ 2 ) 0
3. Estadística de prueba
X 2 = (n – 1) s2 σ
2 0
4. Región de rechazo
Prueba de una cola x2 > xα 2 [(o sea, x2 < x2 (1 − α) cuando la hipótesis alternativa H a : σ 2 < σ 0 02 ), donde xα 2 y x2 (1 − α) son los valores de la cola superior e inferior, respectivamente de x2 que ponen α en las áreas de las colas]
α
0
xα 2
Prueba de dos colas x2 > x2α /2 /2 o sea 2 2 x < x (1 − α /2) , donde /2) , 2 2 x α /2 /2 y x (1 − α /2) /2) son los valores de la cola superior e inferior, respectivamente, de x2 que ponen α/2 en las áreas de las colas
α/2
α/2 0
x2(1 − α /2) /2)
x2α /2 /2
Los valores de x2 se basan en (n – 1) grados de libertad. Estos valores tabulados se pueden encontrar en la Tabla “Valores críticos de Ji-cuadrada”. Ejemplo:
28
1.- Una muestra aleatoria de n = 30 observaciones de una población normal produjo una varianza muestral igual a 21.4. Proporcionan los datos evidencia suficiente que indique 2 σ >15. lleve a cabo la prueba con α= 0.05. 2
Η0= σ = σ
2
2
Ηa = σ > 15
X2 = (n-1) S 2 = (30 – 1) 21.4 = 620.6 = 41.37 σ
2
15
15
g.l. = n-1 g.l. = 30 – 1 = 29 = 0.05 = 42.55 Decisión: No se rechaza la hipótesis nula ya que no se cuenta con evidencia estadística que compruebe que σ 2 >15.
X 2 = 41.37 0
g.l. = 42.55
29
11. ANÁLISIS DE VARIANCIA (ANOVA) En estadística, análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar aso ciar una probabilidad a la conclusión de que la media de d e un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.
Suposiciones para la prueba de un análisis de variancia y los procedimientos de estimación. 1. Las observaciones observ aciones dentro de cada población están distribuidas normalmente con variancia común s2. 2. Las suposiciones para cada procedimiento de muestreo se especifican para cada diseño en las secciones siguientes. HIPÓTESIS H 0: μ1 = μ2 = μ3 = μκ Ha: … Por lo menos dos medias difieren
PROCEDIMIENTO 1. Obtener la suma total de cada muestra. 2. Obtener la suma total de todas las observaciones. 3. Obtener la corrección para la media. CM = (ΣTi)2 ni
Ti = total de observaciones de cada muestra ni = número total de observaciones
4. Obtener los valores para K= número de muestras gltotal = n – 1 trat = k – 1 error = n – k
30
5. Obtener la SCT donde donde será necesario 5.1. Obtener SCT SCT = Ti2 – CM CM ni
Ti = total de observaciones que reciben tratamiento ni = número de observaciones que reciben tratamiento
5.2. Obtener SCTOTAL SCTOTAL = Σ x2 – CM
6. Obtener SCE = SCTOTAL – SCT 7. Obtener el cuadrado medio de los tratamientos CMT = SCT k–1
8.- Obtener cuadrado medio del error CME = S 2 = SCE n–k
9. Obtener la tabla de ANOVA FUENTE Tratamientos Error Total
g.l. k–1 n–k n–1
SC SCT SCE
CM CMT = SCT / k -1 CME = SCE / n –k
F CMT / CME
10. Obtener F = CMT CME Para localizar valores en tablas: F (v1= k – 1) g.l. F (v2 = n – k) g.l Ejemplo:
Se realizó un análisis de las calificaciones de tres grupos de la experiencia educativa de “Educación en valores”, para lo cual se tomaron tres muestras. Estos son las calificaciones que se obtuvieron de cada alumno de las tres muestras de cada grupo:
31
MUESTRA 1 8 7 9 10 9 8
MUESTRA 2 5 7 6 10 10 9
MUESTRA 3 8 9 7 10 8
Σ = 51 Ν = 6
Σ = 47 Ν=6
Σ = 42 Ν=5
H 0: μ1 = μ2 = μ3 = μκ Ha: … Por lo menos dos medias difieren 51 + 47 + 42 = 140
CM = (ΣTi)2 = (140)2 = 1152.94 17 ni K=3 gltotal = n – 1 = 17 – 1 = 16 trat = k – 1 = 3 – 1 = 2 error = n – k = 17 – 3 = 14 SCT = Ti2 – CM = 1154.46 – 1152.94 = 1.52 ni 2 (51) / 6 + (47)2 / 6 + (42)2 / 5 = 433.5 + 368.16 + 352.8 = 1154.46 SCTOTAL = Σ x2 – CM = 1188 – 1152.94 = 35.06 439 + 391 + 358 = 1188 SCE = SCTOTAL – SCT = 35.06 – 1.52 = 33.54 CMT = SCT = 1.52 = 0.76 k–1 3–1 CME = S 2 = SCE = 33.54 = 2.39 n – k 17 – 3 FUENTE Tratamientos Error Total
g.l. 3–1=2 17 – 3 = 14 17 – 1 = 16
SC 1.52 33.54
CM 0.76 2.39
F 0.31
32
F = CMT = 0.76 = 0.31 CME 2.39 F (v1= k – 1) g.l. g.l. = 2 F (v2 = n – k) g.l. g.l. = 14 F = 0.31
α = 0.05 F α α = 3.98
0
= 3.98 F α α =
h ay evidencia estadística para expresar Decisión: No se rechaza la hipótesis nula porque no hay que por lo menos dos de las medias maestrales difieran entre las calificaciones de los tres grupos de la experiencia educativa de “Educación en valores”.
33
CONCLUSIÓN La Estadística es algo más que una serie de fórmulas que pretenden hacer un análisis puramente numérico de realidades dadas para par a su estudio. Brinda elementos que invitan a la persona que emplea e mplea sus métodos a la realización re alización de interpretaciones a partir de esos es os datos; así como lo dirige a la formulación de inferencias y a la toma de decisiones. De acuerdo a su importancia, la Estadística se encuentra ligada a todas las ciencias no sólo exactas, sino también las humanas y las sociales; todas aquellas que sustenten sus investigaciones en metodologías cuantitativas. Metodologías que a pesar de que en la actualidad el discurso más fuerte pregone el predominio de lo cualitativo ante lo cuantitativo, no por eso lo deja de lado, sino que lo retoma y, tomados de la mano, dirigen los procesos de investigación a mejores análisis. Análisis más completos, menos reduccionistas. La Estadística le brinda a la Pedagogía un instrumento eficaz para el estudio del fenómeno educativo; instrumento que, sabiéndolo emplear de la manera correcta, abre toda una gama de posibilidades para los estudios pedagógicos que irían más allá de lo cualitativo o de cuantitativo puramente, sino que se entrecruzarían en estudios cuanti-cualitativos que darían miradas más completas de una realidad en sí misma compleja. La Estadística Inferencial: sus conceptos y aplicaciones pretendió, en todo momento, ser un acercamiento al estudio de los procedimientos estadísticos para que puedan ser utilizados posteriormente en proyectos, investigaciones o estudios de acuerdo al interés de cada persona. No se pretendió un trabajo que cubriera la totalidad de la Estadística, sino solamente, que diera ciertos elementos para fomentar el empleo y, porque no, el gusto por la Estadística en la realización de estudios pedagógicos. El recorrido de la Estadística y la Pedagogía en su unión para el análisis de diversos acontecimientos que tienen lugar cada contexto social es apenas un comienzo. Es una invitación para seguir adelante, para continuar con estos procesos de fusión de disciplinas que por pretender ser científicas, necesitan de otras para tener consistencia y mayor eficacia.
34
BIBLIOGRAFÍA
MENDENHALL, W. (1990). Estadística para administradores. México, DF. Grupo Editorial Iberoamericana. WACKERLY, P.; MENDENHALL III, W.; SCHEAFFER, R. (2002). Estadística matemática con aplicaciones. México, DF. Thomson. LEVIN, J. (2001). Fundamentos de la Estadística en la investigación social. México. Editorial Harla. YOUNG, K. R. (1996). Introducción a la estadística aplicada ap licada a las ciencias de la conducta. México. Ed. Trillas.
Links en Internet http://www.itchihuahua.edu.mx/academic/industrial/estadistica1/cap02.html http://masmatematicas.com/estadisticas/probabilidad.html http://www.universidadabierta.edu.mx/SerEst/Apuntes/VelascoRoberto_EstadistI nferencial.htm • http://es.wikipedia.org/wiki/An%C3%A1lisis_de_varianza • • •
35