s s s a e a n l l e a d n i r e c á C a o s a c z i t s o a s d í i c n e d n a e M t i s c h t e e b a a l z i l o E . d a n r a D c i l p A
Libro desarrollado para facilitar el aprendizaje de la estadística aplicada en las ciencias sociales
Universidad Autónoma de Nuevo León Facultad de Trabajo Social y Desarrollo Humano
“La medición es medición es el ama de llaves de la e nseñanza. Sin medición no puede haber evaluación. Sin evaluación, es imposible imposible la retroalimentación. Sin retroalimentación, no puede tenerse una idea precisa de los resultados alcanzados. Sin conocer e stos resultados, tampoco es posible una mejoría sistemática en el aprendizaje.” Parnell, citado en Mehrens y Lehmann, 1982, p19.
La estadística ha llegado a ocupar un amplio escenario en el desarrollo de la ciencia y la tecnología, pero también en las más diversas esferas de la vida cotidiana, incluidas la cultura y el deporte. En esta perspectiva podemos decir que es una disciplina que llegó para expandirse y para incorporarse a la cultura en la sociedad del conocimiento y la información. Un aspecto importante en la práctica de los profesionales en T.S. y D.S. la constituye el proceso de investigación, donde juegan un importante papel los procedimientos Estadísticos, ya que proporcionan al egresado, instrumentos para tomar decisiones cuando prevalecen condiciones de incertidumbre La metodología estadística nos dota de una serie de principios, procedimientos, técnicas y métodos para realizar cuatro tareas fundamentales en la investigación: Obtener datos pertinentes de manera rápida y a costos bajos; Una vez obtenidos los datos, proporciona los métodos para su organización y procesamiento, a fin de obtener de ellos la información requerida; Proporciona los principios y métodos para que las conclusiones emanadas o acciones a seguir sean el producto de procesos de inducción válidos, que se obtengan de interpretaciones adecuadas de los resultados; y Proporciona los principios y lineamientos para comunicar apropiadamente los resultados, conclusiones y recomendaciones, ya sea en el marco de un reporte, una presentación oral o un artículo científico. Así, los métodos y técnicas de la estadística ayudan a la realización de múltiples tareas en las organizaciones productivas y sociales, tanto en las instituciones públicas como en las privadas; son la base para la realización de investigaciones que permiten el sustento de la toma de decisiones en las instituciones u organizaciones de los más diversos giros. Pretendemos, por tanto, que el estudiante de la Licenciatura en T. S. y D.H., se familiarice con las nociones de Estadística de mayor aplicación en el Trabajo Social, con un doble objetivo: que sepa analizar e interpretar la información estadística, los argumentos relacionados con los datos o los fenómenos estocásticos que pueden encontrar en diversos contextos, y que desarrolle su capacidad de crítica hacia las informaciones de tipo estadístico procedentes de cualquier fuente.
Elementos de Competencia 1. Elaborar un reporte de Análisis Descriptivo que facilite la adecuada interpretación de los resultados obtenidos de algún caso práctico (real o hipotético) presentado en el aula, utilizando los procedimientos, técnicas y métodos de estadística descriptiva 2. Estimar parámetros poblacionales de las variables analizadas en el reporte de Análisis Descriptivo del caso práctico (real o hipotético) presentado en el aula, para que las conclusiones emanadas o acciones a seguir sean el producto de procesos de inducción válidos, basados en adecuadas interpretaciones de los resultados 3. Determinar el tamaño de una muestra que represente a una determinada población, con la exactitud y confianza que el estudiante en el papel de investigador determine. Metodología del curso Esta asignatura ha de entenderse como una herramienta para el trabajador social, y por tanto debe sustentarse, fundamentalmente, en la resolución de casos prácticos. Por tanto, plantearemos una metodología que procure la participación del alumnado en la resolución de esos casos, ya sea individualmente o de forma colectiva. Sesiones de Clase Los estudiantes tienen la obligación de asistir a todas las sesiones de clase presencial. En este programa no se permiten las ausencias. “En el caso excepcional de que no pueda evitarse la ausencia, ausencia,
se exigirá que el estudiante realice un trabajo/experiencia de compensación igual y pertinente que será definido por el profesor” Así también, el estudiante que no pueda asistir a una sesión de clase, es el o la responsable de negociar con el instructor la realización de un trabajo escrito extraordinario dedicado a recuperar la instrucción perdida. El instructor diseñará este trabajo asignado de forma que cumpla con los objetivos y el contenido de la sesión de clase perdida. En correspondencia con ello, se fijará una fecha límite para la entrega del trabajo terminado. Competencia No 1 Al finalizar esta unidad de aprendizaje el estudiante debe ser capaz de elaborar un reporte de Análisis Descriptivo que facilite la adecuada interpretación de los resultados obtenidos de algún caso práctico (real o hipotético) presentado en el aula, utilizando los procedimientos, técnicas y métodos de estadística descriptiva Contenidos 1.1 Introducción al curso de estadística y conceptos básicos 1.2 Distribución de frecuencias y técnicas de representación gráfica 1.3 Medidas de tendencia central
1.4 Medidas de dispersión 1.5 La curva normal y la desviación estándar Las Actividades de aprendizaje que deben ser cubiertas por el alumno son: Presentaciones por parte del profesor en el aula Resolución de problemas de forma individual y por equipo Elaboración de Tablas de Distribución de Frecuencias y Porcentajes en el cuaderno o pizarrón y usando SPSS Elaborar reportes gráficos utilizando Tablas de Distribución de Frecuencias y Porcentajes en el cuaderno o pizarrón y usando SPSS Uso de sistemas electrónicos de información Consulta y análisis de libros, artículos y publicaciones en línea Uso del paquete SPSS como apoyo tecnológico
.............................................................................................................................. ................................................................................ .......... Propósito del curso ........................................................ Introducción ..................................................................... ........................................................................................................................................... ............................................................................... ......... Importancia de la Estadística para el profesional en Trabajo Social y Desarrollo Humano ....................... Definición de Estadística. ................................................................................................... ........................................................................................................................ ..................... Fases de la Estadística ......................................................... ............................................................................................................................. .................................................................... Funciones de la estadística ................................................................................................ ..................................................................................................................... ..................... Conceptos básicos ................................................................................................... ................................................................................................................................... ................................ Niveles de Medición............................................................... .................................................................................................................................... ..................................................................... Términos para recordar .............................................................................................................................. .............................................................................................................................. Distribución de frecuencias y técnicas de representación gráfica.................................................................. gráfica.................................................................. Ordenamiento y Clasificación de datos ...................................................................................................... ...................................................................................................... ¿Qué es Distribución de Frecuencias? ............................................................................... .................................................................................................... ..................... Partes de una Tabla............................................................. ................................................................................................................................. .................................................................... ............................................................................................................. .............................................. Estado civil de los afiliados al INSEN ............................................................... Reglas para formar una tabla de Distribución de Frecuencias ............................................................... Técnicas de Representación Gráfica de Datos ............................................................. ................................................................................................ ................................... Partes de una Gráfica ............................................................................................................. .................................................................................................................................. ..................... Regla de los 3/4 ................................................................... ....................................................................................................................................... .................................................................... Regla de los ¾................................................................................................... ¾.............................................................................................................................................. ........................................... Diagrama de barras compuestas ................................................................................................................ ................................................................................................................ Grafica Circular .............................................................................................. ............................................................................................................................................ .............................................. Histograma y Polígono de Frecuencias ....................................................................... ....................................................................................................... ................................ Términos para recordar .............................................................................................................................. .............................................................................................................................. ....................................................................................................................... ......................................................... Medidas de tendencia central .............................................................. ¿Que es un promedio?................................................................... ............................................................................................................................ ......................................................... La Moda (Mo)...................................................................... .......................................................................................................................................... .................................................................... Propiedades de la l a moda ......................................................................................................................... Desventajas de la moda .......................................................................................................................... .......................................................................................................................... Determinar la Moda de una lista de datos ....................................................................... ............................................................................................ ..................... Cómo determinar la Moda en distribuciones de frecuencias de datos agrupados ............................... ........................................................................................................................... ...................................................... Representación Gráfica ..................................................................... La Mediana (Mdn) .............................................................. ................................................................................................................................... ..................................................................... Propiedades de la mediana............................................................ ..................................................................................................................... ......................................................... La Media aritmética (
) .............................................................. ....................................................................................................................... .........................................................
Propiedades de la l a media aritmética .................................................................................. ....................................................................................................... ..................... Desventajas de la media aritmética .......................................................... ........................................................................................................ .............................................. Obtención de la media para una lista de datos ...................................................................................... ...................................................................................... Obtención de la l a media para distribuciones de frecuencia ..................................................................... ..................................................................... Medidas de dispersión ..................................................................... ........................................................................................................................... ...................................................... ¿Cuándo nos pueden ayudar estos estadígrafos, para qué sirven? ....................................................... Cálculo del Rango ........................................................................... .................................................................................................................................... ......................................................... Cálculo de Rango, R ango, Varianza y Desviación estándar para Listas Li stas de datos ................................................ Curva Normal y Desviación estándar ...................................................................... ...................................................................................................... ................................ .................................................................................................................................... ................................................................................ ......... Trabajos citados .............................................................
En la actualidad se ha incorporado la estadística, en forma generalizada, al currículo de matemáticas de la enseñanza primaria y secundaria y de las diferentes diferentes especialidades universitarias en la mayoría de países desarrollados. En México algunos conceptos estadísticos se estudian desde el nivel secundario, pero falta mucho por hacer en este rubro. rubro. Las razones de este interés hacia la enseñanza de la estadística han sido repetidamente señaladas por diversos autores, desde comienzos de la década de los ochenta. Por ejemplo en Holmes (1980) encontramos las siguientes: La estadística es una parte de la educación general deseable para los futuros ciudadanos adultos, quienes precisan adquirir la capacidad de lectura e interpretación de tablas y gráficos estadísticos que con frecuencia aparecen en los medios informativos. Para orientarse en el mundo actual, ligado por las telecomunicaciones e interdependiente social, económica y políticamente, es preciso interpretar una amplia gama de información sobre los temas más variados. Es útil para la vida posterior, ya que en muchas profesiones se precisan unos conocimientos básicos del tema. La estadística es indispensable en el estudio los fenómenos complejos, en los que hay que comenzar por definir el objeto de estudio, y las variables relevantes, tomar datos de las mismas, interpretarlos y analizarlos. Su estudio ayuda al desarrollo personal, fomentando un razonamiento crítico, basado en la valoración de la evidencia objetiva; hemos de ser capaces de usar los datos cuantitativos para controlar nuestros juicios e interpretar los de los demás; es importante adquirir un sentido de los métodos y razonamientos que permiten transformar estos datos para resolver problemas de decisión y efectuar predicciones (Ottaviani, 1998). Ayuda a comprender otros temas del currículum, donde con frecuencia aparecen gráficos, resúmenes o conceptos estadísticos. El trabajo social y las ciencias de la educación utilizan la base metodológica de la estadística para los procesos de investigación aplicada, no sólo para monitorear programas en sistemas educativos sino para cualquier asunto relacionado con la evaluación y toma de decisiones. Las ciencias biológicas y las disciplinas emergentes, como el desarrollo sustentable, o agroecosistemas, medio ambiente, cambio global y ecología, consideran a la metodología estadística como fundamental para la generación del conocimiento y para el diseño e implantación de estrategias de intervención. Hay una gran cantidad de estudios e investigaciones en estas disciplinas que sin la metodología estadística serían impensables. "Ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente complejos y enmarcados en un universo variable, mediante el empleo de modelos de reducción de la información y
de análisis de validación de los resultados en términos de representatividad".
La recopilación de información. La información puede ser numérica, alfabética o simbólica Organización de la información recabada Análisis e interpretación de los resultados Presentación de los resultados
Recopilación de información (numérica o alfabética)
Organización de la información recabada
Análisis e interpretación de los resultados
Presentación de los resultados
Se puede hacer una distinción entre las dos funciones del método estadístico: las técnicas de estadísticas descriptivas y las técnicas estadísticas inferenciales. El propósito principal de la estadística descriptiva es presentar la información en forma cómoda, utilizable y comprensible. Por otra parte, la estadística inferencial se ocupa de hacer deducciones acerca de la población de estudio basándose en la o las muestras tomadas de ella. Es cualquier característica de una persona, medio ambiente o situación experimental que pueda cambiar de persona a persona, de un medio ambiente a otro medio ambiente o de una situación experimental a otra. Ejemplos: sexo del entrevistado, estado civil actual del entrevistado, edad del entrevistado, etcétera, etcétera. Es una variable controlada sistemáticamente por el investigador. Por lo general, en una investigación el científico se interesa por el efecto que tiene una variable sobre alguna o más variables. Ejemplo: El investigador desea saber cómo el alcohol afecta la memoria. Para averiguarlo, es posible que el investigador varíe los niveles de alcohol para posteriormente medir la cantidad de recuerdos que maneja el sujeto de estudio. La variable que controla el investigador es el nivel de alcohol y es a la que llamaremos la variable independiente Es la variable que mide el investigador para determinar el efecto de la variable independiente Ejemplos: Del ejemplo anterior, la cantidad de recuerdos que maneja el sujeto de estudio, es
la que llamaremos la variable dependiente Son todos aquellos números o medidas obtenidos como resultado de observaciones. Si bien pueden ser recuentos (datos de frecuencias) tales como el número de personas personas que se dice que votaron por Felipe Calderón, son considerados también como datos cada una de las respuestas obtenidas a las preguntas de un cuestionario, cédula de entrevista o cualquier instrumento de recopilación de la información (datos). Ejemplos : una técnica utilizada cotidianamente para obtener datos es la que empleamos cuando estamos socializando, imaginemos que hoy es el gran día en que estamos en posición de convivir con aquella persona que nos interesa, aunque ésta ni idea tenga de que existimos, ¿qué cosas nos interesaría saber de esa persona?, Pues bien cada pregunta que nos hagamos es una variable porque de un individuo a otro puede cambiar la respuesta, pero cada respuesta que nos dé la persona a la que cuestionamos es un dato. Entonces hagamos la distinción entre variable y dato: ¿Cómo te llamas?
Pancho López
¿A que te dedicas?
Administro mi cyber café
¿Cuál es tu platillo preferido?
Garza asada
¿Estas casado?
¡Pero para nada!
¿Qué marca es tu auto?
Transam
¿Cómo es la pareja de tus sueños?
Como tú
Es el conjunto completo de individuos objetos o medidas que poseen por lo menos una característica común observable Ejemplos: Todos los estudiantes inscritos en el cuarto semestre de la Fac. de Trabajo Social y Desarrollo Humano de la U.A.N.L. Los grupos de pandillas de Fomerrey 872 Es el número resultante de la manipulación de los datos de una población, que de acuerdo con ciertos procedimientos específicos se cuantifica una característica de la población. Ejemplo: Si pudiéramos medir la altura de todos los mexicanos adultos y con esos datos calculamos la estatura media, estaríamos calculando un parámetro Es un subconjunto de la población o universo. Es un subconjunto de la población o universo seleccionado en forma tal que cada miembro de la población tenga la misma oportunidad de ser elegido para formar parte de la muestra. Es el número resultante de la manipulación de los datos de una muestra de acuerdo con ciertos procedimientos específicos. Para estimar el parámetro referente a una población usamos generalmente un estadígrafo que se calcula a partir de una muestra. Es una medida de resumen, de preferencia estadística, referida a la cantidad
o magnitud de un conjunto de parámetros o atributos de una sociedad. Permite ubicar o clasificar las unidades de análisis (personas, naciones, sociedades, bienes, etc.) con respecto al concepto o conjunto de variables o atributos que se están analizando. Por ejemplo, la tasa de analfabetismo y y el acceso al agua potable son son indicadores sociales simples, ya que se refieren a atributos que se puede constatar su presencia o nivel calidad en forma simple y empírica. Diferente es el caso de un indicador como clase social o o prestigio que que requieren un marco conceptual más complejo al ser un constructo teórico ambos y no tiene una equivalencia empírica concreta. En la composición de indicadores se debe tener conceptualmente claro lo que buscamos y no requieren un gran desarrollo matemático o estadístico. Por ejemplo: viviendas de un pueblo que no tienen agua potable y expresado en porcentajes. Argumento: El 59% de las casas del pueblo no tienen agua potable instalada y hay que traerla manualmente. Otro índice seria que no tienen electricidad. Reuniendo varios índices tenemos un indicador, por ejemplo de pobreza . Ordenando varios indicadores como uno de pobreza, otro de analfabetismo , otro de esperanza de vida , tenemos una escala de prioridades a resolver o simplemente
describir. Podemos tomar acciones sobre el analfabetismo enseñando a leer y sobre la pobreza instalando el agua y la electricidad, pero no podemos tomar acciones sobre la esperanza de vida, que es un valor nominal o más bien un objetivo a mejorar, por esto los índices deben ser homogéneos con relación al propósito de la acción. La secuencia o la vida de un indicador comienza seleccionando uno o varios que representen a nuestro entender lo que se quiere investigar. Se ha seleccionado Esperanza de vida al nacer , y Nivel de vida ( (Producto Interno Bruto ) y con estos tres indicadores tenemos uno de Analfabetismo y para comparar naciones. Desarrollo Humano para Proceso para introducir un indicador: Metodología en las ciencias sociales.
Seleccionando un tópico.
Definiendo el problema.
Revisando la literatura.
Formulando una hipótesis.
Seleccionando un método de investigación. -Seleccionando un programa estadístico. -Seleccionando los indicadores e índices. -Recopilando datos secundarios (censales)
Analizando los resultados.
Presentando los resultados. Normalmente en los trabajos de proyectos de desarrollo se utilizan hasta 100 índices, que ya
están en las estadísticas del censo y con los cuales se construyen 10 o 20 indicadores, que han de ser ordenados finalmente por Prioridades sociales , precisando de una encuesta para este fin. Los índices de desarrollo humano y las escalas de prioridades de la calidad de vida, se han
elaborado a nivel mundial por las Naciones Unidas: Índice de Desarrollo Humano, comprenden la Esperanza de Vida, Tasa de Alfabetización, Tasa de Enseñanza y Producto Interno Bruto. Los indicadores de objetivos de desarrollo han catalogado 12 prioridades con sus estadísticas para todos los países. El primero es la pobreza y, consecuentemente, el hambre. El tema de las
como una aplicación de la metodología para la política
social, establece qué acciones se ejecutarán primero y cuales siguen después; de acuerdo con un orden que se preestablece, preguntando a los usuarios o clientes de un plan de desarrollo sobre qué temas deben ser los primeros en atenderse o asignar ayudas. Estas prioridades se establecen con los indicadores sociales de desarrollo, tales como: el índice de pobreza, medido, por ejemplo, con el coeficiente de Engel o el coste de la canasta básica o el nivel de economía autosuficiente. Una vez seleccionada una lista de indicadores necesaria para establecer los índices que definen cada indicador. En el ejemplo anterior, el índice de pobreza pudiera ser definido por el costo de la alimentación dividido por los ingresos familiares, esto es, el coeficiente de Engel. También el porcentaje de hogares sin electricidad o agua permiten medir la pobreza. En este proceso, se puede proceder con otro indicador, como el nivel de educación o las facilidades de asistencia médica. Así terminamos la escala de indicadores que han sido definidos y compuestos con índices o porcentajes o promedios, o cualquier medidor. Son sumamente útiles para planificar objetivos a corto y medio plazo sobre la calidad de vida de la población. Prioridades sociales cualitativas para áreas (indicadores) que se consideran interconectadas y que vienen estudiándose en la última década.
Costo de/y acceso al cuidado de la salud.
Viviendas y personas sin hogar.
Economía autosuficiente.
Violencia.
Abusos de sustancias y otras adicciones.
Discriminación.
Mayores.
Jóvenes.
Estrés, ansiedad y depresión.
Falta de tiempo para sí mismo y para los otros. El más señalado es el tema de la salud, le sigue vivienda y así sucesivamente. Además, puede
hacerse algún comentario sobre la evolución del desarrollo en la población ya que existen otras encuestas durante la última década. También se pueden tener observaciones de tipo sociológico sobre los cambios en la cultura de la población dado que ésta y las necesidades definen las prioridades, opinión cierta en un análisis funcionalista. Las viviendas y las personas sin hogar son prioritarias, sin embargo aparecen de manera distinta en 1995. En ese momento, por ejemplo, no se medía el número de personas sin hogar. Los temas
relacionados con salud han sido redefinidos y elevaron su prioridad al primer lugar en 2004. Los dos últimos Estrés... y Falta de tiempo... aparecen por primera vez y son indicadores cualitativos. El indicador Economía... ha sido también redefinido. Mayores y Jóvenes son fluctuantes, en tanto Transporte y Desempleo no figuran. Aparecen nuevos indicadores y dejan de usarse otros. Otras encuestas no gubernamentales, del periódico local y fundaciones, coinciden en prioridades dentro del rango de las diez posiciones, pero con diferencias. Esta cuestión es interesante. Es de suma importancia conocer el nivel de medición de cada una de las variables con las cuales estamos trabajando, pues de acuerdo a su forma o nivel de medición son los procedimientos estadísticos que podemos emplear. Antes de conocer los tres niveles de medición es importante tener claro el significado de la palabra medir, pues generalmente pensamos que una medición nos va a significar un valor numérico y no es cierto en todos los casos. Cuando preguntamos a alguien cómo es el lugar que visitó, toda la información que nos proporciona para describir el paisaje son medidas que tomo a través de las observaciones que realizo utilizando sus cinco sentidos o bien algún instrumento de medición. Pues bien podemos entonces definir: : Es asignar un valor a un fenómeno observado. Los tres Niveles de Medición son Y
los cuales vamos a definir y ejemplificar a continuación.
. Es asignar un valor a un fenómeno observado utilizando para ello etiquetas que no indican por si mismas ningún orden jerárquico o distancia entre la posible gama de respuestas. Algunos ejemplos son: sexo, estado civil, nombre, lugar de origen,... . Es asignar un valor a un fenómeno observado utilizando para ello etiquetas que nos indican un orden jerárquico pero no distancia. Algunos ejemplos son: escolaridad, frecuencia con que asistes a los conciertos del auditorio coca cola, puesto, que tanto te gusta estudiar estadística,... Es asignar un valor a un fenómeno observado utilizando para ello cantidades numéricas que indican por si mismas un orden jerárquico y distancia. Algunos ejemplos son: edad, número de hijos, ingresos, temperatura,... Este nivel de medición se divide en dos categorías, intervalar y de razón, aunque para fines estadísticos ambos se trataran de igual forma En este caso, el cero es un valor arbitrario, por ejemplo, cuando observamos que la temperatura ambiental esta en cero grados sabemos que esto nos indica que hace frío y no que haya ausencia de temperatura. Es un valor arbitrario porque a alguien se le ocurrió que cuando se congela el agua era cero grados centígrados En este caso, el cero indica ausencia, por ejemplo, cuando alguien nos dice que tiene cero hermanos, significa que carece de ellos.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
A la ordenación sistemática de los datos y colocar frente a él el número de veces que apareció como respuesta a la variable es lo que conocemos como distribución de frecuencias. Becas a estudiantes de la UANL Área académica
f
Admón. de empresas Educación
400
Humanidades Humanidades
150
Ciencias Soc. Soc.
250
Ciencias
200
50
Total = n = = 1050
Técnicas de seducción empleada por los universitarios Técnicas
f
Embriagar a la chica Falsa promesa de matrimonio Amor fingido
76 26 76
Respuestas de los adolescentes entrevistados Frecuencia con que eres impuntual Frecuentemente
55
Ocasionalmente
87
Nunca
23
Amenaza de 17 terminar Total = n = = 195
f
n
165
una breve descripción del tema que se está tratando, el cual tiene como propósito ubicar al público sobre el asunto que se desea abordar.
la característica que ocupa nuestra atención en el presente análisis.
Se debe informar al lector que tipo de cantidad se está manejando, por ejemplo si estamos hablando de la asistencia a un concierto en el auditorio coca cola de Monterrey, podemos manejarlo de alguna de las siguientes formas:
Frecuencia de asistentes Porcentaje de asistentes Proporción de asistentes toda la gama de datos que se obtuvieron como respuesta a la variable
La frecuencia se denota con e indica la
cantidad de veces que apareció cada uno de los datos de la variable Las proporciones las denotamos con el símbolo e indican la porción con que aparece cada uno de los datos de la variable cuando la población o muestra de estudio se estandariza a 1 Por fórmula: indica frecuencia
indica el tamaño de la población.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
El porcentaje se denota con el símbolo e indica la cantidad de veces que aparece cada uno de los datos de la variable cuando la población o muestra de estudio se estandariza a 100 Por fórmula:
ó
indica frecuencia
indica el tamaño de la población
es la proporción.
Ejemplo de una Tabla de Distribución de Frecuencias (f) y Porcentaje (%)
Imaginemos que acaba de aceptar el puesto de director de una escuela su responsabilidad es preparar un nuevo plan de estudios que estimule sus capacidades intelectuales y para ello empieza por evaluar las capacidades de su cuerpo estudiantil utilizando una muestra de 110 estudiantes, y del test que aplica encuentra los siguientes valores de coeficiente intelectual: CI
CI
CI
CI
CI
CI
CI
CI
CI
154
131
122 122
100
113 113
119
121 121
128
112
CI 93
133
119
115 115
117
110 110
104
125 125
85
120
135 135
116
103
103 103
121
109 109
147
103 103
113
107
98
128
93
90
105
118
134
89
143
108
142
85
108
108 108
136
115 115
117
110 110
80
111
127 127
100
100
114
123
126
119
122
102
100
106
105
111
127 127
108 108
106 106
91
123
132
97
110
150
130
87
89
108
137
124
96
111
101
118
104
127 127
94
115
101 101
125
129 129
131
110
97
135
108 108
139
133 133
107
115 115
83
109
116 116
110
113
112 112
82
114
112 112
113
142 142
145
123
Podemos observar que esta información no tiene ni pies ni cabeza, por ello organizarla es importante a fin de que adquiera algún sentido, al realizar esta tarea estamos generando una distribución de frecuencias de los CI de los 110 estudiantes elegidos al azar. Primero tememos que encontrar el CI más alto a fin de saber dónde vamos a empezar y el más bajo para conocer el punto
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
final de nuestro trabajo. En este ejemplo el CI más alto es 154 y el más bajo es 80, entonces la distribución de frecuencias de los CI de los 110 estudiantes elegidos al azar queda como sigue: Distribución de frecuencias de los CI CI
f
CI
f
CI
f
CI
f
154
1
129
1
114
2
98
1
150
1
128
2
113
4
97
2
147
1
127
3
112
3
96
1
145
1
126
1
111
3
94
1
143
1
125
2
110
5
93
2
142
2
124
1
109
2
91
1
139
1
123
3
108
6
90
1
137
1
122
2
107
2
89
2
136
1
121
2
106
2
87
1
135
2
120
1
105
2
85
2
134
1
119
3
104
2
83
1
133
2
118
2
103
3
82
1
132
1
117
2
102
1
80
1
131
2
116
2
101
2
130
1
115
4
100
4
Como podrá observar los datos están muy dispersos y no existe una tendencia visual clara del comportamiento de los mismos. En estas condiciones se acostumbra agrupar los datos en intervalos de clase, para obtener una distribución de frecuencias de datos agrupados. Los intervalos de clase (IC) no deben ser tan amplios que se pierda la discriminación proporcionada por nuestra medida original, ni tan pequeños que se desvirtúe el objetivo que se busca con la agrupación. En las ciencias sociales es aceptado agrupar los datos utilizando entre 5 y 20 intervalos de clase : Paso 1.
Decidir el número de IC con que se quiere
trabajar (para este ejemplo manejaremos 15 IC) Paso 2.
Calcular la diferencia entre el valor más alto y el
más bajo de los datos originales y sumar 1 para obtener la cantidad de datos o datos potenciales. Para el ejemplo: 154 ‟ 80 + 1 =75
Paso 3.
Dividir este número entre 15(para este ejemplo
manejaremos 15 IC) para obtener el número de datos o datos potenciales en cada IC. . Para el ejemplo: 75/5=5. A la amplitud de cada IC la designaremos con el símbolo i. En este ejemplo i=5 Paso 4.
Se considera el valor más bajo de los datos
originales como el límite inferior del primer IC. Sumar i-1 para obtener el límite superior del primer IC. En nuestro caso el primer IC es 80-84
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Paso 5.
El siguiente intervalo de clase comienza en el entero siguiente al extremo superior del primer intervalo de clase. En este ejemplo es 85. Se reproducen las mismas etapas indicadas en el paso 4 para obtener el límite superior del segundo intervalo de clase. Repita este procedimiento para formar cada uno de los siguientes intervalos de clase, hasta que todos los datos queden incluidos en sus apropiados intervalos de clase
Paso 6.
Asigne cada uno de los datos obtenidos a sus apropiados intervalos de clase.
Paso 7.
La distribución de frecuencias de datos agrupados se muestra en la siguiente tabla : Los verdaderos límites se encuentran a la mitad del camino entre el límite superior de un IC y el límite inferior del IC contiguo superior. Por fórmula tenemos:
Límite real inferior (
)= (Límite inferior + Límite superior del IC contiguo inferior)/2 LRI
Límite real superior (
LI LS 2
)= (Límite inferior del IC contiguo superior + Límite superior)/2 LRS
LI LS 2
: Para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cardinal u ordinal. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por . Análogamente se define el Porcentaje Acumulado y lo vamos a denotar por
como la frecuencia
acumulada dividida entre
por 100
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Los Puntos Medios, como su nombre lo dice se encuentran a la mitad del camino entre el límite superior y el límite inferior de un IC, sin importar si utilizamos los límites aparentes o los verdaderos. Por fórmula tenemos: Punto Medio (x) = (Límite inferior + Límite superior)/2 Punto Medio (x) = (Límite real inferior + Límite real superior)/2
Título de la gráf ica
90 80 70 60 50 40 30 20 10 0
Parejas Solteros Solteras
1er 1er co conc. nc. 2do 2do con conc. c. 3er 3er con conc. c. 4to 4to con conc. c.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Es una breve descripción del tema que se esta tratando, el cual tiene como propósito ubicar al publico sobre el asunto que se desea abordar.
Se debe informar al lector que tipo de cantidad se está manejando, por ejemplo si estamos hablando de la asistencia a un concierto en el auditorio coca cola de Monterrey, podemos manejarlo de alguna de las siguientes formas: Frecuencia de asistentes Porcentaje de asistentes Proporción de asistentes
Representa los grupos que nos interesan comparar respecto a una característica en particular estas son las variables independientes
A la característica que se esta midiendo, se le conoce como variable dependiente
De preferencia debe enmarcarse la gráfica a fin de dar una mejor presentación, sin embargo esto es opcional.
Como es bien sabido las gráficas pueden ser empleadas para confundir al lector cuando se manipulan intencionalmente los ejes o cuando se omite en el eje
la frecuencia cero, es por ello que
para evitar una anarquía en la técnica de representación gráfica, es necesario adoptar un convenio para minimizar la posibilidad de interpretaciones erróneas. La mayoría de los estadísticos en que la altura del eje debe ser aproximadamente 0.75 de la longitud del eje , siendo aceptable que esta proporción oscile entre 0.7 y 0.8. Siempre que un gráfico lleve ejes coordenados debemos emplear la regla de los ¾. A continuación veremos algunos ejemplos de representaciones gráficas. Las gráficas que a continuación vamos a manejar, son empleadas para representar variables cuyo nivel de medición es
u
.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Estado civil de los afiliados al INSEN
Se elige en forma arbitraria un valor para el eje X, tomando en cuenta la cantidad de divisiones en que debe seccionarse éste con el fin de colocar las barras.
60 50 40 30 20 10 0
Si X= a 10 cm., el valor de Y se obtiene de la siguiente operación: Ymin=.7X
Ymin=.7 (10 cm)=7 cm.
Yideal=.75 Yideal=.75(10 cm) =7.5 cm. Ymax=.8X Ymax=.8(10 cm)=8 cm. Esto significa que el valor del eje Y puede tener cualquier longitud entre 7 y 8 cm. inclusive. o
El eje X debe ser dividido en partes iguales, cada sección es utilizada por una barra
o
Todas las barras deben tener el mismo ancho
o
Las barras van separadas entre sí, ya que los valores que toman (soltero, casado,...) no indican continuidad y la separación entre ellas debe ser de igual tamaño
o
Ninguna de las barras debe recargarse sobre el eje Y
Diagrama de barras compuestas Distribución de asistentes al Auditorio Coca Cola 90 80 70 60 50
Parejas
40
Solteros
30
Solteras
20 10 0 1er conc.
o
2do conc.
3er conc.
4to conc.
El eje X debe ser dividido en partes iguales, cada sección es utilizada por el grupo de comparación
o
Todas las barras deben tener el mismo ancho
o
Las barras de cada grupo de comparación van unidas entre sí.
o
Los grupos de comparación son separados entre sí y la separación entre ellas debe ser de igual tamaño
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
o
Ninguna de las barras debe recargarse sobre el eje Y
Asistentes al auditorio Coca Cola 100 90 80 70 60
Parejas
Frec. 50 40
Solteros
30 20
Solteras
10 0 1er conc.
2do conc.
3er conc.
4to conc.
En los dos ejemplos anteriores debe aplicarse la regla de los ¾
Se elige en forma arbitraria un valor para el eje X, tomando en cuenta la cantidad de divisiones en que debe seccionarse éste con el fin de colocar las barras. Si X= a 20 cm., el valor de Y se obtiene de la siguiente operación: Ymin=.7X
Ymin=.7 (20 cm)=14 cm.
Yideal=.75 Yideal=.75 (20 cm)=15 cm. Ymax=.8X Ymax=.8(20 cm) =16 cm Esto significa que el valor del eje Y puede tener cualquier longitud entre 14 cm. y 16 cm. inclusive. Grafica Circular La gráfica que a continuación vamos a manejar, es empleada para representar variables cuyo nivel de medición es también pueden emplearse.
u
preferentemente, sin embargo con variables
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Estado civil de los integrantes del INSEN Divorciado 8% Soltero 11%
Casado 25%
Viudo 56%
Recordemos que la operación que nos permite encontrar la abertura de los ángulos que deseamos manejar esta dada por la siguiente fórmula:
Estado civil de los afiliados al INSEN
Soltero
22
.11
11
40
Casado
50
.25
25
90
Viudo
112
.56
56
20|
Divorciado
16
.08
8
29
Total
(N)
f =200
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Histograma y Polígono de Frecuencias
Intervalo de clase Límite Límite inferior superior
Intervalo de clase c%
f
Límite Límite Punto fa real real Medio inferior superior X
Porcentaje %
150
154
2
149.5
154.5
152
110
100
2
145
149
2
144.5
149.5
147
108
98
2
140
144
3
139.5
144.5
142
106
96
2
135
139
5
134.5
139.5
137
103
94
5
130
134
7
129.5
134.5
132
98
89
6
125
129
9
124.5
129.5
127
91
83
8
120
124
9
119.5
124.5
122
82
75
8
115
119
13
114.5
119.5
117
73
66
12
110
114
17
109.5
114.5
112
60
55
15
105
109
14
104.5
109.5
107
43
39
13
100
104
12
99.5
104.5
102
29
26
11
95
99
4
94.5
99.5
97
17
15
4
90
94
5
89.5
94.5
92
13
12
5
85
89
5
84.5
89.5
87
8
7
5
80
84
3
79.5
84.5
82
3
3
3
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Coeficiente Intelectual Intelectual de los estudiantes
20 15 Frec.
10 5 0 1 Calificación de CI
18 16 14 12 10 8 6 4 2 0
2 2 2 2 2 2 2 9 2 0 8 2 1 3 1 4 1 5 1 1 1 1
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Distribución de Frecuencias de datos agrupados y su Ojiva Límite Límite inferior superior
f
Límite Límite Punto fa real real Medio inferior superior X
150
154
2
149.5
154.5
152
110
145
149
2
144.5
149.5
147
108
140
144
3
139.5
144.5
142
106
135
139
5
134.5
139.5
137
103
130
134
7
129.5
134.5
132
98
125
129
9
124.5
129.5
127
91
120
124
9
119.5
124.5
122
82
115
119
13
114.5
119.5
117
73
110
114
17
109.5
114.5
112
60
105
109
14
104.5
109.5
107
43
100
104
12
99.5
104.5
102
29
95
99
4
94.5
99.5
97
17
90
94
5
89.5
94.5
92
13
85
89
5
84.5
89.5
87
8
80
84
3
79.5
84.5
82
3
La característica de las ojivas es que son curvas que nunca bajan, siempre van en ascenso o por lo menos permanecen constantes.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Diagrama de barras Diagrama de barras compuestas
Histograma Intervalo de Clase
Proporción Punto Medio
Ojiva Distribución de Frecuencias
Regla de los ¾ Polígono Tabla
Frecuencia
Porcentaje Técnicas de Representación gráfica
Grafica Circular
Porcentaje acumulado
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Medidas de tendencia central Son otra forma de describir datos numéricos, las medidas de tendencia central , comúnmente conocidas como promedios. Estos promedios son la media aritmética, media aritmética, la mediana, mediana, y la moda ¿Qué es un promedio?
A menudo necesitamos un solo número para representar una serie de datos. Este único número puede ser considerado como típico de todos los datos. La palabra promedio es usada frecuentemente en nuestro lenguaje diario, normalmente nos referimos a la media aritmética, pero podría referirse a cualquiera de los promedios. Un término más preciso que promedio es una medida de tendencia central. La Moda (Mo)
La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. Definición: Definición :
Es el valor (dato o respuesta) que aparece con mayor frecuencia en una lista de datos o distribución de frecuencias
Propiedades de la moda La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal y cardinal). La moda tiene la ventaja de no ser afectada por valores va lores extremos. Puede ser calculada en distribuciones con intervalos abiertos. Desventajas de la moda
En muchas series de datos no hay moda porque ningún valor aparece más de una vez. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?
Determinar Determin ar la Moda de una lista de datos datos
Ejemplos: Obtenga la moda para cada uno de los siguientes conjuntos de medidas a). 20, 18, 15, 20, 18, 13, 15, 15, 15, 20 b). 12, 18, 15, 14, 17, 18, 11, 18, 14, 12, 18 c). 129, 15, 15, 15,14, 13,13, 11
El nivel de medición de estos datos es
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Solución: Solución: Para el inciso (a) el dato que aparece más frecuentemente es el número 15, por lo tanto el promedio según la Mo Mo es es 15 Para el inciso (b) el dato que aparece más frecuentemente es el número 18, por lo tanto el promedio según la Mo Mo es es 18 Para el inciso (c) el dato que aparece más frecuentemente es el número 15, por lo tanto el promedio según la Mo Mo es es 15 Obtenga la moda para cada una de las siguientes tablas de distribuciones de frecuencias ( d) Área académica
(e)
f
Técnicas de seducción
(f)
(g)
f
Frecuencia con que eres impuntual
f
Clase Social f
Admón. de empresas
400
Embriagar a la chica
76
Frecuentemente
55
Alta
5
Educación
50
Falsa promesa de matrimonio
26
Ocasionalmente
87
Media
49
Humanidades
150
Amor fingido
76
Nunca
23
Baja
46
Ciencias Soc.
250
Amenaza de terminar
17
Marginal
12
Ciencias
200
Solución: Para el inciso (d) el Área académica ( dato) que aparece más frecuentemente es Admón. de empresas empresas, por lo tanto el Área académica promedio según la Mo es Admón. de empresas
El nivel de medición de estos datos es:
Para el inciso (e) los datos que aparecen más frecuentemente son Embriagar a la chica y Amor fingido, por lo tanto las Técnicas de seducción
promedio según la Mo son son Embriagar a la chica y Fingir amor en este ejemplo hay dos modas y ambas deben ser consideradas como promedio. Para el inciso (f) el dato que aparece más frecuentemente es Ocasionalmente, por lo tanto en promedio según la Mo los entrevistados son ocasionalmente impuntuales Para el inciso (g) el dato que aparece más frecuentemente es la clase social Media, por lo tanto la Clase Social promedio según la Mo es la Clase Clase Media
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Cómo determinar la Moda en distribuciones de frecuencias de datos datos agrupados Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por el punto medio del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos
contiguos con frecuencia máxima la moda será la media aritmética de los dos puntos medios. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serán los puntos medios de dichos intervalos. Obtenga la moda de las siguiente tablas de distribución de frecuencias
(h) I. C.
f
x
95 - 99
5
97
90 - 94
9
92
85 - 89
12
87
80 - 84
15
82
75 -79
12
77
70 -74
9
72
65 - 69
4
67
60 - 64
3
62
Solución: Solución: Para el inciso (h) el intervalo de clase que aparece más frecuentemente es (80 – 84), el punto medio (x) de ese intervalo es (80+84)/2=82, por lo tanto el promedio según la Mo es 82 Ejemplo: Calcular Ejemplo: Calcular las modas de las siguientes distribuciones de frecuencia I. C.
f
x
hay dos modas
95 - 99
5
97
(Bimodal)
90 - 94
6
92
85 - 89
8
87
80 - 84
3
75 -79
I. C.
f
95 - 99
7
90 - 94
7
85 - 89
7
82
80 - 84
7
2
77
75 -79
7
70 -74
7
72
70 -74
7
65 - 69
8
67
Moda=(67+62)/2
65 - 69
7
60 - 64
8
62
Moda = 65
60 - 64
7
Moda= 87
Representación Gráfica
Polígono de Frecuencias Distribución Bimodal
8-
No hay moda
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
La Mediana (Mdn)
Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, el valor central que puede dar una mejor descripción de los datos, es el obtenido mediante la l medida de tendencia central llamada mediana . Definición: Definición :
Es el dato que aparece al centro de una lista de datos o distribución de frecuencias siempre y cuando éstos (los datos) estén ordenados o rdenados en forma ascendente o descendente Propiedades de la mediana
Hay sólo una mediana en una serie de datos. No es afectada por los valores extremos ( altos o bajos ) Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto. Puede ser calculada en distribuciones con escala cardinal, y ordinal. Ejemplo: Ejemplo: Obtenga la mediana para cada uno de los siguientes conjuntos de medidas a. 20, 18, 15, 18, 13, 15, 15, 15, 20 b. 12, 18, 15, 14, 17, 18, 11, 18, 14, 12 c. 129, 15, 15, 15,14, 13, 13, 12, 11
Solución: Solución: Debido a que los datos se encuentran encuentran desordenados en los incisos a y b, lo primero por hacer es ordenar los datos como sigue: a. 13, 15, 15, 15, 15, 18, 18, 20, 20 b. 11, 12, 12, 14, 14, 15, 17, 18, 18, 18 Una vez ordenados los datos debemos localizar la posición del centro de la distribución de frecuencias o lista de datos, para ello contamos con las siguientes fórmulas:
Cuando N es impar
Cuando N es par
El centro de la distribución se localiza en:
La Distribución de f cuenta con dos lugares al centro y se localizan en:
N 1 2
Centro 1 N 2
Centro 2 N 1 2
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 En el inciso (a), cuyos datos aparecen en los cuadros de abajo, N=9, el dato que aparece al centro de la lista, en la 5 posición es el número 15, por lo tanto el promedio según la Mdn es 15 En el inciso (b) N=10, aparecen al centro de la lista los números 14 y 15, ocupando los lugares 5 y 6 en estos casos el valor de de la mediana es el punto medio entre ambos valores, por lo tanto el promedio según la Mdn es (14+15)/2, o sea, Mdn=14.5 En el inciso (c) N=9, el dato que aparece al centro de la lista es el número 15, por lo tanto el promedio según la Mdn es 15
a). x 20
Mdn = 15
b).
c). x
18
129
20
18
Mdn = (14+15)/2
15
18
18
Mdn =14.5
15
18
17
Mdn = 14
15
5 posición
14
15
14
6 posición
13
15
14
13
15
12
12
13
12
11
15
5 posición
15
5 posición
11
Obtenga la mediana para cada una de las siguientes distribuciones de frecuencias
(d) Área académica
(e)
f
Técnicas de seducción
(f )
f
Frecuencia con que eres impuntual
f
Admón. de empresas
400
Embriagar a la chica
76
Frecuentemente
55
Educación
50
Falsa promesa de matrimonio
26
Ocasionalmente
87
Humanidades Ciencias Sociales Ciencias
150
76
Nunca
23
17
Total
N=165
250 200
Amor fingido Amenaza de terminar
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Solución: Solución: Debido a que los datos en los incisos d y e, no se pueden ordenar debido a que se trata de valores NOMINALES el promedio Mediana es imposible de obtener. En el inciso (f) el valor de N es 165, como es un valor impar solo existe un lugar al centro y se localiza utilizando la formula
N 1
165 1 2
2
= 83, utilizando la fa podemos podemos localizar ese punto punto como
se ve a continuación Frecuencia con que eres impuntual Frecuentemente
f
fa
55
165 Hasta aquí ya se han ocupado 110 lugares, por lo tanto ya se ocupo
Ocasionalmente
87
el lugar 83. El dato que ocupa la
110
posición del centro es Ocasionalmente
La Mdn sabemos que la localizamos localizamos cuando al utilizar la fa llegamos al lugar indicado en la formula en forma exacta o cuando nos pasamos por primera vez.
Hasta aquí solo se han ocupado
Nunca
23
23 lugares, todavía no se ha ocupado
23
el lugar 83
Total
N=165
En el inciso (f) N=165, el dato que aparece al centro de la distribución de frecuencias, frecuencias, en la 83 posición es Ocasionalmente, por lo tanto se puede decir que en promedio según la Mdn la población entrevistada es impuntual en forma ocasional Obtenga la mediana para cada una de las siguientes distribuciones de frecuencias (g) I. C. 95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64 Total
f 5 9 12 15 12 9 4 3 N=69
(h) I. C. 95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64 Total
f 38 52 43 7 10 15 8 7 N=180
Solución (g) Solución (g) En el inciso (g) el valor de N es 69, como es un valor impar solo existe un lugar al centro y se localiza utilizando la fórmula
N 1 2
ve a continuación
69 1 2
35, utilizando la fa podemos localizar ese punto como se
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 fa
I. C.
f
95 - 99
5
tanto la Mdn es un valor que oscila entre 79.5 y
90 - 94
9
84.5 que son los límites reales del intervalo de
85 - 89
12
80 - 84
15
43
de frecuencias
75 -79
12
28
28 es la fa dentro de la fórmula
70 -74
9
16
65 - 69
4
7
60 - 64
3
3
Total
Aquí nos pasamos por primera vez de 35, por lo
clase que se encuentra al centro de la distribución
N=69
Para obtener la mediana de las distribuciones de frecuencia de datos agrupados a grupados en intervalos de clase, se debe utilizar la siguiente formula:
i( Mdn LRI
Ν
f a )
2
f
Nota: Nota: La fórmula se aplica utilizando el intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados Donde: Donde: LRI es LRI es el límite real superior del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo LRI=79.5 L RI=79.5 i es la amplitud del intervalo de clase. Para éste ejemplo i=5 N es la suma de las frecuencias. Para éste ejemplo N=69 fa
es la frecuencia acumulada del intervalo de clase contiguo inferior. Para éste ejemplo fa
= 28 f es es la frecuencia del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo f=15 El procedimiento queda procedimiento queda como sigue:
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Paso 1.
N/2 = 69/2 =34.5
Paso 2.
N/2- fa = 34.5-28= 6.5
Paso 3.
i(N/2- fa) = 5 (6.5) = 32.5
i(
Ν
f a )
2
Paso 4.
= 32.5/15 = 2.167
f
i( Paso 5.
Mdn LRI
Ν
f a )
2
f
= 79.5 + 2.167 = 81.67 Mdn = 81.67 81.67
Solución (h) Solución (h) En el inciso (h) el valor de N es 180, como es un valor par existen dos lugares al centro y se localizan utilizando las formulas: Centro 1= N = 2
180 2
= 90
Centro 2= N 1 = 90 + 1= 91 2
Con la ayuda de la fa podemos localizar esos puntos como se ve a continuación I. C.
f
95 - 99
38
fa
Aquí nos pasamos por primera vez de 91, 91, el centro que nos faltaba encontrar, por lo tanto la Mdn es un valor que oscila entre 89.5 y 94.5 que son los límites reales del intervalo de clase que se
90 - 94
52
142
encuentra en uno de los centros de la distribución de frecuencias Aquí llegamos a uno de los centros, la posición 90, 90, por lo tanto la Mdn es un valor que oscila entre 84.5 y 89.5 que son los límites reales del intervalo de clase que se encuentra en uno de los
85 - 89
43
90
80 - 84
7
47
75 -79
10
40
70 -74
15
30
65 - 69
8
15
60 - 64
7
7
Total
centros de la distribución de frecuencias
fa fa
N=180
Para obtener la mediana de las distribuciones de frecuencia de datos agrupados en intervalos de clase, se debe utilizar la siguiente formula:
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
i( Mdn LRI
Ν
f a )
2
f
Nota: Nota: La fórmula se aplica utilizando el intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados, en este caso como los centros caen en diferentes intervalos de clase se elige uno de ellos, cualesquiera, el resultado de la Mdn es el mismo, y si observamos con detenimiento el único valor que puede tener la Mdn en esta situación es el valor del LÍMITE REAL que es común a ambos intervalos de clase. A fin de demostrarlo calcularemos la Mdn en ambos intervalos Cálculo de la Mediana utilizando el intervalo de clase ( 85 – 89 ) Donde: Donde: LRI es LRI es el límite real superior del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo LRI=84.5 L RI=84.5 i es la amplitud del intervalo de clase. Para éste ejemplo i=5 N es la suma de las frecuencias. Para éste ejemplo N=180 fa
Es la frecuencia acumulada del intervalo de clase contiguo inferior.
Para éste ejemplo fa = 47 f es es la frecuencia del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo f=43 El procedimiento queda procedimiento queda como sigue: Paso 1.
N/2 = 180/2 =90
Paso 2.
N/2- fa = 90-47= 43
Paso 3.
i(N/2- fa) = 5 (43) = 215
i( Paso 4.
Ν
f a )
2
f
= 215/43 = 5
i( Paso 5.
Mdn LRI
Ν
f a )
2
f
= 84.5 + 5 = 89.5
Mdn = 89.5 89.5
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Cálculo de la Mediana utilizando el intervalo de clase (90 – 94) Dónde: Dónde: LRI es LRI es el límite real superior del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo LRI=89.5 L RI=89.5 i es la amplitud del intervalo de clase. Para éste ejemplo i=5 N es la suma de las frecuencias. Para éste ejemplo N=180 fa
es la frecuencia acumulada del intervalo de clase contiguo inferior. Para éste ejemplo fa
= 90 f es es la frecuencia del intervalo de clase que quedo al centro de la distribución de frecuencia de datos agrupados. Para éste ejemplo f=52 El procedimiento queda procedimiento queda como sigue: Paso 1. N/2 = 180/2 =90 Paso 2. N/2- fa = 90-90= 0 Paso 3. i(N/2- fa) = 5 (0) = 0
i( Paso 4.
Ν
f a )
2
= 0/52 = 0
f
i( Paso 5.
Mdn LRI
Ν
f a )
2
f
= 89.5 + 0 = 89.5 Mdn = 89.5 89.5
La Media aritmética (
)
La medida de tendencia central más ampliamente usada es la media aritmética, usualmente abreviada como media Definición
Es el punto de equilibrio de una lista de datos o distribución de frecuencias. Propiedades de la media aritmética
Puede ser calculada en distribuciones con escala cardinal
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Todos los valores son incluidos en el cómputo de la media. Una serie de datos solo ttiene iene una media Es una medida muy útil para comparar dos o más poblaciones Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos Desventajas de la media aritmética Si alguno de los valores es extremadamente grande o extremadamente extremadamente pequeño, la media no es el promedio apropiado para representar r epresentar la serie de datos. No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.
Obtención de la media para una lista de datos La media aritmética de una lista de datos se calcula de la siguiente manera:
=
x n
Donde
Simboliza la media de la muestra
x
Es la suma de todos los valores de la muestra
n es el número de valores que tiene la muestra Ejemplo:
OBTENGA LA MEDIA PARA CADA UNO DE LOS SIGUIENTES CONJUNTOS DE MEDIDAS a. 10, 8, 6, 0, 8, 3, 2, 5, 8, 0 b. 15, 19, 13, 15, 13, 17, 15, 17,11 c. 119, 5, 5, 5, 4, 3, 3, 1 Solución: Solución: Los incisos a, b y c son listas de datos por lo que se aplica la fórmula
se refiere al dato y n a la cantidad de datos x se
X
x n
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 X
x = (10+ 8+ 6+ 0+ 8+ 3+ 2+ 5+ 8+ 0)/10 = 50/10 = 5
X
x = (15+ 19+ 13+ 15+ 13+ 17+ 15+ 17+11) / 9 = 135 / 9 = 15
X
x = (119+ 5+ 5+ 5+ 4+ 3+ 3+ 1) / 8 = 145 / 8 = 18.125
n
n
n
La media de la muestra, o cualquier otra medida basada en los datos de la muestra se le denomina: estadístico o estadígrafo.
► La media de la muestra y la media de la población se calculan de la misma manera pero
tienen diferente notación:
Donde:
x
N
µ simboliza la media de la población N simboliza el tamaño de la población, es decir, el número total de observaciones en la población. La media de la población, o cualquier otra medida basada en los datos de la población se le denomina: parámetro. Obtención de la media para distribuciones de frecuencia ► Frecuentemente los datos están agrupados y presentados en forma de distribución de
frecuencias. Si esto sucede es normalmente imposible recuperar los datos crudos originales. Por consiguiente si queremos calcular la media u otro estadístico es necesario estimarlo en base al punto medio de la distribución de frecuencias.
muestra de datos organizados en una distribución de ► La media aritmética de una muestra frecuencias se calcula de la siguiente manera:
Dónde: Dónde:
X
fx n
Simboliza la media de la muestra
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 x
Es la marca de clase ó punto medio
f
Es la frecuencia de clase ó la frecuencia del intervalo de clase
fx
Es la suma de los productos de f por x Es la suma de las frecuencias
n
Ejemplos: Obtenga la media para cada una de las siguientes tablas de distribuciones de frecuencias (d)
(e)
Área académica f Admón. de empresas Educación
400 50
Humanidades
Técnicas de seducción Embriagar a la chica Falsa promesa de matrimonio Amor fingido
(f ) 76
Frecuencia con que eres impuntual Frecuentemente
26
Ocasionalmente
87
76
Nunca
23
f
f 55
150 Ciencias Soc.
Amenaza de terminar
250
17
Ciencias 200
Solución: Solución: En los incisos d y e se trata de valores NOMINALES y el inciso inciso f maneja valores ORDINALES, como puede observarse, éste tipo de valores no se pueden sumar por lo cual c ual el promedio Media es imposible de obtener. Obtenga la media para cada una de las siguientes tablas de distribuciones de frecuencias (g)
¿Cuántos hermanos tienes? 6 5 4 3 2 1 0
(h)
f
I. C.
f
5 9 12 15 12 9 4
95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64
5 9 12 15 12 9 4 3
Solución: Los incisos g y h son distribuciones de frecuencias por lo que se aplica la fórmula
fx
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
¿Cuantos hnos. tienes? 6 5 4 3 2 1 0 Totales
f
fx
5 30 9 45 12 48 15 45 12 24 9 9 4 0 N= 66 fx=201
=
f x N
= 201/66 = 3.05
Basándonos en este resultado podemos concluir entonces que en promedio según lo indica la media, la población entrevistada cuenta con 3 hermanos. Calificaciones I. C. 95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64 Totales
f 5 9 12 15 12 9 4 3 N= 69
PM
x 97 92 87 82 77 72 67 62
fx 485 828 1044 1230 924 648 268 186 fx=5613
=
f x N
= 5613 / 69 = 81.35
Basándonos en este resultado podemos concluir entonces que la población entrevistada según lo indica la media obtuvo en promedio una calificación de 81.35.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Tipo de curvas y Posición de la Moda, Mediana y Media Curva Normal Leptocúrtica
Mo Mdn
Mesocúrtica
Platicúrtica
Mo Mdn
Mo Mdn
Χ
Χ
Χ
Curva Bimodal
Silla de montar
Curva U
Mo Mo Mdn Mo
Mdn
Mo
Χ
Χ
Curv a Sesgada
Sesgo Positivo
Mdn
Χ
Sesgo Negativo
Χ
Mdn
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Cuando seleccionar la la Moda, la Mediana o la Media como el promedio más adecuado
NIVEL DE MEDICION MEDIDA DE TENDENCIA CENTRAL
MODA Mo MEDIANA Mdn MEDIA
N O MI NA L
Siempre
ORDINAL
C A RD IN A L
Cuando la distribución de Cuando la distribución de frecuencias o frecuencias o lista de datos sea lista de datos sea bimodal
bimodal Debido a que los datos nominales no se pueden ordenar el promedio Mediana no se puede obtener Debido a que los datos nominales no se pueden sumar el promedio Media no se se puede obtener
Cuando la distribución de frecuencias o Cuando la distribución de lista de datos sea unimodal y sesgada < frecuencias o lista de datos sea Χ
unimodal
Mdn
>
Cuando la distribución de frecuencias o Debido a que los datos no se unimodal y normal < pueden sumar el promedio lista de datos sea Mdn Χ > Media no se puede obtener
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Medidas de dispersión
Las medidas de dispersión en conjunto con las medidas de tendencia central son de gran ayuda para entender mejor cómo se comporta una variable dentro de una población, y es de mayor envergadura cuando las utilizamos para comparar una variable en dos o más poblaciones distintas. ¿Cuándo nos pueden ayudar estos estadígrafos, para qué sirven?
Pues bien, imagine que usted es un millonario y despilfarrador despilfarrador extranjero extranjero que visita por primera vez nuestro país, llega a la ciudad de Acapulco. Y aunque todo lo que experimenta en este viaje le gusta, su clima es lo que más le cautivó. Ahora imagine que alguien le comenta que el desierto de Sonora tiene en promedio los mismos grados de temperatura que la ciudad ciudad de Acapulco. Si usted no tuviera conocimientos conocimientos de estadística y siendo extranjero, podría pensar que ambas regiones tienen el mismo clima y como tiene mucho $$$, lo más probable es que con el equipaje con que llegó a Acapulco, (que es el adecuado para esa esa ciudad) se dirija al desierto de Sonora. Si esto ocurriera, ¿Qué pasaría?, Lo más seguro es que se afectara su salud al experimentar tantos cambios tan bruscos de temperatura y sin la protección adecuada. Como puede verse en las gráficas de abajo, en Acapulco las temperaturas oscilan entre 28 C y 32C, mientras que en el desierto de Sonora la fluctuación va de los 0 C a los 60 C
Acapulco
Desierto de Sonora
28C
32C Χ =30C
0C
60C Χ=
30C
Las medidas de dispersión indican precisamente, como su nombre lo dice, que tan dispersos, valga la redundancia, o que tan compactos son los valores que se manejan. Esto significa que entre mayor sea el resultado obtenido mayor es también la dispersión de los datos
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Rango
El Rango es el estadígrafo más sencillo de obtener y de entender, lo que hace es medir la distancia que existe entre el valor más alto y el más bajo de un conjunto de datos
Cálculo del Rango R =Max-Min
Considerando las gráficas de temperatura, podemos observar que para Acapulco el Acapulco el rango de temperatura es: R =Max-Min = 32-28 = 4 C Mientras que para el desierto de Sonora el rango es: R =Max-Min = 60-0 = 60 C Como se puede observar, el rango es mayor cuando los datos están más dispersos. Esta es la idea central en la interpretación de cualquiera de las medidas de dispersión que se calcule. Existen muchos diferentes estadígrafos utilizados para medir la dispersión de los datos, pero en este curso solo vamos a manejar el cálculo de Rango, Varianza y Desviación estándar. Varianza y Desviación estándar para Distribuciones de Frecuencias de datos simples
La desviación estándar es un índice numérico de la dispersión de un conjunto de datos (o población). Mientras mayor es la desviación estándar, mayor es la dispersión de la población La desviación estándar nos dice cuánto tienden t ienden a alejarse los puntajes del promedio. De hecho específicamente la desviación estándar es "el promedio de lejanía de los puntajes respecto del promedio". Al igual que la desviación estándar, la varianza es varianza es un índice numérico de la dispersión de una distribución o población. Mientras mayor es la varianza, mayor es la dispersión. La varianza es un promedio elevado al cuadrado de las desviaciones individuales de cada observación con respecto a la media de una distribución. Como promedio al cuadrado, la varianza en realidad sólo es una variación de la desviación estándar. Por lo tanto, se representa con el símbolo
2
, lo que
representa la desviación estándar, pero elevada al cuadrado. La desviación estándar, y no la varianza, es la medida de dispersión de uso más generalizado en estadística. No sólo porque el valor de la desviación estándar, para cualquier distribución determinada, siempre es mucho menor que para la varianza, sino por encima de todo porque es más conveniente para llevar a cabo operaciones o peraciones matemáticas.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 La desviación estándar es entre las medidas de dispersión lo que la media es entre las medidas de tendencia central: ambas tienden a reinar en sus dominios. En conjunto, ambos indicadores suelen proporcionar una buena descripción de distribuciones de datos cuando estas distribuciones son simétricas, como por ejemplo, las distribuciones normales. Cálculo de Rango, Varianza y Desviación estándar para Listas de datos Varianza = s
2
2
Σ x
N
Χ
2
2 Σ x
Desviación estándar = s
N
Χ
2
Ejemplo: x 20 20 18 18 15 15 15 15 13 x=149 x
=
N
En este ejemplo para obtener el Rango se resta a 20 (Max) el número 13 (Min) R = 20-13=7 R = 7 Cálculo de la varianza y la desviación estándar
2
x 400 400 324 324 225 225 225 225 169 2 x =2517 N=9
s
s2=
2
2
Σ x
N
Χ
2
2517 16.562 279.67 274.23 5.44 9
s2 = 5.44
= 149 / 9 =
s
16.56
2
Σ x
N
2
Χ =
5.44 = 2.33
s = 2.33
Cálculo de Rango, Varianza y Desviación Desviación estándar para Distribuciones de Frecuencias Frecuencias
Varianza = s 2
2 Σf x
N
Χ
Desviación estándar = s
¿Cuantos hermanos tienes ?
6 5 4 3 2 1 0 Totales
=
f x N
2
2 Σf x
N
(fx)(x) f
Χ
2
Rango = R = 6-0 = 6
fx fx2
5 9 12 15 12 9 4
30 45 48 45 24 9 0
180 225 192 135 24 9 0
N=66 fx=201 fx2=765
= 201/66 = 3.05
s
2
2 Σf x
N
2
Χ = (765 / 66) – 3.05 2 = 11.6 – 9.3 = 2.3
s2 = 2.3
s
2 Σf x
N
2
Χ =
2.3 = 1.51
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Varianza y Desviación estándar para Distribuciones de Frecuencias de datos agrupados Cálculo de Rango, Varianza y Desviación estándar para Distribuciones de Frecuencias de datos agrupados Calificaciones I. C.
f
95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64 Totales
5 9 12 15 12 9 4 3 N= 69
=
f x N
PM
x 97 92 87 82 77 72 67 62
= 5613 / 69 = 81.35
(fx)(x)
fx 485 828 1044 1230 924 648 268 186 fx=5613
2
fx 47045 76176 90828 100860 71148 46656 17956 11532 2 fx = 462201
Rango = R = LRSmax- LRImin=99.5 – 59.5 59.5 = 40 También puede obtenerse así : Rango = R = R = LSmax- LImin=99 – 60+1 = 40 s
2
2 Σf x
N
2
Χ = (462201 / 69) – 81.35
6698.6 – 6617.8= 80.7 s2 = 80.7
s
2 Σf x
N
2
Χ = 80.7 = 8.99
2
=
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 Curva Normal y Desviación estándar Como dijimos anteriormente, una calificación carece de significado por sí misma. A fin de que lo adquieran, es necesario compararlas con la distribución de calificaciones de algún grupo de referencia. Ciertamente, las calificaciones obtenidas a partir de c ualquier escala, llegan a tener mayor significado cuando se las compara con un grupo de referencia de personas u objetos. Así, si nos dijeran que un escalador poblano a la edad de 8 años escaló sin ayuda de un adulto el volcán Cuexcomate, quedaríamos sorprendidos o no, según sean nuestros conocimientos acerca del volcán Cuexcomate. Todos tenemos la idea de cómo es un volcán, tal vez ya hayan visitado alguno y a sabiendas de que la mayoría de los volcanes tienen alturas superiores superiores a 1000 metros, que tan extraordinario puede considerarse el logro de nuestro anónimo escalador poblano, cuando nos enteremos que el volcán Cuexcomate ubicado en la ciudad de Puebla es considerado el más pequeño del mundo ya que su altura es de13 m En esta unidad veremos que la transformación tra nsformación a valores z proporciona un medio m edio preciso para interpretar cualquier valor de una variable cuando se trata de valores normalmente distribuidos. La desviación estándar es un indicador en extremo valioso con muchas aplicaciones. Por ejemplo, los estadísticos saben que cuando un conjunto de datos se distribuye de manera “normal”,
el 68% de las observaciones de la distribución tiene un valor que se encuentra a menos de una desviación estándar de la media. También saben que el 96% de todas las l as observaciones tiene un valor no es mayor a la media más o menos dos desviaciones estándar (la Figura siguiente ilustra esta información).
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2
Entre las distribuciones continuas la más importante es la llamada distribución normal. normal. Fue introducida por Carl Friedrich Gauss a principios del siglo XIX en su estudio de los errores de medida. Desde entonces se ha utilizado como modelo en multitud de variables (peso, altura, altur a, calificaciones...), en cuya distribución los valores más usuales se agrupan en torno a uno central y los valores extremos son escasos. Interpretación de la calificación obtenida en un examen de estadística Imagine que en el examen de estadística usted obtuvo una calificación de 97. Tal vez quiera presumir a alguien lo brillante que usted es. Pero resulta que ése alguien dice:…, Seguramente tu profesor es barco y
cualquiera saca buen promedio. Para mostrar su superioridad con respecto al grupo, pudiera desear hacerle saber saber a esa amiga el porcentaje de compañeros con calificaciones inferiores. A continuación se indica, paso a paso, el procedimiento requerido para eliminar toda dificultad acerca de la interpretación de las calificaciones de estadística.
Aplicando la estadística en las ciencias sociales Competencia 1 Unidad2 1. Determínese la media y la desviación desviació n estándar correspondiente a la prueba.
f
95 - 99 90 - 94 85 - 89 80 - 84 75 -79 70 -74 65 - 69 60 - 64 Totales
5 9 12 15 12 9 4 3 N= 69
=
f x N
(fx)(x)
PM
Calificaciones I. C.
fx
x 97 92 87 82 77 72 67 62
Rango = R = 99 - 60 = 39
2
485 828 1044 1230 924 648 268 186 fx=5613
fx 47045 76176 90828 100860 71148 46656 17956 11532 2 fx = 462201
s
2
2 Σf x
N
2
Χ = (462201 / 69) – 81.35
2
=
6698.6 – 6617.8= 80.7 s2 = 80.7
s
2 Σf x
N
2
Χ = 80.7 = 8.99
= 5613 / 69 = 81.35
2. Transfórmese la calificación que se desea interpretar en un dato z, usando la siguiente fórmula:
MUESTRA
POBLACIÖN z
calificaci ón media desviación _ std
z
x x
z
s
x
Si interesa interpretar una calificación de 97, y se sabe que la media y la desviación estándar son 81 y 9, 9 , respectivamente, se obtendrá que z
97 81 9
1 78 .
3. Búsquese en la columna C de la tabla de la calificación z, el valor correspondiente a 1.78 y se encontrará el número .0375. Esto significa que solamente el 3.75 % de las personas en el grupo de comparación tendrán calificaciones superiores que 97. 97. La columna B indica la probabilidad de encontrarnos calificaciones entre la media (81) y 97 o sea 42.25%.
El método resulta fácil. 3.75%
Aplicando la estadística en las ciencias sociales Competencia 2
Competencia No 2 Al finalizar esta unidad de aprendizaje el estudiante deb e ser capaz de Estimar parámetros poblacionales de las variables analizadas en el reporte de Análisis Descriptivo del caso práctico (real o hipotético) presentado en el aula, para que las conclusiones emanadas o acciones a seguir sean el producto de procesos de inducción válidos, basados en adecuadas interpretaciones de los resultados
Contenidos 2.1 Introducción a la estadística inferencial 2.1.1
Por qué usar muestras
2.1.2
Métodos de muestreo
2.1.2.1
Muestreo aleatorio
2.1.2.2
Muestreo no aleatorio
2.1.3
Error de muestreo
2.2 Estimación de parámetros poblacionales 2.2.1
Concepto de Distribución muestral de Medias
2.2.2
Error estándar de la media
2.2.3
Intervalos de confianza
2.2.4
Estimación de proporciones
Las Actividades de aprendizaje que deben ser cubiertas por el alumno son: Presentaciones por parte del profesor en el aula Resolución de problemas de forma individual y por equipo Realizar búsquedas en Internet para localizar algunos reportes en línea de investigaciones sociales que utilizaron Muestreo aleatorio y no aleatorio Consulta y análisis de libros y publicaciones Uso del paquete SPSS como apoyo tecnológico
Aplicando la estadística en las ciencias sociales Competencia 2
¿Por qué se toman las muestras? Hasta ahora, todos los procedimientos y técnicas que hemos estudiado se refieren a la rama de la estadística descriptiva, la cual nos ha permitido tener un conocimiento claro de las características básicas de una población y así estar en capacidad de presentar un informe cómodo, útil y comprensible. Debido a que generalmente no es posible estudiar las poblaciones completamente, ya sea porque ésta es muy grande, por causas económicas, falta de personal, o para una mayor rapidez en el acopio y presentación de los datos, lo que se suele hacer es obtener los datos, de tan sólo una muestra de la población. No podemos estudiar todos los coches que salen de una cadena de producción para determinar su calidad, ni es posible probar un medicamento en todas las personas, ni podemos costearnos preguntar a todos los mexicanos sobre una cuestión cualquiera (salvo en votaciones, o en el censo, siendo estos los pocos casos en que un estudio comprende a toda la población). Como repercusión, deberemos resignarnos a utilizar muestras, que sean capaces de revelarnos algo acerca de la población de las que han sido extraídas. En esta unidad hablaremos de la forma de elegirlas, y las condiciones que han de verificar.
Idea básica (descripción cualitativa) Si conocemos una fracción de algo ¿podremos conocer con determinada exactitud ese algo? La respuesta es: No. Una parte de algo es una fracción que ha sido tomada de acuerdo con una cierta
o
regla o criterio, que no siendo un criterio científico no necesariamente representa la totalidad de ese algo. o
La única forma de evitar que al seleccionar una parte de algo se caiga en una elección no representativa, es haciéndolo de forma científica. Siendo el algo
desconocido, esta elección debe hacerse de manera aleatoria. Una muestra es una parte de algo, tomada aleatoriamente, con lo que se garantiza que es
representativa de ese algo. Esto no sólo se acepta en la ciencia, sino que provee de una teoría que permite cuantificar la representatividad. Tomemos como ejemplo una imagen, la cual sólo se deja ver a través un área pequeña (la cantidad de área descubierta es la misma en las dos primeras imágenes)
Aplicando la estadística en las ciencias sociales Competencia 2
Si la lógica que utilizaras para descubrir el tema de la imagen es la de observar el centro de la misma, podrías observar que parece ser un ave, pero igual puede ser un gallo, un águila o un pajarito de los que vemos todos los días en las calles por donde pasamos. Esta es una selección no aleatoria (una parte) de la población a observar. En esta segunda imagen el área descubierta es al azar (a la suerte) y podrás notar que la selección nos brinda una idea bastante más clara de la imagen a observar En ambos casos conforme crece el área visible la información nos va dando una mejor idea de la imagen completa, pero sólo en el segundo caso la imagen es representativa al haberse elegido áreas en forma aleatoria. Este ejemplo es en extremo simple y enfatiza la diferencia entre una parte y una muestra, con la intención deliberada de dar una mejor idea de lo que tratamos de explicar.
Afirmación De las observaciones anteriores podemos afirmar lo siguiente: "Una parte de algo no significa que sea una
muestra que represente represente válidamente válidamente a ese algo" algo" La Estadística inferencial se ocupa de de hacer deducciones acerca de la población de estudio basándose en la información obtenida de la (o las) muestra(s) tomada(s) de ella, así como de la toma de decisiones. Por ejemplo, cuando se pretende conocer de antemano los resultados de unas elecciones, se suelen hacer encuestas sobre intención de voto, a una muestra de ciudadanos. Se trata en este caso, de extrapolar para toda la población, los resultados derivados de la encuesta. La Estadística Inferencial nos ayuda en este caso, aunque siempre existirá una probabilidad de equivocarse, y un margen de error en los resultados obtenidos. En otras ocasiones, lo que se pretende es tomar decisiones, ya sea a partir de la estimación o de la contrastación de un test, y aquí también la estadística inferencial nos lo
Aplicando la estadística en las ciencias sociales Competencia 2 permite, siempre con un margen controlado de error. En los próximos argumentos iremos aclarando todos estos aspectos.
Métodos de muestreo Existen básicamente dos tipos de muestreo, los aleatorios y y los no aleatorios . aleatorios El primer método se caracteriza principalmente porque todos los miembros de la muestra han sido elegidos al azar, esto significa que cada miembro de la población tuvo igual oportunidad de formar parte de la muestra. Este tipo de muestreo, que es el más consistente, es al mismo tiempo el que resulta más costoso, y el que utilizaremos siempre en el desarrollo de los próximos temas. El segundo método carece del grado de representatividad del primero, pero permite un gran ahorro en los costos. Se eligen los elementos, en función de que sean representativos, según la experta opinión del investigador. Es el método que generalmente utilizan las empresas privadas aun y cuando presenta el inconveniente de que la precisión de los resultados no es muy grande y es difícil medir el error de muestreo.
Métodos de muestreo no aleatorios
Muestreo por accidente Es el más usual y el que menos difiere con nuestros diarios procedimientos de
muestreo, ya que el investigador incluye solo aquellos casos que le convienen y excluye los inconvenientes. Por ejemplo, se seleccionan para la muestra únicamente los estudiantes del maestro investigador.
Muestreo por cuota En este procedimiento de muestreo, las diversas características de una población
que interesen en la investigación, tales como edad, sexo, clase social o escolaridad,... son muestreadas de acuerdo al porcentaje que ocupan en la población. Por ejemplo, supongamos que se nos pidiera obtener una muestra de estudiantes de la U.A.N.L. donde se sabe que la población de universitarios esta compuesta en un 42% de hombres y un 58% de mujeres. Utilizando este método de muestreo, se da a los entrevistadores una cuota de estudiantes para localizar, de manera tal que en la muestra un 42% sean hombres y un 58% se componga de mujeres.
Muestreo intencional o de juicio Este tipo de muestreo involucra el sentido común o sano juicio del investigador para
seleccionar la muestra que represente a la población de estudio. Por ejemplo, para obtener una muestra de juicio que refleje los motivos por los cuales los automovilistas se vuelven agresivos al conducir, podemos, a nivel intuitivo escoger la muestra seleccionando a un grupo de ecotaxistas debido a que este grupo de automovilistas parecen reflejar la mayoría de los síntomas de agresividad.
Aplicando la estadística en las ciencias sociales Competencia 2
Tipos de muestreo aleatorios Su utilización es muy sencilla, una vez que todos los elementos de la población han
Nota:
sido identificados y numerados ( y éste es seguramente su mayor inconveniente). A partir de aquí, decidido el tamaño n de la muestra, los elementos que la compongan se han de elegir aleatoriamente entre los
N de la población.
Muestreo Simple Si queremos elegir una muestra formada por 40 elementos de una población de 600
y contamos con urnas o algo que se le asemeje, iremos tomando dígitos aleatorios de tres en tres. Si la cifra considerada es menor de 600, ya tendremos elegido un elemento de la muestra. Siguiendo este proceso e ignorando las cifras superiores a 600, podemos
elegir los 40 elementos que compondrán la muestra. El método más adecuado para la elección en nuestro caso, es la utilización de tablas de números aleatorios. Para elegir una muestra formada por 40 elementos de una población de 600 y contamos con tablas de números aleatorios (las cuales se encuentran en los libros de estadística), elegimos una columna de números de la tabla y consideramos sólo los tres últimos dígitos del número impreso (esto porque el número 600 esta compuesto por tres dígitos), si la cifra es menor o igual de 600, ya tendremos elegido un elemento de la muestra. Este proceso es repite hasta que se elijan los n elementos que compondrán la muestra.
Muestreo Sistemático Es análogo al anterior, aunque resulta más cómoda la elección de los elementos. Si
hemos de elegir 40 elementos de un grupo de 600, se comienza por calcular el cociente 600 40 , este resultado nos indica que se pueden formar con los 600 elementos de la población 40 grupos de 15 elementos cada uno. Se elige un elemento de salida entre los 15 primeros, y suponiendo que sea el k-ésimo, el resto de los elementos serán los k-ésimos de cada grupo. En concreto, si el elemento elemento de partida es el número 6, los restantes serán los que tengan los números: 15+6, (2)15+6, (3)15+6, (4)15+6, (5)15+6, …,(39)15+6
Este procedimiento simplifica enormemente la elección de elementos, pero puede dar al traste con la representatividad de la muestra cuando los elementos se hayan numerados por algún criterio concreto, y los k-ésimos tienen todos una determinada característica, que haga conformarse una muestra no representativa.
Aplicando la estadística en las ciencias sociales Competencia 2
Muestreo Estratificado A veces nos interesa, cuando las poblaciones son muy grand es, dividir éstas en
subpoblaciones o estratos, sin elementos comunes, y que cubran toda la población. Una vez hecho esto, se pueden elegir de cada estrato los elementos de la muestra utilizando el método de muestreo aleatorio simple. Según la intención de la investigación, la cantidad de elementos seleccionados debe ser igual un todos los estratos ó proporcional al tamaño del estrato. Este procedimiento tiene la la gran ventaja de que se puede obtener una mayor precisión en poblaciones no homogéneas (aunque en este curso no estudiaremos los métodos necesarios) Si decidiéramos hacer una encuesta sobre la incidencia del tabaco en el colegio Juventud Latina, podríamos razonar de la siguiente forma: Suponiendo que el colegio tiene 2000 alumnos distribuidos de la siguiente manera: G rado C
1°
2°
3°
1° Prepa
2°
Secundaria
Secundaria
Secundaria
Prepa
545
450
460
330
215
27%
22%
23%
17%
11%
antidad %
Y deseamos tomar una muestra de 100 alumnos para analizar la incidencia del tabaco en la adolescencia, bastaría tomar un número igual de alumnos de cada estrato, es decir 25. Si embargo, si lo que se quiere es hacer una encuesta para conocer la opinión que tiene el alumnado sobre una medida que ha tomado el Consejo Escolar, es más representativo elegir de cada estrato, y en número proporcional a su tamaño, los elementos que compondrán la muestra. Si 1° de secundaria representa al 27% del alumnado, entonces el 27% de la muestra (es decir 27 alumnos) se elegirán de este estrato usando muestreo aleatorio simple, 22 para 2° de secundaria, y así hasta completar los 100 elementos de la muestra.
Muestreo por Conglomerados A veces, para simplificar los procesos de toma de datos, se empieza por elegir
ciertos conglomerados (que pueden ser bloques de viviendas, municipios, urnas electorales, ... ) y dentro de ellos se realiza el muestreo aleatorio.
Aplicando la estadística en las ciencias sociales Competencia 2
Concepto de distribución muestral de medias Hemos dicho ya, que el objetivo de nuestro estudio es poder prolongar a la población lo que descubrimos en una muestra. Imagina que de la población formada por todos los alumnos de la facultad, extraes aleatoriamente una muestra de 40 alumnos, y les preguntas por su edad, encontrando que la edad media obtenida es de 18.5 años. Pero, ¿qué ocurriría, si extrajéramos otra muestra?. ¿Coincidirían las medias?.¿ Y coincidirían con la media de la población?. Lo cierto es que parece lógico pensar que aunque no tengan porqué coincidir, si debiesen estar bastante próximas. Pero, ¿cuánto de próximas?, ¿dependería esta proximidad del tamaño de las muestras que elegimos?. Parece necesario, que estudiemos la variabilidad de las medias obtenidas de las muestras que repetidamente se extraigan. A continuación se responde claramente a las preguntas planteadas.
Error de muestreo Siempre podemos esperar por mera casualidad, que existan diferencias entre la muestra muestra y la población población de la que fue extraída. extraída. casi nunca será exactamente exactamente igual a rara vez será exactamente igual a
y s
. Esta diferencia, conocida como error de muestreo
resulta sin importar que tan bien se haya diseñado y realizado el plan de muestreo. Dada la presencia del error de muestreo, el estudiante se ha de preguntar cómo es posible generalizar siempre a partir de una muestra sobre una población.
El teorema central del límite (TCL) Imagina que tienes una población con media
y desviación típica y que extraes
aleatoriamente todas las posibles muestras, todas ellas de tamaño n. Si obtuvieras las medias de todas estas muestras, y las consideras una distribución de datos (la distribución muestral de medias), comprobarías que:
a)
La media de los datos, es la media
de la población, es decir la media de
las medías de las muestras, es igual que la media de la población. b)
Estas medias se distribuyen alrededor de la media de la población, con una desviación típica (llamada desviación típica de la media) igual a la de la población dividida por la raíz de n-1, es decir, la desviación típica (d.t.) de la media es:
s 1
Aplicando la estadística en las ciencias sociales Competencia 2
c)
La distribución de las medias muestrales, es una distribución de tipo "normal", siempre que la población de procedencia lo sea, o incluso si no lo es, siempre que el tamaño de las muestras contenga contenga por lo menos 30 casos.
En consecuencia, "si una población tiene media
y d.t. , y tomamos muestras de
tamaño n ( de tamaño al menos 30, o cualquier tamaño, si la población es normal"), las medias de estas muestras siguen aproximadamente la curva de la distribución "normal". Además, cuanto mayor es el valor de n, mejor es la aproximación "normal". Hemos nombrado un concepto importante:
La desviación típica (d.t.) de la media
s n 1 , es el grado de variabilidad
de las medias muestrales. Cuanto menor sea, más ajustadas a la media de la población serán las medias que obtengamos de una muestra. De su propia definición, es fácil darse cuenta de que cuanto mayor es el tamaño de la muestra, menor es este grado de variabilidad, y por tanto más similar a la media de la población será la media obtenida de la muestra.
La distribución muestral de medias como una curva normal Como se definió anteriormente, la curva normal se puede considerar como una curva de probabilidad. Ahora que nos encontramos trabajando con una distribución de medias muestrales, ya no nos interesa obtener probabilidades asociadas con la distribución de puntajes crudos, a estas alturas lo que se pretende es hacer afirmaciones de probabilidad acerca de las medias muestrales.
Estimación Llamaremos así al procedimiento utilizado cuando se quiere conocer las características de un parámetro poblacional, a partir del conocimiento de la muestra. Durante esta unidad aprenderemos a realizar estimaciones sobre la media y la proporción de una característica en una población. La estimación de otros parámetros poblacionales, tales como la desviación típica, quedará fuera de nuestro estudio.
Aplicando la estadística en las ciencias sociales Competencia 2 En la figura de la izquierda se puede observar que la probabilidad de obtener un valor muestral muy diferente al valor de la población, disminuye a medida que nos alejamos de la media de medias (la verdadera media poblacional). Por ende, esperamos que sea por mera casualidad el que la mayoría de las medias muestrales caigan cerca del valor de la media poblacional, mientras que relativamente pocas medias muestrales caigan lejos de ella. Ya que la distribución muestral (toma la forma de una curva normal, podemos utilizar los puntajes z para obtener la probabilidad de cualquier media muestraL El procedimiento es el mismo que ya utilizaste. Por ejemplo: Imagina que una universidad sostiene que sus más recientes egresados tienen un salario mensual medio de $20,000°°. Viendo como nos pintan las actuales políticas económicas del PAN, tenemos motivos para dudar de tal pretensión y decidimos ensayarla en una muestra aleatoria de 100 exalumnos. En el proceso obtenemos una media muestral ( ) de solo $14,000°°. $14,000°°. Ahora te preguntaras preguntaras ¿qué tan probable probable sería obtener una de $14,000° $14,000°°° o menor menor si la verda verdader dera a media media poblac poblacion ional al ( ) fuera fuera de $20,0 $20,000° 00°°° ?. Supongamos que sabemos que la desviación estándar de la distribución muestral es de $2,600°° . Siguiendo el procedimiento estándar, convertimos la en un puntaje z.
z
dónde:
14,000 20,000 2,600
2.31
= media muestral
=media de la población (media de medias)
=desviación estándar de la distribución muestral de medias
Recurriendo a la tabla de distribución z, vemos que la posibilidad de obtener una de $14,000°° cuando la media poblacional
= $20,000°°, es del 1.04% con una
probabilidad tan pequeña de equivocamos, podemos decir con cierta confianza que la
Aplicando la estadística en las ciencias sociales Competencia 2 verdadera
es diferente a la que ostenta la universidad, tal vez solo sea un truco
publicitario.
Estimación del Error estándar de la media En el ejemplo anterior hicimos de cuenta que teníamos información de primera mano acerca de la distribución muestral de medias, sin embargo en la práctica real el investigador social no tiene conocimiento real sobre la media de medias o la desviación estándar de la distribución muestral ya que ello implicaría trabajar con la población completa. Sin embargo se tiene un buen método para estimar la desviación estándar de la distribución muestral de medias basándose en los datos de la muestra. Esta estimación se conoce con el nombre de
error estándar de la media y se simboliza
dónde:
.Por fórmula:
s n 1
representa el error estándar de la media. Este es una estimación de la
de la distribución muestral de medias.
s
es la desviación estándar de la muestra
n
es el número total de puntajes de la muestra
A manera de ilustración: Calculemos el error estándar de la media si de una muestra de 10 entrevistados encontramos una la desviación estándar con valor de 2.5
s n 1
2.5 10 1
2.5 3
0.83
Con la ayuda del error estándar de la media, podemos encontrar el rango de valores de la media dentro del cual es probable que fluctúe la verdadera media poblacional y podemos también estimar la probabilidad de que nuestra media poblacional caiga realmente dentro de este rango de valores medios. Este es el concepto de Intervalo de confianza.
INTERVALO DE CONFIANZA Se llama así a un intervalo en el que sabemos que está un parámetro, con un nivel de confianza específico, por fórmula se denota: intervalo de confianza del m% =
z m %
NIVEL DE CONFIANZA Probabilidad de que el parámetro a estimar se encuentre en el intervalo de
confianza. Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99.9%
Aplicando la estadística en las ciencias sociales Competencia 2
ERROR DE ESTIMACIÓN MÁXIMO Es el radio de anchura del intervalo de confianza. Este valor nos dice en qué margen
de la media muestral se encuentra la media poblacional al nivel de confianza asignado. Usando el ejemplo anterior en el que una universidad sostiene que sus más recientes egresados tienen un salario mensual medio de $20,000 . Recordemos que en nuestra muestra encontramos que el salario mensual medio era de $14,000, entonces basados en nuestros datos podemos encontrar el rango de valores en el que sabemos que está la verdadera media poblacional con una confianza específica, como ejemplo: Intervalo de confianza del 95% =
z 95%
14000 (1.96)(2,000) 14000 (1.96)(2,000)
14000 3920 14000 3920
intervalo de confianza
(10080;17920)
del 95% El error de estimación máximo es (1.96)
, donde 1.96 corresponde a una
z m %
=
95%
Conclusión: Tenemos una confianza de 95% al suponer que la verdadera media poblacional oscila entre los $10,0801 y los $17,920 Basados en este resultado, en el reporte de investigación puedes redactar algo parecido a estos ejemplos:
Estimamos con una confianza del 95% que el salario mensual medio de los egresados universitarios es de $14,000 con un error máximo máximo de estimación de $3,920°°
Podemos afirmar con una certeza de 95%, que el salario mensual medio de los egresados universitarios es de $14,000 con una fluctuación máxima de $3,920°°. A continuación se resume el procedimiento a efectuar para obte ner el intervalo de
confianza del 95% de la siguiente muestra aleatoria de puntajes crudos.(datos o calificaciones)
(x)
1
5
2
3
4
1
2
2
4
3
Aplicando la estadística en las ciencias sociales Competencia 2
Pasos a seguir:
X2 25 16 16 9 9 4 4 4 1 1
x 5 4 4 3 3 2 2 2 1 1 27
1. Enco Encont ntra rarr la medi media a de la mues muestr tra a x
∑ 2. Obtener la desviación estándar de la muestra s
89
∑ √
3. Encontrar el error error estándar de la media (estimación de la la desviación estándar de la distribución muestral de medias)
√ √ 4. Buscar en la tabla tabla de la distribución z en la columna columna B (área entre la media y la z) Como el intervalo de confianza es de 95%, en términos de probabilidad se representa:
pbilateral =0.95
punilateral =
= 0.475
5. Obtener el intervalo de confianza confianza del 95% z 95%
= 2.7 (1.96)(.42) = 2.7 .82 = 2.7 .82 2.7 .82 = 1.88 3.52
intervalo de confianza del 95%=1.88 3.52 6. Conclusión: podemos tener un 95% de confianza de que la verdadera media poblacional sea un valor que fluctúa entre 1.88 y 3.53
Nota: solo con propósitos ilustrativos se empleó una muestra pequeña, en la práctica n debe ser de por lo menos 30 casos.
Estimación de Proporciones Este método se utiliza primordialmente cuando la variable de estudio se mide cualitativamente.
Aplicando la estadística en las ciencias sociales Competencia 2 El investigador social a menudo necesita presentar una estimación de una proporción poblacional basándose en la proporción obtenida de una muestra aleatoria. Las proporciones poblacionales se estiman con un procedimiento semejante al utilizado para estimar las medias poblacionales. Así como encontramos el error estándar de la media, podemos ahora buscar el error estándar de la proporción. Por fórmula: p
p (1 p )
N
Dónde:
representa el error estándar de la proporción.
p
es una proporción muestral
n
es el número de casos que conforman la muestra
Ejemplo ilustrativo:
Un encuestador informa que en una muestra de 100 estudiantes universitarios se encontró que el 45% de ellos estan a favor de que se exija un segundo idioma para obtener su título universitario. El error estándar de la proporción sería:
p
p(1 p) N
(.45)(.55) 100
.2475 100
.002475 0.05
para encontrar el intervalo de confianzadel95%, multiplicamos el error estándar de la proporción por 1.96 y sumamos y restamos este producto por la proporción obtenida en la muestra (proporción muestral) Intervalo de confianza del 95% =
p z 95% p .45 (1.96)(.05)
.45 0.98 .45 0.98 .45 0.98
intervalo de confianza
.35 .55
del 95% Conclusión: Tenemos una confianza del 95% al afirmar que la proporción poblacional de estudiantes universitarios a favor de que se exija un segundo idioma para obtener su título universitario oscila entre el 35% y 55%. Basados en este resultado, en el reporte de investigación puedes redactar algo parecido a estos ejemplos:
Aplicando la estadística en las ciencias sociales Competencia 2
Estimamos con una confianza del 95% que, de la la población de estudiantes universitarios el 45 % está a favor de que se exija un segundo idioma para obtener su título universitario y aseguramos que de haber algún error de estimación éste es inferior al 10%
Podemos afirmar afirmar con con una certeza certeza de 95%, que el 45% ( 9.8%) de la la población población de estudiantes universitarios está a favor de que se exija un segundo idioma para obtener su título universitario
Aplicando la estadística en las ciencias sociales Competencia 3
Método para determinar tamaños de muestra 1. Marco de muestreo Una vez identificada la población que conforma el estudio, es importante determinar de dónde se van a elegir los elementos de la muestra, esto se conoce como marco muestral. Por ejemplo: Si el estudio trata acerca de la calidad de vida determinadas comunidades y se tienen identificadas todas las direcciones de todas las familias, entonces coinciden el marco y la población. En este caso la selección de la muestra se hace sobre el marco o lista de direcciones de la población.
2. Tipos de variables El tipo de variable condiciona la forma de llevar a cabo el análisis e inter-pretación de resultados. De las variables cualitativas nos interesan las proporciones y de las variables cuantitativas nos interesan las medias.
3. Preprueba y encuesta piloto El instrumento a utilizarse para obtener información debe probarse en una encuesta piloto siguiendo las reglas adecuadas de selección al azar.
4. Precisión y confianza para para determinar determinar tamaños tamaños de muestra Para decidir el tamaño de la muestra de una población, se deben llevar a cabo las siguientes consideraciones:
El tamaño de la muestra muestra se determina de tal manera que se garantice con una probabilidad alta que el estimador (resultado de la muestra) no difiera del parámetro (resultado que se obtendría de trabajar trabajar con la población)
por
más de una cantidad pequeña y establecida de antemano, llamada preescisión. Una vez obtenida la muestra, dicha probabilidad se conoce como confianza de la muestra.
Aplicando la estadística en las ciencias sociales Competencia 3
Para un tamaño de muestra determinado, los elementos que la conforman se obtienen mediante selección aleatoria.
De lo anterior concluimos que si en el estudio se tiene interés por estimar varios parámetros se calcula un tamaño de muestra para cada uno de ellos, eligiendo el más grande de los tamaños de muestra obtenidos.
5. Significancia estadística comparada con significancia significancia práctica Es importante reconocer que la “significancia estadística" de un efecto no t iene nada que ver con su “significancia “significancia práctica" o “importancia". La significancia estadística se basa
únicamente en las leyes de la probabilidad; un efecto estadísticamente importante es simplemente aquel que es "raro" si la hipótesis nula es verdadera. Como lo indican los comentarios de las unidades anteriores, la significancia estadística de un efecto es en gran medida una función de¡ tamaño de la muestra; dada una muestra suficientemente grande, diferencia sin importar el tamaño , puede declararse "estadísticamente diferencia cualquier significante". El tamaño de una diferencia "significante en el aspecto práctico" debe determinarse sin recurrir a consideraciones estrictamente estadísticas, y la respuesta puede variar con cada investigador. Sin embargo, una vez que se define el tamaño de una diferencia "significante "significante en el aspecto práctico” podemos utilizar esta definición para
determinar el tamaño de la muestra que asegure un poder adecuado al detectar las diferencias reales de ese tamaño o mayores.
Este material es una reproducción tomada del libro de Investigación de mercados un enfoque práctico mencionado en la bibliografía (páginas 734-735) 6. Tamaño de muestra muestra para para vvariables ariables cualitativas Si se desea que la proporción “ p” de una determinada variable cualitativa de la población y
la proporción de la misma variable en la muestra, no difieran por más de una pequeña cantidad determinada por el investigador y denotada con la letra B, se dice que se desea hacer una estimación con una precisión de B o menor. Por ejemplo: Si se desea que las diferencias diferencias de las proporciones de todos los egresados de la Fac. de Trabajo Social que opinan que “si volverían a estudiar en la misma institución” y
la muestra de egresados de ésta, no difieran por más de 0.05, se dice que se desea hacer una estimación con una precisión de 0.05 o menor.
Aplicando la estadística en las ciencias sociales Competencia 3
El siguiente paso es especificar el nivel de confianza para dicha precisión, esto es, la probabilidad con que se espera que se cumpla que el parámetro y el estimador difieran por menos de la precisión deseada. Con el fin de que no crezca mucho el tamaño de la muestra se sugiere usar una confianza del 90%. Por formula:
donde: n tamaño de muestra N tamaño de la población
n
Np(1 p ) ( N 1) B
B precisión
2
2 conf
z
p (1 p )
2 z conf
valor de z de la distribución
normal p proporción de la información que de la variable nos interesa El valor de p se obtiene de la prueba piloto, si no existiera esta información debe considerarse p=0.5 que da el mayor tamaño de muestra posible.
Problemas ilustrativos
De la prueba piloto el investigador encontró que la proporción de profesionistas egresados de la Fac. de Trabajo Social que si volverían a estudiar en la misma institución es de 0.22. si la población es de 257 egresados y se desea que la inferencia sobre la población se haga con una precisión de 0.07 con una confianza del 90%, ¿cuál debe ser el tamaño de la muestra?
Solución: Se busca en la tabla 1 con los valores más próximos hacia arriba de N y y p ya que los valores exactos no aparecen en la tabla. Los más cercanos son N=300 y p = 0.25, esto produce un tamaño de muestra n=78
Para un valor de precisión B=.05, 90% de confianza y p=0.75 (en la tabla se busca p=(1 - 0.75 = 0.25)), cuando N=500 se obtiene un tamaño de muestra n=145
7. Tamaño de muestra muestra para para vvariables ariables cuantitativas
Aplicando la estadística en las ciencias sociales Competencia 3 Para obtener el tamaño de muestra para el intervalo de confianza de una variable cardinal, también se debe proponer un valor para la precisión B, pero en este caso, debido a que la variable puede tomar cualquier valor numérico en ocasiones conviene dar la precisión en términos de desviación estándar
D
B s
. Por ejemplo, si se establece una precisión de 0.5
de desviación estándar quiere decir que el estimador de la media y el parámetro de la media difieren cuando mucho en la mitad del valor de la desviación estándar.
La ecuación para calcular el tamaño de muestra cuando se propone un valor de precisión B en términos de la escala original de la variable es la siguiente: n
Ns NB 2 2 conf
z
2
s 2
Aclarando que, para utilizar esta ecuación debe ser co nocido el valor de desviación estándar (de la prueba piloto). n
N ND 2 z conf
2
1
Si se substituye el valor de B por su equivalente en desviaciones estándar, se obtiene la ecuación:
En la tabla 2 se presentan los tamaños de muestra adecuados para establecer intervalos de confianza de variables cardinales. Para utilizar esta tabla debe tenerse en cuenta que el valor de D está en términos términos de desviación estándar y su elección requiere práctica. Sin embargo, recordando que el 68% de toda la población en una distribución normal se encuentra a una desviación estándar de la media ( D = 1 ), es claro que la precisión debe ser una pequeña fracción de desviación estándar, por ejemplo 0.05 o 0.1; normalmente D 0.2
Problema ilustrativo
Imaginemos que al investigador le interesa estimar de la población el ingreso promedio de los 420 exalumnos de la generación de 1998 de la FAC de Trabajo Social, con una confianza del 95% y precision precision de $300.00. De los los resultados de la prueba piloto se encontró que la desviación estándar es de $2,000.00. Con esta información se calcula el valor de D
D 300
2000
0.15
), ¿cuál debe ser el tamaño de la muestra?
(
Aplicando la estadística en las ciencias sociales Competencia 3 Solución: En la tabla 2 buscamos para N=500 (se busca la N más próxima hacia arriba cuando no es exacto) y D=0.15, obteniéndose n=128 tamaño de la muestra
El curso está centrado en el examen de los diseños muestrales y en el estudio de la lógica y procedimientos del contraste de hipótesis.
Objetivos Conocer el proceso para contrastar hipótesis y su relación con el método científico. Diferenciar entre hipótesis nula y alternativa Conocer los conceptos Nivel de significación Significación Tipos de error Cuantificación del error Tomar decisiones basados en los criterios anteriores
Conocimientos de la unidad y contenido Se examinará el proceso de contrastación o prueba de hipótesis 1
2
3
Contrastación de Hipótesis 1.1
Las hipótesis y su relación con el método científico.
1.2
Diferencia entre hipótesis nula y alternativa
1.3
Nivel de significación
1.4
Significación
1.5
Toma de decisiones, tipos de error y cuantificación del error
Diseño Experimental 2.1
Definición de diseño experimental
2.2
Objetivo
2.3
Clasificación
Prueba del signo 3.1
Diseño experimental de grupos relacionados
3.2
Potencia de una prueba
La investigación científica es un proceso de búsqueda continua de nuevo conocimiento. Cuando la observación de datos o conocimientos ya adquiridos provocan una duda da origen a un problema de investigación. Una vez que se tiene conciencia del problema de investigación, éste se divide en subproblemas y se integran suficientes datos preliminares que permitan plantear hipótesis de investigación. Se continúa con la búsqueda de evidencia empírica y una vez que qu e se han conseguido los datos se procede a su análisis e interpretación. Si la hipótesis es soportada por la evidencia empírica se llega a la solución del problema y se concluye el ciclo de la investigación (Leedy & Ormrod, 2009). En resumen, el método científico es el conjunto de procedimientos procedimientos que siguen las diferentes ciencias para contrastar las hipótesis formuladas (Moreno Villa, 2003). Son suposiciones o conjeturas acerca de determinados hechos. Esto significa que la hipótesis es una verdad provisional y nunca definitiva (Rodríguez Moguel, 2005). Las hipótesis han sido valiosas guías para la formulación de teorías científicas. Dentro del método científico las hipótesis son el hilo conductor del proceso de investigación, indican lo que andamos buscando. De hecho, hasta cuando una hipótesis resulta falsa es útil para el investigador. Si la hipótesis no puede pu ede probarse, ésta es reemplazada por otra que debe verificarse nuevamente y, vuelve a empezar el ciclo de verificación experimental. De ahí que la nueva hipótesis sirve como instrumento para avanzar en el conocimiento científico (Rodríguez Moguel, 2005). En una investigación se establecen dos tipos de hipótesis,
La metodológica de investigación y
Las estadísticas (hipótesis nula e hipótesis alterna)
Estas últimas, las estadísticas, permiten evaluar la hipótesis metodológica de investigación a partir de técnicas técnicas estadísticas. La Hipótesis de Investigación Investigación se asocia con el problema de investigación y las Hipótesis estadísticas se asocian con los subtemas en los que se divide el problema de investigación.
Hipótesis de una variable
También conocidas como Hipótesis descriptivas. Sólo pretenden describir el objeto de estudio. Ejemplo: Los estudiantes de la FTS y DH son en su mayoría de género femenino
Unidad de observación: Los estudiantes de la FTS y DH
Variable: Género
Relación: son
Hipótesis de dos variables que guardan una relación de dependencia
También conocidas como Hipótesis Explicativas. Pretenden encontrar la relación causaefecto de los fenómenos. Ejemplo: Mientras más entren a clase los estudiantes de la FTS y DH mejores serán sus calificaciones
Unidad de observación: Los estudiantes de la FTS y DH
Variables: Asistencia a clase y calificación
Relación: Mientras más…-mejor
Hipótesis de dos o más variables con una relación asociativa
Se llaman así porque cuando una variable cambia la otra se modifica sin que exista una relación de causa-efecto. Ejemplo: Cuánto más má s crece la inseguridad menos confianza tiene la sociedad civil en los gobernantes.
Unidad de observación: La sociedad
Variables: inseguridad y confianza
Relación: cuanto más…-menos
Recordemos que una Hipótesis es una suposición o conjetura acerca de determinados hechos. Generalmente relacionados con parámetros como: Media, Varianza, Porcentaje, Proporción/Tasa. hipótesis o contraste contraste de hipótesis puede ser entendida como un Una prueba de hipótesis
procedimiento estadístico simple cuya finalidad es corroborar o desmentir alguna afirmación que se hace con relación a un parámetro poblacional. En definitiva, es una regla de decisión sobre determinadas características de los parámetros poblacionales de nuestro interés. Siempre se plantean dos hipótesis conocidas como hipótesis nula e hipótesis alternativa. La
es una suposición inicial sobre el parámetro poblacional bajo
estudio que sirve para iniciar el procedimiento de prueba o verificación. Generalmente se 65
usa el símbolo H 0 para denotar la hipótesis nula. Por otra parte, la
es la
hipótesis que se establece como alternativa de la hipótesis nula; si la H 0 es rechazada, entonces será la hipótesis alternativa la que se tomará tentativamente como válida. La metodología de prueba de hipótesis gira en torno a poder rechazar la H 0. : Si queremos contrastarla, debe establecerse antes del análisis. La hipótesis nula (Ho) es una afirmación que propone los resultados contrarios a a los que el investigador espera encontrar. Es decir, niega la relación entre entre las variables. Por el contrario, la hipótesis alternativa (Ha) afirma lo que el investigador desea que ocurra, y que es manifestado en la hipótesis metodológica.
Hipótesis nula
Hipótesis alternativa Símbolo Ha Afirmación que plantea el investigador poniendo en duda la aseveración de la Ho Sólo se puede considerar cierta si hay suficiente evidencia para rechazar Ho
≥
≤
Utiliza los símbolos: ≠, >, < Utiliza las frases como: Es diferente, Aumenta, Disminuye, Afecta, Modifica…
66
Te aseguro que me dijeron que tenían 49
?
Pues se ven MUUUUY jóvenes
Voy a investigar
Dicen que son los efectos de la crema
La diferencia entre lo que me dijeron y lo que encontraste es
Problema de investigación
Búsqueda de evidencia empírica
Análisis y toma de decisiones
¡Te lo dije !
Debemos rechazar la idea (hipótesis) de que la crema Juvenatrol rejuvenece 18 años la a arienc ariencia ia de las ersona ersonass
67
: Quienes Quienes aparecen en el comercial de Rejuvenatrol lucen
de 20 años pero en realidad tienen en promedio 49 años. Se traduce al lenguaje estadístico: H o o: µ= 49 años
y se establece su opuesto:
68
H a a: µ< 49 años
Región crítica
Nivel de significación α
Valores improbables si Ho es cierta
Es un valor pequeño 0.01, 0.05, …
Es conocida antes de realizar el experimento: Son los resultados experimentales que refutarían H 0
Se establece antes del experimento
Es la probabilidad de que la muestra elegida NO represente a la población que se estudia (posibilidad de error)
69
. Se sabe si nuestra hipótesis (Ha) es válida o no después de realizado el análisis porque al finalizar medimos la probabilidad de haber ha ber obtenido ese resultado bajo el supuesto de que H 0 es cierta. Si la probabilidad << p >> >> es un valor menor que α, entonces: H0 es falsa. El valor p representa representa la probabilidad de encontrar el resultado en la muestra de estudiada cuando H0 es cierta. La Ha será considerada como válida si el resultado que encontramos pertenece a un valor dentro de la llamada región crítica, la cual se define antes de la investigación y su límite es la probabilidad α
. La curva normal también llamada curva de probabilidad es útil para comprender el contraste de hipótesis, por ello vamos a recordarla. Suponiendo que la H o o: µ= 49 años es es cierta y a partir de la muestra se estimó el parámetro
resultando de 10
años, entonces ¿cuál es la probabilidad de que al seleccionar una muestra al azar la edad media sea de 25 años?
tabla de la Curva Normal (calificación z) en la columna C el valor con el valor α
, lo comparamos
. Como p<α se rechaza Ho y se acepta Ha. Se concluye que la edad real de
̅
las personas que aparecen en el anuncio a nuncio es de 25±z años. años.
70
buscamos en la
Se dice que el contraste es significativo cuando p menor menor que α. Esto es, se rechaza H 0 y en consecuencia se acepta Ha. α
•
•
α
–
– –
–
Al utilizar un estadístico de muestra para pa ra tomar decisiones sobre el parámetro poblacional, existe el riesgo de llegar a una conclusión equivocada. Cuando se aplica la metodología de prueba de hipótesis existen dos tipos de errores que se pueden cometer al tomar decisiones. I.
Cuando se rechazar H0 por error se le denomina Error Tipo I y
II.
El Error Tipo II ocurre cuando se conserva por error la H0.
Por error del azar se rechazó la Ho La probabilidad de que esto ocurra es β
Se conserva Ho
Se rechaza Ho
Por error del azar se rechazó la Ho La probabilidad de que esto ocurra es α
¿Cómo sabremos si tomamos la decisión correcta? Eso solo se sabe si al repetirse la investigación se obtiene un resultado parecido. Lo que podemos decir es la confianza que se tiene en que los resultados sean los correctos.
71
¿Que sabemos hasta aquí? •
•
H0: Hipótesis nula – Es inocente Los datos pueden refutarla
La que se acepta si las pruebas no indican lo contrario Rechazarla por error tiene graves
consecuencias Error de tipo tipo I El acusado es inocente pero se decide que es culpable. Probabilidad α
• •
• • • •
H1: Hipótesis alternativa – Es culpable No debería ser aceptada sin una gran evidencia a favor. Rechazarla Rechazarla por por error tiene consecuencias consideradas menos graves que la anterior Error de tipo II
El acusado es culpable pero no lo probamos. Probabilidad β
Las hipótesis no se plantean después de observar los datos. En ciencia, las hipótesis nula y alternativa no tienen el mismo papel: – H0: Hipótesis científicamente más simple. – H1: El peso de la prueba recae en ella. – α debe ser pequeño Rechazar una hipótesis consiste en observar si p<α Rechazar una hipótesis no prueba que sea falsa. Podemos falsa. Podemos cometer cometer error de de tipo I No rechazar una hipótesis no prueba que sea cierta. Podemos cierta. Podemos cometer cometer error de tipo II Si decidimos rechazar una hipótesis debemos mo strar la probabilidad de equivocarnos.
72
El concepto de diseño se utiliza en varias etapas de la investigación científica. Se emplea tanto en aspectos técnico-metodológicos como en aspectos estadístico-analíticos. El diseño experimental que se refiera al análisis estadístico es el de nuestro interés y es el concepto que intentaremos comprender. : Es un plan de investigación mediante el cuál se intenta contrastar el efecto causal de por lo menos una variable manipulada por el investigador (Variable Independiente), en el cual se determina el procedimiento de asignación de los sujetos a los distintos niveles de tratamiento y la selección de la técnica de análisis más adecuada. Detectar la influencia que ejerce(n) la(s) variable(s) independientes sobre la(s) dependiente(s). Los diseños experimentales se clacifican de muchas maneras, para efectos de este curso mostraremos solo dos de esas clasificaciones. –
Diseño intergrupos: También conocidas como muestras independientes
–
Diseño intrasujetos o medidas repetidas: También conocidas como muestras pareadas o correlacionadas
–
Diseños mixtos ( solo este renglón NO NO FORMA PARTE DEL CURSO)
–
Diseños paramétricos
–
Diseños no paramétricos
73
Distintas personas en los grupos
Los sujetos del grupo de control también pertenecen al grupo experimental
74
Es un análisis matemático que permite verificar ciertas afirmaciones o hipótesis. Se ha elegido esta prueba ya que (1) es fácil de entender y (2) podemos ilustrar de manera clara y sencilla todos los conceptos básicos relacionados con las pruebas de hipótesis. El diseño experimental que habremos de utilizar se llama medidas repetidas, o de grupos correlacionados . Las características esenciales son la existencia de
resultados pareados en las condiciones y la elaboración de un estudio que analiza an aliza la diferencia entre éstos. Ejemplo : Después de obtener el permiso de las autoridades adecuadas, usted
realizará siguiente experimento. Imagine que usted es un investigador y desea ayudar a las personas enfermas de SIDA. Se elige a una muestra aleatoria de 10 pacientes con sida (quienes están de acuerdo en participar en el experimento) a partir de una población de gran tamaño de pacientes en etapa avanzada tratados mediante consultas externas en el hospital donde trabaja. A ninguno de estos pacientes se le ha suministrado mariguana. Cada enfermo es admitido en el hospital por una semana para participar en el experimento. •
Ho:: La mariguana no afecta el apetito de los enfermos terminales de SIDA
•
Ha:: La mariguana modifica el apetito de los enfermos terminales de SIDA
Procedimiento:
Durante los dos primeros días, los pacientes se acostumbran al hospital. Al tercer día, la mitad de los enfermos reciben una píldora con una forma sintética del ingrediente activo de la mariguana, THC, antes de cada comida.
Al sexto día, se cambia esta píldora por un placebo antes de cada comida. La otra mitad los pacientes son tratados de igual manera man era que en la condición experimental, excepto que reciben las píldoras en orden inverso, es decir, el placebo al tercer día y las píldoras en el sexto día.