ESTADÍSTICA Regresión lineal simple y correlación Probabilidades Docente: Juan Martin Míñope Mio
REGRESIÓN Y CORRELACIÓN SIMPLE En la naturaleza encontramos con frecuencia que existen relaciones establecidas entre dos o más variables. Así, sabemos que el área de un circulo depende de su radio y lo expresamos matemáticamente como, área circulo =π r2; las horas trabajadas y accidentes de trabajo; ingreso de una familia con sus gastos; ó supongamos que queremos establecer la relación existente entre la aptitud para el conocimiento de la historia y la aptitud para los conocimientos matemáticos, mediante las puntuaciones de ambas materias para un mismo grupo de alumnos. El objeto de estos dos experimentos es determinar si hay alguna relación entre las variables que se estudian. Los análisis de regresión y correlación mostrarán cómo determinar la naturaleza y la fuerza de una relación entre dos variables. En el análisis de regresión desarrollaremos una ecuación de estimación, es decir, una fórmula matemática que relaciona las variables conocidas con las desconocidas.
Las variables en la regresión lineal Los análisis de regresión y correlación se basan en la relación o asociación existente entre dos (o más) variables. La variable (o variables) conocida recibe el nombre de variable independiente. La variable que estamos intentando predecir en la variable dependiente. La variable considerada causa se denomina variable independiente o antecedente, y la considerada efecto se denomina variable dependiente o consecuente. La dependiente se denomina así porque su valor depende del valor de la variable independiente. La variable independiente, por el contrario, se denomina de ese modo porque su valor no depende de la variable dependiente. Ejemplo considerar las puntuaciones de aptitud con la productividad en trabajadores de una empresa: las puntuaciones sería la variable independiente (causa) y la productividad, la variable dependiente (efecto); se asigna la variable independiente con la letra X y la variable dependiente con la letra Y.
Diagramas de dispersión o nube de puntos Los datos de la distribución bidimensional, se representan gráficamente en un par de ejes coordenados, considerando al eje de las abscisas para la primera variable (Xi) y al eje vertical i de la ordenadas, para los valores de la segunda variable (Yj) Criterios para determinar una nube de puntos Observar cuidadosamente la forma que toma el conjunto de puntos La línea debe reflejar la mejor posible tendencia de los puntos en la gráfica. La línea debe representar al conjunto de puntos , por lo tanto debe ser, hasta donde sea posible, la más sencilla.
Relación directa entre X e Y: conforme aumenta la variable independiente, también lo hace la variable dependiente. Relación inversa entre X e Y: la variable dependiente disminuye al aumentar la variable independiente.
Relación directa
Y
Pendiente positiva
Venta de abrigos
Ventas en soles
Y
Relación inversa
Pendiente negativa
X Publicidad en soles
X Tempera ° C
Correlación curvilínea: Ejemplo diagrama de dispersión del número medio de consultas médicas anuales y la edad
Creatividad
Correlación nula: Ejemplo diagrama de dispersión de temperatura y el número de calzado.
Número de calzado
ESTIMACIÓN MEDIANTE LA LÍNEA DE REGRESIÓN Una ecuación que permite describir la relación existente entre dos variables se determina por el análisis de regresión. Es decir, obtener una línea “ideal” conocida como línea de regresión, que nos describa la relación o dependencia entre dos variables.
Esta línea matemática, en el caso de una sola variable dependiente o explicativa puede ser expresada, a través de una : Recta o función lineal: Y = a +bX; Parábola de segundo grado Y=a +bX+cX2 Funcion potencia Y = aXb Estas funciones se puede resolver en la mayoría de las situaciones que nos presentan en la vida diaria. El análisis de regresión permite la predicción o sea la estimación de un valor o promedio de una variable denominada dependiente, con base en un valor o promedio supuestamente conocido para la otra variable, denominada independiente.
La función lineal tiene una expresión matemática como la siguiente Y = a + bX En la que x e y son las variables cuya relación se analizará, y lo números a y b son valores fijos que determinan cual es la recta de mínimos cuadrados. Hallar la recta implica encontrar esos números a y b. Variable dependiente
Variable independiente
Y=a+bX Intersección en Y
Pendiente de la línea
Cálculo matemático de la línea de mínimos cuadrado del mejor ajuste
Y = a +bX Valor del parámetro b, o pendiente de la línea de regresión de los mínimos cuadrados.
b
n xi yi xi yi n x xi 2 i
2
Valor de la constante a ó intersección de la línea de regresión de mínimos cuadrados.
a y bx
Donde los valores promedios se calculan:
y y n
x x n
Ejemplo de regresión Se ha efectuado un estudio donde se relacionan los puntajes de aptitud con la productividad en una industria. Después de tres meses de entrenamiento del personal, sus postulantes, elegidos al azar, obtuvieron los seis pares de puntajes de aptitud y productividad que se indican a continuación:
Puntaje de aptitud
9
17
20
19
20
21
Productividad
23
35
29
33
43
32
¿Cuál es la productividad esperada de un trabajador, cuyo puntaje de aptitud fue de 16?
Tabla N° 01.- Puntuaciones de aptitud y productividad de trabajadores.
Trabajador
Puntaje de aptitud
Productividad
1 2
9 17
23 35
3 4 5 6
20 19 20 21
29 33 43 32
En el ejemplo, la variable independiente es la aptitud y la variable dependiente es la productividad; se debe encontrar el modelo de regresión lineal: Variables Trabajador productividad aptitud Y X
23 35 29 33 43 32 195
1 2 3 4
5 6 Total
n=6 PARES
(productividad*aptitud) YX
9 17 20 19 20 21 106
Y X
productividad2 Y2
aptitud2 X2
23*9 = 207 23*23=529 595 1225 580 841 627 1089 860 1849 672 1024 3541 6557
XY
Y
2
2 X
El valor de la muestra n =6 pares ordenados y los promedios de las variables:
y
y 195 32 .5 n
6
x 106 x 17 .67 n
6
9*9=81 289 400 361 400 441 1972
Primero se encuentra el parámetro de la pendiente de la ecuación:
b
n xi yi xi yi n x xi
2
2 i
6 * 3541 106 *195 b 0.9664 2 6 *1972 106
b = 0.9664
Luego se encuentra el parámetro de la intersección en Y de la ecuación:
a y bx
y 195 y 32 .5 n
6
x 106 x 17 .67
a = 32.5 – 0.9664*(17.67) = 15.4237
n
6
a = 15.4237
Por lo que el modelo queda:
Y = 15.4237 + 0.9664 X Productividad = 15.4237+0.9664* Puntuaciones de aptitud
¿Cuál es la productividad esperada de un trabajador, cuyo puntaje de aptitud fue de 16?
Con el modelo propuesto se tiene, el valor para la aptitud es 16, entonces, X = 16. Y = 15.4237 + 0.9664 (X) Y = 15.4237 + 0.9664 (16) Productividad = 15.4237+0.9664(16) Productividad = 30.8861 La productividad esperada de un trabajador, cuyo puntaje de aptitud fue de 16 es de 30.89
CORRELACIÓN: ÍNDICE r DE PEARSON El análisis de correlación es la técnica con que se determina el grado de relación lineal que hay entre variables. Después de haber aprendido el patrón de dicha relación, aplicaremos el análisis de correlación para determinar el grado de relación que hay entre las variables. Así pues, el análisis de correlación nos dice con qué precisión la ecuación de estimación describe la relación.
Producto Momento de Pearson:
r
n xy x y
n x x 2
2
n y y 2
Donde n es el número de pares de datos de la muestra.
2
Grado de correlación: El grado de correlación indica en qué medida existe un patrón claro de alguna relación en particular entre dos variables.
-1 < r < 1 Valores del coeficiente de correlación de pearson: Correlación perfecta, cuando r = 1 ( r =-1) Correlación excelente, cuando r es mayor de 0.90 y menor de 1 (-1 < r < -0.90) Correlación aceptable, cuando r se encuentra entre 0.80 y 0.90 (-0.90 < r < -0.80) Correlación regular, cuando r se encuentra entre 0.60 y 0.80 (-0.80 < r < -0.60) Correlación mínima, cuando r se encuentra entre 0.30 y 0.60 (-0.60 < r < -0.30) No hay Correlación para r menor de 0.30 y mayor a 0 (-0.30 < r < 0)
r = 0.95
r = 0.76
r = -0.96
r = 0.002
Yj
Xi,Yj
Xi
Patrones de correlación
Ejemplo: Supóngase que un conjunto de datos consiste en las calificaciones de un grupo específico de niños en una prueba de inteligencia y que el otro conjunto las calificaciones de una prueba de rendimiento. Se aprecia cada CI del niño con su correspondiente calificación de rendimiento, se define una relación entre inteligencia rendimiento. En la tabla adjunta se proporciona cada una de las calificaciones de los 7 niños:
Niño 1 2 3 4 5 6 7
Calificaciones Inteligencia Rendimiento 136 125 118 110 100 97 90
55 57 42 48 42 35 32
a. Grafique los datos y describa su tendencia b. Calcule el coeficiente de correlación entre X e Y.
Grafico de la dispersión Al dibujar el diagrama de dispersión como la figura adjunta vemos que hay una relación lineal positiva entre la inteligencia y el rendimiento.
55 .0 0
Rendimiento
50 .0 0
45 .0 0
(100, 42)
42
40 .0 0
35 .0 0
90 .0 0
10 0.00
11 0.00
12 0.00
Intelige ncia
13 0.00
Ecuación del coeficiente de correlación
r
n xy x y
n x 2 x
2
n y 2 y
2
En la muestra después de identificar que la variable independiente la inteligencia y la variable dependiente el rendimiento, se obtiene que:
Niño
1 2 3 4 5 6 7
Calificaciones Inteligencia Rendimiento (Inteligencia)x(Rendimiento) Inteligencia2 X Y XY X2 136*136=1849 136 55 136*55 = 7480 6 125 57 7125 15625 118 42 4956 13924 110 48 5280 12100 100 42 4200 10000 97 35 3395 9409 90 32 2880 8100
Total
776
311
n=7 PARES
X
Y
35316
87654
XY
X
Rendimiento2 Y2 55*55= 3025 3249 1764 2304 1764 1225 1024
14355 2
2 Y
Tenemos entonces
Y 311 X Y 35316
n7
X 776 X 87654 Y 14355
i i
2
2
Cálculo del coeficiente de correlación entre X e Y
r
r
n xy x y
n x 2 x
n y 2 y
2
2
7 * 35316 776 * 311 7 * 87654 776
2
7 *14355 311
2
0.8969
r 0.8969
Existe una correlación grande entre el rendimiento y las calificaciones de los niños de siete años.
CALCULO DE PROBABILIDAD Al hacer inferencias necesitamos de la probabilidad porque trabajamos con situaciones inciertas, que no conocemos y que tenemos dificultad para prever. a) ¿Cómo cambia la conducta de una persona si consume una sustancia alucinógena?. b) ¿Cuál es el efecto sobre la personalidad, de haber tenido figuras parentales autoritarias en la niñez?. c) ¿Qué determina que algunos alumnos tengan éxito en la escuela y otros no?. d) ¿Cómo son las dificultades en las matemáticas de un grupo de alumnos? e) ¿Votaran un grupo de 200 personas por el partido X? f) ¿Cuál es el numero de errores que comente los participantes voluntarios a una prueba en la que se determina la relación entre las expectativa de logro y asignaturas aprobadas?. g) ¿Cómo es la estabilización de pacientes psicóticos después de suministrar una droga?. En estas situaciones, cuando no tenemos toda la información que hace falta para predecir el resultado, recurrimos a la probabilidad.
Conceptos básicos de probabilidad:
En la teoría de la probabilidad se llama experimento a la actividad que produce un evento o suceso. Experimento aleatorio: cualquier proceso de observación que puede repetirse a voluntad en condiciones similares, con la condición de que el resultado no pueda se previsto antes de cada una de sus realizaciones. Ejemplo: Exp1: De un grupo de 420 postulantes para un puesto de trabajo en una empresa que porcentaje aprobará el examen psicológico. Exp2: Lanzar un dado no cargado. Espacio muestral, son todos los resultados posibles de un experimento aleatorio. Ejemplo: S1 = {el 20% de los candidatos a un puesto de trabajo aprueba examen, el 25%, el 40%, el 18%, …………………….. }. S2 = {1, 2, 3, 4, 5, 6}.
Evento elemental o simple: es un elemento del espacio muestral de un experimento aleatorio. Ejemplo: Porcentaje aceptable el 20%. Número seis en el lanzamiento de un dado.
Conceptos básicos de probabilidad: Evento mutuamente excluyente: aquellos en que la ocurrencia de un evento excluye la ocurrencia de otro evento (sólo uno de ellos tiene lugar a la vez). Ejemplo: Para el lanzamiento de dado puede ocurrir que sale el número 4, pero no sale 3 a la vez. Evento colectivamente exhaustivo: aquellos que, en un experimento aleatorio, son mutuamente excluyentes y constituyen la totalidad de los resultados posibles para el experimento en cuestión. Complemento de un evento A: consiste en todos los resultados del espacio muestral que no pertenece al evento A. Ejemplo en una grupo de 20 pacientes de esquizofrenia 3 intentaron el suicidio el complemento del evento es que 17 no intentaron suicidio. Eventos independientes: aquellos en los que la ocurrencia de uno de los eventos no suministra información con respecto a la ocurrencia o no de otro evento, es decir, que la ocurrencia de un evento no tiene influencia en la ocurrencia de otro.
Tres tipos de probabilidades: 1. Enfoque clásico. 2. Enfoque de frecuencia relativa. 3. Enfoque subjetivo. Probabilidad clásica: principio básico de la probabilidad.
Número de resultados donde ocurre el evento F Pr( A) Número total de posibles resultados T La probabilidad clásica también se llama probabilidad a priori, porque es la probabilidad que se establece atendiendo consideraciones sobre la simetría o la regularidad de resultados simples. Frecuencia relativa de ocurrencia: Probabilidad a posteriori Es la probabilidad establecida por la observación experimental de la ocurrencia de un resultado. Esta probabilidad se basa en la forma i) la frecuencia relativa observada de un evento en un gran número de ensayos; ii) la proporción de las veces que un evento sucede a la larga cuando las condiciones son estables.
Enfoque subjetivo: se basan en las creencias e ideas del que realiza la evaluación de las probabilidades.
Probabilidad de un evento:
Número de resultados donde ocurre el evento Pr( A) Número total de posibles resultados La probabilidad de un evento esta entre cero y uno 0 ≤ Pr(A) ≤ 1
Ejemplo de una muestra con dos eventos del tipo de colegio de donde provienen los estudiantes de psicología Tipo de colegio Estatal Privado Total
Frecuencia 200 100 300
Frecuencia relativa 0.66 0.34 1.00
Podemos decir que la probabilidad que el alumno elegido al azar provenga de un colegio estatal o público es 0.66, resulta de dividir 200/300.
Ejemplo de probabilidad En el centro de la ciudad de Chiclayo, el 46% de la población tiene una edad de 25 años o menos; el otro 54% tiene una edad mayor. Si se extrae de esta población una persona, la probabilidad de que ésta tenga 25 años o menos de edad es 0.46, cifra que corresponde a la fracción de la población que corresponde a las personas que tienen esa edad. Distribución de número de personas según edades
Edad Menor a 25 años Mayor a 25 años Total
Personas 120,076 140,872 260,948
Ejemplo de probabilidad Cuando nace un bebé, este puede ser hombre o mujer. Si es cierto que existe una posibilidad igual de que un recién nacido sea hombre o mujer, entonces la gráfica que a continuación se muestra proporciona la distribución teórica de las frecuencias relativas de hombres y mujeres en una familia que tiene cuatro hijos.
Mediante el empleo del histograma anterior, ¿cuál es la probabilidad de que una familia con cuatro hijos:
a) no tenga varones p(0) = 0.0625 b)tenga dos varones p(2) = 0.375 c) todos sean varones p(4) = 0.0625 d) tenga dos o más varones p(2)+p(3)+p(4)=0.375+0.25+0.0625 =0.6825 e) tenga un varón o tres varones. p(1)+p(3) = 0.25+0.25 = 0.50
Algunas reglas de Probabilidad:
Regla de la adición ó probabilidad total: P(A U B) = P(A) + P(B) – P(A Π B) La probabilidad de que A o B ocurran cuando A y B no son mutuamente excluyentes es igual a la probabilidad de que ocurra A más la probabilidad de que ocurra B menos la probabilidad de que A y B ocurran simultáneamente.
P(A Π B)
Ejemplo de probabilidad de la adición o total Un estudio clínico de una universidad en una población ha encontrado que la probabilidad de que se den trastornos en el sueño (A) es 0.70, la probabilidad de que se den trastornos de tipo depresivo (B) es 0.20, y la probabilidad de que tengan trastorno de sueño y depresivos es 0.10. Si extraemos un sujeto de dicha población al azar. ¿cuál es la probabilidad de que se tenga ambos trastornos? Solución Definición de eventos: A: población con casos de trastornos en el sueño. B: población con casos de trastornos depresivos. P(A y B) = P(A Π B) = 0.10 La probabilidad de que se tengan ambos trastornos: P (A U B) = P(A) + P(B) – P(A Π B) P (A U B) = 0.70 + 0.20 – 0.10 P (A U B) = 0.80
P(A) = 0.70 P(B) = 0.20
PROBABILIDAD CONDICIONAL Sea un suceso de un espacio muestral tal que P(B)>0. La probabilidad de que ocurra un suceso A, sabiendo que al realizarse el experimento ocurrió B, se llama probabilidad condicional de A dado B y se indica P(A/B).
P( A B) P( A / B) P( B)
Ejemplo probabilidad condicional: A un grupo de mil sujetos se les pasó un test de inteligencia y se midió su rendimiento académico (RA). Los resultados se resumen en la siguiente tabla: INTELIGENCIA
RENDIMIENTO ACADÉMICO
Inferiores
Superiores
Aptos
200
300
No aptos
400
100
Se definen los sucesos:
S: Ser superior en inteligencia R: Ser apto en rendimiento.
Si seleccionamos al azar un sujeto que resulta ser superior en inteligencia, ¿Cuál es la probabilidad de que sea apto? Solución Con la definición de los eventos: S : Ser superior en inteligencia S´ : No ser superior en inteligencia R: Ser apto en rendimiento R´: No ser apto en rendimiento
Rendimiento académico
Inteligencia
Total
S´ : Inferior
S: Superiores
R : Aptos
200
300
500
R´ :No aptos
400
100
500
600
400
1000
Total
Para determinar la probabilidad pedida se suman las filas y columnas: Se plantea la propuesta para resolver si al seleccionar al azar un sujeto que resulta ser superior en inteligencia, ¿Cuál es la probabilidad de que sea apto?
300 P( R S ) 1000 0.3 P( R / S ) 0.75 400 0.4 P( S ) 1000
En una compañía trabajan 100 hombres y 100 mujeres, 80 hombres y 10 mujeres son científicos. ¿cuál es la probabilidad de que al escoger aleatoriamente una persona de la lista de empleados esta sea: Estos eventos se trasladan a una tabla de doble entrada o tabla de contingencia de la forma: H: Hombre M: Mujer Total
C: Es científico 80 10 90
C´ : No es científico 20 90 110
Total 100 100 200
Con estos eventos definidos se pueden calcular las probabilidades: a) mujer p(mujer) = p(M) = 100 / 200 = 0.50, es la probabilidad que sea mujer b) científico p(científico) = p(C) = 90 / 200 = 0.45, es la probabilidad que sea científico c) mujer y científico p(mujer y científico) = p(M П C ) = 10/ 200 = 0.05
d) Sea científico dado que es mujer P(C/M) = p(M П C ) / P(M)= (10/200) / (100/200) = 0.10