1
Programa de Capacitación en Investigación Científica 2018 ESTADÍSTICA PARA LA INVESTIGACIÓN II Del 29.09.2018 29.09.201 8
al
20.10.2018 20. 10.2018
Hurtado Sánchez, Lic. Lic. Estad. MsC. Docente: Manuel Hurtado Contenido:
Técnicas estadísticas inferenciales, Estimación de parámetros, Pruebas estadísticas paramétricas y no paramétricas, Técnicas estadísticas especiales, requisito para su aplicación. Introducción al análisis multivariado. Taller: aplicación de las técnicas estadísticas inferenciales en la investigación que viene desarrollando en el programa de conformidad con lo proyectado y con la información recolectada.
Chimbote, Septiembre del 2018
2
RESUMEN El presente trabajo titulado Estadística para la investigación II tiene como propósito fundamental presentar a los investigadores en todas las ramas del quehacer científico, la forma como la ciencia estadística hace más eficientes los procesos de investigación. Partiendo de una reflexión sobre el concepto de Estadística, examinamos el papel que esta disciplina juega en la investigación científica, desde el planteamiento del problema, la formulación de la hipótesis, el diseño del tamaño de la muestra, así como las técnicas estadísticas que resultan útiles en la investigación con enfoque cuantitativo y, en particular, en la fase de análisis descriptivo de datos. Consideramos también que la estadística puede ser empleada en otros momentos del proceso de investigación. Asimismo, se hace mención de los softwares estadísticos disponibles para su aplicación. También se argumenta cómo el método científico encuentra en los métodos estadísticos una herramienta fundamental para alcanzar sus objetivos. Y cómo la estadística aporta información valiosa a los datos obtenidos de un proceso de investigación cuantitativa con el fin de obtener conclusiones más acertadas. M. Hurtado S.
3
Introducción a la Estadística Inferencial La inferencia estadística o Estadística Inferencial es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). También permite comparar muestras de diferentes poblaciones. Esta asignatura comprende la teoría de estimación tanto puntual como por intervalos de confianza, las pruebas de hipótesis paramétricas paramétrica s para la media y proporciones, proporcion es, también comprende algunas pruebas para datos categóricos como la independencia de criterios o la homogeneidad entre dos o más poblaciones, finalmente se incluye las técnicas de pronósticos a través de la Regresión lineal simple y múltiple. Para comprender la estadística inferencial se requiere conocer por lo menos el concepto de variables aleatorias y sus distribuciones de probabilidad, motivo por el cual comenzaremos estudiando algunas distribuciones especiales de probabilidad.
I. UNIDAD: DISTRIBUCIONES DE PROBABILIDAD 1. Variables Aleatorias. Aleatorias. Definició n : Sea un experimento aleatorio y el espacio muestral 1.1. Definició asociado con el experimento. Una función X que asigna a cada uno de los elementos s , un número real X ( s) se llama Variable aleatoria. aleatoria.
Ejemplo . Sea el experimento aleatorio = Lanzar tres monedas legales sobre una superficie regular, entonces el espacio muestral debe ser ccc, ccs ccs, csc,scc scc, css css, scs scs, ssc ssc, sss sss, considere también que la variable aleatoria X = ccc Número de caras al lanzar tres monedas legales sobre una superficie regular, entonces el Rango o conjunto de valores que podría tomar esta variable será: R 0 1 2 3
4
La función de Probabilidad, que para el caso de variables discretas, toman el nombre de función de cuantía, puede ser por extensión o por compresión a través de una función, así Por extensión:
Por Compresión:
3 × 0.5 0,1,2,3
1.2. Función de Probabilidades función de cuantía cuantía por tratarse Llamaremos a p( x) función de probabilidades o función
de una variable discreta, siempre que cumpla con las dos condiciones siguientes: i)
p( xi ) 0
, i 1,2,3,4,....
ii) p( xi ) 1 Como ejemplo consideremos el experimento aleatorio de lanzar cuatro monedas legales sobre una superficie regular, y definamos la variable X = Número de caras al lanzar cuatro monedas legales sobre una superficie regular, por lo tanto X debe tomar los valores 0, 1, 2, 3, 4. Para determinar la función de cuantía
5
f ( x) debemos observar que el número de formas en que pueden caer las cuatro cuatr o
monedas es #
número de repeticiones número de posibil posibilida idades 2
4
16
Donde: Número de posibilidades = Número de caras de una moneda = 2 Número de repeticiones= repeticiones= Número de monedas lanzadas o en forma equivalente número de veces que se lanza una misma moneda.
4 El número de formas formas en que pueden pueden aparecer x caras es ; por lo tanto: x 4 x p( x) 4 ;
x
2
0,1,2,3,4
Se puede verificar que:
i)
4 x 0 p ( x ) 24
4
ii)
x 0
4
p( x)
x 0
4 x 1 24
4 x Por lo que concluimos que p( x) 4 es una función de cuantía. 2
A menudo, la distr ibució n de probabilidades de X se suele representar por el rango y su función de cuantía, es decir que, la distribución de la variable X de nuestro ejemplo se puede representar así:
Podemos calcular los valores de la función de cuantía para cada uno de los valores de X:
6
Para
Para
Para
Para
Para
x
x 1
x
x
x
:
0
2
3
4
4 4 4! 1 x 0 0 ! 4 !
4 4 4! 4 x 1 1 ! 3 !
:
:
:
:
4 4 4! 6 2 2 2 ! 2 !
4 4 4! 4 x 3 3 ! 1 !
4 0 1 entonces p (0) 4 0.0625 2
16
4 1 4 entonces p(0) 4 0.25 2
16
4 2 6 entonces p(2) 4 0.375 2
16
4 3 4 entonces p(3) 4 0.25 2
16
4 4 4 4! 4 1 1 entonces p(4) 4 0.0625 2 16 x 4 4!0!
Si lo escribimos en una tabla, debemos tener: Número de caras X
Probabilidad P(X)
0 1 2 3 4
0.0625 0.2500 0.3750 0.2500 0.0625
Total
1
Y al graficarlo tenemos:
7
Conviene resaltar que p( x) da las frecuencias relativas con que se presenta cada uno de los valores de x . Así, si suponemos que las cuatro monedas se lanzan un gran número de veces, debemos esperar que no aparezcan caras ( x 0 ) en 1 16 aproximadamente de las tiradas; esperamos que aparezca una cara ( x 1 ) en la cuarta parte aproximadamente de las tiradas, y así sucesivamente. Decimos aproximadamente porque ya estamos familiarizados con las fluctuaciones que acompañan los sucesos aleatorios.
Los resultados de un experimento real de lanzamientos de 4 monedas pueden verse en la siguiente tabla. Se lanzaron 4 monedas 160 veces, contando el número de caras aparecidas en cada prueba. Resultado del lanzamiento de 4 monedas 160 veces Número de Probabilidad Ocurrencias Ocurrencias caras X P(X) efectivas esperadas 0 0.0625 6 10 1 0.2500 41 40 2 0.3750 56 60 3 0.2500 45 40 4 0.0625 12 10 Total 1 160 160
Conocida la función de cuantía de una variable aleatoria x , podemos dar respuesta a cualquier cuestión probabilística relativa a x . Así por ejemplo, para la variable X = Número de caras al lanzar de las 4 monedas, la probabilidad de obtener 2 caras es:
8
4 2 6 0.375 P( x 2) p (2) 4 2
16
La probabilidad de que el número de caras sea inferior a 3 es
P( x 3)
4 4 4 0 1 2 1 4 6 11 0.6875 p( x) p(0) p(1) p(2) 4 4 4
2
2
x 0
2
2
16
16
16
16
La probabilidad de que el número de caras esté entre 1 y 3, ambos inclusive es,
P(1 x 3)
3
x1
4 4 4 1 2 3 4 6 4 14 0.875 p( x) p(1) p (2) p(3) 4 4 4 2
2
2
16
16
16
16
Supongamos que deseamos calcular la probabilidad condicional de que un número de caras sea menor que tres cuando se sabe que dicho número es menor que cuatro. Sea A el suceso “aparecen menos de tres caras”, es decir, A
x : x
0,1,2
Sea B el suceso “aparecen menos de cuatro caras”; esto es, B
x : x
0,1,2,3
Deseamos calcula P(A/B). Por definición de probabilidad condicional, P( A / B)
P( A B) P( B)
Ahora bien:
A B x : x
Luego 4
2
P( A B)
2
p( x) x 0
También
x
x 0
11 4
2
16
0,1,2
9
4 3 15 x 0 x P( B ) p( x) 4 3
2
x 0
16
De donde: P( A / B)
P( x
3 / x 4)
11/ 16 15 / 16
11 15
La interpretación frecuencial es la siguiente: Supongamos que cuatro monedas ideales se lanzan un gran número de veces y se registra el número de caras de cada tirada solamente en los casos en que aparecen menos de cuatro caras. La fracción de estos casos (donde aparecen menos de cuatro caras) en que aparecen menos de tres caras será aproximadamente 11/15. 1.3. Valor esp erado:
El valor esperado de una variable aleatoria se define como un número real al cual tienden los valores de la variable en el largo plazo; también se suele entender como el centro de masa de su distribución de probabilidades y matemáticamente el valor esperado se define como la suma de los productos de cada uno de los valores de la variable por sus correspondientes probabilidades, así: , Donde m = número de valores diferentes de la variable 1.4. Varianza:
∑= .
Es un índice de variabilidad de la variable respecto a su valor esperado, expresado en unidades cuadráticas. Matemáticamente la varianza viene a ser el valor esperado de las desviaciones cuadráticas de la variable, respecto a su valor esperado.
. = Para el ejemplo de la variable X = N° de caras al lanzar tres monedas legales, el valor esperado y la varianza será:
10
2. La distribución Binomial: Sea un experimento aleatorio de Bernoulli, es decir que tiene las siguientes características: i. Solo admite dos resultados posibles, el suceso E = Éxito y el suceso F = Fracaso ii. Ambos resultados o sucesos son independientes iii. La probabilidad de obtener un éxito P(E) = p se mantiene constante en cualquier ejecución del experimento aleatorio, donde 0≤ p ≤ 1
Definimos la variable de Bernoulli 1 : Éxito (E) xi
x
como
0 : Fracaso (F) Y su función de cuantía será: p si x i
P( xi )
1
para todo
0≤ p ≤ 1
q si
xi
para todo q = 1 – p
0
y
p+q=1
Con lo cual es fácil notar que el valor esperado de esta variable es E ( xi ) p
y
su varianza V ( xi ) pq
Si el experimento se puede repetir n –veces, (n ≥ 2) y definimos la variable aleatoria: n
X
x1
x2 ... xn xi i 1
,
Es decir que:
X = Número de éxitos en las n-repeticiones del experimento de Bernoulli . Esta variable así definida es discreta y se llama variable aleatoria Binomial , la cual sigue la ley de probabilidades Binomial , caracterizada por: Rango de la variable X: R X
0, 1, 2, 3, .... , n
X ~
Para todo: 0
n Función de cuantía: P( X x) p( x) p x q n x x
y
q
1
p 1
p
Esta distribución se suele denotar como: X ~ B(n , p ) donde n y p son conocidos como los parámetros de la distribución binomial y vienen a ser, n = número de veces que repite el experimento de Bernoulli y p es la probabilidad de éxito en cada repetición dicho experimento, la cual es constante.
11
Valor esperado: La varianza:
, 1
La forma de la función de cuantía depende del valor de p. Así por ejemplo para una Binomial con n=10 y tres valores de p=0.2, 0.5 y 0.8, tenemos que la función de cuantía es P(X = x) X 0 1 2 3 4 5 6 7 8 9 10
B(10, 0.20) 0.107374182 0.268435456 0.301989888 0.201326592 0.088080384 0.026424115 0.005505024 0.000786432 7.3728E-05 4.096E-06 1.024E-07
Σ
1
P(X = x)
P(X = x)
B(10, 0.50) 0.000976563 0.009765625 0.043945313 0.1171875 0.205078125 0.24609375 0.205078125 0.1171875 0.043945313 0.009765625 0.000976563
B(10, 0.80) 1.024E-07 0.000004096 7.3728E-05 0.000786432 0.005505024 0.026424115 0.088080384 0.201326592 0.301989888 0.268435456 0.107374182
1
1
Cuyas gráficas son:
Ejemplo . Sea el experimento aleatorio = Lanzar una moneda legal tres veces sobre una superficie regular , y deseamos estudiar la variable aleatoria X = Número de caras en dicho experimento.
12
El experimento de Bernoulli básico es = Lanzar una moneda legal , en donde los posibles resultados son Ω = {C , S}, donde C = cara y S = Sello. En este espacio
muestral, definimos la variable aleatoria de Bernoulli 1 : Cara (Éxito) xi
0 : Sello (Fracaso) Con P(C) = P(X=1) = 0.5 = p y
P(S) = P(X=0) = 0.5 = 1 - p
Como el experimento aleatorio se repite n = 3 veces, entonces el espacio muestral completo de los 3 lanzamientos de la moneda debe ser:
,
ccc ccs
, csc,scc, css, scs, ssc, sss c,
3 ,
s
Entonces la variable aleatoria X = Número de caras al lanzar tres monedas legales sobre una superficie regular se
puede expresar como: 3
X
x1
x2 x3 xi
donde, cada x
i
puede ser 0 ó 1, por lo que el rango
i 1
de esta variable será: R X
0, 1, 2, 3
La función de cuantía es: Rango de la variable X: R X
0, 1, 2, 3
X ~ 3 Función de cuantía: P( X x) p( x) 0.5 x (1 0.5) 3 x x
13
Esta función de cuantía genera las siguientes probabilidades:
Ejemplo 2: Una Agencia de Turismo, informa que un puente elevadizo en particular en su ruta, queda levantado bloqueando el tránsito de autos el 20% del tiempo. Ud. Ha de pasar un auto por dicha ruta una vez al día en los próximos 7 días, y desea predecir el número de los mismos en que el puente estará en la posición elevada, cuando Ud. se acerque. a. Esta situación se adapta al modelo Binomial de probabilidades?. Explique por qué. b. Calcule la probabilidad de que el puente se halle levantado cada vez que Ud. se acerque. c. Cuál es la probabilidad de que esté en posición elevada exactamente en tres de sus siete viajes? d. Calcule la probabilidad de que esté elevado exactamente una vez. e. Calcule la probabilidad para todos los valores de la variable y grafíquelo.
f. Determine el valor esperado y desviación estándar del número de días en que encuentra el puente elevado.
SOLUCIÓN
a). El experimento de Bernoulli básico es = Transitar en auto una vez al día en la ruta en la cual existe un puente elevadizo , en donde los posibles resultados son Ω =
{Elevado, Posición normal}. En este espacio muestral, definimos la variable aleatoria de Bernoulli. 1 : Puente elevado (Éxito=E)
xi
0 : Puente no elevado (Fracaso=F) Con P(E) = P(X=1) = 0.2 = p y
P(F) = P(X=0) = 0.8 = 1 – p = q
Como el experimento aleatorio se repite siete veces, el espacio muestral debe ser
7
E , F ,
Entonces la variable aleatoria X = Número de días a la semana que encuentra el auto encuentra el puente elevado se puede expresar como:
14 7
X
x1
. . . x 7
x
i
donde cada x
i
puede ser 0 ó 1, por lo que el
i 1
rango de esta variable será: R X
0, 1, . . . , 7
Esta variable seguirá una distribución Binomial B(7, 0.2), con función de cuantía: X ~
Rango de la variable X: R X
0, 1, . . . , 7
7 Función de cuantía: P( X x) p( x) 0.2 x 0.8 7 x x 7 b) P( X 7) p(7) 0.2 7 0.8 7 7 0.000013 7 7
c) P( X 3) p(3) 0.2 0.8 3 3
7 3
0.114688
7 d) P( X 1) p(1) 0.21 0.871 0.367002 1
e) Esta función de cuantía genera las siguientes probabilidades:
f) E(x) = n.p = 7 x 0.2 = 1.4 veces DE ( x)
npq
7 0.2 0.8
1.12
1.0583
15
La Distribución Binomial también aparece cuando de un lote o población finita de N elementos, de los cuales A de estos elementos poseen una cualidad específica en estudio y el resto (N – A) no lo poseen, se seleccionan n elementos usando un muestreo con reemplazo, tal que n < A. En este contexto se define la variable aleatoria X
= Número de elementos en la muestra que poseen la cualidad
específica en estudio.
Esta variable sigue una Distribución Binomial con
parámetros n y p , donde n es el tamaño de muestra y p es la probabilidad de obtener un elemento que tenga la cualidad en estudio en cualquier extracción de los elementos de la muestra, usando un muestreo con reemplazo (p = A/N).
Nota: Si el muestreo fuera sin reemplazo pero se tiene la fracción de muestreo f
n
0
N
cero cuando
(en la práctica se considera que la fracción de muestreo tiende a f
n N
0.05
) entonces se puede considerar que variable
aleatoria X = Número de elementos en la muestra que poseen la cualidad específica en estudio,
se distribuye aproximadamente como una Binomial con
parámetros n y p , donde se asume que p permanece aproximadamente constante debido a que la fracción de muestreo es menor al 5% ( f < 0.05). Ejemplo 3: Un auditor de registros contables sabe por larga experiencia que el 10% de los registros contables tendrán algún tipo de defecto que requerirá un ligero reajuste. Suponga que el total de registros que el auditor debe examinar son N= 500, pero por diversas razones decide examinar una muestra de n = 20 registros contables:
a) ¿Cuál es el número esperado de registros defectuosos en la muestra?
16
b) ¿Cuál es la probabilidad de que:
i. ii. iii. iv.
Ninguno necesite arreglo? Por lo menos 1 requerirá arreglo? Más de 2 requerirá arreglo? Elabore una gráfica de la función de cuantía. SOLUCIÓN
Población N = 500 Muestra sin reemplazo n = 20 Fracción de muestreo f = n/N = 20/500 = 0.04 < 0.05 Probabilidad de obtener un registro defectuoso p = 0.10 (Asumimos constante debido a que la fracción de muestreo f < 0.05).
Variable aleatoria: X = Número de marcos defectuosos en la muestra La distribución de la variable X es una B(20, 0.10), Rango Rx = {0, 1, 2, 3, 4, 5, 6, …., 20} X ~ 20
20 x
P( X ) p( x) 0.1 .0.9 x x
a) Número esperado de defectuosos en la muestra: E(x) = n.p = 20 x 0.1 = 2 b) i. ii. iii.
20 0.10 .0.9200 0. 9 20 0.12157665 0
P( X 0) p (0)
P( X 1) 1 P( X 0) 1 0.12157665 0.87842335
P( X 3) 1 P( X
2) 1 0.67692681
0.32307317
P( X 3) 1 P( X 0) P( X 1) P( X 2) P( X 3) 1 P( X 3) 1
0.121576655 0.270170344
0.676926805 0.323073195
Distribución B(20, 0.1)
0.285179807
17
18
3. Distribución Geométrica 3.1. Definició n. Se denomina experimento geométrico a las repeticiones independientes de un experimento de Bernoulli hasta obtener el primer éxito, En cada ensayo de Bernoulli puede ocurrir un éxito (E) con probabilidad p o un fracaso (F) con probabilidad q=1-p , siendo 0
Ω , , , , … ,
Se trata de un conjunto infinito numerable
3.2. D efinición. Se denomina variable geométrica a una variable aleatoria X definida como el número de repeticiones independientes de un ensayo de Bernoulli hasta que resulte el primer éxito. Los posibles valores de X son: 1, 2, 3, … etc.
Si k es uno de l os valores de X, el evento [ X ≤ k ] consiste del suceso elemental de Ω que contenga los primero k -1 resultados fracasos y el último o k-ésimo resultado un éxito. La probabilidad de que ocurra el primer éxito en la k-ésima prueba es igual a , luego:
−
Definición . Se dice que una variable geométrica X que se define como 3.3. el número de repeticiones independientes de un ensayo de Bernoulli hasta que ocurra el primer éxito, tiene distribución de probabilidad Geométrica con parámetro p y se escribe si su función de probabilidad es:
~, −, 1, 2 , 3 , … ,
Para probar que la suma de probabilidades geométricas es igual a 1, se utiliza la suma infinita:
∑∞= 1 ⋯ − , ||<1 ∑∞= −1 ⋯. − 1 ∞= − − ∑ ∞ − ∞ − 1 1 1 1 = = ∑∞=∞− −+ 1 2 − 1 En efecto,
Valor esperado:
Prueba
Utilizando la identidad:
se obtiene:
Varianza:
Prueba
Utilizando la identidad:
, se tiene:
19
Luego:
( ) − > ∈+ , 1 > /> >, , ∈+
Propiedades adicio nales de una Distri bución Geométrica G( p): a) ,
b)
Ejemplo . Un vendedor a domicilio hace llamadas telefónicas a clientes potenciales. La probabilidad de vender en cada llamada es de 0.02. a. Calcule la probabilidad de que a la sexta llamada sea su primera venta. b. Calcule el valor esperado del número de llamadas hasta obtener su primera venta. c. ¿Qué probabilidad hay de que su primera venta ocurra después de más de 5 llamadas, si ya se hizo tres llamadas sin éxito? SOLUCIÓN Sea X el número de llamadas hasta conseguir una venta. Sus posibles valores son: 1, 2, 3, …, etc. El modelo de probabilidad de X es Geométrica de parámetro p=0.02, esto es:
0.020.98−, 1,2,3,… 6 0.020.98 0.018 0.102 50
a. Luego la probabilidad de que la sexta llamada sea su primera venta es: b. El valor esperado del número de llamadas necesario para concretar la primera venta es. c. El evento “Sabiendo que ya hizo tres llamadas sin éxito y se quiere conocer la probabilidad hacer más de cinco llamadas hasta que obtenga
>5 1 ≤5 >5⁄>310. 0>39608 >3∧>5 >3 1 ≤3 10.05881 0.0.990392 4119 0.9604 − − − − ≥6 >5⁄>3 ≥4 − − − ⋯⋯ ⋯ >5⁄>3 ≥6 ≥4 ⋯ ⋯ >5⁄>3 ⋯ ⋯.⋯. 0.98 0.9604
un éxito”, entonces:
Forma abreviada de cálculo:
20
4.
La distribución Hipergeométrica: Sea N una población finita formada por un número pequeño de individuos, objetos o medidas, de los cuales una parte A de estos elementos tienen una cualidad que estamos interesados en estudiar. Considere que de esta población se selecciona una muestra aleatoria sin reemplazamiento tamaño n.
Variable aleatoria: X = Número de elementos en la muestra La distribución de la variable X es una B(20, 0.10),
21
Valor Esperado:
Varianza:
E ( X )
V ( X )
nA
N
N n nA A 1 N 1 N N
Desviación estándar:
DE X
V X
Ejemplo1. Para evitar que lo descubran en la aduana, un viajero ha colocado 6 tabletas de narcótico en una botella que contiene 9 píldoras de vitamina que son similares en apariencia. Si el oficial de la aduana selecciona tres tabletas aleatoriamente para analizarlas, ¿Cuál es la probabilidad de que el viajero sea arrestado por posición de narcóticos?. Cuál será el número esperado y desviación estándar del número de tabletas de narcóticos en la muestra?. Calcule la probabilidad para todos los valores de la variable número de tableas de narcótico en la muestra y grafíquela. SOLUCIÓN
N=9 A=6 n=3 X = Número de tabletas que contiene narcóticos El rango de X será: Máx {X} = Mín {n, A } = Mín {3, 6} = 3 Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (3-(9-6) } = Máx {0, 0 } = 0 La distribución de X es: RX: {0, 1, 2, 3} X
~ 6 3 3 x x P( X x ) p( x ) 9 3
22 Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ? P(X ≥ 1) = 1
- P(X = 0)
6 9 6 0 3 0 1 0.011905 P( X 1) 1 9 3 E ( X )
nA
N
DE X
3 6 9
18 9
2
9 3 3 6 6 1
V X
0.988095
9 1
9
9
0.5
0.7071
Ejemplo1.a. Repita el ejemplo anterior, pero esta suponga que el oficial de la Aduana selecciona una muestra de cinco tabletas. SOLUCIÓN
N = 9,
A = 6,
n=5 y
X = Número de tabletas que contiene narcóticos
El rango de X será: Máx {X} = Mín {n, A } = Mín {5, 6} = 5 Mín {X} = Máx { 0, (n-(N-A)) } = Máx { 0, (5-(9-6) } = Máx {0, 2 } = 2 La distribución de X es: RX: {2, 3, 4, 5} X
~ 6 3 5 x x P( X x ) p( x ) 9 5
Se pregunta por: P(viajero arrestado) = P(X ≥ 1) = ?
23
P(X ≥ 1) = P(Rx) = P(2) + P(3) + P(4) + P(5)
6 9 6 2 5 2 0.11905 P( X 2) 9 5 6 9 6 3 5 3 0.47619 P( X 3) 9 5 6 9 6 4 5 4 0.35714 P( X 4) 9 5
6 9 6 5 5 5 0.04762 P( X 5) 9 5 X = N° de Tabletas de narcóticos en la muestra
X
P(x)
P(X ≤ x )
X. P(x)
(X - µ)
(X - µ)^2.P(x)
2
0.11905
0.11905
0.23810
-1.3333
0.21164
3
0.47619
0.59524
1.42857
-0.3333
0.05291
4
0.35714
0.95238
1.42857
0.6667
0.15873
5
0.04762
1.00000
0.23810
1.6667
0.13228
Suma
1.00000
3.33333 E(X) = µ
0.55556 V(X) = σ²
24
E ( X )
nA
N
DE X
56 9
30 9
3.3333
9 5 5 6 6 1
V X
9 1 9
9
0.55556
0.74536
Ejemplo 2. Considere que una caja que contiene 15 artículos, 10 de los cuales son aceptables. Se selecciona una muestra de 4.
a) ¿Cuál es la probabilidad de que exactamente 3 sean aceptables? b) ¿Cuál es la probabilidad de que los 4 sean aceptables? c) ¿Cuál es la probabilidad de al menos uno sea aceptable? SOLUCIÓN
N = 15, A = 10, n = 4
X = Número de artículos aceptables en la muestra
La distribución de X es:
a) Se pregunta por: P(X = 3) = ? 10 15 10 3 4 3 0.4396 P( X 3) 15 4
b) Se pregunta por: P(X = 4) = ? 10 15 10 4 4 4 P( X 4) 0.1538 15 4
c) Se pregunta por: P(X ≥ 1) = ?
P(X ≥ 1) = 1- P(X = 0)
10 15 10 0 4 0 1 0.0037 0.9963 P( X 1) 1 P( X 0) 1 15 4
25
Ejemplo 3. En un anaquel de un supermercado hay 15 productos. Suponga que 6 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos cinco productos al azar para examinar su fecha de vencimiento. ¿Cuál es la probabilidad de que dos de los productos examinados tengan fecha de vencimiento pasada?. SOLUCIÓN
N = 15 A=6 n=5 X = Número de productos con fecha de vencimiento pasada. La distribución de X es:
Se pregunta por P(X = 2 ) = ? 6 15 6 6 9 2 5 2 2 3 0.41958 P( X 2) p(2) 15 15 5 5 Ejemplo 4. En un anaquel de un supermercado hay 15 productos. Suponga que 10 de los 15 productos tienen fecha de vencimiento pasada. Si seleccionamos 8 productos al azar para examinar su fecha de vencimiento. Identifique la distribución de probabilidades y calcule la probabilidad de que 4 de los productos examinados tengan fecha de vencimiento pasada, además obtenga las probabilidades para cada uno de los valores de la variable y grafíquelo. SOLUCIÓN
N = 15 A = 10 n=8 X = Número de productos con fecha de vencimiento pasada. La distribución de X es una hipergeométrica con parámetros N=15, A=10 y n=8, con rango dado por:
26
Xmin = Máx{0, n-(N-A)} = Máx {0, 8-(15-10)} =Máx{0,3} = 3 XMáx = Mín {n, A} = Mín {8, 10} = 8 La Distribución de Probabilidades quedará del siguiente modo
Se pregunta por P(X = 4 ) = ? 10 15 10 10 5 4 8 4 4 4 P( X 4) p( 4) 0.1632 15 15 8 8
Encontramos las probabilidades para cada uno de los valores de la variable, y lo graficamos
5.
Distribución de Poisson: Sea una variable aleatoria X = Número de ocurrencias por unidad de medición (minuto, hora, centímetro, metro cuadrado, etc,) de la cual se conoce la tasa media de ocurrencias por unidad denotada por λ, la cual se mantiene constante durante el período de estudio.
Esta variable sigue una distribución de Poisson, la cual debe su nombre a su creador, el Matemático Francés Simenon Poisson (1781 –1840). La distribución de Poisson tiene como parámetro a la tasa media de ocurrencias λ, y mide la probabilidad de un
evento aleatorio sobre algún intervalo de tiempo o espacio.
La distribución de Poisson tiene los siguientes supuestos para su aplicación:
27
La probabilidad de ocurrencia del evento es constante para dos intervalos cualesquiera de tiempo o espacio. La ocurrencia del evento en un intervalo es independiente de la ocurrencia de otro intervalo cualquiera. Dados estos supuestos, la distribución puede expresarse como:
X ~
Rango: Rx = {0, 1, 2, 3, 4, …. }
Función de cuantía P( X x) p( x)
X :
x
e
x!
Número de veces que ocurre el evento Número promedio de ocurrencias por unidad de tiempo o de espacio (o tasa promedio de ocurrencias por unidad de tiempo o de espacio)
:
e
2.71828
Base del logaritmo natural
Valor esperado: E[x] = λ Varianza
: V[x] = λ
La forma de esta distribución va cambiando con el valor de su parámetro λ X
P(X: λ =0.8)
P(X: λ=2.5)
P(X: λ=5)
P(X: λ=10)
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
0.44933 0.35946 0.14379 0.03834 0.00767 0.00123 0.00016 0.00002
0.082084999 0.205212497 0.256515621 0.213763017 0.133601886 0.066800943 0.027833726 0.009940617 0.003106443 0.000862901 0.000215725 4.90285E-05
0.006737947 0.033689735 0.084224337 0.140373896 0.17546737 0.17546737 0.146222808 0.104444863 0.065278039 0.036265577 0.018132789 0.008242177 0.00343424 0.001320862 0.000471736 0.000157245 4.91392E-05
4.53999E-05 0.000453999 0.002269996 0.007566655 0.018916637 0.037833275 0.063055458 0.090079226 0.112599032 0.125110036 0.125110036 0.113736396 0.09478033 0.072907946 0.052077104 0.03471807 0.021698794 0.012763996 0.007091109 0.003732163 0.001866081 0.00088861 0.000403914 0.000175615 7.31728E-05
28
La distribución de probabilidades Poisson a menudo proporciona un buen modelo de la distribución de probabilidad para el número “X” de eventos poco
comunes que se presentan en el espacio, tiempo, volumen o cualquier otra dimensión, donde λ
es el valor promedio de
“X”. Así tenemos que, esta
distribución proporciona un buen modelo de la distribución de probabilidad del número X de accidentes automovilísticos, industriales u otra clase de accidentes que ocurren en cierta unidad de tiempo. El número de llamadas telefónicas que atiende un conmutador en un intervalo, el número de partículas radioactivas que se desintegran en cierto período, el número de errores que una mecanógrafa comete en una cartilla, el número de vehículos que doblan en un sentido específico en una bifurcación de la vía rápida en un intervalo de 10 minutos, son otros ejemplos de variables aleatorias con una distribución aproximada a la de Poisson. Ejemplo 1: Supongamos que estamos interesados en la probabilidad de que exactamente 5 clientes lleguen durante la siguiente hora (o en cualquier hora dada) laboral. La observación simple de las últimas 80 horas ha demostrado que 800 clientes han entrado al negocio. Por lo tanto λ = 10 clientes por hora.
SOLUCIÓN
X = Número de clientes por hora que ingresan al negocio. E[X] = λ = 10 clientes por hora
La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X ~ Función de cuantía P( X x) p( x)
e
10
10 x
x!
29
P( X 5) p(5)
e
10
105
5!
0.0378
Otros cálculos 5
P( X
5) x 0
e
10
105
5!
0.067085
P X 5 1 P( X 5) 1 0.067085 0.93915
30
7 X 14 P( X 14) PX 6 0.91654 0.13014 0.78640
P
Ejemplo 2. Una compañía de pavimentación local obtuvo un contrato con el municipio para hacer mantenimiento a las vías del centro de la ciudad. Las vías recientemente pavimentadas por esta compañía demostraron un promedio de dos defectos por Km., después de haber sido utilizadas durante un año. Si el municipio sigue con esta compañía de pavimentación, ¿cuál es la probabilidad de que se presenten tres defectos en cualquier kilómetro de vía después de haber tenido tráfico un año?. SOLUCIÓN
X = Número de defectos por kilómetro de vía. E[X] = λ = 2 defectos por kilómetro
La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X ~ 2
x
e 2
Función de cuantía P( X x) p( x)
P( X 3) p(3)
2
3
e 2
3!
x!
0.1804
Nota: Si lo que se desea es conocer la probabilidad de que ocurran X eventos en un intervalo de tiempo “t”, múltiplo del intervalo unitario de referencia de λ, entonces la función de cuantía se modifica en su parámetro por λt, quedando de
la siguiente manera. X = Número de eventos por un intervalo de tiempo “t”,
con
La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X ~ Función de cuantía P( X x) p( x)
e
t
( t ) x
x!
E[X] = λt
31
Ejemplo 3. Suponga que en el ejemplo anterior sobre los defectos de pavimentación, deseamos calcular la probabilidad de que se presenten cinco defectos en un intervalo de tres kilómetros de vía después de haber tenido tráfico un año. SOLUCIÓN
X = Número de defectos por cada tres kilómetros de vía. E[X] = λt = 2x3 =6 defectos por cada tres kilómetros
La distribución puede expresarse como: Rango: Rx = {0, 1, 2, 3, 4, 5, 6, …. } X ~ Función de cuantía P( X x) p( x) 6
P( X 5)
p(5)
e 6
5!
e
23
(2 3) x
x!
6
x
e 6 x!
5
0.16062
5.1. Propiedades de la distribución de Poisson:
5.1.1. Si X es una variable con distribución de Poisson con parámetro λ y Y es otra variable también con distribución de Poisson pero con parámetro µ, entonces la suma de estas variables generan una nueva variable Z = X + Y con la misma distribución de Poisson, pero con parámetro dado por (λ + µ).
5.2. Sea Z una variable aleatoria con distribución de probabilidades Poisson con parámetro λ. Sea “p” un a
probabilidad de que la variable Z adquiera un atributo
particular y “(1 -p)” es la probabilidad de que no lo adquiera, entonces se generan
32
dos variables X y Y con la misma distribución de Poisson cada una de ellas, pero con parámetros (pλ) y (1-p)λ respectivamente. Estas dos características son conocidas como la propiedad de reproducción de la distribución de Poisson.
Ejemplo: El siguiente gráfico se muestra un flujo de tráfico en una zona
urbana, en donde el número de vehículos que pasan por un punto dado en un intervalo de tiempo unitario sigue una distribución de Poisson con sus correspondientes parámetros en cada una de los sectores de las vías. Estos parámetros son deducidos usando la propiedad de reproductividad de la Distribución de Poisson.
6.
Aproximación de la distribución de Poisson a la Binomial: Suponga que X es una variable aleatoria Binomial con parámetros n y p, es decir que X Bn p . Cuando y p 0 tal que el producto np se mantiene constante, el cual lo denotamos por , es decir que np ; entonces la distribución Binomial Bn, p puede ser suficientemente bien aproximada por la distribución de Poisson con parámetro np . en la práctica se considera que ,
n
33
cuando n 30 y que p 0 cuando p 0.05 . A continuación se muestra dos ejemplos de la aproximación Poisson a la Binomial. La única ventaja de usar la distribución de Poisson en lugar de la Binomial es por facilidad de cómputo. n
λ = 50*0.02= 1
X
B(50, 0.02)
P(λ=1)
0 1 2 3 4 5 6 7 8 9 10
0.364170 0.371602 0.185801 0.060670 0.014548 0.002732 0.000418 0.000054 0.000006 0.000001 0.000000
0.367879 0.367879 0.183940 0.061313 0.015328 0.003066 0.000511 0.000073 0.000009 0.000001 0.000000
34
Por lo tanto es fácil deducir que para las condiciones especificadas anteriormente de una distribución Binomial, podría utilizarse la Distribución de Poisson como una distribución aproximada, con la cual se obtendrán probabilidades suficientemente próximas a su valor verdadero Binomial. Ejemplo : Un vendedor de productos electrónicos espera que el 2% de las unidades vendidas fallen durante el período de garantía. Se hace un seguimiento de 500 unidades independientes para determinar su desempeño durante el tiempo de garantía. a) ¿Cuál es la probabilidad de que ninguna de las unidades fallen durante el período de garantía? b) Cuál es el número esperado de unidades que fallan durante el período de garantía? c) ¿Cuál es la probabilidad de que fallen más de dos unidades durante el período de garantía? SOLUCIÓN
X = Número de unidades que fallan en periodo de garantía. n = 500 : Número de unidades en el período de garantía p = 0.02 : Probabilidad de que una unidad falle en el período de garantía La distribución verdadera de X ~ B(500, 0.02), Como n y p 0 , Entonces se puede usar la distribución de Poisson como una distribución aproximada, así: X ~ Poisson con np 500 0.02 10 Por lo tanto: a)
P( X
0)
e
10
(10)0 0!
0.000045
El valor de esta probabilidad con su distribución verdadera es
35
P ( X
500 (0.02)0 (0.98)500 0.000041 0) 0
La ventaja de usar la distribución aproximada es solamente por facilidad de cómputo. b) c)
E X np 500 0.02 10 P( X
2) 1
P X
2
2 1 x 0
e
10
x
(10) x!
0.000045 0.000454 0.002270 P( X 2) 1 0.002769 0.997231 P( X 2) 1
36
EJERCICIOS PROPUESTOS 1 1. Se venden 500 boletos de una rifa, que consiste en un premio de $200, 4 premios de $50,y 10 premios de $5. Si cada boleto cuesta 1 $, y si Ud. Adquiere un boleto, a. Hallar la función de probabilidad b. ¿Qué probabilidad hay de ganar algún premio? Respuesta a) Valores: 199, 49, 4, -1, Probabilidad: 1/500, 4/500, 10/500, 485/500,
b) 0.03
2. Una caja contiene 8 focos de luz eléctrica, tres de los cuales son defectuosos. De la caja se selecciona al azar un foco y se la prueba, repitiéndose la operación hasta que aparezca un defectuoso. Sea X la variable aleatoria que se define como el número de extracciones necesarias hasta que aparezca el primer foco defectuoso. Determine la distribución de probabilidades de X, si las extracciones son sin reposición. Respuesta a) Valores: 1, 2, 3, 4, 5, 6, Probab.: 21/56, 15/56, 10/56, 6/56, 3/56, 1/56
3. Un vendedor puede visitar en un día uno o dos clientes con probabilidades 2/5 y 3/5 respectivamente. De cada visita en forma, independiente, puede resultar una venta por $500 con probabilidad 1/6, ó ninguna venta con probabilidad 5/6. Si X son las ventas diarias, calcular la media y varianza de X. Respuesta a) X: Montos de ventas diarias. Valores: 0, 500, 1000, Probab.: 45/60, 14/60, 1/60,
4. De un total de personas que se presentan para un puesto de trabajo, el 60% son varones y el resto mujeres. Aquellos que reúnen todos los requisitos para dicho puesto son el 40% de varones y el 50% de mujeres. De tres personas que se presentan a. Hallar le distribución de probabilidades del número de personas que cubren el puesto de trabajo. b. ¿Cuál es la probabilidad de que a menos dos personas consigan el puesto de trabajo? Respuesta a) p = 0.44,
−,0,1,2,3
,
b) 0.41
⁄ ⁄ 3⁄5 ,4⁄5 , 1 15,25, ⁄5 1⁄5, ∀ 0,1,2,3,4,5,
5. Un blanco circular de radio 1 se divide en 5 anillos circulares por medio de 5 discos concéntricos de radios: . Un jugador lanza un dardo al blanco. Si el dardo alcanza el anillo circular comprendido entre los círculos de radios , tiene k puntos y gana 5-k dólares: Determinar la distribución de probabilidades a. Del puntaje del jugador b. De la utilidad del jugador
Respuesta a) Valores de X: 0, 1, 2, 3,4, Probab: 1/25, 3/25, 5/25, 7/25, 9/25 , b) Valores útil: 5, 4, 3, 2, 1
6.
Una tienda comercial tiene dos computadoras en stok el viernes en la mañana. La tienda puede recibir más computadoras sólo hasta el día lunes. Las probabilidades de que sean requeridas por los clientes 0, 1, 2, computadoras el día viernes son respectivamente: 0.5, 0.3, 0.2 y para el día sábado son respectivamente: 0.7, 0.2, 0.1. Si las demandas de los dos días son independiente, determine la distribución de probabilidad del número de computadoras que quedan al finalizar el día sábado. Repuesta: Valores: 0, 1, 2, probabilidades: 0.34, 0.31, 0.35.
7. En una encuesta sobre corretaje reporta que el 30% de los inversionistas individuales ha utilizado a un corredor de descuento; esto es, uno que no cobra las comisiones completas. En una muestra seleccionada al azar de nueve inversionistas, ¿Cuál es la probabilidad de que:
a. Exactamente dos de los individuos de la muestra hayan empleado a un corredor de descuento?
37
b. Exactamente cuatro de ellos hayan utilizado a un corredor de este tipo?. c. Entre tres y cinco individuos inclusive hayan utilizado a un corredor de este tipo? d. Más de cinco individuos hayan utilizado un corredor de este tipo?
8. Un estudiante debe obtener por lo menos el 60% de respuestas correctas en un examen con 18 preguntas diseñadas cada pregunta con dos alternativas de verdadero o falso. Si el estudiante lanza una moneda para determinar la respuesta a cada pregunta, ¿Cuál es la probabilidad de que el estudiante pase? 9. El 75% de la mercadería que recibe un comerciante del fabricante A es de calidad excepcional, mientras que el 80% de la mercadería que recibe del fabricante B es de calidad excepcional. El 60% de la mercadería lo recibe de A y el resto de B. Si seleccionan 4 unidades de la mercadería, ¿Cuál es la probabilidad que se encuentren 2 unidades que sean de calidad excepcional?. Rpta. p=0.77, X~B(4, p), P[X=2]=0.188
10. Un vendedor a domicilio compra diariamente 10 unidades de un producto a $2.00 cada una. Por cada producto gana 13 $ si lo vende o pierde 1 $ además del costo si no lo vende en el día. Si la probabilidad de venta de cada unidad es de 0.2 y si las ventas son independientes. a. Hallar la distribución de probabilidades del número de unidades vendidas. b. Calcular la utilidad esperada del vendedor Rpta. a) B(10, 0.2),
b) $2
11. Una empresa de electrodomésticos ha creado una nueva lavadora que realiza una serie de funciones que no hace ninguna otra. Se está planeando una demostración, pero les preocupa algunos problemas iniciales de producción que han hecho que, en un 3% de las nuevas lavadoras aparezcan determinados problemas. Entonces, Si se seleccionan exactamente 40 lavadoras al azar ¿Qué probabilidad tendrían que por lo menos 2 no funcionen bien? 12. En un proceso de producción, la probabilidad de que se produzca cada artículo que cumpla con ciertas especificaciones es de 0.99. En determinado momento se plantea el objetivo de producir 150 artículos que cumplan con las especificaciones; pero al mismo tiempo se decide detener el proceso de producción, tan luego se produzca el primer artículo que no cumpla con las especificaciones. a. ¿Cuál es la probabilidad de lograr el objetivo b. Si después de producir 100 artículos, aún no se detenido el proceso. ¿Cuál sería la probabilidad de lograr el objetivo? Rpta. X= # de artículos producidos hasta que ocurra el primer defectuoso, X~G(0.01), k = 1, 2, etc. a) P[X>150]=(0.99)150, b) P[X>150/X>100]=(0.99)50
13. Una compañía petrolera ha sido designada para perforar pozos en la amazonía peruana hasta obtener un resultado exitoso. La compañía estima en 0.7 la probabilidad de no hallar petróleo en cada pozo que perfora a. Suponga que la compañía petrolera cree que una serie de exploraciones será rentable si el número de pozos perforados hasta que ocurra el primer éxito es menor o igual que 5. Calcule la probabilidad de que la exploración no será rentable si ya fueron perforados 3 pozos y en ninguno de ellos se encontró petróleo. b. El costo para perforar cada pozo es de $10,000. Si un ensayo no resulta exitoso, el siguiente ensayo tiene un costo adicional de $5,000, ¿Cuánto es el costo esperado del proyecto?
38
c. Si la compañía dispone de un presupuesto de $145,000, ¿Cuál es la probabilidad de que los trabajos experimentales tengan un costo que sobrepase el presupuesto de la compañía? Rpta. X= # de perforaciones hasta obtener éxito, X~G(p), p=0.3, a) P[X>5/X>3]=(0.7)2, b) C(X)=15,000X-5,000, E[C(X)] = $45,000, c) P[C(X)>45,000]=P[X>10]=(0.7)10 .
14. Como subgerente de una empresa de materias primas Ud. debe contratar a 10 personas entre 30 candidatos, 22 de los cuales tienen título universitario. ¿Cuál es la probabilidad de que 5 de los que Ud. contrate tengan título universitario? 15. De los 15 altos ejecutivos de un negocio de importaciones y exportaciones, se seleccionan 12 para ser enviados a Japón a estudiar un nuevo proceso de producción. Ocho de los ejecutivos ya tienen algo de entrenamiento en el proceso. ¿Cuál es la probabilidad de que cinco de los enviados tengan algo de conocimiento sobre el proceso antes de partir para el lejano oriente? 16. Un determinado producto industrial es embarcado en lotes de 20 unidades. Se escogen 5 ítems al azar de un lote y se rechaza el lote si se encuentra 2 o más defectuosos; en caso contrario se acepta el lote. Calcular la probabilidad de aceptar un lote que tiene tres defectuosos si los ítems se escogen uno por uno: a. Con reposición b. Sin reposición Rpta: a) X~B(5, 0.15), P[X≤1] =0.8352,
b) X~H(20, 3, 5), P(X ≤ 1] = 0.8596
17. A un conmutador de la oficina principal de una empresa llegan llamadas a un promedio de dos por minuto y se sabe que tienen distribución de Poisson. Si el operador está distraído por un minuto, cuál es la probabilidad que el número de llamadas no respondidas sea: a. ¿Cero?, b. ¿por lo menos una? Y c. ¿Entre tres y cinco inclusive? 18. Un proceso de fabricación utilizado para hacer artefactos plásticos Incas presentan una tasa de defectuosos de 5 por cada 100 unidades. Las unidades se envían a los distribuidores en lotes de 200. Si la probabilidad de que más de tres salgan defectuosos supera el 0.3, Ud. planea vender en su lugar, camisetas Gratefull Dead. ¿Cuál artículo agregará Ud. al inventario? 19. Usted compra partes para bicicleta de un proveedor en Lima que tiene tres defectos por cada 100 partes. Ud. está en el mercado para comprar 150 partes pero no aceptará una probabilidad de más de 0.50 de que más de dos partes sean defectuosas. ¿Ud. le comprará a dicho proveedor? 20. La cantidad promedio de automóviles que pasan por un túnel es de uno cada periodo de 2 minutos. El paso de muchos vehículos en un período breve hace que sea peligroso recorrerlo. Determine la probabilidad de que el número de automóviles que pasan por allí durante un período de 2 minutos sea superior a tres.
39
7. Distribución Normal 1.
Distribución normal o campana de Gauss-Laplace Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. En resumen, la importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal
Caracteres morfológicos de individuos (personas, animales, plantas,...) de una
especie, p.ejm. tallas, pesos, diámetros, perímetros,... ) Caracteres fisiológicos , por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono. Caracteres sociológicos , por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen. Caracteres psicológicos , por ejemplo: cociente intelectual, grado de adaptación a un medio,... Errores cometidos al medir ciertas magnitudes. Valores estadísticos muestrales, por ejemplo : la media. Otras distribuciones como la binomial o la de Poisson son aproximaciones normales, ...
Y en general cualquier característica que se obtenga como suma de muchos factores. 2. FUNCIÓN DE DENSIDAD El modelo de la función de densidad que corresponde a la distribución normal viene dado por la fórmula de Gauss: f ( x )
1
2
e
x
2
2 2
Donde:
2
3.14159265 ...
media
Desviacion estándar
Varianza
e
x
2.718281828 ...
var iable
aleatoria
La representación gráfica de esta función de densidad es:
40
1
2
Propiedades de la función de densidad Normal i. Rango de X: Conjunto de los números reales ii. La función de densidad tiene un máximo en iii. iv. v. vi. vii.
: ,
2
1
Dos puntos de inflexión: en X y X Es asíntota El eje horizontal X Simétrica respecto a la media Me Mo Numéricamente coinciden
Aproximadamente: P( X ) P( 2 X
2 )
0.9545
P( 3 X 3 )
0.9973
0.6827
viii. Monotonía: creciente ( , ) , decreciente ( , ) ix. Es siempre positiva f ( x) 0
La distribución normal queda definida por dos parámetros , su media y su varianza y la representamos así N(μ, σ2). Para cada valor de μ y σ2 tendremos una función de densidad distinta, por lo tanto la expresión N(μ, σ2) representa una familia de distribuciones normales.
41
3. FUNCIÓN DE DISTRIBUCIÓN La función de distribución está definida por: P( X
x) F ( x )
x
1
e
t 2 2 2
dt
2
Tiene las siguientes propiedades de la función de distribución: 1. F(x) es continua 2. F(x) es monótona no decreciente. 3. F(-∞) = 0 y F(+∞) = 1
F(x) es el área sombreada de esta gráfica
4. TIPIFICACIÓN O ESTANDARIZACIÓN Si la variable X es
,
entonces la variable tipificada de X es
− y sigue también una distribución normal pero con decir
0
N (0,1)
Por tanto su función de densidad es
f ( z )
1 2
z 2
e
y su función de distribución es
2
;
z
y
1
, es
42
F ( z ) P( Z z ) f ( z )
1
2
t
e
t 2
2
dt
siendo la representación gráfica de esta función como se muestra en la siguiente figura
Característica de la distribución normal tipificada (reducida, estándar)
No depende de ningún parámetro Su media es 0, su varianza es 1 y su desviación típica es 1. La curva f(z) es simétrica respecto el eje OY
Tiene un máximo en este eje e igual a:
Tiene dos puntos de inflexión en z =1 y z = -1
1 2
0.399
43
Cálculo d e probabilidades usando la Distribu ción Normal estándar: 1° Caso: Dado el evento, encont rar una probabilidad: Sea X una variable aleatoria con distribución normal con media 10 y varianza 4, calcule la probabilidad de los siguientes eventos: (Note que µ = 10 y σ2 = 4 y σ = 2)
a. b. c. d. e. f. g. h.
P(X<13.5) P(X< 9.5) P(10.5 < X < 14.5) P(8 < X < 12) P(6 < X < 14) P(|X-µ| < 2) P(|X-µ| < 4) P(|X-µ| < 6) DESARROLLO
a.
X 13.5 10 2
P( X 13.5) P
P Z 1.75
= 0.959941 b.
X 9.5 10 2
P( X 9.5) P
P Z 0.25
= 0.401294 Si no se tiene una tabla de la normal estándar para valores negativos de Z, se puede resolver aprovechando la simetría de la distribución:
P Z 0.25
1
P Z 0.25
= 1 – 0.598706 = 0.401294 c.
P(10.5 X
10.5 10 X 14.5 10 14.5) P 2 2
0.25 Z 2.25
P
P Z 2.25
P(Z 0.25)
= 0.987776 - 0.598706 = 0.389069 d.
P(8 X
8 10 X 12 10 12) P 2 2 P 1 Z 1
44
P Z 1
P(Z 1)
= 0.841345 - 0.158655 = 0.682689 e.
P(6
6 10 X 14 10 X 14) P 2 2
2 Z 2
P
2
P Z
P(Z
2)
= 0.977250 - 0.022750 = 0.954500 f.
P (| X |
X 2 2) P 2
P Z
1
P Z 1
P( Z 1)
= 0.841345 - 0.158655 = 0.682689
g.
P(| X |
X 4 4) P 2
P Z
P Z
2
2
P(Z
2)
= 0.977250 - 0.022750 = 0.954500
h.
P (| X
X 6 | 6) P 2
P Z 3
P Z
P(Z
3
3)
= 0.998650 - 0.001350 = 0.997300 2° Caso: Dado la probabilidad, encontrar los límites del evento:
Donde:
< 1 1
45
Z∝ Valor deseZ hastobtiaene,el cualhaciehayndounaunaprobabi l i d ad acumul a da i g ual a1∝, lectura invessa de la tabla N0,1 || < ∝1
Z∝ Valores deseZobtentierne,e lhosacicualendoes hayuna unalectuprobabi l i d ad acumul a da i g ual a1∝, ra invessa de la tabla N0,1 Ejemplo Confianza 1-α 0.90 0.95 0.99
Unilateral α
0.10 0.05 0.01
∝
1.28 1.64 2.33
Bilateral
∝2 ∝
0.050 0.025 0.005
1.645 1.960 2.576
46
8. Aproximaci ón de l a Binomi al p or la Normal (Teorem a de De Moivre) : Demostró que bajo determinadas condiciones (para n grande y tanto p como q no estén próximos a cero) la distribución Binomial B(n, p) se puede aproximar mediante una distribución normal con media np y varianza np q . Esto es: Si tal que y p 0.5 con np 5 entonces
~ ,
Z
X np npq
n
, y por tanto la variable es una N (0 , 1)
Teorema de Moivre
Debemos tener en cuenta que cuanto mayor sea el valor de n, y cuanto más próximo sea p a 0.5, tanto mejor será la aproximación realizada. Es decir, basta con que se verifique
≥5 ≥5
gracias a esta aproximación es fácil hallar probabilidades binomiales, que para valores grandes de n resulten muy laboriosos de calcular. Hay que tener en cuenta que para realizar correctamente esta transformación de una variable discreta (binomial) en una variable continua (normal) es necesario hacer una corrección de continuidad agregando o restando 0.5 según convenga para un evento específico, tal como se puede apreciar en los siguientes gráficos.
47
MANEJO DE TABLAS. CASOS MÁS FRECUENTES. La distribución de la variable Z se encuentra tabulada
a. Aplicacion es de la distr ibuci ón normal Ejemplo 1. Los niveles de rendimiento de un proceso productivo diario se distribuyen normalmente con = 200 y = 20. Si de esta población se selecciona un día al azar, ¿cuál es la probabilidad de que tenga un valor entre 170 y 230? SOLUCIÓN
p(170 < x < 230) = ?
48
z170
170
200
20
1.5
z230
230
200
20
1.5
Luego: P(170 < x <230) = P(-1.50 < z < 1.50) = P(z < 1.5) – P(z < -1.5) De la tabla:
P(z < 1.50) = 0.9332 P(z < -1.5) = 0.0668 P(170 < X < 230) = P(z <1.5) – P(z< -1.5) = 0.9332 – 0.0668 = 0.8664 La probabilidad de que en un día seleccionado al azar el nivel de rendimiento rendimient o del proceso productivo este entre 170 y 230, es de 0.8664 176
Ejemplo Ejemplo 2. El departamento de carnes en un supermercado prepara sus paquetes de 1 Kg. de carne molida, de manera que habrá variedad en los pesos, algunos con un poco más y algunos con un poco menos de 1 Kg. Suponga que los pesos de estos paquetes de 1 Kg. Tienen una distribución normal con una media de 1.00 Kg. y una deviación estándar de 0.15 Kg. a. ¿Qué proporción de paquetes pesará más de 1 Kg.? b. ¿Qué proporción de paquetes pesará entre 0.95 y 1.05 Kg.? c. ¿Cuál es la probabilidad de que un paquete de carne molida, seleccionado seleccio nado al azar, pese menos de 0.8 Kg.? SOLUCIÓN
~ ~ 1,0>.1151 ,1 1 . 0. 1 5 . ≤ 1 1 1 ≤ 0 10. 5 0. 5 a)
b)
0. 9 5≤≤1. 0 55 ≤ 1.055 ≤ 0.955 ≤ ..− ≤ ..− 0.6≤0. 3 3 3 ≤0. 3 3 3 30560. 0 . 6 3944 0.26112
49
c)
< 0.8 < ..− <1.33333 0.09121
Ejemplo 3. Las estaturas de los humanos son una de las muchas variables aleatorias modeladas mediante la distribución normal Suponga que las estaturas de los varones tienen una media de 170 cm., y una desviación estándar de 8 cm.
a. Qué proporción de de todos los varones serán más altos que 160 cm. b. ¿Cuál es la probabilidad de que un varón seleccionado al azar tenga una estatura entre 167.6 cm y 180.3 cm? SOLUCIÓN
~ ~170,8, 170 . 8 . < 160 160 < − <1.255 0.10565 a) b)
180. ≤ 167.6167. 6170 167.6≤≤180.3≤ ≤ 180.3170 3 ≤ ≤1.2875 8758 ≤0. 3 8
50
0.51895 Ejemplo Ejemplo 4. Un automóvil que viaja a 48 km/h, la distancia requerida para frenar hasta detenerse tiene un distribución normal con una media de 15.2 metros y una desviación desviación estándar de 2.4 metros. Suponga que Ud. viaja a 48 km/h km/ h en un área residencial y un automóvil vira abruptamente hacia su trayectoria a una distancia de 18.3 metros. a. Si aplica los frenos inmediatamente ¿cuál es la probabilidad de detenerse deteners e completamente en 12.2 metros o menos?. ¿En 15.2 o menos? b. Si la única manera manera de evitar una colisión colisión es frenar hasta detenerse ¿Cuál ¿Cuál es la probabilidad de que Ud. evite la colisión?
SOLUCIÓN ~ ~15.2,2.4.,−. 15. 2 . 2. 4 . 5 0.10565 a) < 12.2 < . <1. 2 5
b)
< 15.2 < 15.22.15.4 2 < 0 0.5 < 18.3 < ..−. <1.29292 0.90176
51
Ejercicios propuestos 2
1. El tiempo de permanencia permanencia en centro de trabajo de los trabajadores de una empresa puede modelarse con una distribución normal con media 8 horas 10 minutos, y una desviación estándar de 8 minutos. a. ¿Cuál es la probabilidad de que el tiempo de permanencia de un trabajador seleccionado al azar sea menor que 8 horas? b. ¿Cuál es la probabilidad de que el tiempo de permanencia de un trabajador seleccionado al azar se encuentre encuentr e entre 8horas 00 minutos y 8 horas con 16 minutos? c. ¿Cuál es el tiempo de permanencia en el trabajo que excede el 5% de los los trabajadores? d. Si para ser considerado como candidato a recibir un ascenso solo se consideran al 10 % de los trabajadores que permanecen mayor tiempo en el centro de trabajo, ¿Cuál será el tiempo mínimo que un trabajador debería permanecer en el centro de trabajo para ser considerado candidato para un ascenso?. Rpta. a) 0.10565, b) 0.66772, c) 503.16, d) 500.25
2. La resistencia a la tracción de un papel de embalaje está moldeada por una distribución normal con media 35 Lib/pulg 2, y una desviación estándar de 2 Lib/pulg2. a. Cuál es la probabilidad de que la resistencia resistenc ia de una muestra sea menor que 2 40 Lib/pulg ? b. Si las especificaciones especificaciones requieren que la resistencia resistencia sea mayor que 30 30 2 Lib/pulg. , ¿qué proporción de muestras será desechada? Rpta. a) 0.9999997, b) 0.006210
3. El volumen que una máquina máquina de llenado llenado automático automático deposita en tasas de café tiene una distribución normal con media 12.4 onzas de líquido y desviación estándar de 0.1 onzas de líquido. a. ¿Cuál es la probabilidad de que el volumen volumen depositado sea menor que 12 onzas de líquido? b. Si se desechan todas la tasas que tienen menos de 12.1 o más de 12.6 onzas de líquido, ¿cuál es la proporción de latas desechadas?. c. Calcule especificaciones que sean simétricas alrededor de la media, de modo que se incluya al 99% de todas la tasas? Rpta. a) 0.0000317, b) 0.022750, c) LS = 12.66 y LI = 12.14
4. El tiempo de reacción reacción de un conductor a un estímulo estímulo visual tiene tiene una distribución distribución normal con media 0.4 segundos y una desviación estándar de 0.05 segundos. a. ¿Cuál es la probabilidad de que el conductor reaccione en más de 0.5 segundos? b. ¿Cuál es la probabilidad que el tiempo de reacción esté entre 0.4 y 0.5 segundos? c. ¿Cuál es el tiempo de reacción que se espera exceder el 90% de la veces?
52 Rpta. a) 0.0228, b) 0.4772, c) 0.34
5. Los tiempos de vida de una unidad de cierta marca de teléfono móviles sigue una distribución normal de media 1.500 horas y desviación de 200 horas. ¿Cuál debe ser el tiempo de garantía de estos móviles si el fabricante desea que sólo se presenten el 5% de las averías dentro de este tiempo? Rpta. 1171
6. Si la demanda mensual de un cierto producto puede representarse mediante una variable Normal de media 200 unidades y desviación típica 40, ¿cuál debe ser el inventario disponible al principio de cada mes para asegurar que, al menos el 95% de las veces, las existencia no se agotarán?
Rpta. 265.8
7. Un artículo publicado en American Demographics afirma que la cantidad de personas que van de compras los fines de semana es más del doble que durante la semana. No solo eso, sino que gastan más en sus compras los sábados y domingos. Suponga que la cantidad de dinero gastada en los centros comerciales entre las 4 y 6 pm tiene un distribución normal con una media de 300 soles y una deviación estándar de 50 soles. Se elige al azar a un comprador entre las 4 y 6 pm y se le pregunta acerca de sus patrones de gasto. a. ¿Cuál es la probabilidad de que haya gastado más de 325 soles? b. ¿Cuál es la probabilidad de que haya gastado entre 325 y 375 soles? c. Si se elige al azar dos compradores, ¿Cuál es la probabilidad de que ambos hayan gastado más de 375 soles? Rpta. a) 0.3085, b) 0.24173, c) 0.004463
8. El valor medio del peso de determinada marca de cereal, el año pasado, fue 0.297 kg (10.5 oz), con una desviación estándar de 0.024 kg. Suponiendo que la distribución es normal, determinar el porcentaje de los datos que cae abajo del límite inferior de la especificación, de 0.274 kg. (Nota: Como la media y la desviación estándar se determinaron en una cantidad grande de pruebas durante el año, se considera que son estimaciones válidas de los valores poblacionales). Rpta. 0.1689
9. Si el tiempo promedio para limpiar un cuarto de hotel es 16.0 min, y la desviación estándar es 1.5 min. Suponiendo que los datos tienen distribución normal. a. ¿Qué porcentaje de cuartos se limpiarán en menos de 13.0 min? b. ¿Qué porcentaje de cuartos se limpiarán en más de 20.0 min? c. ¿Qué porcentaje de cuartos tardarán entre 13.0 y 20.5 min en su limpieza?
Rpta. a) 0.0228, b)0.00383, c) 0.97590
10. Un fabricante de cereal instantáneo desea que 1.5% de su producto pese menos que la especificación de 0.567 kg (1.25 lb). Si los datos tienen distribución normal, y la desviación estándar de la llenadora de cereal es 0.018 kg, ¿qué peso medio se requiere? Rpta.
0.606
11. Es común que las aerolíneas y hoteles concedan reservaciones en exceso para reducir pérdidas por personas que no se presentan. Suponga que el registro de un hotel muestran que, en promedio 10% de sus probables huéspedes no reclaman su reservación. Si el hotel acepta 215 reservaciones y sólo hay 200
53
habitaciones en el hotel, ¿Cuál es la probabilidad de que los huéspedes que llegan a reclamar su reservación reciban la habitación?
Rpta. X~N° de clientes que ocupan su habitación reservada, X ~ B(215, 0.9), P(X=200)=0.03174 Utilizando la Distribución normal con µ=np=193.5 y σ2=npq=19.35, como una aproximación de la Binomial, P(X=200) = 0.03052
12. Una pequeña ciudad es abastecida de agua cada dos días. El consumo en volumen de agua (cada dos días) tiene una distribución normal. a. Determine la media y varianza de la distribución si se sabe que el 0.62% del consumo esal menos de 22500 litros y que el 1.79% del consumo es a lo más 17900 litros. b. Hallar la capacidad del tanque de agua de la pequeña ciudad para que sea solo el 0.01 la probabilidad de que en el período de dos días el agua no sea suficiente para satisfacer toda la demanda. Rpta. a) µ = 20,000 litros, σ=1000 litros, b) 22,239 litros
13. Un gerente viaja viaja diariamente en automóvil de su casa a su oficina y ha encontrado que el tiempo empleado en el viaje sigue una distribución normal con media de 35.5 minutos y desviación estándar de 3 minutos. Si sale de su casa todos los días a las 8:20 Am. Y debe estar en su oficina a las 9 am. a. ¿Cuál es la probabilidad de que llegue tarde un día determinado? b. ¿Qué probabilidad hay de que llegue a tiempo a la oficina 3 días consecutivos?. Suponga independencia.
Rpta. a) 0.0668, b) (0.9332)3
14. Los puntajes de una prueba de aptitud académica están distribuidos normalmente con una media de 60 y una desviación estándar de 10 puntos. a. Si el 12.3% de los alumnos con mayor puntaje reciben el calificativo A, y el 20% de los alumnos con menor nota reciben calificativo C, calcular el mínimo puntaje que debe tener un alumno para recibir en calificativo A y el máximo puntaje que debe tener un alumno para recibir una C. b. Si el resto de los alumnos recibe el calificativo B y si el total de alumnos es igual a 90, ¿Cuántos alumnos recibieron el calificativo de A, B y C? Rpta. a)
60,10
, b) A={X > 71.6},
C = {X < 51.6}
15. Una pieza es considerada defectuosa y por lo tanto rechazada si su diámetro es mayor que 2.02 cm, o es menor que 1.98 cm.. Suponga que los diámetros tienen distribución normal con media 2 cm. Y desviación estándar 0.01 cm. a. Calcular la probabilidad de que una pieza sea rechazada b. ¿Cuál es el número esperado de piezas rechazadas de un lote de 10,000 piezas? c. Si se escogen 4 piezas al azar, ¿Cuál es la probabilidad de que dos de ellos sean defectuosos? d. Se necesitan 4 piezas sin defecto para una máquina. Si estos se prueban uno a uno sin reposición, ¿Cuál es la probabilidad de que la cuarta pieza buena sea la sexta probada? Rpta. a) p=0.0456, b) np = 456, c)
1 1 , d)
54
16. Un exportador recibe sacos de café de un quintal al mismo tiempo de dos proveedores A (Jaen) y B (San Ignacio). El 40% lo recibe de A y el resto de B. El porcentaje de granos con impurezas por saco es una variable aleatoria cuyo modelo de probabilidad es normal con media y desviación estándar respectivas de 6% y 2% para A, y de 8% y de 3% para B. Si el exportador selecciona un saco al azar a. ¿Qué probabilidad hay de que el porcentaje de granos con impurezas supere el 10%? b. Si encuentra que el porcentaje de granos con impurezas supera el 10%, ¿qué probabilidad hay que provenga de Jaen?
Rpta. a) P=0.4xP[Z>2]+0.6xP[Z>0.67]=0.4x0.0228+0.6x0.2514=0.15996 b) 0.4x0.0228/0.15996
17. El monto de consumo por cliente que registra una cajera de un supermercado en un día cualquiera es una variable aleatoria que tiene distribución normal con media S/.200 y desviación estándar S/.50. a. En este supermercado sólo el 5% de los clientes se considera un excelente cliente y por tanto como promoción puede recibir un 10% de descuento, a partir de que consumo un cliente se beneficiará con la promoción? b. Actualmente el 30% de clientes tiene un consumo considerado como mínimo. La empresa considera que en base a la promoción en unos meses solo el 20% de los clientes consumirá por debajo de ese monto. ¿Cuánto dinero adicional tendrá que gastar cada cliente para que esto se cumpla? Rpta. X~N(200, (50) 2), a) k tal que P(X>k)=0.05, k = 282.24, b) P[X
18. Suponga que el gasto de consumo por persona en un restaurante se distribuye normalmente con una desviación estándar igual a $5. Si se sabe que el 15.87% de los clientes han gastado más de $15 y que 112 personas gastaron menos de $7.1. ¿Cuántas personas consumieron en el restaurante? Rpta.
$10, 400
19. Los pesos de los posibles usuarios de un ascensor constituyen una población cuya distribución es normal con una media de 70 Kgr. Y una desviación estándar de 10 Kgr. a. ¿Qué peso máximo debería poder soportar el ascensor de modo que sólo el 1% de las ocasiones el peso de 4 personas supere el peso máximo? b. Si el ascensor soporta 585 Kg., ¿Cuántas personas a la vez pueden entrar en el ascensor, de manera que sea 0.0668 la probabilidad de que el peso no supere el máximo permitido?
Rpta. a) k=326.6 Kg., b) n = 9
20. Suponga que el peso de las botellas vacías de cerveza tienen un peso con distribución normal con media 0.4 Kg. y desviación estándar 0.01 Kg. El peso del líquido que se depositan en las botellas tiene una distribución normal con media 0.7 Kg. Y desviación estándar 0.05 Kg. Los pesos de las caja vacías donde se colocan las botellas tienen una distribución normal con media 2 Kg. Y desviación estándar 0.05 Kg. Si cada caja contiene 12 botellas llenas de cerveza: a. ¿Cuál es la probabilidad de que el peso de una caja de 12 botellas llenas pese menos de 15 Kg.? b. Si se tienen 10 cajas llenas, ¿Cuál es la probabilidad de que 8 de ellas pesen menos de 15 Kg.
Rpta. a) X=Peso total de la caja ~ N(15.2, (0.6139218) 2), p = P(X<15)=0.3723 b)
1 0.006544
55
2° Unidad: Teoría de estimación y Prueba de hipótesis 1. Distribucion es muestrales a. Dist ribución de la media muestral. Definición 1. Si {X1, X2, X3, …, Xn} constituye una muestra aleatoria de una población infinita con media y Varianza , la media aritmética es una variable aleatoria cuya distribución de muestreo es la distribución
normal valor esperado Ejemplo:
̅
y Varianza
̅
Sea una población de N = 5 pequeñas empresas. Ahora supongamos que el tiempo (en años) que vienen funcionando cada una de ellas son: 6, 8, 10, 12 14 años. Entonces sus parámetros son: Media poblacional: = 10 años Varianza poblacional: 2 = 8 años2 Desviación estándar: = 2,83 años Si se calculan la media aritmética y la desviación estándar de las medias aritméticas obtenidas de todas muestras de tamaño 2, que es posible extraer con reposición de esta población, se tendría la siguiente información: (Número de muestras posibles utilizando un muestreo con reemplazo y teniendo en cuenta el orden: )
5 25
2° empresa
6 años
8 años
10 años
12 años
14 años
6y6 8y6 10 y 6 12 y 6 14 y 6
6y8 8y8 10 y 8 12 y 8 14 y 8
6 y 10 8 y 10 10 y 10 12 y 10 14 y 10
6 y 12 8 y 12 10 y12 12 y 12 14 y 12
6 y 14 8 y 14 10 y 14 12 y 14 14 y 14
1° empresa
6 años 8años 10 años 12 años 14 años
La media muestral de cada una de las 25 muestras son, las siguientes: Media x 6 años 8 años 10 años 12 años 14 años
6 años 6 7 8 9 10
8 años 7 8 9 10 11
10 años 8 9 10 11 12
12 años 9 10 11 12 13
14 años 10 11 12 13 14
56 Presentando en una tabla de frecuencias la distribución de la media muestral
La distribución de las medias muestrales calculadas para muestras del mismo tamaño n tiene tres propiedades:
Media
Número de
Proporción
muestral
muestras: ni
P(x)
6 7 8 9 10 11 12 13 14 Suma
1 2 3 4 5 4 3 2 1
0.04 0.08 0.12 0.16 0.2 0.16 0.12 0.08 0.04
0.24 0.56 0.96 1.44 2 1.76 1.44 1.04 0.56
25
1
10
-4 -3 -2 -1 0 1 2 3 4
0.64 0.72 0.48 0.16 0 0.16 0.48 0.72 0.64 4
1. La media de las medias muestrales es igual a la media de la población. Ejemplo: La media aritmética de las medias muestrales es: μx
̅
años μ 10
2. La varianza de las medias muestrales es igual a la varianza de la población dividida por el tamaño muestral.
̅
Ejemplo: La varianza de las medias muestrales es:
4
̅ ̅ √ ̅ ̅ √4 ñ 2 ñ
Además la desviación estándar será:
La desviación estándar de las medias muestrales es conocida como error estándar (o error típico).
3. Si se cumple que n es suficientemente grande, la forma de la distribución muestral es muy cercana a lo normal, aun cuando la población de origen no siga una distribución normal.
57
Definici ón 2. Si {X1, X2, X3, …, Xn} constituye una muestra aleatoria sin reemplazo de una población finita de tamaño N con media y Varianza , entonces la media aritmética es una variable aleatoria cuya distribución de muestreo es la distribución normal valor esperado y Varianza
̅
̅ −− Ejemplo:
Sea una población de N = 5 pequeñas empresas. Ahora supongamos que el tiempo (en años) que vienen funcionando cada una de ellas son: 6, 8, 10, 12 14 años. Entonces sus parámetros son: Media poblacional: = 10 años Varianza poblacional: 2 = 8 años2 Desviación estándar: = 2,83 años Si se calculan la media aritmética y la desviación estándar de las medias aritméticas obtenidas de todas muestras de tamaño 2, que es posible extraer sin reposición y sin considerar el orden (Número de muestras posibles utilizando un muestreo sin reemplazo y sin considerar el orden en cuenta el orden:
() ()10
)
2° empresa
6 años
8 años
10 años
12 años
14 años
6y8
6 y 10 8 y 10
6 y 12 8 y 12 10 y12
6 y 14 8 y 14 10 y 14 12 y 14
1° empresa
6 años 8años 10 años 12 años 14 años
La media muestral de cada una de las 10 muestras son, las siguientes: Media x 6 años 8 años 10 años 12 años 14 años
6 años
8 años 7
10 años 8 9
12 años 9 10 11
14 años 10 11 12 13
Presentando en una tabla de frecuencias la distribución de la media muestral
58
La distribución de las medias muestrales calculadas para muestras del mismo tamaño n tiene tres propiedades:
Media
Número de
Proporción
muestral
muestras: ni
P(x)
7 8 9 10 11 12 13 Suma
1 1 2 2 2 1 1
0.1 0.1 0.2 0.2 0.2 0.1 0.1
0.7 0.8 1.8 2 2.2 1.2 1.3
10
1
10
-3 -2 -1 0 1 2 3
0.9 0.4 0.2 0 0.2 0.4 0.9 3
4. La media de las medias muestrales es igual a la media de la población. Ejemplo: La media aritmética de las medias muestrales es: μx
̅
10 años μ
5. La varianza de las medias muestrales es igual a la varianza de la población dividida por el tamaño muestral.
̅ −−
Ejemplo: La varianza de las medias muestrales es:
̅ 3 −− −−
̅ ̅ −− ̅ ̅ −−√3 ñ 1.73205 ñ
Además la desviación estándar será:
La desviación estándar de las medias muestrales es conocida como error estándar (o error típico).
Definic ión 3. Si {X11, X12, X13, …, X1n1} y {X21, X22, X23, …, X2n2} constituyen dos muestras aleatorias independientes, donde la primera muestra n 1 constituye una muestra aleatoria de una población finita con media y Varianza y la otra n2 constituye una muestra aleatoria de una población infinita con media y Varianza entonces la diferencia de medias aritméticas es una variable aleatoria cuya distribución de muestreo es la
59
distribución normal valor esperado
̅
y Varianza
Apli caciones de l a distribución de las medias muestrales
Las distribuciones muestrales se aplican en el mismo sentido que la distribución normal. Ejemplo: El número promedio de años de experiencia de los profesionales de un Banco es de 10 años con una desviación estándar de 6 años. Si se toma una muestra de 64 empleados. ¿El 95 por ciento de muestras, que se distribuyen simétricamente alrededor de la media poblacional (de las medias muestrales), entre qué medias muestrales se encontrará?
<̅ < 0.95
Las áreas en cada una de las colas es = (1 – 0.95) / 2 = 0.025 Revisando en la tabla, el área de 0.025 en la cola izquierda se encuentra entre: - y z = -1.96 Por simetría, el área de 0.025 en la cola de la derecha se encuentra entre: z = 1.96 y
Entonces, el límite inferior del 95 por ciento de medias muestrales se encontrará en: li
μ 1.96 *
σ
n
10 1.96 *
6 64
10 1.96 * 0.75
10 1.47
8.53
Y, el límite superior se encontrará en: ls
μ 1.96 *
σ n
10 1.96 *
6 64
10 1.96 * 0.75
10 1.47
11.47
Rpta. Entre 8.53 y 11.47 años podría encontrarse la media poblacional de la edad de los trabajadores del banco con un coeficiente de confianza de 0.95. Note que no hablamos de probabilidad sino de coeficiente de confianza, puesto que ya es un intervalo en particular.
60
¿El 99 por ciento de muestras, que se distribuyen simétricamente alrededor de la media de medias muestrales, entre qué intervalo se encontrará? ¿El 90 por ciento de muestras, que se distribuyen simétricamente alrededor de la media de medias muestrales, entre qué intervalo se encontrará?
b. Distribució n de la proporci ón muestral Supongamos que se ha seleccionado una muestra aleatoria de tamaño n. Para i = 1, …, n, definamos
Consideremos la suma de las Xi; esto es: X = X1 + X2 + … + Xn lo cual representa el número de elementos en la muestra que poseen la característica. La media muestral será:
̅ ∑
, será igual a la proporción de
elementos en la muestra que presentan la característica. Dado que los N elementos en la muestra tienen la misma probabilidad de ser incluido en la muestra y que existen A elementos en la población que presentan la característica, se tiene que
1 <.
Si X denota el número de elementos en la muestra que presentan la característica y si el tamaño de la población es suficientemente grande con relación a la muestra entonces la distribución de X es aproximadamente una Binomial con parámetros n y p. De aquí en adelante se supondrá que el tamaño de la población es suficientemente grande en comparación con el tamaño de muestra (que la muestra representa menos del 5% de la población, es decir que , en consecuencia se asumirá que la distribución de X es Binomial, con valor esperado y varianza dadas por:
<.
1 ⁄ , donde
y
, además
Dado a que , la proporción de elementos en la muestra que presentan la característica, es igual a se deduce que: y
Si n es suficientemente grande, entonces la variable aleatoria
61
ó 0,1
Si la población es finita de tamaño N y el muestreo es sin reposición, el error estándar (Desviación estándar de la Hipergeométrica) es:
−− Note que si N es suficientemente grande con respecto a n , entonces el factor de corrección tiende a 1.
−−
⁄ <0.05
Para encontrar probabilidades suficientemente aproximadas al valor verdadero podemos usar el factor de corrección por continuidad del siguiente modo:
1⁄2 1 2 ≤ ≅ ≤
Finalmente que las dos expresiones de Z :
Donde X es Binomial y es la proporción de éxitos en la muestra, tienen Distribución Normal estándar: N(0, 1) Ejemplo
En proceso de auditoría, el porcentaje de registros con error es 4% . Para controlar el proceso se revisan periódicamente los registros realizados. a. Calcular la probabilidad de que una muestra aleatoria de 150 unidades revisadas se encuentren 6% de defectuosos b. Si el proceso de registros se detiene al contar por lo menos 5% de registros mal efectuados al revisar muestras aleatorias de 100 registros cada vez. Cuál es la probabilidad de que el proceso de registro continúe si realmente hay 6% de registros mal efectuados del total SOLUCIÓN
Sea , la proporción de registros mal realizados en la muestra de 150 registros, donde X, el número de registros mal realizados en la muestra de 150 registros es .
150,0.04 0. 0 6 9 ()0.040.96 0.0688 Si se utiliza el modelo exacto para ejecutar el cálculo se tiene:
62
Si se utiliza la distribución normal como un modelo aproximado se tiene:
0. 0 6 98. 5 ≤≤9. 5 51500. 0 4 9. 5 1500. 0 4 ≅ 8.1500. ≤ ≤ 040.96 1500.040.96 ≅6.2.546 ≤≤ 9.2.5461 . 0 4≤≤1. 4 6 0.0771 0. 0 60.06 21501 ≤≤0. 0 6 21501 0.0567 ≤ ≤0.0633 0 . 0 5670. 0 4 0. 0 6330. 0 4 ≅ 0.04×0.96 ≤≤ 0.04×0.96 1 . 0 4≤≤1. 4 6 0.0771 150 150 100,0.06. ⁄ 0 6 1 ≤0. 0 50. ⁄ 0 6 >0. 0 50. 1 ≤ 0.00.050.6×0.0964 [ 100 ] 1 ≤ 0.421 10.33688 0.66312
Otro método, es usar la propia distribución muestral de la proporción:
c. Sea , pa proporción de registros mal realizados en la muestra de 100 registros, donde X es el número de registros mal realizados en la muestra de 100 registros, en este caso; Entonces
Definic ión 3. Si {X11, X12, X13, …, X1n1} y {X21, X22, X23, …, X2n2} constituyen dos muestras aleatorias independientes de tamaños n 1 y n2, seleccionadas respectivamente de dos poblaciones independientes de Bernoulli y donde y son las proporciones poblacionales de éxito respectivos. Sean las proporciones muestrales
, , ∑ ∑ ~ , ~ , ̅ , Donde:
y
Entonces la diferencia de proporciones es una variable aleatoria con valor esperado y Varianza
63
Para n1 y n2 suficientemente grandes, la variable aleatoria
Sigue una distribución aproximadamente normal estándar Si se supone que definida como:
2.
+ 1 +
0,1
, entonces podemos obtener la proporción mancomunada con la cual
Estimación de parámetros
Parámetro: Es una característica poblacional o dicho de otra manera, es una función de todos los elementos de la población. Tiene un valor fijo y generalmente desconocido. Se representa por una letra mayúscula o un símbolo griego. Entre los más importantes tenemos: N
x
Media Poblacional ( ):
i
i 1
N N
( x 2
2
Varianza poblacional ( ) :
Proporción poblacional ( P)
P
)
2
i 1
N
A
i
,
N
donde A = N° de elementos en la población que tienen la característica en estudio N = N° de elementos en la población
Estimador. El estimador es una función de los valores muestrales que sirve para hacer estimaciones acerca del valor del parámetro. Para cada parámetro existe al menos un estimador. A continuación presentamos un conjunto de parámetros con sus correspondientes estimadores. Parámetro
Estimador N
x
Media poblacional
Varianza poblacional Proporción poblacional
n
x
Media muestral
i
i 1
x
N
n n
N
( x 2
P
i
)
2
( x
Varianza muestral
i 1
A N
i
i 1
i
s
2
N
Proporción muestral
p
a
n
x)
i 1
n 1
2
64
La Estimación de parámetros consiste básicamente en asignar un valor o conjunto de posibles valores al parámetro desconocido, del cual se desea conocer un valor aproximado mediante la utilización de estimadores específicos en función de la información muestral. La estimación de parámetros puede ser de dos tipos: 1) 2)
Estimación por punto. Estimación por intervalo.
a. Estimación por punto Cuando la estimación de los parámetros corresponde a sus respectivos estadísticos; los que se calculan a partir de los datos de la muestra.
Ejemplo: 1. Suponga que un investigador, interesado en obtener una estimación del nivel promedio del ingreso familiar en cierta población de seres humanos, toma una muestra de 10 individuos que arroja una media de . Se supone que la variable de interés sigue una distribución aproximadamente normal. Aplicando la estimación puntual se infiere que: 2. En la última encuesta sobre consumo de drogas se encontró que el 85 por ciento de las personas entre 12 y 64 años, han consumido cigarrillos alguna vez en su vida. A partir de este resultado entonces:
̅ 22
̂ 22
0.85
b. Estimación por intervalo Consiste en determinar dos valores numéricos l1 y l 2 ,que con un cierto grado de confianza se espera que incluyan al parámetro. Este puede corresponder a una variable cuantitativa (la media aritmética, por ejemplo) o cualitativa (proporción).
Estos dos valores numéricos permiten construir un intervalo de confianza.
65 i.
Estimación confi dencial de la media poblacional ( )
Se construye un intervalo de confianza que se espera que contenga al parámetro con un nivel de confianza determinado por el investigador.
z
σ
z
n
σ n
μ
x1 x2 x3 x4 x5 x6 xn
Intervalo de con fianza para la media (cuando se conoce la desviación estándar de la población)
Media poblacional = media de la muestra error de precisión Donde: error de precisión = coeficiente de confiabilidad x error estándar coeficiente de confiabilidad = z, t (ó Z , t ) correspondientes a un nivel de
n
n
confianza dado (1 - α).
2 1
66
Intervalo de con fianza para la media a. Cuando la varianza
es conocida
Sea X1, X2, …., Xn una muestra aleatoria de tamaño n seleccionada de una población normal (o de cualquier otro tipo, siendo n grande) con media y varianza supuestamente conocida. El mejor estimado puntual de es la media muestral . Se puede utilizar la distribución muestral de la media para determinar el intervalo de confianza del parámetro Si la población es normal , entonces la distribución de en normal para cualquier valor de . Si la población No es Normal, pero tiene media y varianza finitas, entonces, entonces, siempre que el tamaño n de la muestra sea suficientemente grande , por el teorema del límite central, la distribución de es aproximadamente normal . Por lo tanto, según el caso, la distribución de la variable aleatoria
,⁄
̅
̅ ̅ . , ≥2 ̅ . ≥30 ,⁄ ̅⁄√
67
0,1 (⁄ ≤ ≤ ⁄)1 ⁄ ≤ ̅⁄√ ≤ ⁄1 ̅⁄ √ ≤ ≤ ̅ ⁄ √ 1 ̅ ∝⁄ √ ≤ ≤̅ ∝⁄ √ 1.∝
Es exactamente (o aproximadamente) Normal Por lo tanto podemos escribir: Reemplazando el valor de Z tenemos
De donde resulta,
De donde se deduce que el intervalo aleatorio tiene una probabilidad de confianza
de contener el parámetro .
Note que en la interpretación se dice que es el intervalo que puede contener al parámetro con un coeficiente 1-α , mas no que el parámetro está contenido en el intervalo, puesto que el intervalo es aleatorio en cambio el parámetro es constante.
Ejemplo (Caso se conoce la desviación estándar Poblacional σ ): Para determinar el peso promedio en una población, un investigador observó el peso de 25 personas. Encontró que la media aritmética del peso fue 62 kg. Supongamos que se sabe que la desviación estándar del peso en dicha población es 14.5 kg. Asumiendo que dicha variable sigue una distribución normal. Obtenga un intervalo de 0.95 de confianza para peso promedio de la población de donde provienen las 25 personas.
n = 25 x = 62 z = 1.96 = 14.5 = ? 62 1.96
14.5 25
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
μ = 62 ± 5.7 μ = 56.3 a 67.7 o también
56.3 ≤ μ ≤ 67.7
Esto indica que, con un coeficiente de confianza del 0.95, el intervalo entre 56.3 y 67.7 Kgr, podría estar conteniendo al Peso promedio de la población μ. Nota: Si la muestra aleatoria de tamaño n es escogida sin reposición de una población finita de tamaño N, entonces Si , la variable aleatoria
≥30
̅ 1 0, 1 ̅ ∝⁄ 1≤ ≤̅ ∝⁄ 1
Tiene una distribución aproximadamente normal estándar intervalo de confianza queda de la siguiente manera
, con lo cual el
Ejemplo 2: El gasto mensual en consumo de las familias de una gran ciudad es una variable aleatoria con distribución aproximadamente normal. De estudios anteriores se conoce que la desviación estándar de dicha variable es . Actualmente se dispone de una muestra de 81 familias en donde se tiene un gasto promedio de 650 nuevos soles y deseamos obtener un intervalo de confianza de 0.95 para el gasto mensual promedio en consumo de las familias de la ciudad en referencia. SOLUCIÓN
200
200 ̅650 10. 95 ⁄ 1.96 ̅ ∝⁄ √ ≤ ≤̅ ∝⁄ √ 6501.96 √ 20081 ≤ ≤6501.96 √ 20081 606.4 ≤ ≤693.6 ≥30 1∝×100% Confianza: Desvío normal:
b. Cuando la varianza es desconocida Si la población es infinita y la muestra es sin restitución pero de un tamaño suficientemente grande ( ), o también puede ser una población finita con una muestra con restitución, se utiliza la varianza de la muestra como estimador de la varianza poblacional entonces nuevamente utilizando el teorema central del límite, se concluye que el intervalo de confianza de para la media poblacional será
Manuel Hurtado Sánchez
Página 2
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
̅ ∝⁄ ≤ ≤̅ ∝⁄
Pero si la población es finita y el muestreo es sin restitución, entonces el intervalo de confianza será
̅ ∝⁄ ≤ ≤̅ ∝⁄ <30
Cuando el tamaño de muestra es menor que 30 T de Student con (n-1) grados de libertad.
se recurre a la distribución
La distribución t de Student tiene propiedades similares que la distribución normal:
Entonces para poblaciones infinitas: En cambio para poblaciones finitas:
Finalmente notemos que:
∝⁄ √ ̅ ± − ∝⁄ − ̅ ± −
Media poblacional = media muestral
error de precisión
Ejemplo: Para determinar el peso promedio en una población, un investigador observó el peso de 25 personas. Encontró que la media aritmética del peso fue 62 kg. Y que la desviación estándar de la muestra fue 14.5 kg. Asumiendo que dicha variable sigue una distribución normal ¿Cuál es el peso estimado de la población de donde provienen las 25 personas? = 25 x = 62 t = 2.06 = 14.5 = ? O también
62±2.06 .√ 56 ≤ ≤68
Entonces
62 ±6
Esto indica que, bajo un nivel de confianza del 95 por ciento, el peso promedio se encuentra entre 56 a 68 kg.
Manuel Hurtado Sánchez
Página 3
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
2. Intervalo de confianza para la diferencia de medias poblacionales (µ muestras independientes
1
- µ2) con
̅ ̅ ≥30 ≥30 ∝% ∝⁄ ≤ ≤ ∝⁄
a. Suponiendo que las varianzas
Si
y
son conocid as.
y
son las medias muestrales de dos muestras independientes de tamaños , tal que , escogidas respectivamente de dos poblaciones con varianzas conocidas y , entonces el intervalo de confianza del de es
Ejemplo
Construya un intervalo de confianza de 0.95 para la diferencia de medias poblacionales considerando la siguiente situación:
40, ̅ 80 25 50, ̅ 75 16 40 → >30 50 → >30 25 16 ∝⁄ ≤ ≤ ∝⁄ 10. 9 5, → ⁄ 1.96 :8075±1.96 2405 1650 5±1.905 3.095 < <6.905 ̅ ̅ ≥30 ≥30
SOLUCIÓN
Para y , y con , es decir conocidas, entonces el intervalo de confianza para la diferencia de medias poblacionales será obtenido con la fórmula:
Para una confianza
b. Suponiendo que las varianzas
, entonces debemos tener que:
y
son desconocidas.
En Poblaciones no normales: Si y son las medias muestrales de dos muestras independientes de tamaños , tal que , escogidas respectivamente de dos poblaciones no normales con varianzas desconocidas y Manuel Hurtado Sánchez
Página 4
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
∝% ∝⁄ ≤ ≤ ∝⁄ , estimadas por de
respectivamente, entonces el intervalo de confianza del es
Ejemplo
Construya un intervalo de confianza de 0.95 para la diferencia de medias poblacionales considerando la siguiente situación:
40, ̅ 80 25 50, ̅ 75 16 40 → >30 50 → >30 25 16 ∝⁄ ≤ ≤ ∝⁄ 10. 9 5, → ⁄ 1.96 :8075±1.96 2405 1650 5±1.905 3.095 < <6.905 ̅ ̅ <30 < 30 ∝% SOLUCIÓN
Para y , y con varianzas desconocidas, pero estimadas a través de sus correspondientes varianzas muestrales , entonces el intervalo de confianza para la diferencia de medias poblacionales será obtenido con la fórmula:
Para una confianza
, entonces debemos tener que:
y las medias muestrales y las En Poblaciones Normales: Sean varianzas muestrales de dos muestras independientes de tamaños , escogidas respectivamente de dos poblaciones normales con varianzas desconocidas y , entonces el intervalo de confianza del de depende si las varianzas son iguales o no. Suponiendo que las varianzas so n ig uales:
Manuel Hurtado Sánchez
:
Página 5
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
: ̅ ̅± ∝⁄+− 1 1 Donde:
1 1 2
:
Ejemplo Construya un intervalo de confianza de 0.95 para la diferencia de medias poblacionales considerando la siguiente situación, suponiendo que
10, ̅ 80 25 20, ̅ 75 16
SOLUCIÓN
Bajo el supuesto que las varianzas poblacionales son iguales, la fórmula para obtener el intervalo de confianza para la diferencia de medias poblacionales es:
: ̅ ̅± ∝⁄+− 1 1 : 2 101×25201×16 10202 18.893 10. 9 5 21020228 ⁄+− 2.0484 : 8075± 2.0484 18.893101 201 : 5±3.45 1.55 ≤ ≤8.55
Donde es la varianza mancomunada de ambas poblaciones, dado a que se ha supuesto que dichas varianzas son iguales:
Para una confianza
y
, el valor
Este intervalo no contiene al valor cero (0), por lo que podemos afirmar que la media de la primera población es mayor que la media de la segunda población y que esta diferencia podría estar comprendida entre 1.55 y 8.55 puntos, con una confianza de 0.95 Manuel Hurtado Sánchez
Página 6
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
≠ ∝⁄ ≤ ≤ ∝⁄
Suponiendo que las varianzas di stintas:
:
Donde:
ó ó:
1 1
Dado que r es un número real, éste se redondea al entero más cercano.
Ejemplo Construya un intervalo de confianza de 0.95 para la diferencia de medias poblacionales considerando la siguiente situación, suponiendo que
10, ̅ 80 25 20, ̅ 75 16
≠
SOLUCIÓN
Bajo el supuesto que las varianzas poblacionales son distintas, la fórmula para obtener el intervalos de confianza para la diferencia de medias poblacionales es:
̅ ∝⁄ ≤ ≤ ̅ ∝⁄ Donde los grados de libertad de la distribución t son obtenidos con la siguiente fórmula:
S+S + r S S + 14.96~ 15 +
=
. 2.131 10.95 15 Para una confianza
y
, se tiene que
⁄
De este modo, el intervalo de confianza para la diferencia de medias será: Manuel Hurtado Sánchez
Página 7
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
: 8075±2.131× 2105 1620 : 5±3.87 1.13 ≤ ≤8.87 , o también:
Como este intervalo de confianza no contiene al valor cero (0), y los dos límites ser positivos, podemos afirmar que la media de la primera población es mayor que la media de la segunda población y que esta diferencia podría estar comprendida entre 1.13 y 8.87 puntos, con una confianza de 0.95. Notemos que este intervalo es ligeramente más amplio que cuando se supone que las varianzas son iguales, esto se debe a que en este caso es mayor la incertidumbre al no conocerse nada acerca de las varianzas poblacionales.
3. Intervalo de confianza para la diferencia entre medias con observaciones pareadas.
, , , ,, …,., , …,., , , , … . , ~ , ~ , , , … , , 2 , ̅ 1∝×100% ∝⁄ ≤ ≤ ̅ − ∝⁄ ̅ −
Sea una muestra aleatoria de n datos aparejados, donde las muestras e correlacionadas, son seleccionadas respectivamente de dos poblaciones normales y .
Podemos concebir esta diferencias: una muestra aleatoria seleccionada de una población de diferencias cuya distribución es normal con media y varianza .
como
Si son la media y la varianza de una muestra aleatoria de n diferencias de pares de datos de una población normal con varianza supuesta desconocida, entonces el intervalo de confianza del para es:
Donde
∝⁄ −
Manuel Hurtado Sánchez
se encuentra en la tabla de la distribución t – Student
Página 8
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejemplo: En los estudios generales de una universidad se han escogido 12 pares de alumnos sobre la base de la similitud de sus rendimientos. A un alumno de cada par le fue enseñado el curso de cálculo I por el método tradicional (X) y al otro alumno por el método de talleres (Y). Estos alumnos rindieron una prueba con los siguientes resultados Tradicional Talleres Diferencia (X) (Y) alumnos 1 14 12 2 2 15 16 -1 3 12 12 0 4 13 11 2 5 15 12 3 6 11 9 2 7 10 7 3 8 15 13 2 9 15 14 1 10 16 15 1 11 14 12 2 12 8 10 -2 Par de
Suma
15
2
4 1 0 4 9 4 9 4 1 1 4 4 45
̅ ∑ 1512 1.25 1.545 ̅ ∑( ) 2 5 ̅ 4512×1. 1 ∑1 121 10. 111 9 5 ⁄ 2.201 − ⁄ ∶ ̅ ± − : 1.25 ±2.201× 1.11545 ∶1.25 ±0.9816 0.268 ≤ ≤2.232 ≠ > Para una confianza
Así los límites de confianza para
,y
grados de libertad, se tiene que:
serán:
, o también:
Como este intervalo no contiene al valor cero (0), podemos deducir que más específicamente que
Manuel Hurtado Sánchez
,o
Página 9
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
4. Int ervalo de confianza para de la propor ció n poblaci onal (P) (P)
, , , 1,… . ,, 11
Sea de Bernoulli muestra cada con probabilidad
una muestra aleatoria de tamaño , escogida de una población cuyo parámetro es la proporción de d e éxitos en la población. En la , si hay éxito con probabilidad y cada si no hay éxito .
0
El estimador puntual del parámetro es la estadística proporción de éxitos en la muestra definida por
∑
= ∑ ,,
o también
Donde la variable aleatoria distribución es .
El valor de .
es el número de éxitos en la muestra muestra y cuya
que se obtiene obtiene de una muestra específica, es una estimación puntual puntual
1
≥30 ≥30
Además para , por el teorema central del límite, la distribución de probabilidad de la proporción muestral es aproximadamente normal con media y varianza La variable aleatoria estandarizada
− −
1
El intervalo de confianza de la proporción se construye siguiendo el mismo procedimiento que para la media, dado que existe una aproximación binomial entre los correspondientes parámetros: Media = proporción Varianza =
p
p q
Desviación estándar =
donde
q
1
p
p q
Por tanto: P
Manuel Hurtado Hurtado Sánchez Sánchez
p z 2
p q n Página 10
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejemplo. En una muestra de 384 personas se encontró que el 60 por ciento estuvo satisfecho con la atención recibida en el servicio al que acudió. Se desea estimar, bajo un nivel de confianza del 95 por ciento, el porcentaje de población satisfecho con la atención del servicio al que acudió.
p = 0.6 , q = 1-0.6 = 0.4 z = 1.96 n = 384 P
?
P 0.6 1.96
0.6 0.4 384
P 0.6 0.05
o también
0.55 ≤ P ≤ 0.65
La proporción de personas (expresado en porcentaje) satisfecha con el servicio está entre un 55 a un 65 por ciento, bajo un nivel de confianza del 95 por ciento.
5. Intervalo de confianza para la diferencia de proporciones poblacion ales ales (P1 – P2) Sean las proporciones de éxitos de dos muestras aleatorias independientes de tamaños , seleccionadas respectivamente de dos poblaciones de Bernoulli y donde son los respectivos parámetros proporciones de éxito.
1,1, 1,
La estimación puntual de
− − , , −
es la estadística
Si son suficientemente grandes, entonces aproximadamente normales respectivas
.
y
tienen distribuciones , por lo tanto
por la propiedad de reproductividad de la normal, la estadística distribución aproximadamente normal con:
− −
Valor esperado Varianza
Manuel Hurtado Hurtado Sánchez Sánchez
, tendrá
y
Página 11
UNIVERSIDAD SAN PEDRO
Por lo tanto
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
− −+−
, tendrá una distribución aproximadamente normal
estándar N(0,1). Esta distribución nos permite deducir que el intervalo de confianza para la diferencia de proporciones
: ± ⁄ 1 1 , con
y
Ejemplo 1 Un fabricante afirma que su nuevo producto de consumo popular prefieren más los hombres que las mujeres. Para comprobar tal información se toma una muestra aleatoria de 250 hombres y otra de 200 mujeres, y se encuentra que 175 hombres y 120 mujeres prefieren el nuevo producto. Utilizando un intervalo de confianza de 0.95 para la verdadera diferencia de proporciones de preferencias entre los hombres y las mujeres. ¿Se puede concluir que el fabricante del nuevo producto tiene la razón?.
SOLUCIÓN
250, 175 175250 0.70 250, 120 120200 0.60 : 0.70.600 ±1.96 6 ..×. .×. : 0.1 ±0.0882 0.0118< < 0.1882 1882 > De los datos del problema se obtiene.
Notamos que este intervalo no contiene al valor cero (0), por lo que nos permite identificar que la primera proporción es mayor que la segunda , con una confianza de 0.95. Ejemplo Ejemplo 2: En una encuesta del Time y CNN, el 24% de 205 mujeres solteras dijeron que “definitivamente deseaban casarse”. En la misma encuesta el 27% de 260 hombres
solteros dieron esta misma respuesta. Encuentre un intervalo de confianza del 0.95 para la diferencia de proporciones de hombres solteros a mujeres solteras que definitivamente desean casarse. SOLUCIÓN
260 0.27
Muestra de hombres solteros : definitivamente desean casarse
Manuel Hurtado Hurtado Sánchez Sánchez
, proporción de hombres solteros que
Página 12
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
205 0.24
Muestra de mujeres solteras : definitivamente desean casarse
, proporción de mujeres solteras que
El intervalo de confianza para la diferencia de proporciones de varones a mujeres que definitivamente desean casarse será:
: ± ⁄
,
1 0.95 ⁄ 1.96 7 3 0. 2 4×0. 7 6 ∶ 0.270.244 ±1.96 0.0.27×0. 260 205 ∶ 0.03 ± 0.061 0.031 < ∶ 0.091
para una confianza
,
, o también
Como este intervalo contiene al valor cero, podemos afirmar que con una confianza de 0.95, no existe diferencia significativa entre las proporciones P1 y P2, de hombres y mujeres muj eres respectivamente que definitivamente desean casarse.
Manuel Hurtado Hurtado Sánchez Sánchez
Página 13
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejercic Ejercic ios 3
20
1. Una máquina llena llena un determinado determinado producto en bolsas cuyo peso promedio es . Suponga que la población de los pesos es normal con desviación estándar . Estime µ , mediante un intervalo de confianza del 95%, si una muestra aleatoria de 16 bolsas ha dado una media de 495 gramos. Rpta.
495495 ± 9.8 ..
2. El tiempo en minutos que utilizan los clientes en sus distintas operaciones en un banco local es una variable aleatoria cuya distribución se supone normal con una desviación estándar de 3 minutos. Se han registrado los tiempos de las operaciones de 9 clientes del banco resultando una media igual a 9 minutos. Cuál será la probabilidad de que el intervalo de 7 a 11 contenga a la media µ. Rpta.
0.9544.
3. Existe interés por conocer el gasto medio en telefonía así como la proporción de abonados que tienen deuda con el servicio de Speedy en la población de d e Lambayeque. Para tal efecto, se recurre a una muestra de 81 abonados y se obtienen los siguientes resultados. Gasto medio
x
250
, desviación estándar s = 30 y
N° de abonados con Speedy con deuda a = 10 abonados deudores Se pide estimar por intervalo, con un grado de confianza del 95%, el gasto promedio en telefonía y la proporción de abonados con Speedy deudores en la población de Lambayeque.
4. Se desea estimar la media del nivel nivel de ansiedad de todos los estudiantes preuniversitarios. Se supone que la población de los puntajes de la prueba para medir la ansiedad se distribuye normalmente con desviación estándar puntos. Calcular el intervalo de confianza para de 0.95, si una muestra muestra aleatoria de tamaño 100 ha dado una media de 70 puntos.
10
5. El tiempo en minutos que utilizan los clientes en sus distintas operaciones operaciones en un banco local en una variable aleatoria cuya distribución se supone normal con una desviación estándar de . Se han registrado los tiempos de las operaciones de 9 clientes del banco resultando una media igual a 9 minutos. Obtenga un intervalo con una probabilidad de confianza de 0.95 para la media poblacional .
3
6. El ingreso mensual de cada una de las 500 microempresas microempresas de servicios de una ciudad, es una variable aleatoria con media desconocida. Con el fin de simplificar la recaudación de impuestos, la SUNAT ha dispuesto que a estas empresas se las grave mensualmente con el 10% de sus ingresos. De una muestra al azar de 50 microempresas se obtuvo un ingreso mensual promedio de 3200 soles con una desviación estándar de 250 soles. Estime el monto de ingresos de las microempresas de la ciudad con un intervalo de confianza de 0.95.
7. En un estudio socioeconómico socioeconómico se tomó una muestra aleatoria de 100 comerciantes informales y se encontró entre otros datos los siguientes. Un ingreso medio de $600, Manuel Hurtado Hurtado Sánchez Sánchez
Página 14
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
una desviación estándar de $50 y solo el 30% tienen ingresos superiores a $800. Estime la proporción poblacional de comerciantes con ingresos superiores a $800 mediante un intervalo de confianza del 98%. 8. Las siguientes son capacidades calóricas del carbón de dos minas (en millones de calorías por tonelada):
Mina A: 8500, 8330, 8480,7960, 8030
Mina B: 7710, 7890, 7920, 8270, 7860
Suponga que los datos constituyen muestras aleatorias independientes de poblaciones normales con varianzas iguales, Construya un intervalos de confianza del 99% para la diferencia entre promedios verdaderos de las capacidades calóricas del carbón de las dos minas. 9. Un inversionista hace un estudio para elegir una de dos ciudades del interior del país para abrir un centro comercial. Escoge 21 hogares de la ciudad 1 determinando y escoge 16 hogares de la ciudad 2 calculando . Suponga poblaciones normales con varianzas diferentes. Mediante un intervalo de confianza de 0.95, se puede afirmar que son iguales los ingresos promedios de las dos ciudades.
̅ ̅ $350, $60
$400, $120
10. Se desea realizar un estudio de mercado para determinar la proporción de amas de casa que prefieren una nueva pasta dental. La muestra diseñada para estimar esta proporción con una precisión de 0.02 y una confianza de 0.97 tuvo un tamaño de 2944 en donde se encontró que 736 amas de casa si preferían la nueva pasta dental. Obtenga una estimación confidencial de 0.99 de la proporción poblacional de estas amas de casa que prefieren la nueva pasta dental. 11. Un fabricante afirma que el 5% de las piezas que él produce, tienen algún tipo de defecto. Para verificar tal afirmación se toma una muestra aleatoria de 100 piezas y se encuentra que el 10% tiene algún tipo de defecto. Mediante un intervalo de 95% para la proporción de piezas defectuosas de toda la producción, ¿Está Ud. De acuerdo con la afirmación del fabricante. Rpta.
0.10±0.0588, → 0.05 ∈..,
12. Un auditor toma una muestra aleatoria de 400 cuentas por cobrar y encuentra que 320 de ellas tienen deudas de al menos $700. Obtenga un intervalo de confianza de 0.95 para la proporción poblacional de cuentas por cobrar que tendrán deudas de al menos $700 . 13. En una muestra aleatoria de 250 telespectadores en una ciudad grande, 190 habían visto cierto programa polémico, construya un intervalo de confianza para el valor verdadero de la proporción de telespectadores que vieron dicho programa.
Manuel Hurtado Sánchez
Página 15
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
14. Una muestra aleatoria de 400 menores de 16 años revela que 220 consumen licor. Estimar la proporción de menores de 16 años que consumen licor en toda la población mediante un intervalo de confianza del 99%. Rpta.
0.55 ±0.064
15. Una muestra aleatoria de visitantes al mueso Tumbas Reales de Lambayeque, 84 de 250 hombres y 156 de 250 mujeres compraron recuerdos. Construya un intervalo de confianza del 95% para la verdadera diferencia de proporciones de mujeres a hombres que compran en el sitio turístico. 16. Un estudio de dos clases de equipo de fotocopiado muestra que 61 averías del equipo de la primera clase se llevaron en promedio 80.7 minutos en ser reparadas con una desviación estándar de 19.4 minutos, mientras que 61 averías del equipo de la segunda clase se llevaron en promedio 88.1 minutos en ser reparadas con una desviación estándar de 18.8 minutos. Encuentre el intervalo de confianza del 99% para la diferencia entre los verdaderos promedios del tiempo que toma reparar las averías de las dos clases de equipos de fotocopiado. 17. Si 132 de 200 votantes y 90 de 159 votantes mujeres están a favor de cierto candidato que hace campaña para gobernador de Illinois, encuentre un intervalo de confianza del 99% para la diferencia entre proporciones reales de votantes hombres y votantes mujeres que están a favor de un candidato. Rpta. [-0.074, 0.194]
18. Se quiere estimar la diferencia entre los promedios de tiempos (en minutos) que utilizan los hombres y las mujeres y las mujeres para realizar un test de aptitud. Se aplica el test a 20 hombres y 25 mujeres dando las medias respectivas de 110 y 100 puntos. Suponga que las dos poblaciones son normales con varianzas respectivas 81 y 64 . Determine el intervalo de confianza del 0.98 para la diferencia de medias. 19. Una agencia de publicidad realizó un estudio para comparar la efectividad de un anuncio en radio en dos distritos. Después de difundir el aviso, se realizó una encuesta con 900 personas seleccionadas al azar en cada uno de los distritos resultando las proporciones 0.20 y 0.18 respectivamente. Encuentre un intervalo de confianza del 0.95 para la diferencia de proporciones poblaciones poblacionales. 20. Entre 500 solicitudes de matrimonio escogidas aleatoriamente en un año, hubieron 48 solicitudes en que la mujer era al menos un año mayor que el hombre, y entre 400 solicitudes de matrimonio escogidas aleatoriamente seis años después, hubieron 68 en las cuales la mujer era al menos un año mayor que el hombre. Construya un intervalo de confianza del 99% para diferencia entre las verdaderas proporciones correspondientes a las solicitudes de matrimonio en las que la mujer es al menos un año mayor que el hombre.
Manuel Hurtado Sánchez
Página 16
UNIVERSIDAD SAN PEDRO
3.
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Teoría de prueba de hipótesis La prueba de hipótesis es un método de inferencia estadística que consiste en tomar una decisión de rechazar o no rechazar una proposición acerca de los parámetros de una o más poblaciones. Hipótesis estadística: Es una proposición acerca de lo que se cree sobre los parámetros de una o
más poblaciones. Ejemplos: 1. Los responsables del departamento de ventas de una empresa creen que la media aritmética
de la edad de una población está por debajo de los 30 años. Los datos disponibles son las edades de una muestra aleatoria de 16 individuos, tomada de esa población. La media de la edad de estos individuos es 27; con una desviación estándar de 5. 2. Consideremos que una empresa constructora acaba de comprar una gran cantidad de cables con
garantía de resistencia promedio de al menos 7000 libras por pulgada cuadrada (psi). Con la finalidad de verificar esto, la empresa ha decidido tomar una muestra de 10 cables para verificar su resistencia. Después usará los resultados del experimento para decidir si rechaza o no la hipótesis del fabricante de cables de que la media poblacional es por lo menos 7000 libras por pulgada cuadrada (psi). Hipótesis estadística: Por lo común, una hipótesis estadística es una afirmación acerca de un
conjunto de parámetros de la distribución poblacional. Se llama hipótesis porque no se sabe si es verdadero o no. El primer problema consiste en desarrollar un procedimiento para determinar si los valores de una muestra aleatoria de esta población son consistentes con la hipótesis. Considere, por ejemplo, una población determinada, distribuida normalmente, con media desconocida ϴ y varianza 1. La afirmación de que ϴ < 1 es una hipótesis estadística que podemos tratar de probar observando una muestra aleatoria obtenida de esa población. Si creemos que la muestra aleatoria es consistente con la hipótesis bajo consideración, afirmamos que la hipótesis no debe ser rechazada, es decir implícitamente “aceptada”, si no es así, decimos que ha sido rechazada.
Notemos que al no rechazar la hipótesis o implíci tamente “aceptar” la hipótesis dada, no estamos diciendo que sea verdadera, lo que estamos indicando es que los datos resultantes pueden ser consistentes con ella. Por ejemplo, en el caso de una población normal ( ϴ, 1), si una muestra de tamaño 10 tiene un promedio de 1.25, entonces aunque este resultado no puede considerarse como una evidencia a favor de la hipótesis “ϴ < 1”, no es incons istente con la hipótesis por lo que sería aceptada. Por otro lado, si la muestra de tamaño 10 tiene un promedio de 3, aunque un valor tan grande como éste sea posible cuando ϴ < 1, es tan poco probable que aprecie inconsistencia con la hipótesis, por lo que esta sería rechazada.
Manuel Hurtado Sánchez
Página 17
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Tipos de hipótesis estadísticas
1) Hipótesis nula (H0). Es establecida con el propósito de confrontarla con evidencias que permitan rechazarla. Suele ser una proposición de conformidad con una condición que se asume cierta en la población. Se formula con el propósito expreso de ser rechazada. También llamada hipótesis de la no diferencia 2) Hipótesis alterna (Ha). Son todas las demás suposiciones o alternativas al problema para contrastar Ho. Puede ser bilateral o unilateral, y expresa la sospecha o propósito del investigador. A su vez la prueba de hipótesis puede ser unilateral o bilateral, según como esté formulada la hipótesis alternativa. En el primer caso, la hipótesis nula asume que el parámetro de la población es mayor o menor que el parámetro teórico. En el ejemplo, la hipótesis unilateral sería formulada como:
Ha : µ Ha: µ
(unilateral)
En el segundo caso, la hipótesis nula asume que el parámetro de la población es diferente al parámetro teórico. Es decir:
≠
H0 : Ha :
(bilateral)
Errores en Prueba de hipótesis
Cuando se toma una decisión estadística, podemos cometer el error tipo I o tipo II. Estado de la naturaleza
Decisión estadística
Ho verdadera
Ho Falsa
Rechazar Ho
Error tipo I P(I) =()
P(Rechazar Ho/Ho es falsa) =(1-β)
(Significancia)
(Potencia)
Decisión correcta No rechazar Ho
P(No rechazar Ho / Ho es verdadera)=(1-)
(Confianza)
Decisión correcta
Error tipo II P(II) = (β)
Probabilidades de error en Prueba de hipótesis P(error tipo I) = = P( Rechazar Ho Ho es verdadero) = Nivel de significancia de la prueba
Manuel Hurtado Sánchez
Página 18
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
puede ser manejada por el investigador, por consiguiente puede establecer su valor, es decir, =0.001, 0.01, 0.05 nos indica el nivel de significación de la prueba, porque permite diferenciar la región de rechazo y no rechazo de la prueba. 1- indica el grado de confianza de la prueba y se denomina nivel de confianza de la prueba. P(error tipo II) =
= P(No rechazar Ho Ho falsa)
y están relacionados y ambos disminuyen su valor si incrementamos el tamaño de la muestra o si mejoremos el diseño del estudio.
1- = P(rechazar HoHo es falsa), también se denomina potencia de prueba. El valor mínimo que puede tomar es del 80%. Decisiones en Prueba de Hipótesis
Las decisiones que se toman en prueba de hipótesis están en relación con la hipótesis nula, y pueden ser: D1: Rechazar la Hipótesis nula
:
D2: No Rechazar la Hipótesis nula : implícitamente equivale a aceptar trabajar como si fuera verdadera sin decir que los es
, es decir se puede
Para tomar la decisión se compara el estadístico calculado con el estadístico tabulado (el valor crítico), tomado de la distribución correspondiente, según el nivel de significación establecido. En el caso de la hipótesis unilateral si el estadístico de prueba calculado es más pequeño o más grande, según sea el sentido de la hipótesis nula, que el estadístico tabulado (el t crítico por ejemplo) se tiene evidencia suficiente para rechazar la hipótesis nula. El área que se encuentra en el extremo inferior o superior a ese valor constituye pues la región de rechazo; el área restante constituye la región de aceptación.
Manuel Hurtado Sánchez
Página 19
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
En el caso de la hipótesis bilateral, si el estadístico de prueba calculado es más pequeño o más grande que el rango del estadístico tabulado se tiene evidencia suficiente para rechazar la hipótesis nula. El área que se encuentra dentro del rango del estadístico tabulado constituye pues la región de rechazo; el área restante constituye la región de aceptación. En el ejemplo: El t tabulado (t_crítico) para 15 grados de libertad, tomándolo de la tabla, es -1.75. Por consiguiente, se rechaza la hipótesis nula.
También puede tomarse esa decisión estableciendo cual es área que corresponde desde el t calculado hacia los extremos de la curva, lo cual representa la probabilidad de equivocarse al rechazar una hipótesis nula verdadera. Esta área se conoce comúnmente como valor p. En el ejemplo el valor p = 0.0155
Cuando el valor p es menor que la significación
ó
2
entonces se rechaza la hipótesis nula Ho.
Si la aceptabilidad de la hipótesis nula ( p) es menor que el nivel de significación ( =0.05), entonces rechazamos la hipótesis nula. Si es igual o mayor No la rechazamos (implícitamente aceptamos Ho).
En el caso de la hipótesis bilateral, los valores para el ejemplo serían: El t-tabulado (t crítico) para 15 grados de libertad, tomándolo de la tabla, es ± 2.13. Por consiguiente, se rechaza también la hipótesis nula. El valor p = 0.0309
Pasos para la aplicación de una prueba estadística. Manuel Hurtado Sánchez
Página 20
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Los autores difieren en el número de pasos expresados explícitamente para aplicar una prueba de hipótesis; pero la lógica es solo una; de modo tal que enfocaremos los pasos esenciales: 1. 2. 3. 4. 5.
Planteamiento de las hipótesis nula y alternativa. Elección del nivel de significación α.
Determinación de la estadística de prueba y su distribución de probabilidades. Determinación de las regiones de rechazo o no rechazo. Cálculo del valor experimental de la estadística de prueba o de la probabilidad de cometer el error tipo I al efectuar la prueba, conocido como p_valor. 6. Toma de decisión: Si el valor experimenta de la estadística de prueba pertenece a la región de rechazo, entonces debemos rechazar la hipótesis nula, caso contrario no rechazarla. O también en forma equivalente, si la probabilidad de cometer el error tipo I o p-valor es menor que el nivel se significancia de la prueba (p_valor < α ), entonces rechazar la hipótesis nula, caso contrario no rechazarla. Ilustremos este procedimiento cuando se desea probar una hipótesis acerca de una media poblacional. 3.1.Prueba de hipótesis acerca de una media de una población normal
, , … , :
1) Caso de la varianza conocida: Suponga que es una muestra de tamaño una distribución normal con media desconocida μ y varianza conocida , Población: N (Varianza Conocida)
Muestra: n
̅
de
1∝
Seguiremos los siguientes pasos: 1°. Formular la hipótesis nula y alternativa
:: < ≠> ó ó
Donde
Pruebas Unilaterales Prueba Bilateral
es una constante dada.
2) Elegir del nivel de significación. Es el riesgo de equivocarse al rechazar una hipótesis nula, si ésta fuese verdadera. Se establece como el complemento del nivel de confianza en una estimación.
Manuel Hurtado Sánchez
Página 21
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Por ejemplo: Nivel de significación: = 0.05 ó 0.01 3) Se establece la estadística de la prueba y su distribución de probabilidades
−⁄√ ~ 0, 1
, pata cualquier tamaño de muestra
4) Construcción de las regiones de rechazo Depende de cómo está planteada la hipótesis alternativa y de la estadística utilizada
: < : > : ≠
Para cuando se usa la estadística Z Si entonces la región de rechazo será Si Si
entonces la región de rechazo será entonces la región de rechazo será
, < , > {, ||> ⁄}
5) Cálculo del estadístico de prueba Se calcula el valor de la estadística de la prueba, reemplazando la información obtenida en la muestra. Se denota por Además podría calcularse el p_valor.
6) Decisión estadística. a) Si Zo o t0 pertenecen a la región de rechazo, entonces rechazar Ho, o también b) P_valor < α, entonces rechazar la hipótesis nula Ho
, , … , :
2. Caso de la varianza desconocida: Suponga que es una muestra de tamaño de una distribución normal con media desconocida μ y varianza desconocida ,
Población: N (Varianza =? : desconocida)
Muestra: n
̅ ∶
1∝
Seguiremos los siguientes pasos: 1°. Formular la hipótesis nula y alternativa
:: < ≠> ó ó
Manuel Hurtado Sánchez
Pruebas Unilaterales Prueba Bilateral Página 22
UNIVERSIDAD SAN PEDRO
Donde
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
es una constante dada.
3) Elegir del nivel de significación. Es el riesgo de equivocarse al rechazar una hipótesis nula, si ésta fuese verdadera. Se establece como el complemento del nivel de confianza en una estimación. Por ejemplo: Nivel de significación: = 0.05 4) Se establece la estadística de la prueba y su distribución de probabilidades Cuando n > 30 : Cuando
n ≤ 30 :
−⁄√ ~ 0, 1 −⁄√ ~ −
5) Construcción de las regiones de rechazo Depende de cómo está planteada la hipótesis alternativa y de la estadística utilizada
: < : > : ≠ : < : > : ≠
Para cuando se usa la estadística Z Si entonces la región de rechazo será Si Si
entonces la región de rechazo será entonces la región de rechazo será
Para cuando se usa la estadística Si Si Si
entonces la región de rechazo será entonces la región de rechazo será entonces la región de rechazo será
, < , > {, ||> ⁄} ⁄ , < − ⁄ , > − ⁄ , ||> −
6) Cálculo del estadístico de prueba Se calcula el valor de la estadística de la prueba, reemplazando la información obtenida en la muestra. Se denota por ó .
7) Decisión estadística. a) Si Zo o t0 pertenecen a la región de rechazo, entonces rechazar Ho, o también P_valor < α, entonces rechazar la hipótesis nula Ho b) Nota: Cuando la variable no se distribuye como una normal, puede utilizarse pruebas alternativas como la Wilcoxon para una muestra o la prueba del signo para una muestra.
Manuel Hurtado Sánchez
Página 23
UNIVERSIDAD SAN PEDRO
3.2.
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Prueba de hipótesis para comparar dos medias poblacionales
En la práctica de la investigación científica se suele utilizar con mucha frecuencia la comparación de grupos para examinar sus semejanzas y diferencias. Si se desea examinar la eficacia de un nuevo tratamiento o medicamento resulta apropiado comparar el efecto del nuevo tratamiento o medicamento sobre un grupo y compararlo con el efecto experimentado por el grupo que recibió el tratamiento o medicamento tradicional. El resultado puede ser examinado en una característica cuantitativa o una característica cualitativa. Para generalizar estos resultados a las poblaciones de donde provienen las muestras se aplica la prueba de hipótesis. Entre las pruebas estos resultados más frecuentes se encuentran las pruebas sobre la diferencia entre:
1) Las medias provenientes de dos grupos independientes (con varianzas poblacionales desconocidas; pero supuestamente iguales). 2) Las medias provenientes de dos grupos independientes (con varianzas poblacionales desconocidas, pero supuestamente desiguales). 3) Las medias provenientes de dos grupos relacionados. 4) Las proporciones de dos grupos.
3.2.1. Prueba de hipótesis concernientes a la diferencia de medias, con varianzas poblacionales conocidas. En muchos problemas de investigación aplicada, estamos interesados en hipótesis concernientes a la diferencia ente las medias de dos poblaciones. Por ejemplo podríamos querer decidir sobre la base de muestras apropiadas si los hombres pueden efectuar cierta tarea tan rápido como las mujeres, o podríamos querer decidir sobre la base también de una muestra apropiada si los gastos alimenticios semanales promedio de las familias en una ciudad a aquellos de las familias en otra ciudad por lo menos en $5.00. Supongamos que estamos tratando con muestras aleatorias independientes de cualquier tamaño, de dos poblaciones normales que tienen medias y las varianzas conocidas y que queremos probar la hipótesis nula , donde , es una constante dada,
, ,
Manuel Hurtado Sánchez
Página 24
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Pasos: 1°) Hipótesis: Ho: Ha:
>< ≠
. Un caso particular es cuando
0
,
,
2°) Elegir el nivel de significancia: α
3°) Estadística de prueba:
̅ − +̅− ~ 0,1
, Para cualquier tamaño de muestra n1 y n2
4°) Las regiones de rechazo son: Si Ha: Ha: Ha:
< > ≠
⁄
RR = { Z / Z < RR = { Z / Z >
RR = { Z / |Z| >
}
}
}
5°) Calcular el valor experimental de la estadística de prueba Zo 6°) Decidir: Si Zo Є RR
Rechazar Ho
rechazarlo.
, caso contrario, no
3.2.2. Prueba de hipótesis concernientes a la diferencia de medias, con varianzas poblacionales desconocidas diferentes, pero con muestras grandes. Supongamos que estamos tratando con muestras grandes, aleatorias e independientes de tamaños de dos poblaciones normales que tienen medias y las varianzas desconocidas y que queremos probar la hipótesis nula , donde , es una constante dada,
>30, >30
Manuel Hurtado Sánchez
≠
Página 25
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Pasos: 1°) Hipótesis: Ho: Ha:
>< ≠ .
Un caso particular es cuando
0
,
,
2°) Elegir el nivel de significancia: α
3°) Estadística de prueba:
̅ − +̅− ~ 0,1
, Para cualquier tamaño de muestra n1 >30 y n2 >30
4°) Las regiones de rechazo son: Si Ha: Ha: Ha:
< > ≠
⁄
RR = { Z / Z < RR = { Z / Z >
}
}
RR = { Z / |Z| >
}
5°) Calcular el valor experimental de la estadística de prueba Zo 6°) Decidir: Si Zo Є RR
rechazarlo.
Rechazar Ho
, caso contrario, no
3.2.3. Prueba de hipótesis de comparación de dos medias, con varianzas poblacionales desconocidas, pero se suponen iguales: i. Prueba t para muestras independientes
(, , … , ) (, , … , )
, ,
Sean y dos muestras aleatorias independientes provenientes de dos poblaciones con distribución normal , Manuel Hurtado Sánchez
Página 26
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
respectivamente. Deseamos comparar ambas poblaciones en cuanto a su media suponiendo en este caso que las varianzas son desconocidas pero iguales. Las hipótesis en prueba serán:
∶ ∶ <0 >0 ≠0 ∝ 0.05 ó 0.01 ̅− ̅+− ~ 2, <30 <30 ̅− ̅+− ~ 0,1 >30 >30 −++−− 1° )
, para todo ,
ó
2° ) Elegir el nivel de significancia
3° ) Construir las estadísticas de prueba
Donde
Ejemplo: Un Psicólogo industrial desea estudiar los efectos de la motivación en las ventas
de cierta empresa. De 22 agentes de ventas nuevos, 13 reciben un salario por hora y 9 reciben una comisión, los 22 individuos se asignaron al azar en los dos grupos. Los siguientes datos representan las medidas de resumen, media y desviación estándar de ambos grupos del volumen de ventas en miles de soles en el primer mes de trabajo: Grupo 1: Pago por hora
̅ 11.9 6.3 13 ̅ 18.9 5.9 9
Grupo 2: Pago por comisión
En el ejemplo, se observa una efectiva diferencia entre ambos grupos: Esta es una buena evidencia para considerar que esta diferencia es propia entre las poblaciones de donde provienen ambas muestras. Lo cual es una hipótesis que puede someterse a prueba. 1) Plantear la hipótesis Hipótesis nula (H0):
μ 1 = μ2
≡
Hipótesis alterna(H1):
(μ1 - μ2 = 0) μ 1 ≠ μ2
2)
Determinar el nivel de significación. El nivel de significación usual es el 0.05 (5 por ciento). Significa que elegimos un 5 por ciento de riesgo de equivocarnos al tomar la decisión (de rechazar la hipótesis nula). = 0.05
3)
Elegir el estadístico de la prueba y calcular el valor p. En el caso de la diferencia de medias, el estadístico adecuado es t de Student. Si se desconocen las varianzas de las poblaciones, pero se asume que son iguales, el estadístico de prueba es:
Manuel Hurtado Sánchez
Página 27
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
̅ 1 ̅ 1 ~ +−
Donde: Varianza mancomunada: En el ejemplo
−++−−
81 131×39.69 37.74 91×34.9132
Entonces debemos tener que:
..×−.+ 2.63 Dados los grados de libertad (n1 + n2 – 2 = 9+13 -2 = 20, a este nivel de significación le corresponde un t crítico de: 0.025
t 20
2.09
Como el t calculado (2.63) se encuentra por encima del t de la tabla (2.09); por tanto el valor p< 0.05 4)
Tomar la decisión: Si el valor p < nivel de significación, entonces se rechaza la hipótesis nula. En el ejemplo, el valor p < 0.05 por tanto, la decisión es: Rechazar la hipótesis nula Conclusión el estímulo por la comisión de ventas contribuye muy significativamente a
incrementar las ventas. Nota: Si las muestras son grandes (30 o más casos cada una); entonces, se puede utilizar como
estadístico de prueba el estadístico z. Nota: Cuando la variable no se distribuye como una normal, puede utilizarse la prueba U de Mann-Witney
ii. Prueba de hipótesis de la diferencia de dos medias con muestras pequeñas, con varianzas poblacionales desconocidas, pero se suponen diferentes
≠
:
En este caso debe emplearse una modificación de la prueba t para dos muestras independientes con muestras pequeñas y suponiendo varianzas poblacionales diferentes.
Manuel Hurtado Sánchez
Página 28
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Pasos: 1°) Hipótesis: Ho:
>< ≠ .
Un caso particular es cuando
Ha:
0
,
,
2°) Elegir el nivel de significancia: α
3°) Estadística de prueba:
̅ − +̅− ~
, Siempre que los tamaños de muestra n1 <30 y n2 <30
Donde los grados de libertad ( r ) se obtienen a través de:
4°) Las regiones de rechazo son: Si Ha: Ha: Ha:
< > ≠
+ +
⁄
RR = { t / t < RR = { t / t >
RR = { t / |t| >
}
}
}
5°) Calcular el valor experimental de la estadística de prueba 6°) Decidir: Si rechazarlo.
4.
Є RR
Rechazar Ho
, caso contrario, no
Prueba de hipótesis de la diferencia de dos medias:
Prueba
t para muestras relacionadas .
Ahora presentaremos un procedimiento para analizar la diferencia entre las medias de dos grupos cuando los datos muestrales se obtienen de poblaciones relacionadas; es decir, cuando los resultados del primer grupo no son independientes del segundo grupo. Esta “dependencia” característica de los dos grupos ocurre, ya sea debido a que los ar tículos o individuos están por pares o apareados según alguna característica, o bien porque se obtienen medias repetidas del mismo conjunto de artículos o individuos. En cualquier caso la variable de interés se convierte en la diferencia entre los valores de las observaciones en lugar de las observaciones en si.
Manuel Hurtado Sánchez
Página 29
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Se denominan muestras pareadas a aquellas en las cuales a cada observación en el primer grupo corresponde una observación en el segundo grupo. En el procedimiento de autopareamiento se toman medidas de un mismo individuo en dos momentos distintos (estudios antes y después). El interés es analizar diferencias entre observaciones pareadas en una muestra proveniente de una población con distribución normal.
Para determinar si existe una diferencia entre dos grupos relacionados, se obtienen las diferencias como se muestra en la siguiente tabla: DETEMINACIÓN DE LA DIFERENCIA ENTRE DOS GRUPOS RELACIONADOS Grupo
Observación
1 X11 X12 . . . X1n
1 2 . . . n
2 X21 X22 . . . X2n
Diferencia D1 = X11 – X21 D2= X12 – X22 . . . Dn = X1n – X2n
: ∑ ∑ ó á : −− : : 0 ,
La hipótesis en prueba es:
Los pasos son similares a cuando probamos la Hipótesis Ho: 1°) Hipótesis 2°)
Ejemplo: Nueve personas obesas aceptaron participar en una dieta muy baja en calorías, para
bajar de peso. Se desea saber si los resultados obtenidos ofrecen evidencia suficiente para afirmar que el tratamiento es eficaz para reducir el peso de personas obesas. Los resultados fueron los siguientes: d
22.59
y
sd
5.32
Se aplica el procedimiento de prueba de hipótesis: 1) Plantear la hipótesis Manuel Hurtado Sánchez
Página 30
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Hipótesis nula (H0):
μD =
Hipótesis alterna(H1):
μD > 0
2) Determinar el nivel de significación El nivel de significación usual es el 0.05 ( 5 por ciento). Es decir significa que determinamos un 5 por ciento de riesgo de equivocarnos al tomar la decisión ( de rechazar la hipótesis nula)
= 0.05 3) Elegir el estadístico de la prueba y calcular el valor p. En el caso de diferencia de medias, el estadístico adecuado es t de Student.. El estadístico de prueba es: t
d
sd n
En el ejemplo: t
22.59
5.32 9
tc = -12.74 Dados los grados de libertad (n -1), a este nivel de significación le corresponde un t crítico: t t = 2.31 Como el t calculado (-12.74) se encuentra por debajo del t de la tabla (-2.31) el valor p < 0.05 4) Tomar la decisión Si el valor p < nivel de significación, entonces se rechaza la hipótesis nula. En el ejemplo, el valor p < 0.05 por tanto: Decisión: se rechaza la hipótesis nula. Conclusión: la dieta es efectiva. Nota: Cuando las variables no se distribuyen como una normal, puede utilizarse pruebas alternativas como la Wilcoxon para dos muestras pareadas o la prueba del signo para muestras pareadas
Manuel Hurtado Sánchez
Página 31
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
4.1.Prueba de hipótesis para la proporción de una población La aplicación de la prueba de hipótesis acerca de la proporción de una población sigue el mismo procedimiento que el aplicado para la prueba de hipótesis de una media. Como se trabaja con muestras grandes, el estadístico de prueba es z. Ejemplo: Se desea saber si el porcentaje de consumidores de drogas ilegales en esa población es diferente a 20 por ciento. Para este caso se tomó una muestra de 316 personas y se encontró un porcentaje de consumidores de 16 por ciento. 1) Planteamiento de la hipótesis nula Hipótesis nula (H0): P = 0.20 Hipótesis alterna (H1): P 0.20 2)
Determinación del nivel de significación. Si el nivel de confianza es de 0.95, entonces el Nivel de significación: = 0.05
3)
Especificación y cálculo del estadístico de prueba p P N (0,1) El estadístico de prueba es Z. z P Q
donde Q
1 P
n
Se calcula el estadístico de prueba:
0.16 0.20
z o
0.20 * (1 0.20 )
1.78
316 valor p (bilateral) = P(|Z| >-1.78) = 0.0751
Si la hipótesis formulada hubiese sido unilateral: Manuel Hurtado Sánchez
Página 32
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Hipótesis nula (H0): P 0.20 Hipótesis alterna (H1): P 0.20 valor p (bilateral) = 0.0751 4) Decisión estadística. Con la hipótesis bilateral: no se rechaza la hipótesis nula. La prevalencia de consumo no ha disminuido.
5. Prueba de hipótesis de la diferencia de dos proporciones: Prueba z Cuando se comparan dos grupos y la variable de interés es cualitativa, la la prueba de hipótesis utiliza el estadístico z, dado que las muestras (para variables cualitativas) tienden a ser grandes y porque es posible aproximar la distribución binomial a la distribución normal. También pueden aplicarse las pruebas de una cola o de dos colas. Ejemplo: En un estudio comprendió dos encuestas idénticas en el 2000 y el 2005. Una pregunta formulada a las mujeres fue: “La mayoría de los hombres son básicamente amables, corteses y considerados?”. La
encuesta del 2000 reveló que de 3000 mujeres interrogadas, 2010 contestaron afirmativamente; en cambio en el 2005 el resultado fue que 1530 de las 3000 mujeres en la encuesta consideraron que los hombres eran amables, corteses y considerados. Al nivel de significancia de 0.05, ¿puede concluirse que las mujeres creen que los hombres son menos amables, corteses y considerados en el 2005 comparados con los del 2000? Proporción de mujeres que creen que los hombres son amables, corteses y considerados: 2010
Proporción en el 2000:
Proporción en el 2005: p2
p1
3000
1530
3000
0.67
0.51
Se aplica la prueba de hipótesis: 1) Planteamiento de la hipótesis nula: Hipótesis nula (H0) : P 1 ≤ P2 Hipótesis alterna (H1) : P1 > P2 2) Determinar el nivel de significación α = 0.05
3) Elegir el estadístico de prueba Manuel Hurtado Sánchez
Página 33
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
El estadístico de prueba es z: z
p1 p 2 p 1 p n1
p 1 p n2
donde: p
a1 a2 n1 n2
En el ejemplo:
error estándar
z
p
2010
1530
3000
3000
(0.59)(0.61) 3000
0.59
(0.59)(0.61) 3000
0.015489
0.67 0.51 10.33 0.015489
valor p (unilateral)= 0.000 El valor crítico de z bajo un 95 por ciento de confianza es, para una prueba de una cola es: 1.645. 4) Tomar la decisión Si el valor p es menor al nivel de significación, por tanto: Decisión: rechazar la hipótesis nula Conclusión: Efectivamente las mujeres creen que los hombres son menos amables, corteses y
considerados en el 2005 comparados con los del 2000.
Manuel Hurtado Sánchez
Página 34
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejercicios 4 1) Un productor de capsulas de uña de gato afirma que la demanda promedio de su producto en el mercado es de 1000 capsulas por día, sin embargo un estudio de la demanda de su producto en 36 días aleatorios da una media de 850 y una desviación estándar de 360 capsulas diarias. ¿Es esto evidencia suficiente para contradecir la afirmación de este productor?. Utilice una prueba de una sola cola y una probabilidad de significancia de 0.01?. 2) Cierta La duración de cierta marca de baterías es una variable aleatoria cuya distribución se supone normal. Se estima que su duración media es de 500 horas y que el 95% del total duran entre 480.4 y 519.6 horas. Si en una muestra aleatoria de 9 de tales baterías se encuentra quela duración media es 495 horas, ¿Es esto evidencia para concluir al nivel de significancia del 0.05 que la duración media de todas esas baterías es diferente de 500 horas? 3) Un grupo para la defensa del consumidor desea evaluar la tasa de eficiencia de energía promedio (EER) de una unidad de aire acondicionado de gran capacidad (más de 7000 btu) para instalar en una ventana. Se selecciona una muestra aleatoria de estas unidades y se prueba durante un período fijo. Los registros de la EER son los siguientes: 8.9
9.1
9.2
9.1
8.4
9.5
9
9.6
9.3
9.3
8.9
9.7
8.7
9.4
8.5
8.9
8.4
9.5
9.3
9.3
8.8
9.4
8.9
9.3
9
9.2
9.1
9.8
9.6
9.3
9.2
9.1
9.6
9.8
9.5
10.0
a. Con un nivel de significancia de 0.05, ¿Existe evidencia de que el EER promedio difiere de 9.0? b. ¿Cuál será su respuesta en (a) si el último dato es de 8.0 en lugar de 10.0? 4)
El gerente de ventas de una compañía afirma que sus vendedores venden semanalmente en promedio $ 1500. Al nivel de significancia del 0.05 pruebe la hipótesis del gerente versus la hipótesis del presidente de los vendedores que afirma que el promedio de las vendas semanales es superior a $1500. Para probar esta hipótesis, se obtiene una muestra de 36 vendedores en donde se obtiene una media igual a $ 1510 y una varianza igual a 900 $2 en una semana.
5)
Suponga que el administrador de una flota de 500 taxis en una ciudad grande desea reevaluar el contrato de mantenimiento de sus vehículos. Una parte importante del análisis considera el “desgaste” de los vehículos, es decir el desg aste diario representado por los kilómetros recorridos
por el taxi por día. Al examinar su contrato, el administrador decide que quiere renegociarlo o cambiarlo si el promedio es más de 70 Km. Por día. El administrador registra la lectura de los Km cada vez que un taxi sale de la base, la diferencia representa los kilómetros totales recorridos por el taxi por día. Se elige una muestra de 16 taxis de la flota. La siguiente tabla contiene los kilómetros recorridos en un día específico. 107.1
121.0
71.2
76.1
95.7
92.8
74.8
92.1
94.4
42.5
82.3
56.5
74.6
91.7
63.7
62.8
Manuel Hurtado Sánchez
Página 35
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
El administrador sabe que Ud. está llevando un curso de estadística y le pide que analice los datos. Utilice un nivel de significancia α = 0.05 ¿Qué concluiría acerca del kilometraje promedio recorrido
por día? 6) Para comparar la aptitud de dos poblaciones de estudiantes pre universitarios se toman dos muestras aleatorias respectivas de tamaños 20 y 25, dando las medias respectivas de 200 y 205 puntos. Suponga que las dos poblaciones son normales con Al nivel de significancia del 1%, se podrá concluir que las medias de dos poblaciones son distintas?
8, 7.
7) Un agente de compras de una compañía se vio confrontado con dos marcas de computadoras para su adquisición. Se le permitió probar ambas marcas asignando una misma tarea a 50 máquinas de cada marca, resultando las medidas respectivas 55 y 50 minutos. Suponga las dos poblaciones tienen varianzas homogénea igual a 100. Para α= 0 .05
a) ¿Excede el tiempo promedio de la marca 1 al de la marca 2 ? b) Hallar la potencia de la prueba cuando la diferencia real entre promedios de tiempo de marca 1 menos marca 2 sea 3 minutos 8) Se quiere determinar la diferencia entre los promedios de tiempos (en minutos) que utilizan los hombres y las mujeres para realizar determinada tarea. Con este fin se escogen 16 hombres y 16 mujeres al azar resultando los tiempos promedios respectivos 40 y 35 minutos, y desviaciones estándar respectivos 9 y 8 minutos. Suponga que las poblaciones de ambos tiempos son independientes y que se distribuyen normalmente con varianzas iguales. Al nivel de significación del 1% ¿es el tiempo promedio de hombres mayor al tiempo promedio de mujeres?
̅ 8000 ̂
9) Una compañía debe decidir cuál de dos tipos de componente electrónica A o B va a adquirir. Hace una prueba de 5 componentes escogidos al azar para cada marca, resultando y horas para A y y 800 horas para B. suponga poblaciones normales con varianzas diferentes. Prueba la hipótesis nula que los rendimientos medios son guales contra la
2500
̅ 7000 ̂
alternativa de que A rinde más que B. Use α= 0.05
10) Una encuesta efectuada a una muestra aleatoria de 150 familias en cierta comunidad urbana reveló que, en el 87 por ciento de los casos, por lo menos uno de los miembros de la familia tenía alguna forma de seguro relacionado con la salud. ¿Será esta una evidencia suficiente con una confianza de 0.95, para afirmar que la proporción real de familias en la comunidad con dicha característica es mayor a 0.85?. 11) En una muestra de 400 personas se encontró que el 71 personas que habían fumado alguna vez en su vida. ¿Será esta una evidencia suficiente con una confianza de 0.95 para afirmar que la proporción poblacional de personas que han fumado alguna vez es menor de 0.20?. 12) En una muestra de 144 varones y 144 mujeres se encontró que el 20 por ciento de varones preferían películas de acción frente al 14 por ciento de mujeres que prefieren el mismo tipo de películas. ¿Puede afirmarse que, en general, los varones prefieren más las películas de acción que las mujeres? 13) Una empresa de estudios de mercado quiere saber si un producto promocionado a nivel nacional lo adquieren los hombres en mayor porcentaje que las mujeres. Si en dos muestras aleatorias
Manuel Hurtado Sánchez
Página 36
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
independientes de 900 hombres y 800 mujeres se encontró que 270 hombres y 200 mujeres adquieren el producto, ¿Cuál es su decisión a nivel α= 0.004?
14) Verificar la afirmación de que la diferencia - es menor que 5 % donde y son las proporciones de objetos defectuosos de dos fabricantes A y B, si dos muestras aleatorias independientes de 200 objetos de cada fabricante dan 20 y 12objetos defectuosos respectivamente para A y B. Use el nivel de significación: 5%. 15) En una muestra de 500 hogares de Trujillo se encuentra que 50 de ellos están viendo vía satélite un programa especial de televisión. En Tarapoto, 28 hogares de una muestra aleatoria de 400 se encuentran viendo el mismo programa especial. ¿Puede rechazarse la suposición de los patrocinadores que el porcentaje de hogares que están observando el programa especial es el mismo en las dos ciudades? Utilice una prueba bilateral y α= 0 .05
16) En un estudio de mercado para determinar el rating de los programas de TV del mediodía una muestra aleatoria de 400 hogares de cierta comunidad revela que 80 están sintonizando el programa de TV B, 120 sintonizan el programa G y el resto sintoniza otra cosa. ¿Es la proporción global de televidentes que sintonizan el programa B igual al que sintonizan G? Utilice α= 0.01 y una prueba bilateral. 17) Una agencia de publicidad realizó un estudio para comparar la efectividad de un anuncio en la r adio en dos distritos. Después de difundir dicho aviso, se realizó una encuesta telefónica con 600 personas seleccionadas al azar, que viven en cada uno de los distritos resultando las proporciones: 20% y 18% respectivamente. Verificar, al nivel de significación del 5%, si son iguales de las proporciones de personas que escucharon dicho aviso en los dos distritos mediante una prueba unilateral. 18) En una isla, una cadena de hoteles tiene dos instalaciones. Al tabular las respuestas a la pregunta ¿elegiría este hotel otra vez? , 163 de 227 huéspedes en el beachconber contestaron que si y 154 de 262 huéspedes del Windsurfer respondieron que si. Con un nivel de significancia de 0.05 ¿existen indicios de una diferencia significativa en la satisfacción del cliente (medida por la probabilidad de que regrese al hotel) entre los dos hoteles? 19) Suponga que una compañía de aplicaciones de software desarrolla un nuevo paquete de aplicaciones financieras. Como el tiempo de procesamiento en la computadora es un criterio importante, el investigador diseña un experimento en el que se usarán ciertos proyectos de aplicación financiera, tanto en el producto, líder como en el nuevo paquete. Los resultados se muestran en la siguiente tabla Mediciones repetidas de tiempo en segundos para proyectos de aplicación financiera terminados en dos paquetes de software específicos. Usuario del proyecto 1 2 3 4 5 Manuel Hurtado Sánchez
Tiempos de terminación (segundos) Con el producto líder (A)
Con el nuevo software (B)
9.98 9.88 9.84 9.99 9.94
9.88 9.86 9.75 9.80 9.87 Página 37
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación 6 7 8 9 10
9.84 9.86 10.12 9.90 9.91
9.84 9.87 9.86 9.83 9.86
La pregunta en este caso es si este nuevo software es más rápido o no. Utilice un nivel de significancia de 0.05 20) Con el fin de medir el efecto de una campaña de ventas en toda la tienda para los artículos que no se ponen en barata. El director de investigación de una cadena de supermercados tomó una muestra aleatoria de 13 pares de tiendas según su volumen de ventas semanales. Una tienda de cada par (el grupo experimental) se expuso a una campaña de ventas y la otra no (grupo de control) Los siguientes dato indican los resultados para un período de una semana.
Grupo Tienda
Con campaña, de ventas (G. Experimental)
Sin campaña, de ventas (G. Control)
1 2 3 4 5 6 7 8 9 10 11 12 13
67.2 59.4 80.1 47.6 97.8 38.4 57.3 75.2 94.7 64.3 31.7 49.3 54.0
65.3 54.7 81.3 39.8 92.5 37.9 52.4 69.9 89.0 58.4 33.0 41.7 53.6
Para un nivel de significancia de 0.05 ¿Puede el director de investigación concluir que existe evidencia de que la campaña de ventas aumentó las ventas promedio de los artículos que no se ponen en barata?
Manuel Hurtado Sánchez
Página 38
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
III UNIDAD: ANALISIS DE DATOS CATEGÓRICOS En este capítulo se discutirán técnicas estadísticas para analizar datos categóricos, los cuales representan atributos o categorías. Primero se discuten la relación entre las variables que definen las filas y las columnas de las tablas y luego se estudian medidas que dan una medida del grado de asociación entre las dos variables categóricas.
PRUEBA DE INDEPENDENCIA Y DE HOMOGENEIDAD PRUEBA DE INDEPENDENCIA DE CRITERIOS EN TABLAS DE CONTINGENCIA Esta prueba consiste en determinar si dos criterios de clasificación son o no independientes, para lo cual organiza la información mediante las denominadas TABLAS DE CONTINGENCIA, las cuales son tablas de doble entrada y cada entrada constituye un criterio de clasificación o variable cualitativa Supongamos que cada elemento de la población se clasifica de acuerdo a dos características distintas, que denotaremos como la característica X y la característica Y. Suponemos que la característica X puede tomar valores diferentes; y la característica Y, valores diferentes. Denotamos con para todo y
,
1, 2 , … , 1,…. ,
Es decir que representa la probabilidad de que un miembro de la población, tomado de forma aleatoria, tenga el valor en la característica X y el valor en la característica Y. Se supondrá que los distintos miembros de la población son independientes. Denotemos también Y
∑= ∀ 1, … , ∀ 1, … , =
Es decir que es la probabilidad de que un miembro arbitrario de la población tenga el valor de la característica X y es la probabilidad de que un miembro arbitrario de la población tenga el valor de la característica Y.
Manuel Hurtado Sánchez
Página 39
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
1. Queremos probar la hipótesis de que las características X y Y de un miembro de
la población son independientes. Por lo tanto probaremos: y
: × 1,…, 1,…, : ≠ ×, 1,…, 1,…, :: óó La hipótesis alternativa será
En palabras esta hipótesis puede entenderse como:
Los datos son organizados en una tabla de doble entrada o también conocida como tabla de contingencia, donde cada una de las entradas constituyen los criterios de clasificación 1° criterio de clasificación A1 A2 A3 A4 Total T.j
En esta tabla
B1 O11 O21 O31 O41 T.1
4 3
2° Criterio de clasificación B2 O12 O22 O32 O42 T.2
B3 O13 O23 O33 O43 T.3
Total Ti. T1. T2. T3. T4. T..
, es decir que tiene 5 filas y 4 columnas
2. Se elige el nivel de significancia para la prueba
La estadística de Prueba es
0.05, 0.01
( ) = =
~ −− ú í 1° ó ú í 2° ó , . ×. Donde:
. , Manuel Hurtado Sánchez
Página 40
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ó 1×1 −− 4 3 1×141×313×26 Si
, entonces
Supuesto s de la Prueba Ji Cuadrado Esta prueba tiene dos supuestos que cumplir
1°. No deben existir celdas vacías, es decir que
>0, ∀ , 1, … ,
2°. A lo más el 20% del total de celdas podrían tener frecuencias esperadas menores que 5 .
( <5)
Estos supuestos hacen que esta prueba necesite gran cantidad de información, puesto que el incumplimiento de cualquiera de ellos la invalida. 3. La región de rechazo será
Si
{, > −−,} 4 3 0. 0 1 −−,. , . 12.59 , >12.59
Entonces roja en la siguiente figura.
, entonces
, la cual está representada por la línea
4. Encontrar el valor experimental de la estadística de prueba información de la muestra en la estadística de prueba. Manuel Hurtado Sánchez
, remplazando la
Página 41
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
∈
_
<
5. Decisión: Si entonces rechazar la hipótesis nula , caso contrario, no rechazarlo. Otra manera de decidir es calculando de , y si entonces rechazar la hipótesis nula , caso contrario no rechazarlo.
Ejemplo. Una empresa que vende cuatro productos, desea determinar si las ventas se han distribuido similarmente entre cuatro clases generales de clientes. Una muestra al azar de 1000 registros de ventas proporciona la siguiente información. Use
∝ 0.01
Valores observados Grupo de clientes
Producto 1
2
3
4
Total (Ti.)
85
23
56
36
200
Hombres de negocios
153
44
128
75
400
Obreros industriales
128
26
101
45
300
Granjeros
34
7
15
44
100
Total (T.j)
400
100
300
200
1000
Profesionales
1. Las hipótesis en prueba son:
: : Valores esperados Producto Grupo de clientes
1
2
3
4
Profesionales
80
20
60
40
Hombres de negocios
160
40
120
80
Obreros industriales
120
30
90
60
Granjeros
40
10
30
20
Total
Total
Manuel Hurtado Sánchez
Página 42
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Cálculos del valor experimental de la estadística de prueba Producto Grupo de clientes
1
2
3
4
Profesionales
0.313
0.450
0.267
0.400
Hombres de negocios
0.306
0.400
0.533
0.313
Obreros industriales
0.533
0.533
1.344
3.750
Granjeros
0.900
0.900
7.500
28.800 47.242
8580 4420 80 ⋯. 20 0.313⋯.28.800 47.242 , > , . 21.67
La región de rechazo es
Decisión: Como el valor experimental de la estadística pertenece a la región de rechazo, entonces rechazamos Ho; Conclusión Las ventas de los diferentes tipos de productos si dependen del tipo de cliente con un coeficiente de significancia es 0.01.
Manuel Hurtado Sánchez
Página 43
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
MEDIDAS DE ASOCIACIÓN
A continuación desarrollaremos algunas medidas de asociación que nos permitirán, entre otras cosas, cuantificar, si es el caso, el grado de asociación entre dos variables categóricas (nominales) o entre dos criterios de clasificación. COEFICIENTE DE ONTINGENCIA DE PEARSON Este coeficiente mide el grado de asociación o correlación entre las dos variables cualitativas o criterios de clasificación. Toma valores entre 0 y 1. Mientras más cercano se encuentre al cero (0) la correlación será más débil, en cambio mientras más cercano esté del 1, la correlación será más fuerte.
Ejemplo: Para el ejemplo anterior, el coeficiente de contingencia de Pearson será.
47.242242 0.2124 100047.
Podemos apreciar que este coeficiente es pequeño, por lo que debemos concluir que si bien es cierto, los dos criterios de clasificación son dependientes; sin embargo el grado de asociación entre ellos es pequeña. COEFICIENTE DE ONTINGENCIA DE CRAMER Este coeficiente mide el grado de asociación o correlación entre las dos variables cualitativas o criterios de clasificación. Toma valores entre 0 y 1. Mientras más cercano se encuentre al cero (0) la correlación será más débil, en cambio mientras más cercano esté del 1, la correlación será más fuerte.
Donde:
ℎí ,
ℎ1
Ejemplo: Para el ejemplo anterior, el coeficiente de contingencia de Pearson será.
ℎí, í4,4 4 Manuel Hurtado Sánchez
Página 44
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
100041 47.242 0.1255 ℎ1 Podemos apreciar que este coeficiente es pequeño, por lo que debemos concluir que si bien es cierto, los dos criterios de clasificación son dependientes; sin embargo el grado de asociación entre ellos es pequeña. PRUEBAS DE HOMOGENEIDAD Las pruebas de homogeneidad se usan para determinar si dos o más muestras independientes al azar son extraídas de la misma población o de diferentes poblaciones La prueba Ji Cuadrado de homogeneidad es una extensión de la prueba Ji Cuadrado de independencia. En ambos casos tratamos con datos clasificados en tablas de doble entrada también conocidas como tablas de clasificación cruzada o tablas de contingencia. Como veremos inmediatamente, también, la misma estadística de prueba usada para pruebas de independencia es usada para pruebas de homogeneidad. Pero estos dos tipos de prueba son diferentes en algunos aspectos. Primero , se asocian con diferentes clases de problemas . Las pruebas de Independencia se aplican al problema de si un atributo es independiente de otro; mientras que las pruebas de homogeneidad se aplican cuando se desea saber si diferentes muestras proceden de la misma población. Segundo, las primeras suponen una sola muestra tomada de una población; pero las segundas, suponen dos o más muestras independientes, una de cada una de las poblaciones en cuestión. Este segundo hecho también implica que, en el caso de
Independencia, todas las frecuencias marginales son cantidades al azar, mientras que en el caso de homogeneidad, los totales de las filas son tamaños de muestra que son números escogidos. Para ilustrar este tipo de prueba, supongamos que se toman tres muestras, una consta de 115 profesionales, otra de 110 hombres de negocios y otra y otra de 125 granjeros. A cada individuo de las muestras se le pide que escoja, por ejemplo, una de las tres categorías que represente mejor sus sentimientos hacia determinada política nacional. Supongamos que estas tres categorías son: 1) A favor de la política, F; 2) en contra de la política, A; 3) Indiferente hacia la política I. Supongamos que los resultados de las entrevistas se distribuyen como sigue:
Manuel Hurtado Sánchez
Página 45
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
DATOS OBSERVADOS Reacción Ocupaci ón
En favor de la
En contra contra de la Indiferente hacia la
Total
política( F)
política( A)
política( política( I )
Profesi onal es
80
21
14
115
Hombres de negoci os
72
15
23
110
Grenjeros
69
31
25
125
Total
221
67
62
350
De la forma en que es planteado plan teado el problema, una hipótesis nula apropiada que ha de comprobarse parece ser: Las tres muestras proceden de la misma población; es decir, las tres clasificaciones clasificaciones son homogéneas en lo que respecta a la opinión de los tres grupos diferentes de personas acerca de la política nacional que se considera. Esto también significa que no existe diferencia de opiniones entre las tres clases de personas sobre la cuestión. De la expresión alternativa de la hipótesis nula para este problema podemos ver por qué se la llama una prueba de homogeneidad. (cuando decimos que las cosas son homogéneas entendemos que tienen algo en común o son iguales) Vemos que si la hipótesis nula expuesta antes es cierta, entonces las mejores estimaciones de proporciones que especifican “en favor de la política”, “en contra de la película“ e “indiferente hacia la política”, respecti vamente deben
⁄ ,67350 ⁄ 6262⁄350 221350 × 72.72.61 67×115 350 22.01 62×115 350 20.37
ser: . Así, de los 115 profesionales, las frecuencias esperadas para las tres categorías son:
Las frecuencias esperadas para los otros dos grupos de personas se calculan de igual modo. Las frecuencias esperadas para todo el problema son como sigue. DATOS ESPERADOS Reacción Ocupación
En favor de la
En contra contra de la Indiferente hacia la
Total
política( F)
política( A)
política( política( I )
Profesi onal es
72.614
22.014
20.371
115
Hombres de negoci os
69.457
21.057
19.486
110
Grenjeros
78.929
23.929
22.143
125
221
67
62
350
Total
Manuel Hurtado Hurtado Sánchez Sánchez
Página 46
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Siguiendo otra vez nuestro procedimiento general de prueba de hipótesis, tenemos esta prueba de homogeneidad para el problema: 1° Hipótesis: Ho: Las tres muestras son extraídas de la misma población Ha: Las tres muestras son extraídas de diferentes poblaciones 2° Nivel de Significancia: 3° Estadística de Prueba:
∝ 0 0.05 ( ) ~ − − = = {, > −−, ,. 9.49}
4° Regla de decisión:
5° Valor de la estadística de prueba:
8572. 6 1 1 2522. 1 4 4 72.61 ⋯. 22.14 8.96 ,→ , → ℎℎ
6° Decisión: Como Por lo tanto Las tres muestras son extraídas de la misma población, es decir que las opiniones de los profesionales, los hombres de negocios y los granjeros son homogéneas en cuanto se refiere a la política nacional que se discute
Manuel Hurtado Hurtado Sánchez Sánchez
Página 47
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejercicios 5 1. Una tienda de departamentos emplea a 300 hombres y 400 mujeres. En un año dado, fueron registrados 3100 días de ausencia de ausencia para hombres y 4600 días de ausencia para mujeres. ¿Podríamos decir que la ausencia al trabajo depende del sexo de los trabajadores?. Use una prueba Ji cuadrado de independencia de criterios con . 2. Una firma de investigación de mercados desea determinar si la inclusión de un pago de 5 soles aumentaría el número de respuestas. 300 cuestionarios, la mitad con un pago de 5 soles y la otra mitad sin dicho pago, son entrevistados a 300 personas escogidas al azar; se obtienen los siguientes resultados Respondieron Pago de 5 soles Total Si No Si 97 53 150 No 80 70 150 Total 177 123 300 ¿Hay evidencia empírica suficiente con , para afirmar que la respuesta al cuestionario depende del pago de 5 soles por encuesta? 3. Se toman tres muestras al azar de estudiantes de cierta universidad. La primera contiene 100 estudiantes graduados, la segunda contiene 100 estudiantes del último semestre, y la tercera 100 estudiantes del 1° semestre. A los miembros de cada muestra se les pregunta si la instrucción que están recibiendo la consideran excelente, buena o media y se obtienen los siguientes resultados.
0. 0 1
∝0.05
Respondieron Excelente Buena 77 12 73 7 85 10
Clasificación Graduados ltimo semestre Primer semestre
Media 11 20 5
¿Podemos afirmar que las clasificaciones son homogéneas en cuanto a la percepción del servicio recibido? 4. En un estudio sobre drogodependencias se han obtenido sendas muestras de hombres y mujeres de niveles socio-económicos similares a los que se les ha preguntado por el consumo diario de alcohol (medidos en el equivalente a vasos de vino). El resultado de las respuestas se recoge en la siguiente tabla de d e contingencia:
Sexo
Consumo diario de alcohol alcohol (en (en vasos)
Total
0
1
2
3
4
5 ó más
Mujer
2 32
24 42
49 66
24 40
17 15
10 5
126 200
Total
34
67
117
67
36
15
326
Varón
Manuel Hurtado Hurtado Sánchez Sánchez
Página 48
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Pruebe si el consumo es homogéneo entre ambos sexos, es decir, si las proporciones de hombres y mujeres que consumen un determinado número de vasos diarios de vino son las mismas. 5. Una editorial editorial italiana, italiana, Cuore Editrice, especializada en la llamada llamada prensa del corazón, pretende lanzar al mercado español un u n nuevo producto. Por tratarse de un mercado muy saturado, la editorial ha encargado un encuesta para conocer los gustos de sus potenciales lectores y poder así diseñar diseña r una revista con garantías de éxito. Uno de los objetivos de la encuesta es conocer si, como habitualmente se afirma, este tipo de revistas es más leída por las mujeres. el resultado de la encuesta aplicada a 325 personas ha dado lugar a la siguiente tabla de contingencia: Sexo Varón Mujer Total
Lectura de la revista Si lee No lee 80 55 131 59 211 114
Total 135 190 325
Al afirmar que las mujeres son las lectoras mayoritarias de estas revistas, estamos admitiendo simultáneamente que los hombres lo hacen en menor medida. Una forma de referirnos a este doble hecho es afirmando que la lectura de estas revista está asociada al, o depende del sexo del, lector. Por lo tanto se le pide probar la hipótesis de independencia entre los hábitos de lectura de esta clase de revistas y el sexo del lector. 6. Estamos interesados interesados en estudiar la satisfacción satisfacción de cierto sistema de atención al público con relación al operario que suministra el servicio. Para realizar esto, tomamos una muestra de 110 clientes atendidos por el 1° canal de atención, 100 del 2° y 90 del 3° canal de atención, y de cada uno de ellos tres canales de atención medimos el número de clientes no satisfechos en cada. La siguiente tabla muestra el número de clientes no satisfechos en cada uno de los canales de atención al cliente. del cliente Total de clientes Canal de servicio NoSatisfacción satisfecho Satisfecho en la muestra 1° Canal de servicio 16 94 110 2° Canal de servicio 24 76 100 3° Canal de servicio 9 81 90 Total 49 251 100 ¿Con una confianza del 0.95, se podrá decir decir que hay homogeneidad en los los tres canales de servicio? 7. Estamos interesados en estudiar la relación relación entre la presencia de sueño en el trabajo y los hábitos de consumo de café. Para realizar esto seleccionamos una muestra de 150 individuos, 100 individuos consumidores consumido res de café y 50 no Manuel Hurtado Hurtado Sánchez Sánchez
Página 49
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
consumidores. La siguiente tabla muestra las frecuencias de la presencia de sueño el trabajo en cada grupo. Hábitos de consumo de café Consumidor No consumidor
Total
Presencia de sueño en el trabajo Si No 12 88 25 25 37 113
Total 100 50 150
Realizar un contraste de homogeneidad y obtener las conclusiones sobre la relación entre las variables. 8. Para estudiar la dependencia entre la práctica de algún deporte y el estado de ánimo en el trabajo, se seleccionó una muestra aleatoria simple de 100 trabajadores, con los siguientes resultados: Actividad Deportista No deportista
Total
Estado de ánimo en el trabajo Deprimido No deprimido 38 9 31 22 69 31
Total 47 53 100
Determinar si existe independencia entre la actividad del trabajador y su estado de ánimo. Nivel de significación (5%) 9. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de violencia vista en la televisión y la edad del televidente produjo los siguientes resultados. Cantidad de violencia vista en la TV Poca violencia Mucha violencia
Total
Edad del televidente (años) 15 - 34 35 - 54 55 a más 8 12 21 18 15 7 26 27 28
Total 41 40 81
¿Indican los datos que ver violencia en la televisión depende de la edad del televidente, a un nivel de significación del 5%?
Manuel Hurtado Hurtado Sánchez Sánchez
Página 50
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
IV. UNIDAD: MUESTREO 1. MUESTREO 6. MUESTREO: El Muestreo es parte de la Estadística. En su formulación más general, puede decirse que su función básica es determinar qué parte de una realidad en estudio a la que suele llamarse población debe examinarse con la finalidad de hacer inferencia sobre el todo de la población de la que procede. El muestreo es, una herramienta de la investigación científica; según Cochran W. Tiene como objetivo desarrollar métodos de selección de muestras y de estimación, que proporcionen, al menor costo posibles, estimaciones con la suficiente exactitud para nuestros propósitos. 7.
VENTAJAS DEL MUESTREO.-
COSTO REDUCIDO.Si los datos se obtienen únicamente de una pequeña fracción del total, los gastos son menores que los que se realizarían si se llevara a cabo un censo completo. En poblaciones muy grandes se pueden obtener resultados lo suficientemente exactos cuando se analizan muestras que representan sólo una pequeña fracción de la población. 7.1.1.1.2. MAYOR RAPIDEZ.Los datos pueden ser recolectados y resumidos más rápidamente con una muestra que con una enumeración completa. Esta es una consideración vital cuando se necesita la información con urgencia. 7.1.1.1.1.
MAS POSIBILIDADES.7.1.1.1.3. Para obtener la información en ciertos tipos de encuestas, se utilizan los servicios de personal altamente calificado o equipo muy especializado de disponibilidad limitada. Por lo tanto, en estos casos el censo completo es impracticable y como alternativa a la obtención de datos por muestreo, solo existe la de no obtenerlos. De ahí que las encuestas basadas en el muestreo tengan más posibilidades y flexibilidad respecto a la información que puede obtenerse. MAYOR EXACTITUD.7.1.1.1.4. Debido a que al reducir el volumen de trabajo se puede emplear personal más capacitado y someterlo a un entrenamiento intensivo y debido también a que en estas condiciones será factible la supervisión cuidadosa del trabajo de campo y del procesamiento de los datos, una muestra puede producir resultados más exactos que la enumeración completa.
7.1.1.1.5. ÚNICO MÉTODO DE ESTUDIO.Hay situaciones en las que la observación de unidades implica la destrucción de las mismas, el muestreo en el único método lógico de obtener datos para tener información de la población. Manuel Hurtado Sánchez
Página 51
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
TERMINOLOGÍA TÉCNICA: 7.1.1.1.6. UNIDAD DE OBSERVACIÓN.Son los elementos de la población sobre los cuales se medirán las variables de interés. Ésta es la unidad básica , a veces llamada elemento. En los estudios de poblaciones humanas la unidad de observación son los individuos. Ejemplo: En una investigación sobre el estado nutricional y el rendimiento escolar de los niños del nivel primario; la unidad de observación son los niños del nivel primario. 7.1.1.1.7. POBLACION.Es el conjunto de todas las unidades de análisis cuyas características se van a estimar. Una población debe definirse en términos de su contenido, extensión y tiempo
Ejemplo: Estudiantes del Colegio Nacional San José de Chiclayo, matriculados en el año 2013 Una población en estudio debe estar definida sin ambigüedad, de manera que no dé lugar a confusiones.
7.1.1.1.8. POBLACION OBJETIVO.La población objetivo está constituida por todos los elementos (unidades de observación), sin límite a través del tiempo y del espacio, que constituyen el objetivo final de la generalización o inferencia. POBLACION MUESTRAL.La población muestral está constituida por una parte o un subconjunto de la población objetivo. Está determinada y delimitada en el tiempo y en el espacio y de cuyos elementos en la práctica se obtiene la muestra para realizar el estudio.
7.1.1.1.9. MUESTRA.Una muestra es un conjunto de unidades, una porción del total, que nos representa la conducta del universo en su conjunto. Una muestra, en un sentido amplio, no es más que eso, una parte del todo que llamamos universo y que sirve para representarlo. Sin embargo, no todas las muestras resultan útiles para llevar a cabo un trabajo de investigación. Lo que se busca al emplear una muestra es que, observando una porción relativamente reducida de unidades, se obtengan conclusiones semejantes a las que lograríamos si estudiáramos el universo total. Cuando una muestra cumple con esta condición, es decir, cuando nos refleja en sus unidades lo que ocurre en el universo, la llamamos muestra representativa . Por lo tanto, una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población. Manuel Hurtado Sánchez
Página 52
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Sus conclusiones son susceptibles de ser generalizadas al conjunto del universo, aunque para ello debamos añadir un cierto margen de error en nuestras proyecciones. Las muestras pueden ser clasificadas, en una primera división en probabilísticas y no probabilísticas. En las muestras probabilísticas, la característica fundamental es que todo elemento del universo tiene una determinada probabilidad de integrar la muestra, y esa probabilidad puede ser calculada matemáticamente con precisión. En las muestras no probabilísticas ocurre lo contrario y el investigador no tiene idea del error que puede estar introduciendo en sus apreciaciones. 7.1.1.1.10. UNIDAD DE MUESTREO .La unidad de muestreo y la unidad de análisis son las mismas, pero hay casos en que no lo son. Una unidad de muestreo puede contener un conjunto de unidades de observación o, incluso, un conjunto de unidades de muestreo correspondientes a una etapa posterior de selección. Ejemplo:
Podríamos querer estudiar a las personas, pero no tenemos una lista de todos los individuos que pertenecen a la población objetivo. En vez de esto, la vivienda sirven como las unidades de muestreo y las unidades de observación son los individuos que viven en una vivienda . 7.1.1.1.11. MARCO MUESTRAL.-
Un marco muestral es una lista de unidades de muestreo de tal forma que se pueda seleccionar de allí, las unidades que constituirán la muestra. El marco muestral es indispensable, al menos cuando se trata de realizar un muestreo probabilístico. Debe ser actualizado (sin omisiones ni duplicaciones.) Ejemplos de marcos muestrales: 1. La guía telefónica 2. Padrón de empresas públicas y privadas 3. Un plano de la ciudad. 4. Mapa de un país. 5. El listado de alumnos. 6. Área de un terreno de cultivo. 7.1.1.1.12. PLAN MUESTRAL.Conjunto se reglas o especificaciones para seleccionar una muestra.
Manuel Hurtado Sánchez
Página 53
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
7.1.1.1.13. DISEÑO MUESTRAL.- El diseño muestral comprende el método de selección y estimación, el cual debe ser indicado en todo estudio muestral.
Ejemplo: Los Estilos de vida de los residentes en distrito de Chiclayo Variable en estudio: Estilos de Vida. Escala de medida: Nominal
Unidad de Observación: Cada uno de los residentes del distrito de Chiclayo Población Objetivo:
Todos los residentes
Población Muestral :
Todos los residentes del distrito de Chiclayo
Ejemplo: Si se desea estudiar factores que influyen, para drogarse, en los Jóvenes de una determinada ciudad, no se podría tener información sobre cuántos son, dónde viven, como se llaman, por lo que sería imposible extraer una muestra de estos Jóvenes. El investigador tendría que tomar una muestra de casas para poder llegar a los Jóvenes.
Manuel Hurtado Sánchez
Página 54
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
8. TIPOS DE MUESTREO
9. MUESTRAS NO ALEATORIAS Si consideramos que no precisamos cifras exactas sobre la representatividad estadística de nuestros resultados, podríamos plantearnos el usar una muestra no aleatoria (o "no probabilística"), lo que significa que elegiremos a voluntad nuestra. Podemos considerar que esto puede ayudarnos a obtener los elementos que necesitamos estudiar directamente y, además, actuar sin los tediosos procesos de selección aleatoria y verificación estadística.
Manuel Hurtado Sánchez
Página 55
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Sin embargo, hay una desventaja: corremos un gran riesgo de obtener demasiado sesgo en la muestra. No seremos capaces siquiera de advertir la presencia, y menos aún la cantidad, de sesgo si hacemos personalmente la selección de la muestra. Y la presencia de sesgo puede hacer imposible generalizar nuestros resultados. Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o grupo la selección de los elementos. Estas muestras son bastante útiles en aquellas situaciones en las cuales no es posible utilizar un muestreo probabilista, es decir cuando no es posible disponer de un marco muestral para la selección de los elementos de la muestra. Su utilización está reservada solo para aquellos investigadores que conocen la estructura de la población y tienen un criterio suficientemente bueno para conseguir representatividad; incluso si se dispone de un buen criterio para conseguir representatividad es posible obtener mayor precisión a más bajos costos que con un muestreo probabilista. Entre los tipos comunes de muestras no aleatorias se incluyen, Muestra de "casos típicos " o los "mejores" casos es algo bastante tradicional en historia del arte: estudiar solamente los "grandes maestros". La idea es que éstos representan lo más auténtico de su época. Tal selección deliberada por parte del investigador tiene no obstante riesgos serios, que se tratan en el punto Delimitar el objeto de estudio. Muestra de conveniencia . Un grupo existente, por ejemplo la gente en una reunión, podría ser designado como muestra. Este es un método fácil y barato, pero el sesgo suele ser imposible de estimar. El método es popular en las demostraciones de cursos sobre métodos, pero raramente usado en la investigación profesional. Muestra de voluntarios es creada cuando todos los miembros de la población tienen la oportunidad de participar en la muestra. Un ejemplo es la respuesta voluntaria de los clientes que llega a una empresa; igualmente, las respuestas que un investigador recibe a un anuncio en un periódico pidiendo a la gente sus opiniones. Una muestra de voluntarios suele ser una alternativa bastante sensata; no obstante, el investigador debe considerar cuidadosamente los riesgos de sesgo. Hay dos cuestiones que plantearse: ¿Es cierto que todos los miembros de la población bajo muestreo tenían las mismas oportunidades de ser incluidos en la muestra? Por definición, los voluntarios difieren de la media de la población en su mayor actividad. La cuestión crucial entonces es ¿difieren del resto de la población también en otros aspectos?. Muestra bola de nieve . Cuando se entrevista a miembros de un grupo, podemos pedir a las personas que nos indiquen otros individuos en ese grupo que estén en la mejor posición para dar información sobre ese tema; podríamos también pedirles que nos indicasen personas que compartan sus puntos de vista y también otras que sean de opinión opuesta. Entonces entrevistaremos a nuevos individuos y continuaremos del Manuel Hurtado Sánchez
Página 56
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
mismo modo hasta que no obtengamos nuevos puntos de vista de nuevos entrevistados. Este es un buen método por ejemplo para recoger los distintos puntos de vista existentes en un grupo, pero su inconveniente es que no obtenemos una idea exacta de la distribución de las opiniones. En el momento de diseñar una muestra no aleatoria, debemos siempre tener en mente la población. ¿Es representativa la muestra? ¿Son válidos los resultados en la población? Recordemos también que no tenemos que incluir elementos que no sean miembros de la población en nuestra muestra.
Por ejemplo, podríamos decidirnos (de forma bastante sensata) por investigar las preferencias de los clientes de electrodomésticos entrevistando a vendedores. O podríamos estudiar las historias de vida de arrendatarios mediante un cuestionario a administradores de casas o caseros. La idea es factible, ya que esta gente habitualmente conoce mucho sobre el tema. Sin embargo, los "especialistas" no pueden ser tomados como muestra de "no especialistas". Son dos poblaciones diferentes. No debiéramos generalizar los resultados de "especialistas" a ninguna otra población que no sea la de "especialistas", cualquiera que sea el campo del que tratemos. En los ejemplos de arriba, podríamos tal vez continuar transformando los resultados a partir de los especialistas en hipótesis que más tarde verificaríamos con una muestra apropiada de la población "real" o de no especialistas, que serían en los ejemplos citados, respectivamente, los consumidores y los arrendatarios. En otras palabras, podríamos usar la entrevista de los especialistas sólo como un estudio preliminar. 10.
Tamaño de Muestras no aleatorias
No hay fórmula para determinar el tamaño de una muestra no aleatoria. Con frecuencia, especialmente en investigaciones cualitativas, podemos simplemente ampliar gradualmente nuestra muestra y analizar los resultados siempre que continúen llegando nuevos casos con información relevante o nueva; en cambio, cuando en los casos nuevos ya no se presenta información nueva, podemos concluir que nuestra muestra está saturada, y terminaremos el trabajo de muestreo. Este método es, sin embargo, muy vulnerable al muestreo sesgado, con lo que tenemos que ser muy cuidadosos y asegurarnos que no omitimos a ningún grupo de nuestra población. Antes de decidir el tamaño de una muestra no aleatoria, tal vez debamos leer cómo debe ser evaluada la representatividad de los resultados a partir de una muestra no aleatoria. De otro modo podríamos sufrir una sorpresa bastante desagradable cuando estemos intentando, demasiado tarde, definir la población en que nuestros resultados puedan ser declarados válidos.
Manuel Hurtado Sánchez
Página 57
UNIVERSIDAD SAN PEDRO
11.
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ERROR DE MUESTREO:
Recordemos que la muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen a la población de la cual fue extraída, lo cual nos indica que es representativa. Es decir, que para hacer una generalización exacta de una población, es necesario tomar una muestra representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra. Cuando trabajamos con muestras, generalmente se presentan dos tipos de errores: Error sistemático . Llamado de distorsión o sesgo de la muestra, se presentan por causas ajenas a la muestra: se presentan, por ejemplo, cuando el encuestador tiene dificultades para obtener la información y la sustituye por la que más fácilmente está a su alcance, que no siempre es la más confiable. Insuficiencia en la recolección d e datos : hay distorsión por falta de respuestas, o respuestas inadecuadas, ya sea por ignorancia o falta de datos relativos a los elementos incluidos. Distorsiones del encuestador causadas por prejuicios, interés personal o por fallas en la aplicación de instrumentos. Errores de cobertura a causa de que no se han incluido elementos importantes y significativos para la investigación que se realiza.
Situaciones inadecuadas :
sea el procedimiento utilizado y la perfección del método empleado, la muestra diferirá de la población. A esta diferencia se la denomina error de muestreo.
Error de muestreo o muestral . Cualquiera
Cuando una muestra es aleatoria o probabilística, es posible calcular sobre ella el error muestral . Este error indica el porcentaje de incertidumbre, es decir, el riesgo que se corre de que la muestra elegida no sea representativa. Si trabajamos con un error calculado en 5%, ello significa que existe un 95% de probabilidades de que el conjunto muestral represente adecuadamente al universo del cual ha sido extraído. A medida que incrementamos el tamaño de la muestra, el error muestral tiende a reducirse, pues la muestra va acercándose más al tamaño del universo. Del mismo modo, para una muestra determinada, su error será menor cuanto más pequeño sea el universo a partir del cual se la ha seleccionado. Así, para un universo de 10.000 casos, una muestra de 200 unidades tendrá un error mayor que una de 300; una muestra de 200 casos, por otra parte, tendrá un error mayor si el universo tiene 10.000 unidades que si éste posee solamente 2.000.
Manuel Hurtado Sánchez
Página 58
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Para fijar el tamaño de la muestra adecuado a cada investigación, es preciso primero determinar el porcentaje de error que estamos dispuestos a admitir. Una vez hecho esto, deberán realizarse las operaciones estadísticas correspondientes para poder calcular el tamaño de la muestra que nos permite situarnos dentro del margen de error aceptado. A veces, sin embargo, el tamaño de la muestra queda determinado previamente por consideraciones prácticas; en tales casos, no hay otra alternativa que aceptar el nivel de error que su magnitud acarree. Si una muestra extraída de la población, se denomina error de muestreo para esa muestra, a la diferencias que existe entre una estimación muestral y el parámetro poblacional obtenido por un censo completo. El error de muestreo es inherente al uso de métodos de muestreo, y el error estándar cuantifica su magnitud.
Si es el parámetro de interés y es un estimador de , debemos especificar un
límite para el error de estimación; esto es, debemos especificar que y difieran en valor absoluto en una cantidad menor que
Simbólicamente: Error de estimación = / / Debemos establecer también una probabilidad (1 ), que especifica la fracción de las veces en muestreo repetido en que requerimos que el error de estimación sea menor que . Esta condición puede ser establecida como P{Error de estimación < }= 1
MUESTREO ALEATORIO SIMPLE
Es un procedimiento de selección de una muestra por el cual todos y cada uno de los elementos de la población tienen igual probabilidad de ser incluidos en la muestra, Además, si se toma la muestra de tamaño n , cualquier muestra posible de n elementos tiene la misma probabilidad de ser extraída que cualquier otra combinación de n elementos, ya sea que la muestra se seleccione con o sin reposición. Una muestra aleatoria simple se extrae por selección aleatoria empleando los números aleatorios, este proceso ofrece la oportunidad de que todos los elementos que no han sido sacados previamente tengan igual probabilidad de pertenecer a la muestra.
Manuel Hurtado Sánchez
Página 59
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Este tipo de muestreo es eficiente en poblaciones pequeñas y homogéneas , para la cual se dispone de listas adecuadas (marco muestral ) y cuando la dispersión geográfica de los elementos muestrales no constituye un problema; así es relativamente fácil y barato seleccionar las unidades muestrales. El inconveniente en poblaciones grandes es conseguir una lista completa o exacta de la población (marco muestral). Otro problema conexo es el costo de determinar el número de elementos de la muestra y recabar información a partir de cada elemento (poblaciones heterogéneas) Por ejemplo, la muestra puede contener elementos que se hallan muy dispersos por lo tanto, para efectuar entrevistas personales se requieren fuertes desembolsos por concepto de viaje.
1.1. Tamaño de muestr a para estimar un Media Poblacio nal:
Manuel Hurtado Sánchez
Página 60
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
2
n
Z
2
2
d
2
2
Z
2
2
N
Donde: n
Tamaño de muestra
Z
Desvío Normal para una confianza
(1 ) .
(Sus valores se obtienen de la
2
distribución normal estándar).
2
d
N
Varianza poblacional (Generalmente tiene un valor desconocido) Nivel de precisión (Máximo error de muestreo al estimar la media poblacional tolerada por el investigador)
= Tamaño total de la población
Valores de
para distin tos n iveles de confianza
Z 2
Probabilidad de confianza (1 ) 0.90 0.95 0.99
Manuel Hurtado Sánchez
Probabilidad de significancia: ( ) 0.10 0.05 0.01
∝
1.281 1.645 2.326
2
0.050 0.025 0.005
Z 2
1.645 1.960 2.576
Página 61
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Técni cas de estimación de la varianza
1° Posibilidad: Utilizar la varianza
s
2° Posibilidad: Utilizar la varianza anterior resiente.
s
2
2
2
de población similar de la misma población obtenida en un estudio
3° Posibilidad: Si la variable en estudio tiene distribución normal, la varianza puede ser estimada determinando el máximo y el mínimo y utilizando la propiedad de la distribución Normal que aproximadamente 0.9973 del área se encuentra en el intervalo 3 , por lo que la varianza estimada podrá ser estimada utilizando la siguiente fórmula:
ˆ
Manuel Hurtado Sánchez
2
Mínimo Máximo
6
2
Página 62
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
4° Posibilidad: Si la distribución de la variable es del tipo triangular I otriángular II , la desviación estándar podrá ser estimada utilizando la siguiente aproximación: ˆ
0.24 Máximo
Mínimo
5° Posibilidad: Utilizando una muestra piloto, de donde podrá obtenerse la varianza 2
muestral s y utilizarla como un estimador de la varianza poblacional efectos del cálculo del tamaño de muestra. Es decir que:
Manuel Hurtado Sánchez
2
para
Página 63
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación 2
ˆ
s
2
Ejemplo: Se desea estimar el peso promedio de una población de 400 estudiantes ingresantes a una Universidad. En base a una muestra preliminar de 10 de estos estudiantes que acudieron a su control médico en la Dirección de Bienestar universitario, se estima una desviación estándar de 6.6 Kgr. Si deseamos tener un máximo error de muestreo de 1.5 Kgr. y una confianza de 0.95.¿Cuál será el tamaño de muestra mínimo requerido?
La fórmula a utilizar será:
2
2
n
Z
2
2
d
Población N = Confianza (1-α) Significancia (α) (1-α/2) Z Error DE(x) = σ =
2
2
Z
2
N
400 0.95 0.05 0.975 1.960 1.500 6.6
Tamaño de muestra n = 63
Manuel Hurtado Sánchez
Página 64
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación 1.96 n
1.5
2
2
6.6
2
1.96 6.6
2
63
400
Ejemplo 2
Se desea diseñar una muestra para propósitos de estimar el rendimiento académico promedio de los estudiantes de una escuela profesional de una universidad en donde hay un total de 800 matriculados. Por información histórica el rendimiento académico de estos estudiantes tiene una distribución del tipo triangular I, con un mínimo de 07 puntos y un máximo de 19 puntos. La estimación del rendimiento promedio poblacional se lo desea hacer con una precisión de 0.6 puntos y una confianza de 0.95. ¿Cuál será el diseño de muestra? SOLUCIÓN An áli si s para el t ip o de muestreo
La variable en estudio es X = Rendimiento académico, la cual tiene una distribución del tipo triángulo I con un mínimo de 07 y un máximo de 19 puntos
0.241972.88 7 19711 . 0.2626% < 33%
Entonces el estimador de la desviación estándar será: Y el estimador de la media será: El coeficiente de variación será
Entonces se trata de una población homogénea por lo que un muestreo aleatorio simple garantizará la representatividad de la muestra. Cálculo del tamaño de muestra: Manuel Hurtado Sánchez
Página 65
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
0. 6 10.95 ⁄ 1.96 × ⁄ ⁄ × 1. 9 6 ×2. 8 8 0.6 1.96800×2.88 79.7 ≈80
Como se quiere estimar la media poblacional , con una precisión y una confianza , la formula para el tamaño de muestra será
Reemplazando tenemos:
Elementos de la muestra :
Seleccionar 80 números aleatorios diferentes menores o iguales a N = 800. Los estudiantes enumerados en el marco muestral con los números aleatorios seleccionados anteriormente, constituirán los elementos de la muestra. 1.2.
Tamaño de muestr a para estimar una Propor ción Poblacional:
Z 2
n
2
2
d
Manuel Hurtado Sánchez
pq
2
Z
pq 2
N
Página 66
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Donde: n
Tamaño de muestra Desvío Normal para una confianza
Z
2
p
q
d N
1
(1 ) .
(Sus valores se obtienen de la
distribución normal estándar). Proporción muestral esperada o conjeturada por el investigador p
Complemento de la proporción muestral
Nivel de precisión (Máximo error de muestreo al estimar la proporción poblacional tolerada por el investigador) = Tamaño total de la población
Estimación de la proporc ión p ara calcul ar el tamaño de muestra:
1° Posibilidad: El investigador asigna un valor para P considerando un valor que él puede esperar encontrar cuando realice el muestreo, siempre que este valor se encuentre entre 0.25 y 0.75. 2° Posibilidad: Cuando p < 0.25, se considerará que estamos investigando una característica rara, por lo que debe abandonarse dicho valor y se asume p = 0.5, se procede de manera similar cuando p>0.75, también se abandona y se remplaza por 0.5, con lo cual estaremos asumiendo una máxima varianza, puesto que el producto p.q tiende a cero cuando p tiende a cero o a 1; en cambio toma su máximo valor cuando p = 0.5.
Ejemplo 1
Manuel Hurtado Sánchez
Página 67
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Se desea diseñar una muestra para estimar la proporción P de facturas con algún error en su emisión, durante el último mes en un restaurante. Se sabe que en total se emitieron un total 3500 facturas llenadas a mano y que están enumeradas de 1 a 3500 y contenidas en un archivador. Se desea tener una precisión de 0.04 y una confianza de 0.95, cuál debe ser el tamaño de muestra mínimo necesarios para satisfacer estos requisitos de estimación?. No se dispone de ninguna información acerca de la proporción de facturas con errores en su emisión. SOLUCIÓN Propósito del muestreo: Estimar la proporción de facturas con errores en su emisión Población N = 3500 Precisión: d = 0.04 Confianza: Proporción esperada de facturas con errores de emisión Por lo tanto
1 0.95 → ⁄ 1.96 110.50.5
0.5
× 1. 9 6 5×0.×0.5×0.5 5 512.4 ≅512 ⁄ ⁄ × 0.04 1.9×0.6 3500 Ejemplo 2
Se desea determinar el tamaño de muestra para estimar la proporción de mujeres P con infección vaginal entre las que acuden al servicio de Obstetricia del Hospital Regional Docente Las Mercedes de Chiclayo: De acuerdo a la información histórica, del Hospital Regional Docente Las Mercedes de Chiclayo, se conoce que, la proporción de infecciones vaginales en encontrado en el período 2010 – 2012 es p = 0.3. Se estima que en el período de investigación de enero a junio del 2013, llegarán al servicio de obstetricia un total de 668 mujeres. Si deseamos tener una confianza de 0.95 y un máximo error de muestreo d = 0.05, ¿Cuál deberá ser el tamaño de muestra mínimo requerido? La fórmula a utilizar en este caso es:
Manuel Hurtado Sánchez
Página 68
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Z 2
pq
2
n
2
d
Z 2
pq
2
N
Para una confianza (1-α) = 0.95 tenemos que Zα = 1.96 Proporción de infecciones vaginales p = 0.30 Entonces: q = 1 - p = 0.70 Máximo error de muestreo o nivel de precisión d = 0.05 Remplazando en la fórmula tenemos: 1.96 n
0.05
2
0.3 0.7
1.96
2
2
0. 3 0. 7
218
668
Respuesta: Se debe obtener una muestra de n = 218 mujeres. La selección puede ser sistemática con arranque aleatorio con un intervalo de selección k = N/n = 3, es decir una cada tres mujeres.
1.3.
Tamaño de muestr a para probar hipótesis acerca de la Media Poblacional:
1° Caso:
H o :
o
H a :
o 2
Z Z n
2
2
2
Donde:
Manuel Hurtado Sánchez
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
Página 69
UNIVERSIDAD SAN PEDRO
2° Caso:
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
o
H o :
o
H a
o
:
n
ó
Z
H a
Z
2
:
o
2
2
Donde: Manuel Hurtado Sánchez
Página 70
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
o
Ejemplo. Un productor de capsulas de uña de gato afirma que la demanda promedio de su producto en el mercado es de 1000 capsulas por día. En una muestra piloto de 36 días seleccionados en forma aleatoria, se encuentra una media de 850 y una desviación estándar de 160 capsulas diarias. ¿Qué tamaño de muestra será necesario para probar la afirmación hecha por el productor ( ), contra la alternativa de la sospecha del investigador en el sentido que este promedio podría ser menor que lo que propone el productor ( , utilizando los mismos riesgos o probabilidades de error tipo I y Tipo II iguales a 0.01?. Solución
: 1000 : < 1000
Utilizaremos la siguiente fórmula
n Donde:
Z
Z
2
2
2
0.01 2.33
160 | |80 ≡ 8% 2. 3 32. 3 3 ×160 80 86.7 ≈87 í
Como no se conoce entonces usaremos su estimador proveniente de la muestra piloto , además deseamos la distancia máxima del estimador al valor verdadero no exceda en más de 80 unidades, esto es que , por lo que el tamaño de muestra será
3° Caso:
H o : H a :
1 2
1 2 2
Z Z ( 12 22 ) 2 n
2
Donde: Manuel Hurtado Sánchez
Página 71
UNIVERSIDAD SAN PEDRO
4° Caso:
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
1
2
1
2
H a :
1
H o :
n
Z
Z
H a :
ó
2
2
1
2
( 12 22 )
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
1 2
Ejemplo Se desea calcular el tamaño de muestra para comparar la aptitud promedio de dos poblaciones de estudiantes preuniversitarios mediante una prueba unilateral en donde se sospecha que el rendimiento de la segunda población es mayor que el de la primera, para lo cual se tomaron dos muestras aleatorias previas de tamaños 20 y 25 respectivamente, encontrando las desviaciones estándar respectivas de 8 y 7 puntos las cuales serán consideradas como estimadores de las desviaciones estándar poblacionales. Se desea tener una confianza y potencia para la prueba igual a 95%. Se supone que la diferencia entre las medias poblacionales es de 6 puntos. Calcule el tamaño de muestra para cada población. SOLUCIÓN
Para calcular un tamaño de muestra para probar una hipótesis unilateral de comparación de dos medias poblacionales, corresponde utilizar la siguiente fórmula:
Manuel Hurtado Sánchez
Página 72
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
n
Z
2
Z
( 12 22 )
2
Donde: Potencia igual a confianza e igual a 0.95,
1 10.95 8 64 7 49 | |6 entonces
, entonces
1.645
1. 6 451. 6 45 × 6449 34 6
1.4.
Tamaño de muestr a para probar hipótesis acerca de la Proporc ión Poblacional:
H o
1° Caso:
:
P
H a :
P
Po
Po
Z n
2
Po Qo Z pq
2
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
Manuel Hurtado Sánchez
p Po
Página 73
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Qo p q
1
Po
proporción muestral
1
p
H o
2° Caso:
P
:
H a
:
P
n
Po
Z
Po
ó
Po Qo
H a
Z
pq
:
P
Po
2
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
Qo p q
p Po
1
Po
proporción muestral 1 p
Ejemplo . Un auditor se encuentra realizando una auditoría a una empresa en la cual encuentra un total de 2480 cuentas por cobrar. Toma una muestra aleatoria previa de 40 de de ellas y encuentra que 10 de tienen deudas de más $700, lo cual le hace pensar que la proporción poblacional de tales cuentas podría ser menor a 0.30, pero el contador afirma que el 30% de tales cuentas por cobrar son de más de $700 cada una ¿Cuántas cuentas por lo menos deberá examinar aleatoriamente para para probar la afirmación del contador con una precisión y una confianza y una potencia para la prueba de ,
|0. | 0 6 10.90
Manuel Hurtado Sánchez
10.95
Página 74
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
SOLUCIÓN
:0. 3 :<0. 3
0.3 0.7 40, 12, 1240 0. 0 3 10. 3 0. 7 Propósito del muestreo: probar N = 2480
Entonces
ó 0. 0 4 10. 9 5 1. 6 45 10. 9 0 1. 2 82 ó | |0.06 ) ( ñ á: (1.96√ 0.3×0.71.0.02682√ 0.25×0.75) 476
Respuesta: Se requiere seleccionar una muestra aleatoria de 476 cuentas por pagar.
3° Caso:
H o :
P1
H a :
P1
P2
P2
Z p1 p2 q1 q2 / 2 Z p1q1 p2 q2 2 n
2
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
4° Caso:
P1 P2
H o : H a :
Manuel Hurtado Sánchez
P1 P2 P1 P2
ó H a :
P1
P2 Página 75
UNIVERSIDAD SAN PEDRO
n
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Z
p
1
p2 q1 q2 / 2
2
Z p1q1 p2 q2
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
P1
P2
Ejemplo:
Se desea determinar el tamaño de muestra para probar una hipótesis de comparación de proporciones. Ho : P1 = P2 contra Ha: P1 < P2, donde: P1 : Proporción de complicaciones en intervenciones quirúrgicas con protocolo. P2 : Proporción de complicaciones en intervenciones quirúrgicas sin protocolo . De acuerdo a la información histórica, del Hospital Regional Docente Las Mercedes de Chiclayo, se conoce que, cuando se sigue el protocolo, la proporción de complicaciones quirúrgicas es 0.01, y cuando no se sigue el protocolo esta proporción es de 0.18. Si deseamos tener una confianza de 0.95 y también una potencia para la prueba de hipótesis de 0.95, ¿Cuál deberá ser el tamaño de muestra mínimo requerido? La fórmula a utilizar en este caso es:
n
Z
p1 p2 q1 q2 / 2
Z p1q1 p2 q2
2
2
n = tamaño de muestra para cada grupo Confianza de la prueba: (1-α) = 0.95 entonces Zα = 1.645 Potencia de la prueba: (1-β) = 0.95 entonces Zβ = 1.645 Proporción de complicaciones quirúrgicas con protocolo p1 = 0.01 Proporción de complicaciones quirúrgicas sin protocolo p2 = 0.18 Entonces: q1 = 1 - p1 = 0.99
y q2 = 1- p2 = 0.82
Remplazando en la fórmula tenemos: Manuel Hurtado Sánchez
Página 76
UNIVERSIDAD SAN PEDRO
n
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
1.645
0.01 0.180.99 0.82 / 2 1.645 0.01 0.18
0.01 0.99 0.18 0.82
2
2
62
Respuesta: Se debe obtener una muestra de 62 observaciones de cada uno de los grupos. 1.5.
Tamaño de muestr a para probar hipótesis de estudi os de Casos y Controles: H o : H a :
P1 P1
P2
P2
Z n
2 pq 2
Z
p q p q 1
1
2
2
2
2
Donde:
Probabilidad de error tipo I, o nivel de significancia de la prueba
Probabilidad de error tipo II
p1
Casos
p2
Controles
p
q
p2 p2
2 1
P1
: Proporción mancomunada
p
P2
Ejemplo: Se necesita calcular el tamaño de muestra para una investigación con diseño de casos y controles, para probar una hipótesis de que la proporción de partos exitosos con método de inducción es mayor a la proporción de partos exitosos cuando no se usa este tratamiento. ´
Sea: P1 = Proporción de inducción exitosa de partos con un tratamiento P2 = Proporción de inducción exitosa de partos con un tratamiento
La Hipótesis en prueba es: Manuel Hurtado Sánchez
Página 77
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ho: P1=P2 contra Ha: P1>P2 La fórmula que corresponde ser utilizada es: n
Z
Z 1.645 Z 1.645 0.8 qq 1p 10. 8 0. 2 8 0. 2 +1p.10. +.
2 pq
Z p1q1 p2 q2
p
1
2
p2
2
Tamaño de muestra mínimo para cada grupo: Casos y controles : Desvío normal para una significancia del 0.05 : Desvío normal para una significancia de 0.05
:Proporción de inducción exitosa del parto usando el tratamiento (Caso) = 0.6 :Proporción de partos exitosos sin usar tratamiento (control)
0.7 110.7 0.3 (1. 6 45× 2 ×0. 7 ×0. 3 1. 6 45× 0 . 8 ×0. 2 0. 4 ×0. 4 ) √ √ 111 0.80.6 y
Reemplazando en la fórmula tenemos:
Respuesta: El tamaño de muestra será n 1 = 111 casos y n2 = 111 controles
1.1.1. Muestreo Aleatorio Estratificado (MAE): En este tipo de muestreo, la población es dividida en L subpoblaciones o estratos, de tamaños Nh cada uno de ellos de los cuales se selecciona n h elementos respectivamente, de modo tal, que en cada estrato, cada uno de los elementos tengan la misma probabilidad de ser incluidos en la muestra. Este proceso genera muestras representativas siempre que la variabilidad en cada subpoblación no exceda el 33%, aun cuando la población general dicha variabilidad sea mayor que el 33%.
Manuel Hurtado Sánchez
Página 78
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ñ ó ℎ ú ú ℎ ó ó ℎ ñ ñ ℎ ∑= ℎ ∑=1 á ℎ ̅ ∑= ℎ ∑=1̅ ℎ Notaciones en muestreo aleatorio estratificado
El cálculo del tamaño de muestra depende del propósito del muestreo, es decir del parámetro que se pretende estimar y del modo de asignación o reparto de tamaño general de muestra a cada uno de los estratos.
Tamaño general de muestra para estimar la media poblacional con asignación d e Neyman en el MAE. Este tipo de asignación toma en cuenta el tamaño y dispersión interna de cada estrato
∑ ∑
Manuel Hurtado Sánchez
Página 79
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
N = Tamaño general de la Población n = Tamaño general de muestra = Ponderación del estrato h en la población Sh = Desviación estándar en el estrato h.
⁄
= Varianza deseada al estimar la media poblacional
∑ ×
Tamaño de la muestra en los estratos:
Ejemplo : Se desea investigar el nivel de competencias básicas de comprensión lectora y Matemáticas en estudiantes del 5° de secundaria de tres instituciones educativas representativas de Chiclayo: Colegio Nacional San José, Colegio Nacional Elvira García y García y el Colegio Nacional Magdalena Sofía. Como antecedente de esta investigación se dispone de las notas promedio en ambos cursos, las cuales utilizaremos para diseñar la muestra. RENDIMIENTO ACADÉMICO EN LENGUAJE Y MATEMÁTICAS DE ESTUDIANTES DE 5° DE SECUNDARIA DE TRES INSTITUCIONES EDUCATIVAS DE CHICLAYO EN DICIEMBRE DEL 2012 N° de Institución Educativa Estudiantes Elvira García 148 Magdalena Sofía 152 San José 150
Promedio. Lenguaje 14.20 13.82 14.75
Desv. Estánd. Lenguaje 2.25 2.36 2.52
Promedio. Matemática 13.94 14.11 14.92
Desv. Estánd. Matemática 3.22 2.59 3.05
Como la investigación comprende dos variables, que son la Comprensión Lectora y Matemáticas, entonces haremos el cálculo del tamaño de muestra estratificado para cada una de las variables y al final nos quedaremos el tamaño de muestra más grande. Elegimos un nivel de confianza de 0.95 y un error de muestreo de aproximadamente igual a 3.5% del promedio general en los tres colegios, cuyo valor resulta ser igual a 0.5 puntos, con lo cual la varianza deseada V será obtenida del siguiente modo: SOLUCIÓN = 0.95 Confianza (1-α/2) Desvío Normal Precisión (3.5% de la media) d = 0.5 Media estratificada Varianza deseada: V=(d/Z)2 = 0.06507944 Calculo del tamaño de muestra general para investigar competencias básicas de comprensión lectora:
1.96 ̅ ∑= ̅ 14.255
∑ 2. 3 786 ∑ 0.06507944 5.4506697 73
Tamaño de muestra para los estratos (colegios):
∑ × .. ×7323 ∑ × .. ×7324 Manuel Hurtado Sánchez
Página 80
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
∑ × 0.2.83400786 ×7326
Cuadro de cálculos d el tamaño de muestra para investigar competencias básicas de Lenguaje en tres insti tucio nes Educativas de Chicl ayo Institución Educativa (Estrato h)
Elvira García Magdalena Sofía San José Total
N° de Estudiantes Nh 148 152 150 450
Promedio en Lenguaje 14.20 13.82 14.75
Desv. Estánd. Ponderación: Lenguaje Sh Wh 2.25 0.329 2.36 0.338 2.52 0.333 1.000
Wh. Sh 0.7406 0.7980 0.8400 2.3786
Wh.Sh^2 1.6675 1.8854 2.1168 5.6697
muestra del estrato: nh 23 24 26 73
Calculo del tamaño de muestra general para investigar competencias básicas de comprensión Matemáticas:
∑ 2. 9 521 ∑ 0.06507944 8.4507850 103
Tamaño de muestra para los estratos (colegios):
× .. ×10331 ∑ × .. ×10337 ∑ ∑ × 1.2.09167521 ×10335
Cuadro de cálculos del tamaño de muestra para investigar competencias básicas de Matemáticas en tres instituciones Educativas de Chiclayo Institución Educativa (Estrato h)
N° de Desv. Estánd. Estudiantes Promedio en Matemáticas Ponderación: Nh Matemáticas Sh Wh Elvira García 148 13.94 3.22 0.329 Magdalena Sofía 152 14.11 2.59 0.338 San José 150 14.92 3.05 0.333 Total 450 1.000
Wh. Sh 1.0591 0.8763 1.0167 2.9521
muestra del Wh.Sh^2 estrato: nh 3.4107 37 2.2734 31 3.1008333 35 8.7850 103
Conclusión : Para la investigación nos debemos quedar con este último tamaño por ser el más grande
Estimador puntual y c onfidencial de la media poblacional El estimador puntual de la media poblacional , es la media muestral estratificada , el sub índice st es para indicar que corresponde a un muestreo estratificado. Es decir que
̂ ̅ ̅ ∑ ̅ : ̅ = = Varianza de la media muestral estratificada Manuel Hurtado Sánchez
Página 81
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
̅ = = 1 Siendo ó Estimador de la varianza de la media muestral estratif icada ̅ ̅ = = 1 Intervalo de confianza de 1 para la media poblacional ∶ ̅ ± ⁄ ̅ Donde: ⁄ 1
Ejemplo Obtenga un intervalo de confianza de 0.95 para la media poblacional del rendimiento académico en Lenguaje, a partir de una muestra obtenida con un muestreo estratificado, cuyas medidas de resumen se muestran en el siguiente cuadro. Institución educativa “h”
Número total de estudiantes en la institución educativa h:
Muestra de estudiantes de la institución educativa h.
Promedio muestral de Lenguaje en la institución educativa h:
Desviación estándar muestral de Lenguaje en la institución educativa h:
Elvira García (1) Magdalena Sofía (2) San José (3)
148 152 150
23 24 26
14.20 13.82 14.75
2.25 2.36 2.52
450
Total
̅
73
Estudiantes de instituciones educativas de Chiclayo: Elvira García, Magdalena Sofía y San José.
Elvira García: N1 = 148
̅ 2.14.252 N1=23
Manuel Hurtado Sánchez
Magdalena Sofía: N2 = 148
̅13. 8 2 2.36 N1=23
San José: N3 = 148
̅14. 7 5 2.52 N1=23
Página 82
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Solución Institución Educativa
N° de Estudiantes
Elvira García Magdalena Sofía San José
148 152
Suma
Muestra 23
150
24 26
450
73
1 ̅
Promedio. Lenguaje
Desv. Estánd. Lenguaje
14.200
2.25
13.820
2.36
14.750
2.52
̅
Ponderación
0.3289
4.6702
0.02011
0.3378 0.3333
4.6681 4.9167
0.02230 0.02243
14.2550
0.06484
̅ : ̅ 14. 2 55 = Estimador de la varianza de la media estratificada ̅ ̅ = 1 0.06484 El intervalo de confianza para la media es,
: ̅ ± ⁄ ̅ :13.14.72556 <±1.9<6√ 014..06484 32
Para el ejemplo, el intervalo de confianza de 0.95 para la media será:
Tamaño general de muestra para estimar la propor ción poblacional co n asignación de Neyman en el MAE. Cuando el diseño de muestra es el Estratificado con asignación de Neyman (Este tipo de asignación se utiliza cuando los costos de muestreo es igual en cada uno de los estratos), el tamaño general de muestra se calcula con la siguiente fórmula:
∑ ( ) ∑
Donde: N = Tamaño general de la Población n = Tamaño general de muestra Wh = Nh/N = Ponderación del estrato h en la población V = (d/
⁄
Manuel Hurtado Sánchez
2 =
Varianza deseada al estimar la media poblacional Página 83
UNIVERSIDAD SAN PEDRO
ph
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
= Proporción estimada en el estrato h.
qh = 1-ph
Tamaño de muestra en los estratos:
∑ ×
Ejemplo d e diseño y muestra para estimar una prop orció n Población : La población lo constituyen los 6120 estudiantes de la USAT matriculados en el semestre académico 2011-I, clasificados según carrera profesional. Muestra: Se utilizará un muestreo estratificado para estimar la proporción de estudiantes con calidad de sueño Deficiente. Las unidades elementales o informantes son cada uno de los estudiantes. Se elige un nivel de confianza de 0.95 y un nivel de precisión de 0.05 Cálcul o d el tamaño de mu estra.
El tamaño de muestra se calcula para estimar la proporción de estudiantes con calidad de sueño deficiente, mediante un muestreo estratificado con asignación de Neyman, la cual asigna un tamaño de muestra a los estratos teniendo en cuenta el tamaño del estrato y la dispersión interna del estrato. Suponiendo que los costos de muestreo dentro de cada estrato es el mismo. Estudiantes de la USAT matriculados en el semestre 2011-I N = 6120
Administración Admi de empresas
N1 = 1141
Administración hotelera
N2 = 291
P = Proporción de estudiantes con calidad de sueño deficiente Psicología
N18 = 301 d = 0.05 (1-α)=0.95
n1 = 69
n18 = 30
n2 = 18
Tamaño general de muestra
pst = Estimado estratificado de P
El tamaño general de muestra:
Manuel Hurtado Sánchez
Página 84
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
n
(W h ph qh ) 2 V
W h ph qh
,
N
Donde d V z
2
Varianza deseada del estimador de la proporción
Asumimos: Una confianza (1-α) de 0.95, para el cual, el desvío normal es Z = 1.96 Una precisión (máximo error de muestreo tolerado) d 0.05
Entonces la varianza deseada debe ser: 2
0.05 V 0.000651 1.96
Los cálculos se muestran en la siguiente tabla, con lo cual, el tamaño de muestra es: (0.474033) 2 327 n 0.225107 0.000651 6120
La asignación de Neyman del tamaño de muestra a los estratos se hace con la fórmula: nh
W h ph qh
W
h
ph qh
n
por razones de conseguir estabilidad para los estimadores por carrera profesional, se corrige el tamaño de muestra a un mínimo de 30, con lo cual se tiene una muestra corregida de 535 estudiantes , tal como se puede apreciar en el siguiente cuadro.
Manuel Hurtado Sánchez
Página 85
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Cuadro N° 2 Cálculo del tamaño de muestra estratificado con asignación de Neyman para estudiantes de la USAT matriculados en el semestre académico 2011-I. Matriculados ESTRATO (h) (2011-I): N h Carrera profesional ADM. DE EMPRESAS ADM. HOTELERA Y DE SERVICIOS CONTABILIDAD ECONOMÍA EDUCACIÓN (inicial, Prim. y Secundaria.) COMUNICACIÓN DERECHO ARQUITECTURA ING. CIVIL Y AMB. ING. DE SIST. Y COMP. ING. ENERGÉTICA ING. INDUSTRIAL ING. MECÁNICA ELÉCTRICA ING. NAVAL ENFERMERÍA MEDICINA ODONTOLOGÍA PSICOLOGÍA TOTAL
W h
N h N
Proporción de estudiantes con calidad de sueño deficiente
qh
1
ph
W h
p h q h
W h ph qh
nh
nh ( corr )
p h
1131
0.1848
0.3
0.7
0.084686
0.038808
58
58
289
0.0472
0.25
0.75
0.020438
0.00885
14
30
479 177
0.0783 0.0289
0.3 0.3
0.7 0.7
0.035882 0.013244
0.016443 0.006069
25 9
30 30
254
0.0415
0.25
0.75
0.017970
0.00778125 12
30
220 703 234 320 398
0.0359 0.1149 0.0382 0.0523 0.0650
0.4 0.4 0.4 0.4 0.6
0.6 0.6 0.6 0.6 0.4
0.017587 0.056289 0.018714 0.025622 0.031843
0.008616 0.027576 0.009168 0.012552 0.0156
12 39 13 18 22
30 39 30 30 30
9 415 71
0.0015 0.0678 0.0116
0.4 0.6 0.6
0.6 0.4 0.4
0.000735 0.033215 0.005683
0.00036 0.016272 0.002784
1 23 4
9 30 30
28 589 296 207 300 6120
0.0046 0.0962 0.0484 0.0338 0.0490 1.0000
0.4 0.4 0.7 0.6 0.4
0.6 0.6 0.3 0.4 0.6
0.002254 0.047128 0.022180 0.016559 0.024005 0.474033
0.001104 0.023088 0.010164 0.008112 0.01176 0.225107
2 32 15 11 17 327
28 32 30 30 30 556
El estimador de la proporc ión pobl acional y su varianza ,
ó : ∑= ∑= −− ∶ ± ⁄
El estimador de la proporción poblacional P es la proporción muestral estratificada , es decir que =
El estimador de la varianza de la proporción muestral estratificada
Intervalo de confianza para la proporción poblacional
Manuel Hurtado Sánchez
Página 86
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejemplo Obtenga un intervalo de confianza para la proporción poblacional de estudiantes con calidad de sueño deficiente en los estudiantes de la Facultad de Ciencias Empresariales Estrato (h) ADM. DE EMPR. ADM. HOTELERA CONTABILIDAD ECONOMÍA Suma
. 1
1131 289 479 177
0.5448 0.1392 0.2307 0.0853
2076
Proporción estratificada
0.3 0.25 0.3 0.3
0.7 0.75 0.7 0.7
0.1634 0.0348 0.0692 0.0256 0.2930
0.001020 0.000248 0.000425 0.000162 0.001855
58 14 25 9
0.2930 ̅ 0.001855 ∶0.293 ±1.96√ 0.001855 0.209<<0.377 y su varianza
Intervalo de confianza del 0.95 será:
1.1.2. Muestreo por conglom erados (PC): En este tipo de muestreo, la población es dividida en M subpoblaciones o conglomerados, de tamaños N j cada uno de ellos. En la 1° etapa se seleccionan m conglomerados, de los cuales se selecciona n j elementos respectivamente, de modo tal, que en cada conglomerado, cada uno de los elementos tengan la misma probabilidad de ser incluidos en la muestra. Este proceso genera muestras representativas aun cuando la variabilidad en cada conglomerado exceda el 33%.
Manuel Hurtado Sánchez
Página 87
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Este tipo de muestreo consiste en Tamaño de Muestra por conglomerados en dos etapas con probabilidades prop orcion ales al tamaño: o Supongamos que se tiene una población de N unidades de análisis divididas en M conglomerados de tamaños N1, N2, ... , NM conocidos. o
Por ejemplo tenemos un censo actualizado de un sector de salud que tiene 2 189 individuos distribuidos en 8 manzanas del siguiente modo: Manzana: 1 Tamaño : 114
2 222
3 525
4 308
5 205
6 191
7 414
8 210
Se seleccionará una muestra de exactamente n elementos en dos etapas: m conglomerados o unidades de primera etapa (UPE) de o Obtener modo que a las mayores les correspondan mayores probabilidades de selección y luego tomar exactamente c individuos en cada UPE ( n = m x c ) o
Por ejemplo ; de una población de 2189 viviendas agrupadas en 8 conglomerados, se desea seleccionar una muestra de por conglomerados de n = 200 viviendas, agrupadas en m = 4 conglomerados cada uno de un tamaño C = 50 viviendas.
N = 2189, Manuel Hurtado Sánchez
n = 200,
m = 4 y c = 50. Página 88
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Pasos: 1. Crear una lista de las UPE (conglomerados) y obtener los tamaños acumulados Di = N1 + N2 + ... + Ni a lo largo de la misma: Marco muestral de Unidad Primaria Elemental (UPE) UPE i Tamaño Ni Tamaño acumulado Di
1
114
114
2
222
336
3
525
861
4
308
1169
5
205
1374
6
191
1565
7
414
1979
8
210
2189
2° Calcular el intervalo de selección I. I
547.25≈547
N
m
En el ejemplo 3°. Seleccionar un número aleatorio R entre 1 e I. En nuestro caso de 1 en 547. Supongamos que al seleccionar un número aleatorio se obtiene R = 369 Se calculan los números Z1 =R,
Z2 =R+I,
Z3 = R+2I …. Zm = R+(m -1)I
En nuestro caso estos m = 4 números son: 369, 916, 1 463, 2 010
Asociar cada uno de estos números con una UPE del modo siguiente: se selecciona en cada caso la primera UPE cuyo tamaño acumulado supere o iguale al número en cuestión. De este modo, 369 identifica a la manzana 3 ( pues C3 = 861 es el primer valor que supera 369); 916 identifica a la UPE número 4 por ser 1 169 el primer acumulado que lo supera; 1 463 a la manzana 6 y 2 010 a la última. Así en el ejemplo han quedado elegidos los conglomerados que ocupan los lugares 3, 4, 6 y 8 del listado
Manuel Hurtado Sánchez
Página 89
UNIVERSIDAD SAN PEDRO
UPE i Tamaño Ni 1 114 2 222 3 525 4 308 5 205 6 191 7 414 8 210
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Tamaño acumulado Di 114 336 861 1169 1374 1565 1979 2189
Zi
369 916 1463 2016
Hacer una selección simple aleatoria de exactamente c = 50 individuos de cada UPE elegida en el paso anterior.
1.2.Muestreos No Probabilísticos Si consideramos que no precisamos cifras exactas sobre la representatividad estadística de nuestros resultados, podríamos plantearnos el usar una muestra no aleatoria (o "no probabilística"), lo que significa que elegiremos a voluntad nuestra. Podemos considerar que esto puede ayudarnos a obtener los elementos que necesitamos estudiar directamente y, además, actuar sin los tediosos procesos de selección aleatoria y verificación estadística. Sin embargo, hay una desventaja: corremos un gran riesgo de obtener demasiado sesgo en la muestra. No seremos capaces siquiera de advertir la presencia, y menos aún la cantidad, de sesgo si hacemos personalmente la selección de la muestra. Y la presencia de sesgo puede hacer imposible generalizar nuestros resultados. Un modo de reducir el sesgo hasta cierto punto es dejar a otra persona o grupo la selección de los elementos. Estas muestras son bastante útiles en aquellas situaciones en las cuales no es posible utilizar un muestreo probabilístico, es decir cuando no es posible disponer de un marco muestral para la selección de los elementos de la muestra. Su utilización está reservada solo para aquellos investigadores que conocen la estructura de la población y tienen un criterio suficientemente bueno para conseguir representatividad; incluso si se dispone de un buen criterio para conseguir representatividad es posible obtener mayor precisión a más bajos costos que con un muestreo probabilístico. Entre los tipos comunes de muestras no aleatorias se incluyen, Muestra de "casos típicos " o los "mejores" casos es algo bastante tradicional en la historia del arte: estudiar solamente los "grandes maestros". Manuel Hurtado Sánchez
Página 90
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
La idea es que éstos representan lo más auténtico de su época. Tal selección deliberada por parte del investigador tiene no obstante riesgos serios, que se tratan en el punto De limitar el objeto de estudio. Muestra de conveniencia . Un grupo existente, por ejemplo la gente en una reunión, podría ser designado como muestra. Este es un método fácil y barato, pero el sesgo suele ser imposible de estimar. El método es popular en las demostraciones de cursos sobre métodos, pero raramente usado en la investigación profesional. Muestra de voluntarios es creada cuando todos los miembros de la población tienen la oportunidad de participar en la muestra. Un ejemplo es la respuesta voluntaria de los clientes que llega a una empresa; igualmente, las respuestas que un investigador recibe a un anuncio en un periódico pidiendo a la gente sus opiniones. Una muestra de voluntarios suele ser una alternativa bastante sensata; no obstante, el investigador debe considerar cuidadosamente los riesgos de sesgo. Hay dos cuestiones que plantearse: ¿Es cierto que todos los miembros de la población bajo muestreo tenían las mismas oportunidades de ser incluidos en la muestra? Por definición, los voluntarios difieren de la media de la población en su mayor actividad. La cuestión crucial entonces se ¿diferencian del resto de la población también en otros aspectos?. Muestra bola de nieve . Cuando se entrevista a miembros de un grupo, podemos pedir a las personas que nos indiquen otros individuos en ese grupo que estén en la mejor posición para dar información sobre ese tema; podríamos también pedirles que nos indicasen personas que compartan sus puntos de vista y también otras que sean de opinión opuesta. Entonces entrevistaremos a nuevos individuos y continuaremos del mismo modo hasta que no obtengamos nuevos puntos de vista de nuevos entrevistados. Este es un buen método por ejemplo para recoger los distintos puntos de vista existentes en un grupo, pero su inconveniente es que no obtenemos una idea exacta de la distribución de las opiniones. En el momento de diseñar una muestra no aleatoria, debemos siempre tener en mente la población. ¿Es representativa la muestra? ¿Son válidos los resultados en la población? Recordemos también que no tenemos que incluir elementos que no sean miembros de la población en nuestra muestra. Por ejemplo, podríamos decidirnos (de forma bastante sensata) por investigar las preferencias de los clientes de electrodomésticos entrevistando a vendedores. O podríamos estudiar las historias de vida de arrendatarios mediante un cuestionario a administradores de casas o caseros. La idea es factible, ya que esta gente habitualmente conoce mucho sobre el tema. Sin embargo, los "especialistas" no pueden ser tomados Manuel Hurtado Sánchez
Página 91
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
como muestra de "no especialistas". Son dos poblaciones diferentes. No debemos generalizar los resultados de "especialistas" a ninguna otra población que no sea la de "especialistas", cualquiera que sea el campo del que tratemos. En los ejemplos de arriba, podríamos tal vez continuar transformando los resultados a partir de los especialistas en hipótesis que más tarde verificaríamos con una muestra apropiada de la población "real" o de no especialistas, que serían en los ejemplos citados, respectivamente, los consumidores y los arrendatarios. En otras palabras, podríamos usar la entrevista de los especialistas sólo como un estudio preliminar. Tamaño de Muestras no aleatorias
No hay fórmula para determinar el tamaño de una muestra no aleatoria. Con frecuencia, especialmente en investigaciones cualitativas, podemos simplemente ampliar gradualmente nuestra muestra y analizar los resultados siempre que continúen llegando nuevos casos con información relevante o nueva; en cambio, cuando en los casos nuevos ya no se presenta información nueva, podemos concluir que nuestra muestra está saturada, y terminaremos el trabajo de muestreo. Este método es, sin embargo, muy vulnerable al muestreo sesgado, con lo que tenemos que ser muy cuidadosos y asegurarnos que no omitimos a ningún grupo de nuestra población. Antes de decidir el tamaño de una muestra no aleatoria, tal vez debamos leer cómo debe ser evaluada la representatividad de los resultados a partir de una muestra no aleatoria. De otro modo podríamos sufrir una sorpresa bastante desagradable cuando estemos intentando, demasiado tarde, definir la población en que nuestros resultados puedan ser declarados válidos.
Manuel Hurtado Sánchez
Página 92
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Ejercicios 6 (Muestreo) 1. Se va a tomar una muestra de una lista de nombres que están en tarjetas (Un nombre por tarjeta) numeradas consecutivamente, las cuales se encuentran en un archivo. Cada nombre tendrá la misma oportunidad de ser incluido en la muestra. ¿Qué problemas surgen de las siguientes situaciones: a. Algunos nombres no pertenecen a la población- objeto, a pesar de que este hecho no puede ser verificado para ningún nombre hasta que no se seleccione. b. Algunos nombres aparecen en más de una tarjeta. Todas las tarjetas con el mismo nombre llevan números consecutivos, y por lo tanto, aparecen juntas en el archivo. c. Algunos nombres aparecen en más de una tarjeta, pero las que llevan el mismo nombre pueden estar colocadas en cualquier lugar dentro del archivo. 2. El problema para encontrar un marco completo que permita la obtención de una muestra, frecuentemente es un obstáculo. ¿Qué clase de marcos pudieran ser convenientes en las siguientes encuestas? ¿Tienen los marcos alguna deficiencia seria?. a. Una encuesta de tiendas que venden recargas virtuales en una gran ciudad. b. Una encuesta de artículos que se dejan en los colectivos o autobuses. c. Una encuesta a las personas víctimas de algún robo callejero en el último año.
3. Un directorio de la ciudad, de hace cuatro años, enlista las direcciones en orden a lo largo de la calle, y da el nombre de las personas que viven en cada dirección. Para una encuesta que se lleva a cabo actualmente por medio de entrevista a la gente de la ciudad ¿Cuáles son las deficiencias de este marco? ¿Pueden ser remediados por los entrevistadores durante el desarrollo de la encuesta?. Al usar el directorio, ¿Sacaría Ud. Una lista de direcciones (domicilios) o una lista de personas? 4. En una estimación para muestreo del valor real de objetos pequeños en el inventario de una gran empresa, el valor real y el valor registrado en los libros se obtuvieron para cada objeto de la muestra. Para la muestra total, la razón del valor real al registrado fue de 1.021; Esta estimación está distribuida aproximadamente de manera normal con un error estándar de 0.0082. Si el valor del inventario según los libros de registro es de $80 000, calcule los límites de confianza de 0.95 para el valor real. 5. Frecuentemente los datos se deben tratar como una muestra, a pesar de que a primera vista parece que constituyen un censo. El propietario de un lote de estacionamiento encuentra que el negocio disminuye los domingos por la mañana. Después de 26 domingos de operación su percepción promedio por domingo es exactamente $10.00. El error estándar de esta cifra, calculado a partir de las variaciones de semana a semana es de $1.2. Los costos del cuidador son de $7.00 cada domingo. El propietario quiere mantener abierto el lote los domingos por la mañana siempre y cuando su utilidad esperada fuera de $5.00. ¿Cuál es la probabilidad de que la utilidad a largo plazo sea de, al menos $5.00? ¿Qué suposición se debe hacer para responder a esta pregunta? 6. En una población con N=6 los valores de yi son 8, 3, 1, 11, 4 y 7. Calcular la media de la muestra para todas las muestras posibles tamaño 2. Verificar que es un estimador insesgado de y que la varianza es
Manuel Hurtado Sánchez
−
Página 93
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
7. Una muestra aleatoria simple de 40 familias se obtuvo de un área de la ciudad que contiene 14 848 familias. El número de personas por familia en la muestra obtenida fue como sigue: 4 7
12 6 5 5
8 11
4 5 7 5 9 7 4 5 6 3 5 9 6 5 6 5
11 3
6 11
7 6
6 4
8 6
4 6
8 6
3 7
a. Estime el número total de gente en el área y calcule la probabilidad de que esta estimación esté dentro del 10% del valor verdadero b. ¿Calcule el tamaño de muestra necesario para estimar el número promedio de personas por familias en la ciudad con un máximo error de muestreo de 0.2 y una confianza de 0.95. 8. En un estudio sobre el posible uso del muestreo para reducir el trabajo de inventario de existencias de una bodega, se hizo un conteo del valor de los artículos de cada uno de los 36 estantes en la bodega. Los valores aproximados fueron: 29 60
38 60
42 61
44 61
45 61
47 62
51 64
53 65
53 65
54 67
56 67
56 68
56 69
58 71
58 74
59 77
60 82
La estimación del valor total a partir de una muestra debe ser correcta módulo un error máximo de $200, excepto para una posibilidad en veinte. Un consultor sugiere que una muestra aleatoria simple de 12 estantes es suficiente para hacer la estimación. Está Ud. de acuerdo?. 9. Se desea estimar la media poblacional del promedio ponderado de los estudiantes universitarios del primer ciclo de una universidad. Se sabe que en dicha universidad hay un total de 1967 estudiantes en el 1° ciclo. Se obtuvo una muestra piloto de 30 estudiantes, en donde se obtiene una desviación estándar de 1.6 puntos. Si estamos dispuestos a tolerar un máximo error de muestreo de 0.5 para la media poblacional, y además tener una confianza de 0.95. ¿Cuál será el tamaño de muestra mínimo requerido si pensamos en utilizar un muestreo aleatorio simple? 10. En una muestra aleatoria simple de 200 obtenida de una población de 2000 colegios, 120 de estos estuvieron a favor de una propuesta, 57 se opusieron y 23 se abstuvieron de opinar. a. Estimar los límites de confianza al 95 % para el número de colegios en la población, que favorecieron la propuesta. b. ¿Se obtiene una evidencia contundente de que la mayoría de los colegios de la población favorecieron la propuesta? c. ¿Cuál debería ser el tamaño de muestra para probar la hipótesis , contra la alternativa , si se requiere una confianza de 0.99 y una potencia de 0.95 pa prueba?
:>0. 5
:0. 5
11. Se eligió una muestra aleatoria simple de 290 familias de un área de la ciudad que contiene 14 828 familias. A cada familia se le preguntó si la casa era suya o rentada Manuel Hurtado Sánchez
Página 94
60 85
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
y también si tenían el uso exclusivo de un baño interior. Los resultados fueron como sigue:
Uso exclusivo de un baño Total
Condición de tenencia de la casa Propia Rentada 141 109 6 34 147 143
Si No
Total 250 40 290
a) Para las familias que rentan, estimar el porcentaje en el área de familias que cuentan con un baño interior de uso exclusivo y dar el error estándar de su estimación; b) Estimar el número toral de familias que rentan casa en el área y que no tienen un baño interior para uso exclusivo y dar el error estándar de esta estimación. c) Cuál será el tamaño de muestra que sería necesario para estimar la proporción poblacional de familias que rentan casa en el área y que no tienen un baño interior para uso exclusivo con una confianza de 0.95 y una precisión d=0.04. (en caso que la proporción en la muestra de familias que rentan casa y no tienen baño interior de uso exclusivo sea menor de 0.25, abandone este valor y utilice P = 0.5).
d) Cuál será el tamaño de muestra que sería necesario para probar la hipótesis de que proporción poblacional de familias que rentan casa en el área y que no tienen un baño interior para uso exclusivo es igual a 0.20 contra la alternativa que es menor que este valor. Utilice una confianza para la prueba de 0.99 y una potencia igual a 0.95. 12. En un distrito en donde hay 4000 casas, el porcentaje de propietarios va ser estimado con una muestra, con un error de muestreo no mayor al 3%. El porcentaje verdadero de propietarios se piensa que está entre 45 y 65%. ¿Qué tan grande debe ser una muestra para tener una confianza de 0.95? 13. En la población de 676 hojas de solicitud ¿Qué tan grande debe ser la muestra si se va estimar el número total de firmas con un margen de error de 1000 con (firmas /hoja) 2, probabilidad de 0.95? Suponga que la varianza muestral obtenida a partir de una muestra de 50 hojas, es el valor de en la población. 14.
229
8
De una población con 100 unidades se ha extraído una muestra aleatoria simple de tamaño , siendo los datos de una variable X los siguientes: 25, 32, 28, 35, 26, 34, 30, 28. Basándose en esta muestra estimar la media y el total poblacional de X, así como su error absoluto y relativo de muestreo. (
̅ − ̅ ̅ =
Desviación
estándar
del
estimador
de
la
media ,
= Coeficiente de variación de la media
aritmética).
15. En una región con N = 1000 viviendas, determinar el tamaño de muestra necesario para que, con un grado de confianza del 95%, la estimación de la proporción de viviendas sin agua corriente no difieran en más de 0.1 del valor verdadero de dicha proporción. Manuel Hurtado Sánchez
Página 95
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
16. Un investigador desea determinar el tamaño de muestra para investigar el efecto en la disminución complicaciones post operatorias, cuando se respeta estrictamente los protocolos que existen para intervenciones quirúrgicas en un hospital de Chiclayo. El investigador tiene una información histórica de las últimas 200 intervenciones quirúrgicas en donde ha observado que el 15% de dichas intervenciones presentaron complicaciones (en su mayoría, infecciones), y espera que respetando el protocolo, esta proporción pueda bajar hasta el 2%. Cuál será el tamaño de muestra para este diseño que es del tipo caso – control, si quiere tener una confianza de 0.95 y una potencia de 0.90? 17. Se quiere estimar la proporción de recetas del nuevo recetario que no utilizan productos animales. Planeamos extraer una muestra aleatoria simple de las N = 1251 recetas, y queremos utilizar un intervalo de confianza al 95% con un margen de error de 0.03. 18. Las familias de un pueblo se van a muestrear para estimar la cantidad promedio de bienes por familia que se pueden convertir en dinero en efectivo rápidamente. Las familias se estratifican en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta alta tiene cerca de 9 veces más bienes que los existentes en una casa en el estrato de renta baja, y se espera que S h sea proporcional a la raíz cuadrada de la media del estrato. Existen 4 000 familias en el estrato de renta alta y 20 000 familias en el estrato de renta baja. ¿Cómo distribuiría una muestra de 1000 familias entre los dos estratos? 19. La información que aparece a continuación, representa la estratificación de todas las propiedades agrícolas en una Región, clasificadas por tamaño promedio de hectáreas de maíz por propiedad en cada estrato. También se dispone de las medidas de resumen de una muestra previa de 160 propiedades. Tamaño de la propiedad en (hectáreas): Estrato h
Número de propiedades
0-40 41-80 81-120 121-160 161-200 201-240 241- Más Total o media
394 461 391 334 169 113 148 2010
Muestra previa
32 36 30 25 15 10 12 160
Promedio de hectáreas de maíz
Desviación estándar
Número de propiedades que utilizan abono orgánico:
5.4 16.3 24.3 34.5 42.1 50.1 63.8 26.3
8.3 13.3 15.1 19.8 24.5 26.0 35.2
8 10 12 7 4 2 3
a. Calcule el tamaño de muestra para estimar el tamaño promedio poblacional de las propiedades con una precisión de 5 hectáreas y una confianza de 0.95 Manuel Hurtado Sánchez
Página 96
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
b. Calcule el tamaño de muestra para estimar la proporción poblacional de las propiedades que utilizan abonos orgánicos, con una precisión de 0.04 hectáreas y una confianza de 0.95 c. Con la información de la muestra previa calcule un estimador de intervalo de 0.95 para el tamaño promedio poblacional de las propiedades. d. Con la información de la muestra previa calcule un estimador de intervalo de 0.95 para la proporción poblacional de las propiedades que utilizan abonos orgánicos. 20. Se desea estimar la proporción de familias que consumen Leche fresca en uno de los pueblos jóvenes aledaños de la USAT durante el mes de julio del 2017, un mes después de las sanciones impuestas a la leche “Pura Vida” del Grupo Gloria del
Perú. De un estudio anterior sobre las características socioeconómicas de dicho pueblo joven realizado en el 2016, se sabe que la proporción de hogares en los que se consumía leche fresca fue de 0.30 y que en el lugar existen un total de 1189 familias residentes en viviendas agrupadas en 37 manzanas. Si deseamos tener una precisión para la estimación de 0.05 y una confianza de 0.95, Cuál será el tamaño de muestra para el propósito de esta investigación? (considere para este cálculo usar un muestreo aleatorio simple). Considerando una cantidad fija de 20 viviendas por manzana seleccionada para un muestreo por conglomerados con probabilidades proporcionales al tamaño, ¿Cuáles serán las manzana seleccionadas?. i
Zona
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Manuel Hurtado Sánchez
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
N° Mz.
n° de viviendas
N° Acum
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
24 29 31 32 36 39 36 38 34 32 22 42 23 54 42 22 55 30 20 23 38 48 25 26
24 53 84 116 152 191 227 265 299 331 353 395 418 472 514 536 591 621 641 664 702 750 775 801
Zi
Página 97
UNIVERSIDAD SAN PEDRO
25 26 27 28 29 30 31 32 33 34 35 36 37
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
2 2 2 2 2 2 2 2 2 2 2 2 2
45 46 47 48 49 50 51 52 53 54 55 56 57 Suma
29 25 22 24 38 36 29 43 28 27 28 29 30 1189
830 855 877 901 939 975 1004 1047 1075 1102 1130 1159 1189
21. Se desea estimar la proporción de familias que consumen Leche fresca en el pueblo joven San Martín de Lambayeque durante el mes de junio del 2017, una semana después de las sanciones impuestas a la leche “Pura Vida” del
Grupo Gloria del Perú. De un estudio anterior sobre las características socioeconómicas, de dicho pueblo joven, hecha por un grupo de Investigadores de la UNPRG en el 2016, se sabe que en el lugar existen un total de 2987 familias residentes en viviendas agrupadas en 113 Manzanas. Estas manzanas fueron agrupadas en cinco zonas residenciales o estratos, de las que se sabe además del número de viviendas por estrato, se sabe también la proporción de familias que consumen leche fresca. Tal como aparece en el siguiente cuadro. Se desea estimar la proporción de familias en la población del P.J. San Martín que consumen leche fresca, para lo cual en considera utilizar un diseño de muestra estratificada combinado con el conglomerado en donde cada estrato sería la zona y el conglomerado la manzana de viviendas. Se desea tener una precisión para la estimación de 0.04 y una confianza de 0.95, además se considera un número fijo de 10 viviendas por manzana seleccionada por lo que las manzanas o conglomerados deberán ser seleccionados con probabilidades proporcionales al tamaño del conglomerado. Calcule primero el tamaño de muestra estratificado (muestra general y muestra para cada estrato) y en cada estrato seleccione los conglomerado con probabilidades proporcionales al tamaño y de cada conglomerado seleccione 10 viviendas y en dad vivienda solo entreviste a una familia.
Manuel Hurtado Sánchez
Página 98
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Diseño de muestra para estimar la proporción de familias que consumen Leche Fresca en el P.J. STM 2016 N° Viviendas Zona N° por estrato Ponderación Proporción Wh ph (Estrato) h Mz. Nh 0.137 1 20 410 0.25 0.333 2 37 994 0.3 0.119 3 16 354 0.35 0.239 4 20 714 0.25 0.172 5 20 515 0.36 Total 113 2987 1.000 Estrato 1 N° n° de Mz. viviendas 1 27 2 30 3 11 4 14 5 12 6 18 7 24 8 13 9 29 10 18 11 15 12 19 13 14 14 15 15 19 16 25 17 18 18 32 19 19 20 38 Suma 410
Manuel Hurtado Sánchez
Estrato 2 N° n° de Mz. viviendas 21 24 22 19 23 31 24 32 25 36 26 39 27 36 28 38 29 34 30 22 31 22 32 22 33 23 34 24 35 22 36 22 37 20 38 20 39 20 40 23 41 28 42 28 43 25 44 26 45 29 46 25 47 22 48 24 49 18 50 26 51 29 52 43 53 28 54 27 55 28 56 29 57 30 Suma 994
Zona 3 n° de N° Mz. viviendas 58 29 59 22 60 18 61 17 62 15 63 13 64 30 65 26 66 29 67 28 68 23 69 24 70 24 71 23 72 23 73 10 Suma 354
Zona 4 N° n° de Mz. viviendas 74 13 75 31 76 35 77 38 78 39 79 29 80 42 81 45 82 31 83 12 84 37 85 42 86 42 87 45 88 45 89 49 90 40 91 39 92 51 93 36 Suma 741
Zona 5 N° n° de Mz. viviendas 94 15 95 4 96 38 97 31 98 31 99 32 100 37 101 44 102 56 103 15 104 20 105 17 106 26 107 27 108 16 109 18 110 34 111 18 112 21 113 15 Suma 515
Página 99
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
V. REGRESIÓN Y CORRELACIÓN Medidas de cor relación: Después de un análisis descriptivo de cada variable, el siguiente nivel de análisis comprende analizar la relación entre dos variables. Aquí aparecen diferentes herramientas estadísticas, desde las tablas de contingencia o tablas cruzadas hasta el cálculo de coeficientes de correlación. Existen diversos coeficientes de correlación que han sido construidos para las diferentes escalas en quede estar medida una variable; sin embargo en esta ocasión presentaremos solamente el coeficiente de correlación lineal de Pearson. Coeficiente de correlación l ineal de Pearson [r ] Es una medida que sirve para medir el grado de correlación lineal entre dos variables medidas en escala de intervalo o de razón. r
Cov( x, y)
;
para todo:
x
1 r 1
y
Donde: Covarianza entre X e Y:
Cov( x, y )
x x y y N
x x
2
Desviación estándar de X:
x
N
y y
2
Desviación estándar de Y:
y
N
Para cálculos manuales se puede demostrar que:
xy Cov( x, y )
x
x
x y N N
: Co var ianza entre x e y
x
2
2
n
: Desviación
N
estándar de x
y
2
y
Manuel Hurtado Sánchez
y
2
N
N
: Desviación estándar de y Página 100
UNIVERSIDAD SAN PEDRO
r
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
x y xy N x x y x N N 2
2
2
:
Coeficente de correlació n de pearson
2
Sabiendo que el coeficiente de correlación lineal de Pearson puede valores comprendidos entre cero y 1, los significados aproximados que se suelen dar se presentan en el siguiente gráfico:
Ejemplo 1. Se desea estudiar la relación existente entre el tiempo (en días) utilizado para realizar una obra de construcción de un canal (Y) y el número de trabajadores participantes en ella (X)
i 1 2 3 4
N° de días necesarios para hacer la obra x 2 3 3 5
Manuel Hurtado Sánchez
N° de trabajadores participantes en la obra y 8 7 6 6
XY 16 21 18 30
X^2 4 9 9 25
Y^2 64 49 36 36 Página 101
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
5 6 7 8 9 10
6 6 8 8 10 12
5 4 3 2 1 0.5
30 24 24 16 10 6
36 36 64 64 100 144
25 16 9 4 1 0.25
∑
63
42.5
195
491
240.25
r
195
63 42.5 10
63 42.52 491 240 .25 10 10 2
0.971
Ejemplo 2.
Se desea estudiar la relación existente entre la Longitud en metros de un cable eléctrico (X) y el peso en Kgr. del cable (Y)
i 1 2 3 4 5 6 7 8 9 10 11 Manuel Hurtado Sánchez
Longitud del cable (metros) X 4 6 6 7 7 7 8 9 9 9 11
Peso del cable (en Kgr.) Y 5 5 7 6 7 8 8 8 9 10 10
XY
X^2
Y^2
20 30 42 42 49 56 64 72 81 90 110
16 36 36 49 49 49 64 81 81 81 121
25 25 49 36 49 64 64 64 81 100 100 Página 102
UNIVERSIDAD SAN PEDRO
12 13 14 15 16 17 18 Suma
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
11 11 13 13 14 15 16 176
11 12 12 13 14 15 15 175
121 132 156 169 196 225 240 1895
1895 r
176 1920 18
121 121 169 169 196 225 256 1920
121 144 144 169 196 225 225 1881
176 175 18 2
175 1881 18
2
0.972
Regresión Lineal simple Cuando estamos frente a una situación en la que tenemos dos variables, digamos X e Y, entre las cuales existe una relación de dependencia lineal evidenciada en el gráfico de dispersión de puntos, de manera similar a como examinamos dicha relación cuando estudiamos el coeficiente de correlación lineal de Pearson. Supongamos que Y depende de X, entonces podemos establecer una ecuación de regresión lineal simple de la siguiente manera:
Donde:
∝
Y = Variable dependiente o respuesta Manuel Hurtado Sánchez
Página 103
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
X = Variable independiente i regresora
∝ á ó
∶∶
Representa la razón de cambio esperado de Y por cada unidad de cambio en X
Representa el valor esperado de la variable respuesta Y, cuando X = 0, siempre que sea posible que X pueda tomar el valor cero (0), caso contrario no tiene interpretación y solo es el término constante de la ecuación de regresión.
Método de Mínimos cuadrados para estimar los parámetros de la ecuación de regresión lineal simple Para estimar los parámetros de la ecuación de regresión necesitamos una muestra aleatoria de n-observaciones bidimensionales: { (x1, y1), … , (x n, yn)}. 1° Graficar los datos y verificar que el tipo de relación es lineal 2° Estimar los parámetros con las fórmulas:
xy
x y n
ˆ
y
x
2
x
2
ˆ
y x ˆ
n
n
n
Con lo cual podemos escribir la ecuación de regresión lineal estimada. Y ˆ
Manuel Hurtado Sánchez
ˆ
X ˆ
Página 104
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Coefici ente de determinación d e la ecuación de regresión li neal si mple [ R 2] El coeficiente de determinación es una medida de adecuación de la ecuación de regresión lineal simple, y expresa el porcentaje de variabilidad de la variable dependiente (Y) que está siendo explicada por la variable regresora (X) en la ecuación de regresión lineal simple. Su cálculo se puede obtener elevando al cuadrado el coeficiente de correlación lineal de Pearson: R
Podemos notar que
0R
2
1
2
2
r
o en forma equivalente
0R
2
100
Usos de la ecuación de regresión lin eal simp le: El mayor beneficio de una ecuación de regresión lineal simple es poder estimar o pronosticar el valor de la variable dependiente cuando se conoce anticipadamente el valor de la variable independiente; Sin embargo debemos tener presente algunas consideraciones antes de realizar estos pronósticos: 1°. El valor de X o para el cual se desea pronosticar el valor de Y debe ser muy cercano al valor de la media aritmética de los valores de X utilizados en la estimación de los parámetros ( x ), por ningún motivo puede estar fuera del rango de estos valores. 2°. Los errores residuales deben tener distribución normal con media cero y varianza constante. 3°. El coeficiente de determinación debe ser por lo menos 70%
Ejemplo: Un comerciante al menudeo lleva a cabo un estudio para determinar de qué manera dependen las ventas de los gastos por semana en publicidad, para lo cual registra los datos de ambas variables en las últimas 12 semanas, cuyos datos aparecen en la siguiente tabla: Tabla N° Ventas en función de los gastos en publicidad Semana (i) Gasto semanal en publicidad (X) valor de ventas ($): (Y) 1 2 3 4 5 6 7 8 9 10 11 12
Manuel Hurtado Sánchez
40 20 25 20 30 50 40 20 50 40 25 50
385 400 395 365 475 440 490 420 560 525 480 510
Página 105
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
1°. En primer lugar por teoría del márquetin, sabemos que las ventas dependen de los gastos en publicidad, y al representar los datos de estas variables en las últimas 12 semanas en la siguiente gráfica, verificamos que la relación es del tipo lineal, entonces es aplicable el uso de la regresión lineal simple.
2°. Estimaremos los parámetros de la ecuación de regresión lineal simple, para lo cual hacemos construimos el siguiente cuadro de cálculos: Tabla N° __ cuadro de cálculos para la regresión lineal simple de Ventas en función de los gastos en publicidad Gasto semanal en valor de ventas ($): Semana (i) publicidad (X) (Y) X.Y X2 Y2 1 2 3 4 5 6 7 8 9 10 11 12
40 20 25 20 30 50 40 20 50 40 25 50
385 400 395 365 475 440 490 420 560 525 480 510
15400 8000 9875 7300 14250 22000 19600 8400 28000 21000 12000 25500
1600 400 625 400 900 2500 1600 400 2500 1600 625 2500
148225 160000 156025 133225 225625 193600 240100 176400 313600 275625 230400 260100
Suma
410
5445
191325
15650
2512925
Manuel Hurtado Sánchez
Esto significa que por cada nuevo sol adicional que se gaste en publicidad, debemos esperar un incremento en las ventas de 3.22 nuevos soles
Página 106
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
xy
x y n
ˆ
x
2
x
2
191 325
12
15650
410
ˆ
ˆ
n
n
5445 12
3.2208
Y X
Y
ˆ
ˆ
ˆ
3.2208
2
12
n
y x
ˆ
410 5 445
410 12
Esto significa que si no se gasta en publicidad, debemos esperar un nivel de ventas de 342.71 nuevos soles
343.71
343 . 71 3.2208 X
El coeficiente de correlación lineal de Pearson es: 1913255 r
410 5445 10
410 15650 12
2
5445 2512925 12
2
0.6348
Por lo tanto el coeficiente de determinación será:
R
Manuel Hurtado Sánchez
2
2
r
0.6348 2
0.403
40.3%
Página 107
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
El valor nos indica que el 40.3% de la variabilidad de las ventas lo explica los gastos en publicidad, es decir que se trata de una ecuación no muy útil para realizar pronósticos de las ventas en función de los gastos en publicidad.
Regresión Lineal Múltiple Cuando estamos frente a una situación en la que tenemos una variable dependiente respuesta Y la cual depende linealmente un conjunto de k variables independientes o regresoras {X1, X 2, … , X k}, entonces podemos establecer una ecuación de regresión lineal múltiple de la siguiente manera:
⋯
…… (1)
Donde:
Y = Variable aleatoria dependiente o respuesta
, , … . , , , … , á ó = Variables matemáticas independientes o regresoras
Supuesto
~0,
El término error aleatorio varianza constante .
sigue una variable normal con media cero (0) y
Este supuesto permite deducir que
⋯
(2)
Método de Mínimos cuadrados para estimar los parámetros de la ecuación de regresión lin eal múl tiple Para estimar los parámetros de la ecuación de regresión necesitamos una muestra aleatoria de n-observaciones p-dimensionales con p = k+1 y n>p: { (x11, X12, …, X1k, y1), … , (xn1, Xn2, ….,X nk,yn)}. Para todo n > k Estas observaciones se suelen presentar en una tabla como la siguiente:
Manuel Hurtado Sánchez
Página 108
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación i
Xi1
Xi2
1
X11
X12
2
X21
X22
3
X31
X32
.
.
.
.
.
.
n
Xn1
Xn2
…. … … … … … …
Xik
Yi
X1k
Y1
X2k
Y2
X3k
Y3
.
.
.
.
Xnk
Yn
Escribiendo estas n-observaciones en términos del modelo lineal múltiple, tenemos:
. . .
…… …
… ⋮1⋮ ⋮ … ⋮ ⋮⋮ 1 …
En arreglo matricial tenemos lo siguiente
Esto mismo en notación matricial será:
⋮ ×1 Donde:
… ⋮ ⋮ … ⋮ × , 1 ⋮ á ×1 1 Manuel Hurtado Sánchez
Página 109
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
⋮ ×1 ú 0 ~0, , 0⋮ , 0⋮ ⋱00 00
El supuesto para el vector de errores aleatorios se puede escribir así
Este supuesto nos permite deducir que
,
por lo que la distribución de probabilidades de será
~ ,
Y además podemos escribir el vector de errores aleatorios como
⋮
La suma de los cuadrados de los errores aleatorios se puede escribir así
⋮ ⋯ . …. ′
El método de mínimos cuadrados, estima el vector de parámetros , de modo tal que esta suma de cuadrados del error sea mínima. Podemos notar que la suma de cuadrados del error representado por Q es una función cuadrática convexa en el vector de parámetros , por lo tanto tendrá un mínimo, el cual es obtenido derivando a Q respecto a , luego igualando a cero y despejando el vector de parámetros resulta la siguiente expresión:
′− ′ ⋮ á ×1 1 Donde:
Manuel Hurtado Sánchez
Página 110
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
… … … ⋮ ⋮ ⋮ …⋱ ⋮ [ ]
⋮ [ ] ′− ′ ′ ∶ , ⋯ 0, ∶ , Como el rango de
es
, entonces
existe
Interpretación de los coeficientes de regresión:
Nota: Si una o más de las variables regresoras X no puede tomar el valor cero (0), entonces el no tiene interpretación y solo se la entiende como el término constante de la regresión
otras variables X’s se mantengan constantes.
COEFICIENTE DE DETERMINACIÓN [R 2] Es una medida de adecuación del modelo de regresión a los datos, debido a que representa la parte o proporción de variabilidad de la variable respuesta (Y) que es explidada por las variables regresoras X1, X2, … , X k , a través del modelo de regresión. Su fórmula de cálculo es la siguiente:
1
Manuel Hurtado Sánchez
Página 111
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Donde
∑ : ∑() ∶
∶ ó
Es fácil notar que
0 < < 1
Sabemos que la fin supremo de un modelo de regresión es el de pronosticar o predecir el valor de Y cuando se conoce con anticipación los valores de las variables regresoras X 1, X2, … , X k; sin embargo estas predicciones serán de utilidad, siempre que el coeficiente de determinación R2 > 0.70; es decir siempre que las variables regresoras expliquen más del 70% Intervalo de confianza para el vector de parámetros β
( ) ′− ′ () ′− − () ′− ~ , ~, ′− Sabemos que demostrar que de la varianza es
, notamos que es una función lineal de Y, se puede y que . Sabemos también que el estimado , entonces el estimador de la varianza de será:
).
Además, como sabemos que , entonces debemos tener que por lo que el intervalo de confianza para cada uno de los será:
⁄ × ∶ ± − donde
,
é ′− es el
Intervalo de confi anza para el valor esperado de Y: E(Y o)
′ 1 ⋯ ′ ( ′) ′ ′−
Sea un valor dado de las variables regresoras estimador del valor esperado de Y para Xo será:
entonces el
.
El estimador de la varianza de este estimador será:
Manuel Hurtado Sánchez
Página 112
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Por lo tanto el intervalo de confianza para
será:
⁄ ′ ′− ∶ ′ ± −
Ejemplo 2. Los siguientes datos muestran el número de habitaciones (X1), el número de baños (X2) y los precios (Y), a los que se vendió recientemente una muestra aleatoria de casas unifamiliares en una gran ciudad. i
X1
X2
Y
1
3
2
78800
2
2
1
74300
3
4
3
83800
4
2
1
74200
5
3
2
79700
6
2
2
74900
7
5
3
88400
8
4
2
82900
Deseamos ajustar el modelo:
637000 ′− 20107 2032 37 258 8725 5516 2031100 40 17 40 71 16 55 36 1297700 1. 2 738 0. 2 381 0. 2 014 − ′ 0.0.22381014 0.0.34810762 0.0.84452762 7 65191. 4133. 3 758.3 65191.7 4133.3 758.3 Las matrices X’X y X’Y serán
,
y
O también
Con lo cual el estimador del vector de parámetros será
Interpretación de los coeficientes de regresión: es solo el término constante de la regresión debido a que X1 = “número de habitaciones de la vivienda” no puede tomar el valor cero (0). es el incremento esperado en el valor de la casa familiar, por cada habitación (X1) adicional que ésta tenga, siempre que se mantenga constante el número de baños (X2). es el incremento esperado en el valor de la casa familiar, por cada baño (X2) adicional que ésta tenga, siempre que se mantenga constante el número de habitaciones (X1). El coeficiente de determinación será:
Manuel Hurtado Sánchez
Página 113
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación Cuadro de cálculos de SSTm y SSE X2
Y
̅ −
1
3
2
78800
-825
680625
79108.33
-308.33
95069.4
1
2
1
74300
-5325
28355625
74216.67
83.33
6944.4
1
4
3
83800
4175
17430625
84000.00
-200.00
40000.0
1
2
1
74200
-5425
29430625
74216.67
-16.67
277.8
1
3
2
79700
75
5625
79108.33
591.67
350069.4
1
2
2
74900
-4725
22325625
74975
-75.00
5625.0
1
5
3
88400
8775
77000625
88133.33
266.67
71111.1
1
4
2
82900
3275
10725625
83241.67
-341.67
116736.1
0
185955000
0.00
685833.3
Media =
79625
685833. 185955000 3 185269166.7 . 0.9963
2
SSTm
̂ −
2
X1
̅ −
̂
̂ −
1
SSE
= Suma total de cuadrados corregido por la media Suma de cuadrados del error = Suma de cuadrados debido a la regresión corregido por la media = 99.63%
Concluimos que el 99.63% de variabilidad del precio de las viviendas, están siendo explicadas por el número de habitaciones y el número de baños que éstas tienen, es decir que es una muy buena regresión para hacer pronósticos. Pronósticos: Cuál será el precio esperado de una vivienda que tenga 3 habitaciones y 3 baños:
, 65.191.6674133.3333758.333379866.667 () ′− − .− 137166.67 () 0.0.1.222738381014 0.0.0.342810762381 0.0.0.824452014762×137166.67 174724. 2 1 0. 2 381 0. 2 014 () 32658. 7 3 52253. 9 68 0. 4 762 27759. 9 2 65317. 4 6 115938. 4 92 10. 9 5 ⁄ . 2.57058 −
Para encontrar el intervalo de confianza del vector de parámetros, debemos obtener la matriz de covarianzas del estimador del vector de parámetros: Donde MSE = Cuadrado medio del error o estimador de la varianza del error Entonces la matriz de covarianzas de será:
Para una confianza
Manuel Hurtado Sánchez
y (n-p)=(8-3) = 5, debemos tener que:
Página 114
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
⁄ ∶ ± −
Lim Inf
Lim Sup
64117.163
66266.171
3545.721
4720.946
-116.943
1633.610
El intervalo de confianza para el valor esperado de Y cuando
′ 1 3 3
⁄ ′ ′− ∶ ′ ± −
será:
6336779866.667 ′ 1 3 3 65191. 4133. 3 758.333 1. 2 738 0. 2 381 0. 2 014 1 − ′ ′ 1 3 3 0.0.22381014 0.0.34810762 0.0.84452762331.09524
∶ 79866.667 ± 2.57058√ 1.09525×137166.667 ∶ 78870.32 , 80863.01 Ejercicios 8
1. Se dispone de la siguiente información acerca del promedio ponderado (Y) y el número de horas de estudio a la semana (X) sin considerar horas de clase.
i
N° de horas de estudio semanal (Xi) (sin considerar
1 2 3 4 5 6 7 Manuel Hurtado Sánchez
Promedio Ponderado
horas de clase)
(Yi)
4 3 10 8 15 4 3
9.4 8.4 16.1 12.2 19.2 9.90 7.00
Comentario
Página 115
UNIVERSIDAD SAN PEDRO
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación 9 13 11 9 10 10 11 10 13 2 9 10 10 9 3 4 9 10 5 11 9 11 14 1 10 12 10 5 13 13 1 5 12
12.5 18.1 14.3 12.2 15 14.5 15.1 13.3 17.2 6.30 12.1 13.4 15.5 11.1 7.20 9.10 11.2 14.1 17.20 15.2 12.2 12.4 18.1 5.40 13.4 17.2 15.4 8.3 16.3 16.3 5.20 11.6 16.1
Lleva curso por 2° vez
a) Elabore un gráfico de dispersión de (X, Y). b) Considere que al estudiante 26 como atípico por estar llevando la asignatura por segunda vez, por lo tanto elimínelo de la base. ¿Qué tipo de relación sugiere el gráfico de dispersión (X, Y)? c) Obtenga e interprete el coeficiente de correlación de Pearson entre X , Y. d) Considerando que el promedio ponderado depende de las horas de estudio semanal, obtenga la ecuación de regresión lineal simple de Y en función de X, e interprete cada uno de sus parámetros. e) Obtenga el coeficiente de determinación para la ecuación de regresión obtenida en (d). f) ¿Cuál será el promedio ponderado esperado para un estudiante que en promedio dedica al estudio 8 horas a la semana?
2. Se dispone de la siguiente información relacionada con el número de minutos hablados por teléfono fijo en un determinado mes (Y), el número de personas mayores de 12 años que viven en un determinado hogar (X1) y el nivel de ingresos familiares mensuales en miles de soles (X2). Manuel Hurtado Sánchez
Página 116
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Hogar
X1
X2
Y
1
6
5.50
150
2
2
3.70
64
3
4
5.75
126
4
5
5.75
141
5
2
4.00
89
6
3
4.50
89
7
4
4.00
110
8
5
6.00
166
9
2
5.00
95
10
2
5.50
110
a. Obtenga un modelo de regresión lineal de Y en función de X1 y X2. b. Cuál es porcentaje de explicación que proporcionan X1 y X2 a Y a través del modelo de regresión encontrado en (a)? c. Entre que valores se encontrará el número de minutos hablados al mes por teléfono fijo (Y), para un hogar donde hay 4 personas mayores de 12 años (X1) y tienen un ingreso familiar mensual de 4.75 miles de soles (X2), con una confianza de 0.95.
3. Con la siguiente información acerca de la demanda de rosas en la siguiente tabla se presentan datos trimestrales sobre las variables: Y, X1, X2, X3 y X4. Y = Cantidad de rosas vendidas, docenas X1 = Precio promedio al mayoreo de las rosas ($ / docena) X2 = Precio promedio al mayoreo de los claveles ($ / docena) X3 = Ingreso familiar disponible promedio semanal ($/semana) X4=Variable de tendencia, toma valores 1,2,…,16 en una área metropolitana Considere el modelo de regresión lineal múltiple de Y en función de X1, X2, X3 y X4: y= a) estime los parámetros del modelo e interprete sus resultados b) Obtenga e interprete el coeficiente de determinación. ¿se trata de un buen modelo para pronosticar la venta de rosas?
Año 1971 1972
1973
Trimestre III IV I II III IV I II III
Manuel Hurtado Sánchez
X1 2.26 2.54 3.07 2.91 2.73 2.77 3.59 3.23 2.6
X2 3.49 2.85 4.06 3.64 3.21 3.66 3.76 3.49 3.13
X3 158.11 173.36 165.26 172.92 178.46 198.62 186.28 188.98 180.49
X4 1 2 3 4 5 6 7 8 9
Y 11484 9348 8429 10079 9240 8862 6216 8253 8038 Página 117
UNIVERSIDAD SAN PEDRO
1974
1975
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
IV I II III IV I
2.89 3.77 3.64 2.82 2.96 4.24
3.2 3.65 3.6 2.94 3.12 3.58
183.33 181.87 185 184 188.2 175.67
10 11 12 13 14 15
7476 5911 7950 6134 5868 3160
II
3.69
3.53
188
16
5872
REDUCCIÓN DE LA DIMENSIÓN CON VARIABLES CUANTITATIVAS .
Manuel Hurtado Sánchez
Página 118
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
VI. Introducción a las técnicas de reducción de la dimensión: Es habitual en el trabajo estadístico disponer de muchas variables medidas u observadas en una colección de individuos y pretender estudiarlas conjuntamente, para lo cual se suele acudir al análisis estadístico multivariante de datos. Entonces se dispone de una diversidad de técnicas y debe seleccionarse la más adecuada a los datos y al objetivo científico. Al observar muchas variables sobre una muestra es presumible que una parte de la información recogida pueda ser redundante o que sea excesiva, en cuyo caso los métodos mult ivariantes de reducción de la dimensión (análisis en componentes principales, factorial, correspondencias, escalamiento óptimo y multidimensional, etc.) tratan de eliminarla. Estos métodos combinan muchas variables observadas para obtener pocas variables ficticias que las representan con la mínima pérdida de información. Estos métodos de reducción de la dimensión son métodos multivariantes de la interdependencia en el sentido de que todas sus variables tienen una importancia equivalente, es decir, si ninguna variable destaca como dependiente principal en el objetivo de la investigación. En este caso también se deberá tener en cuenta el tipo de variables que se maneja. Si son variables cuantitativas, las técnicas de reducción de la dimensión pueden ser el Análisis Factorial y el Análisis de Componentes Principales , si son variables cualitativas, puede
acudirse al Análisis de Correspondencias y al Escalamiento Optimo, y si son variables cualitativas ordinales se acude al Escalamiento Multidimensional . Los métodos de interdependencia se contraponen a los denominados métodos multi variantes d e la dependencia en los cuales no es aceptable una importancia equivalente en las variables, por que alguna se destaca como dependiente principal. En este caso habrá de utilizar técnicas multivariantes analíticas o inferenciales considerando la variable dependiente como explicada por las demás variables independientes explicativas, y tratando de relacionar todas las variables por medio de una posible ecuación o modelo que las ligue. El método elegido podría ser entonces la regresión lineal, generalmente con todas las variables cuantitativas. Una vez configurado el modelo matemático se podrá llegar predecir el valor de la variable dependiente conocido el perfil de todas las demás.
Manuel Hurtado Sánchez
Página 119
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Si la variable dependiente fuera cualitativa dicotómica (1, 0; sí o no) podrá usarse como clasificadora, estudiando su relación con el resto de variables clasificativas a través de la Regresión Logística. Si la variable dependiente cualitativa observada constatara la asignación de cada individuo a grupos previamente definidos (dos, o más de dos), puede ser utilizada para clasificar nuevos casos en que se desconozca el grupo al que probablemente pertenecen, en cuyo caso estamos ante el Análisis Discriminante, que resuelve el problema de asignación en función de un perfil cuantitativo de variables clasificativas. Si la variable dependiente es cuantitativa y las explicativas son cualitativas estamos ante modelos de análisis de varianza, que puede extenderse a los modelos loglineales para el análisis de tablas de contingencia de dimensión elevada. Si la variable dependiente puede ser cualitativa o cuantitativa y las independientes cualitativas, estamos ante la segmentación. En las técnicas de modelado originado por los datos no se asigna ningún papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para os datos. Podemos incluir en este grupo las técnicas de reducción de la dimensión (Factorial, componentes principales, correspondencias, escalamiento óptimo y multidimensional, etc.)
ANALISIS FACTORIAL CON EL SPSS El análisis factorial es un nombre genérico que se da a una clase de métodos estadísticos multivariantes cuyo propósito general es definir la estructura subyacente en una matriz de datos. Podemos decir también que aborda el problema de cómo analizar la estructura de las interrelaciones (correlaciones) entre un gran número de variables (por ejemplo las puntuaciones de prueba, artículos de prueba, respuestas de cuestionarios) con la definición de una serie de dimensiones subyacentes comunes, conocidas como factores . Con el análisis factorial, el investigador puede identificar primero las dimensiones separadas de la estructura y entonces determinar el grado en que se justifica cada variable por cada dimensión. Una vez que se determinan estas dimensiones y la explicación de cada variable, se pueden lograr los dos objetivos principales para el análisis factorial – el resumen y la reducción de datos. A la hora de resumir los datos, con el análisis factorial se obtienen unas dimensiones subyacentes que cuando son interpretadas y comprendidas, describen los datos con un número de conceptos mucho más reducido que las variables individuales originales. Se puede obtener la Manuel Hurtado Sánchez
Página 120
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
reducción de datos con el cálculo de la puntuación para cada dimensión subyacente y sustituirlos por las variables originales. La ventaja principal de las técnicas multivariantes es su capacidad para acomodar las variables múltiples con el fin de comprender las relaciones complejas que no son posibles con los métodos univariantes y bivariantes. El incremento del número de variables también aumenta la posibilidad de que las variables estén no correlacionadas y no sean representativas de unos conceptos distintos. En su lugar, los grupos de variables pueden estar interrelacionados en la medida en que son todos representativos de un concepto más general. Esto se puede deber al diseño, como es el intento de medir las muchas facetas de personalidad o imagen de establecimiento, o puede sugerir simplemente de la adición de nuevas variables. En cualquier caso, el investigador tiene que saber como se relacionan las variables para interpretar mejor los resultados. Finalmente si el número de variables es demasiado grande o existe la necesidad de dar una mejor representación a un número de conceptos más pequeño en vez de las facetas múltiples, el análisis factorial puede asistir en la selección de un subgrupo representativo de variables o incluso crear nuevas variables como sustitutas para las variables originales mientras mantengan su carácter original. El análisis factorial es diferente de las técnicas de dependencia tales como la regresión múltiple, el análisis discriminante, el análisis multivariante de la varianza o la correlación canónica, las cuales se consideran una o más variables explícitamente como las variables de criterio o dependientes y todas las demás son las variables de predicción o independientes. El análisis factorial es una técnica de interdependencia en el que se consideran todas las variables simultáneamente, cada una relacionada con todas las demás y empleado todavía el concepto del valor teórico, el compuesto lineal de las variables. En el análisis factorial, los valores teóricos (los factores) se forman para maximizar su explicación de la serie de variables entera, y no para predecir una(s) variable(s) dependiente(s). Si hiciéramos una analogía con las técnicas de dependencia, cada una de las variables (originales) observadas sería una variable dependiente, que es una función de una serie de factores (dimensiones) subyacentes y latentes que están compuestas por todas las otras variables. Por lo tanto, cada variable es predicha por todas las demás. Por el contrario, se puede considerar cada factor (valor teórico) como una variable dependiente que es función del conjunto entero de las variables observadas. Cualquiera de estas analogías ilustra las diferencias de propósito entre las técnicas de dependencia (la predicción) y la interdependencia (identificación de estructura).
Manuel Hurtado Sánchez
Página 121
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Las técnicas analíticas de factores pueden lograr sus propósitos desde una perspectiva exploratoria o confirmatoria. Existe una discusión continuada acerca del papel del análisis factorial. Muchos investigadores lo consideran meramente exploratorio, útil para la búsqueda de una estructura entre una serie de variables o como un método de reducción de datos. Desde esta perspectiva las técnicas del análisis factorial “extraen lo que proporcionan los datos” y no tienen ninguna restricción a priori sobre la estimación
de los componentes o el
número de componentes a ser extraído. Para muchas aplicaciones, sino todas, resulta apropiada esta aplicación del análisis factorial. No obstante, en otras situaciones el investigador tiene unos pensamientos preconcebidos sobre la estructura real de los datos, que se basan en un apoyo teórico o investigaciones previas. Es posible que el investigador quiera probar las hipótesis que implican cuestiones tales como qué variables deberían ser agrupadas en un factor o el número exacto de factores. En estos casos, se requiere un análisis factorial que adopte un enfoque confirmatorio –es decir, valorar hasta qué punto los datos se ajustan a la estructura esperada. En esta ocasión abordaremos las técnicas analíticas de factores principalmente desde el punto de vista exploratorio o no confirmatorio. Para realizar un análisis confirmatorio es necesario usar modelos de ecuaciones estructurales (SEM).
Ejemplo hipotético de análisis factorial Supongamos que mediante una investigación cualitativa un comercio minorista ha identificado ochenta características diferentes de comercios minoristas y su servicio, que los consumidores han mencionado que afectan su elección a la hora de frecuentar estos comercios. El comerciante quiere entender como deciden los consumidores, pero opina que no puede valorar las ochenta características individuales o desarrollar planes de acción para tantas variables, por que son demasiado específicos. En su lugar al comerciante le gustaría saber si los consumidores piensan en una dimensión determinante más general en vez de únicamente en aspectos específicos. Para identificar estas dimensiones, el comerciante podría encargar una encuesta solicitando valoraciones de consumidores sobre cada uno de estos aspectos específicos. Se emplearía entonces el Análisis Factorial para identificar las dimensiones determinantes subyacentes. Se considera que los aspectos específicos que se correlacionan en gran medida forman parte de una dimensión más amplia. Estas dimensiones se convierten en compuestos de las variables específicas, que a su vez permiten a las dimensiones ser interpretadas y descritas. En nuestro ejemplo, el análisis factorial podría identificar dimensiones como variedad de producto, calidad de producto, precios, personal del establecimiento, servicio y ambiente del establecimiento como las dimensiones determinantes Manuel Hurtado Sánchez
Página 122
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
utilizadas por los encuestados. Cada una de estas dimensiones contiene aspectos específicos que son una faceta de la dimensión determinante más amplia. A raíz de estos resultados, el comerciante puede usar estas dimensiones (factores) para definir áreas generales para la planificación y actuación. Un ejemplo ilustrativo de una aplicación sencilla del análisis factorial se expone e la figura N° 1, que representa la matriz de correlación para nueve elementos de imagen de un establecimiento. Se incluyen en esta serie las medidas de oferta del producto, personal del establecimiento, niveles de precios y el servicio y experiencia dentro del establecimiento. La pregunta que el investigador podría resolver es: ¿Están todos estos elementos separados en sus propiedades de valoración o están “agrupados” en áreas más generales de valoración?.
Por ejemplo, ¿se agrupan todos los elementos del producto juntos? ¿Dónde se ajusta el nivel de precios, o está separado? ¿Cómo se relacionan las características de funcionamiento dentro del establecimiento (por ejemplo, el personal del establecimiento, el servicio y el ambiente)? La inspección visual de la matriz de correlación original (Figura N° 1, parte 1) no revela fácilmente una pauta específica. Existen correlaciones dispersas altas, pero las agrupaciones de variables no son evidentes. La aplicación del análisis factorial tiene como resultado la agrupación de variables tal y como se refleja en la pare 2 e la figura N° 1. Aquí aparecen unas pautas interesantes. En primer lugar, se agrupan cuatro variables, todas relacionadas con la experiencia de compradores dentro del establecimiento. A continuación, tres variables que describen la variedad del producto y disponibilidad están agrupadas juntas. Finalmente se agrupan la calidad del producto y los niveles de precios. Cada grupo representa una serie de variables altamente interrelacionadas que peden reflejar una dimensión de valoración más general. En este caso, podríamos calificar las tres agrupaciones con la calificación de experiencia dentro del establecimiento, oferta de producto y valor. Todo esto proporcionaría a la dirección del establecimiento un número de conceptos más pequeño a tener en cuenta a la hora de formular la planificación comercial de estratégica o táctica, a la vez que proporciona un panorama más detallado de lo que constituye cada área general.
Manuel Hurtado Sánchez
Página 123
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
PARTE 1: MATRIZ DE CORRELACIÓN ORIGINAL. V1
V2
V3
V4
V5
V6
V7
V8
V1: Nivel de precios
1.000
V2: Personal del establecimiento
0,427
1.000
V3: Política de retorno
0,302
0,771
1.000
V4: Disponibilidad del producto
0,470
0,497
0,427
1.000
V5: Calidad del producto
0,765
0,406
0,307
0,472
1.000
V6: Profundidad de surtido
0,281
0,445
0,423
0,713
0,325
1.000
V7: Anchura de surtido
0,354
0,490
0,471
0,719
0,378
0,724
1.000
del 0,242
0,719
0,733
0,428
0,240
0,311
0,435
1.000
0,372
0,737
0,774
0,479
0,326
0,429
0,466
0,710
Servicio V8: establecimiento
dentro
V9: Ambiente del establecimiento
V9
1.000
PARTE 2: MATRIZ DE CORRELACIÓN DE LAS VARIABLES DESPUES DE AGRUPACIÓN SEGÚN EL ANÁLISIS FACTORIAL V3 V3: Política de retorno
Manuel Hurtado Sánchez
V8
V9
V2
V6
V7
V4
V1
V5
1.000
Página 124
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
V8: Servicio dentro del establecimiento
0,733
1.000
V9: Ambiente del establecimiento
0,774
0,710
1.000
V2: Personal del establecimiento
0,741
0,719
0,787
1.000
V6: Profundidad de surtido
0,423
0,311
0,429
0,445
1.000
V7: Anchura de surtido
0,471
0,435
0,468
0,490
0,724
1.000
V4: Disponibilidad del producto
0,427
0,428
0,479
0,497
0,713
0,719
1.000
V1: Nivel de precios
0,302
0,242
0,372
0,427
0,281
0,354
0,470
1.000
V5: Calidad del producto
0,307
0,240
0,326
0,406
0,325
0,378
0,472
0,765
1.000
Las áreas sombreadas representan las variables agrupadas por el análisis factorial Figura N° 1. Ejemplo ilustrativo para el uso del análisis factorial para identificar la estructura dentro de un grupo de variables
El proceso de decisión del análisis factori al Centraremos el debate del análisis factorial en el paradigma de construcción de modelos de seis pasos. La figura 2 muestra los primeros tres pasos de la aproximación estructurada para la construcción de modelos multivariantes, y la figura 4 muestra en detalle los últimos tres pasos, y un paso adicional (el séptimo paso) más allá de la estimación, la interpretación y la validación de los modelos factoriales, que ayuda a la selección de las variables sustitutas, las puntuaciones de factores informáticos o la creación de las escalas aditivas para la utilización de otras técnicas multivariantes. A continuación se presenta un análisis de cada paso. Primer paso
Problema de investigación ¿Es el análisis exploratorio o confirmatorio? Seleccionar objetivo(s):
Confirmatorio
Manuel Hurtado Sánchez
Página 125
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Modelos de ecuaciones estructurales
Exploratorio
Segundo paso
Seleccionar el tipo de análisis factorial
¿Qué está siendo agrupado – Las variables o los
Casos
Variables
Análisis factorial tipo Q
Diseño de investigación ¿Cuáles son las variables a incluir? ¿Cómo se miden las variables?
Tercer paso
Supuestos Consideraciones estadísticas de normalidad, linealidad y homocedasticidad Homogeneidad de la muestra
Hacia el
Figura N° 2 Pasos 1 – 3 en el diagrama de la decisión del análisis factorial
Primer paso: Objetivos del análisis factorial El punto de comienzo en el análisis factorial, como con otras técnicas estadísticas es el problema objeto de investigación. El propósito general de las técnicas analíticas de factores es encontrar una manera de condensar (resumir) la información contenida en una serie de Manuel Hurtado Sánchez
Página 126
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
variables originales en una serie más pequeña de dimensiones compuestas o valores teóricos (factores) nuevos con una mínima pérdida de información – es decir, buscar y definir las construcciones fundamentales o dimensiones que se suponen sirven de base para las variables originales. Más específicamente las técnicas del análisis factorial pueden satisfacer cualquiera de estos dos objetivos: (1) la identificación de estructura mediante el resumen de datos, o bien (2) la reducción de datos.
La identific ación de estructur a mediante el r esumen de datos El análisis factorial puede identificar la estructura de las relaciones entre las variables o los encuestados mediante la investigación de las correlaciones entre las variables o bien las correlaciones entre los encuestados. Por ejemplo, supongamos que tenemos datos sobre 100 encuestados basados en 10 características. Si bien el objetivo de la investigación fuera el resumen de las características, se aplicaría el análisis factorial a una matriz de correlación de las variables. Este es el tipo de análisis factorial más común, y se denomina el análisis factorial R. El análisis factorial R analiza una serie e variables para identificar las dimensiones que son latentes (las que no son fácilmente observadas). También se puede aplicar el análisis factorial a la matriz de correlaciones de los encuestados individuales basadas en sus características. Esto se denomina el análisis factorial Q, siendo un método para combinar o condensar grandes grupos de personas en grupos claramente diferentes dentro de una población mayor, no se usa el análisis factorial Q con mucha frecuencia (dadas las dificultades informáticas). En su lugar la mayoría de los investigadores utilizan algún tipo de análisis cluster para agrupar los encuestados individuales.
Reducción de datos El análisis factorial también puede (1) identificar suplentes de una serie de variables más grande para su utilización en análisis multivariantes posteriores o (2) crear una serie de variables completamente nueva, mucho más pequeña en número, para reemplazar parcial o completamente la serie original de variables para su inclusión en técnicas posteriores. En ambos casos, el propósito es retener la naturaleza y el carácter de las variables originales, pero reducir su número para simplificar el análisis multivariante posterior. Aunque las técnicas Manuel Hurtado Sánchez
Página 127
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
multivariantes se han desarrollado para utilizar múltiples variables, el investigador siempre busca la serie de variables más reducida para incluirla en el análisis. El resumen de datos hace que la identificación de las dimensiones subyacentes o los factores sean fines de por sí; las estimaciones de los factores y las contribuciones de cada variable a los factores (denominada cargas de los factores) constituyen todo lo que se necesita para el análisis. La reducción de datos depende también de las cargas de los factores; no obstante, las utiliza como la base para identificar las variables para el análisis subsiguiente con otras técnicas o bien para hacer estimaciones de los factores mismos (puntuaciones de factores o de escalas aditivas), que a su vez reemplazan las variables originales en análisis subsiguientes.
El uso del análisis factorial con otras técnicas multi variantes El análisis factorial proporciona una visión directa de las interrelaciones entre las variables o entre los encuestados y un apoyo empírico para bordar las cuestiones conceptuales que tienen relación con la estructura subyacente de los datos. También juega un papel complementario importante con otras técnicas multivariantes mediante el resumen y la reducción de datos. Desde la perspectiva del resumen de datos, el análisis factorial proporciona al investigador una comprensión clara de cuáles de las variables podrían actuar juntas y cuántas de las variables realmente se puede esperar que tengan un impacto en el análisis. Por ejemplo, se esperaría que las variables altamente correlacionadas y miembros del mismo factor tuvieran perfiles similares de diferencia a través de los grupos en el análisis multivariante de la varianza o en el análisis discriminante. Los procedimientos que muestran el impacto de las variables correlacionadas son los basados en etapas (Stepwise) de la regresión múltiple o el análisis discriminante. Estas técnicas introducen las variables de forma secuencial, basadas en su capacidad adicional de predicción sobre la variable en el modelo. Conforme entra la variable de un factor, es menos probable que variables adicionales del mismo factor sean también incluidas, por que están altamente correlacionadas y potencialmente tienen menos capacidad de predicción adicional, que las variables que no estén en ese factor. Esto no significa que las otras variables del factor sean menos importantes o tengan menos impacto, sino que su efecto ya ha sido representado por la variable incluida en ese factor. El investigador comprenderá mejor el razonamiento que se halla tras la inclusión de variables en esta técnica con un conocimiento de la estructura de las variables.
Manuel Hurtado Sánchez
Página 128
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
La visión proporcionada por el resumen de datos puede ser incorporada directamente a otras técnicas multivariantes mediante cualquiera de las técnicas de reducción de datos. El análisis factorial proporciona la base para crear una nueva serie de variables que incorporan el carácter y la naturaleza de las variables originales en una cantidad de nuevas variables más reducida, sea con la utilización de variables suplentes, sea con la puntuación de factores o las escalas aditivas. De esta manera, se pueden reducir los problemas que se asocian a las grandes cantidades de variables o intercorrelaciones altas entre las variables con la sustitución de las nuevas variables. El investigador puede beneficiarse de las relaciones y la visión detallada de la base conceptual y la interpretación de los resultados.
Selección de variables La reducción y el resumen de los datos pueden ser llevados a cabo tanto con una serie de variables pre-existentes como por las variables creadas por la nueva investigación. Cuando se usa una nueva serie, el investigador debe realizar una aproximación conceptual para determinar qué variables conviene incluir en el análisis. El uso del análisis factorial para la reducción de datos es particularmente crítico cuando se requiere la comparabilidad a lo largo de un período de tiempo o en situaciones múltiples. Cuando se usa en una nueva investigación, el análisis factorial, puede determinar también la estructura y/o crear nuevas puntuaciones compuestas a partir de las variables originales. Por ejemplo, uno de los primeros pasos en la construcción de la escala aditiva, es valorar la naturaleza de su dimensión y la conveniencia de las variables seleccionadas mediante el análisis factorial. Por tanto, aunque no es verdaderamente confirmatorio, el análisis factorial se puede utilizar para valorar la naturaleza de la dimensión propuesta. Una vez que se especifica el propósito del análisis factorial, e investigador, el investigador tiene que definir la serie de variables a examinar. Por lo que se refiere tanto al análisis factorial tipo R o tipo Q, el investigador especifica implícitamente las dimensiones potenciales que se pueden identificar mediante el carácter y la naturaleza de las variables sujetas al análisis factorial. Por ejemplo, en la valoración de las dimensiones de la imagen del establecimiento, el análisis factorial no podría identificar esta dimensión si no han sido incluidas preguntas sobre el personal del establecimiento. El investigador también tiene que recordar que el análisis factorial siempre producirá factores Por tanto, el análisis factorial es siempre un candidato potencial para el fenómeno “basura dentro, basura fuera”. Si el investigador incluye
indiscriminadamente grandes cantidades de variables y espera que el análisis factorial “lo Manuel Hurtado Sánchez
Página 129
UNIVERSIDAD SAN PEDRO
solucione”, entonces la posibilidad de
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
obtener malos resultados es alta. La calidad y
significado de los factores derivados reflejan un acercamiento conceptual a las variables incluidas en el análisis. El uso del análisis factorial como una técnica de resumen de datos no excluye la necesidad de una base conceptual para cualquiera de las variables analizadas. Incluso si se usa meramente para la reducción de datos, el análisis factorial es más eficiente cuando las dimensiones definidas conceptualmente pueden ser representadas por los factores obtenidos.
Segundo paso: El diseño de un análisis factorial El diseño de un análisis factorial implica tres decisiones básicas: (1) el cálculo de los datos de entrada (una matriz de correlación) para alcanzar los objetivos específicos de agrupación de variables o encuestados; (2) el diseño del estudio en términos de número de variables, las propiedades de medición de las variables y los tipos de variables permisibles; y (3) el tamaño de muestra necesario, tanto en términos absolutos como para la función del número de variables en el análisis.
Las correlaciones entre las variables o los encuestados La primera decisión en el diseño de un análisis factorial se concentra en la aproximación que se usa para calcular la matriz de correlación tanto para el análisis factorial de tipo R o de tipo Q. El investigador puede utilizar la matriz de datos de entrada a partir del cálculo de las correlaciones entre las variables, empleando, por tanto, un análisis factorial de tipo R. El investigador también puede elegir la matriz de correlación entre los encuestados individuales. En este tipo de análisis tipo Q, el resultado será una matriz factorial que identifica a los individuos similares. Por ejemplo, si los encuestados individuales se identifican por un número, la pauta de factores de resultado podría indicarnos que los individuos 1, 5, 6 y 7 son similares. Del mismo modo, los encuestados 2, 3, 4 y 8 quizá cargarían juntos sobre otro factor, y clasificaríamos estos individuos como similares. A partir de los resultados del análisis factorial Q, se pueden identificar grupos o clusters de individuos que muestran una pauta similar sobre las variables que incluyen en el análisis. Manuel Hurtado Sánchez
Página 130
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
A estas alturas una pregunta lógica sería ¿Cómo se diferencia el análisis factorial tipo Q del análisis Cluster, dado que ambas aproximaciones comparan la pauta de respuestas a través de una serie de variables y clasifican a los encuestados en grupos?. La respuesta es que el análisis factorial tipo Q se basa en las intercorrelaciones entre los encuestados, mientras que el análisis cluster forma grupos que se basan en una medida de similitud basada en la distancia entre las puntuaciones de los encuestados sobre las variables analizadas. Variables
9
Encuestados
8
V1 A B
7 8
V2 7 6
V3 8 6
7 6
Encuestado A
5
Encuestado B
4
Encuestado C
3
Encuestado D
2 1 0 V1
V2
V3
Figura N° 3. Comparaciones de perfiles de puntuaciones para el análisis factorial tipo Q y el análisis cluster
Para analizar esta diferencia consideremos la figura N° 3 que contiene las puntuaciones de cuatro encuestados sobre tres variables diferentes. Un análisis factorial tipo Q de estos cuatro encuestados daría dos grupos con estructuras de covarianza similares, agrupando a los encuestados A y C frente a B y D. Por contraste, la aproximación de cluster sería sensible a las distancias reales entre las puntuaciones de los encuestados y llevaría a la agrupación de las parejas más cercanas. Por tanto, con la aproximación del análisis cluster, los encuestados A y B estarían situados en un grupo y C y D en el otro grupo. Si el investigador decide emplear el análisis factorial tipo Q debe ser consiente de estas diferencias. Con la disponibilidad de otras técnicas de agrupación y el uso general del análisis factorial para la reducción de datos y el resumen, el debate restante de esta parte se centrará en el análisis factorial tipo R, la agrupación de variables en ves de la agrupación de encuestados.
La selección de variables y la cuestió n de medición . Ahora es necesario abordar las preguntas: (1) ¿Cómo se miden las variables? Y (2) Cuántas variables deberían ser incluidas?. Se supone, por regla general, que las variables a incluir en el análisis factorial tienen escala métrica. En algunos casos, se pueden usar variables ficticias (codificadas 0 – 1), aunque se consideran no métricas. Si todas las variables son ficticias, entonces las formas especializadas de análisis factorial, tales como el análisis boolean son Manuel Hurtado Sánchez
Página 131
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
más apropiadas. Además, el investigador debe intentar minimizar el número de variables que se incluyen; no obstante, debe mantener un número razonable de variables por factor. Si s está diseñando un estudio para valorar una estructura propuesta, el investigador deberá incluir varias variables (cinco o más) que puedan representar cada factor propuesto. El poder del análisis factorial s basa en encontrar pautas entre grupos de variables y resulta de coca utilidad la identificación de factores compuestos de una única variable. Finalmente, cuando se diseña una investigación que utiliza análisis factorial, el investigador debería, si cabe, identificar varias variables claves (a veces denominadas indicadores claves o variables marcadoras) que reflejan con detalle los factores subyacentes hipotéticos, de forma que se facilite la validación de los factores derivados y la valoración sobre la significación práctica de los resultados.
Tamaño muestral En cuanto a la pregunta del tamaño muestral, generalmente el investigador no usará el análisis factorial para una muestra inferior a 50 observaciones, y preferiblemente el tamaño muestral debería ser 100 o más grande. Como regla general el mínimo es tener observaciones cinco veces mayor que el número de variables a ser analizadas, siendo el amaño aceptable un ratio de diez a uno. Algunos investigadores proponen incluso un mínimo de 20 casos por cada variable. El investigador siempre debería procurar obtener el rato más alto de casos por variable para minimizar las posibilidades de “sobreajustar” los datos (es decir, derivar los
factores que son específicos a la muestra con poca capacidad de genralización).
Tercer paso: Supuestos del análisis factorial. Lo supuestos básicos subyacentes del análisis factorial son más de tipo conceptual que estadístico. Desde un punto de vista estadístico se pueden obviar los supuestos de normalidad, homocedasticidad y linealidad siendo concientes de que su incumplimiento produce una disminución en las correlaciones observadas. En realidad sólo es necesaria la normalidad cuando se aplica una prueba estadística a la significación de los factores; sin embargo raramente se utilizan estas pruebas. De hecho es deseable que haya cierto grado de multicolinealidad, dado que el objetivo es identificar series de variables intercorrelacionadas. Adicionalmente a las bases estadísticas para las correlaciones de la matriz de los datos, el investigador tiene que asegurarse de que la matriz tiene suficientes correlaciones para Manuel Hurtado Sánchez
Página 132
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
justificar la aplicación del análisis factorial. Si la inspección visual revela que no hay un número sustancial de correlaciones mayores que 0.3, entonces el análisis factorial es probablemente inapropiado. Las correlaciones entre las variables también pueden ser analizadas con el cálculo de las correlaciones parciales entre las variables; esto es, las correlaciones entre variables cuando se tienen en cuenta los efectos de las otras variables. Si los factores “verdaderos”
existen en los datos, la correlación parcial será pequeña, porque se puede
explicar la variable mediante los factores (valores teóricos con cargas para cada variable). Si las correlaciones parciales son altas, entonces no existen f actores subyacentes “verdaderos”,
y el análisis factorial es inapropiado. El SPSS proporciona la matriz de correlaciones antiimagen , que es simplemente el valor negativo de la correlación parcial. Las correlaciones parciales o anti-imagen mayores son indicativas de una matriz de datos que no es quizá adecuada para el análisis factorial. Otra manera de determinar la conveniencia del análisis factorial es examina la matriz de correlación entera. El coeficiente de esfericidad de Bartlet , una prueba estadística para la presencia de correlaciones entre las variables, es una de estas medidas. Proporciona la probabilidad estadística de que la matriz de correlación de las variables sea una matriz identidad. El investigador debe tener en cuenta, sin embargo, que el incremento del tamaño muestral da lugar a que la prueba de contraste de Bartlett sea más sensible a la detección de correlaciones entre las variables. Otra medida para cuantificar el grado de intercorrelaciones entre las variables y la conveniencia del análisis factorial es la medida de suficiencia de muestreo (MSA). Este índice se extiende de 0 a 1, llegando a 1 cuando cada variable es perfectamente predicha sin error por las otras variables. La medida puede ser interpretada con las siguientes directrices: 0,80 o superior, sobresaliente; 0,70 o superior, regular; 0,60 o superior mediocre; 0,50 o superior, despreciable; y por debajo de 0,50, inaceptable. El MSA aumenta conforme: (1) aumenta el tamaño muestral, (2) aumentan las correlaciones medias, (3) aumenta el número de variables o (4) desciende el número de factores. Las mismas directrices de MSA pueden extenderse también a las variables individuales. El investigador debería examinar primero los valores MSA para cada variable y excluir aquellas que caen en la gama de inaceptables. Una vez que las variables individuales logran un nivel aceptable, se puede valorar el MSA general y se puede tomar una decisión sobre la continuación del análisis factorial. Los supuestos conceptuales que subyacen en el análisis factorial se relacionan con la serie de variables seleccionadas y la muestra elegida. Un supuesto básico del análisis factorial es Manuel Hurtado Sánchez
Página 133
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
que existe una estructura subyacente en la serie de variables seleccionadas. Es responsabilidad del investigador asegurarse de que las pautas observadas sean válidas y conceptualmente apropiadas para utilizar el análisis factorial porque la técnica no tiene medios de determinar la conveniencia, aparte de las correlaciones entre las variables. Por ejemplo la mezcla de variables dependientes e independientes en un solo análisis factorial y posteriormente el uso de los factores derivados para apoyar las relaciones de depende ncia es inapropiado. El investigador debería asegurarse también de que la muestra es homogénea con respecto a la estructura del factor subyacente. Por ejemplo la aplicación del análisis factorial resultaría inapropiado para una muestra de hombres y mujeres que tienen distintas opiniones sobe una serie de aspectos según el sexo. Cuando se combina las dos submuestras (hombres y mujeres), las correlaciones resultantes y la estructura de los factores serán una representación pobre de la estructura única de cada grupo. Por tanto, cuando se esperan grupos diferentes en la muestra, se deben practicar análisis factoriales separados y los resultados deben ser comparados para identificar las diferencias que no se reflejan en la muestra combinada.
Cuarto paso: La estimación de los factores y la valoración desajuste general Una vez que se especifican las variables y se prepara la matriz de correlación, el investigador está preparado para aplicar el análisis factorial que identifique la estructura subyacente de las relaciones (Ver figura N° 4). Desde el °
4° Paso
L selección de un método de factores Se analiza la varianza total o Varianza total
Varianza común Factores de extracción con el análisis factorial
Factores de extracción con el análisis de
Especificación de la matriz factorial
Manuel Hurtado Sánchez
Página 134
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
5° Paso
La selección de un método de rotación ¿Deberían estar correlacionados (oblicuos) o no correlacionados los factores orto onales ?
Método Ortogonal Varimax, Equimax
Método Oblicuo Oblimin, Promax
Interpretación de la matriz factorial de rotación
No
Se ueden encontrar car as si nificativas? Si
Reespecificación del modelo factorial si
¿Se eliminó alguna variable?
6° Paso
No Validación de la matriz factorial Muestras divididas / múltiples
7° Paso. Usos adicionales Selección de las variables sustituidas
Cálculo de las puntuaciones de factores
Creación de escalas sumadas
Figura N° 4 Pasos 4 - 7 en el diagrama de decisión del análisis factorial Para realizar esta operación, es necesario toma decisiones con relación a: (1) el método de extracción de los factores (análisis factorial común frente al análisis de componentes principales) y (2) el número de factores seleccionados para representar la estructura subyacente en los datos. La selección del método de extracción depende del objetivo del investigador. Se utiliza el análisis de componentes principales cuando el objetivo es resumir la mayoría de la información original (varianza) en una cantidad mínima de factores con propósitos de predicción. Por el contario, se utiliza el análisis factorial común para identificar los factores subyacentes o las dimensiones que reflejan qué es lo que las variables comparten Manuel Hurtado Sánchez
Página 135
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
en común. Para malquiera de esos métodos, el investigador tiene que determinar también el número de factores que representan la serie de variables originales. Tanto las cuestiones conceptuales como empíricas afectan a esta decisión.
El análisis factor ial común fr ente al análisis de comp onentes princi pales El investigador puede utilizar dos modelos básicos para obtener soluciones factoriales. Éstos se conocen como análisi s factorial común y análisi s de componentes prin cipales . Con el fin de seleccionar el modelo apropiado, en primer lugar el investigador tiene que comprender las diferencias entre los tipos de varianza. Para los propósitos del análisis factorial, existen tres tipos de varianza total: (1) Común, (2) específica (también conocida como única), y (3) error . Estos tipos de varianza y su relación con el proceso de selección de modelo factorial se ilustran en la figura N° 5. Valor
Varianza
diagonal Varianza total
Unidad Comunalidad Común
Específica y error
Varianza extraída Varianza perdida Figura N° 5 Tipos de varianza llevados en la matriz factorial
Se define como varianza común aquella varianza en una variable que se comparte con todas las otras variables en el análisis. La varianza específica es aquella varianza asociada solamente con una variable específica. La varianza de error es aquella que se debe a la poca fiabilidad en el proceso de recolección de datos, al error de medición o a un componente aleatorio en el fenómeno medido. El análisis de componentes principales considera la varianza total y estima los factores que contienen proporciones bajas de la varianza única y, en alg unos casos, la varianza de error. No obstante, los primeros factores no tienen la suficiente varianza Manuel Hurtado Sánchez
Página 136
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
o de error como para distorsionar la estructura de factores en su conjunto. Específicamente con el análisis de componentes principales, se insertan las unidades en la diagonal de la matriz de correlación, para que se traiga la varianza completa en la matriz de factores, tal y como se indica en la figura N° 5. Por el contrario, en el análisis factorial común se incorporan las varianzas compartidas en la diagonal. Las comunalidades son estimaciones de la varianza compartida o común entre las variables. Los factores que resultan del análisis factorial común se basan solamente en la varianza común. La selección de un modelo u otro se basa en dos criterios: (1) los objetivos del análisis factorial y el grado de conocimiento anterior acerca de la varianza en las variables. El análisis de componentes principales es apropiado cuando el interés primordial se centra en la predicción o el mínimo número de factores necesarios para justificar la proporción máxima de la varianza representada en la serie de variables originales, y cuando el conocimiento previo sugiere que la varianza específica y de error representan una proporción relativamente pequeña de la varianza total. Por el contrario, cuando el objetivo principal es identificar las dimensiones latentes o las construcciones representadas en las variables originales y el investigador tiene poco conocimiento acerca de la varianza específica y de error y por tanto quiere eliminar esta varianza, lo más apropiado es utilizar el modelo factorial común. Se considera que el análisis factorial común, con unos supuestos más restrictivos y la utilización exclusiva de las dimensiones latentes (varianza compartida), se basa más en la teoría. Aunque teóricamente válido, no obstante, el análisis factorial común tiene varios problemas. En primer lugar, el análisis factorial común adolece de indeterminación de factores. Esto significa que para cualquier encuestado individual, se pueden calcular varias puntuaciones de factores diferentes a partir de los resultados del modelo factorial. No existe una sola solución única, tal y como ocurre con el análisis de componentes principales; no obstante, y en la mayor parte de los casos, las diferencias no son sustanciales. La segunda cuestión se refiere al cálculo de las varianzas compartidas estimadas que se usan para representar la varianza compartida. Cuando se utilizan muestras de gran tamaño o un gran número de variables, los cálculos pueden requerir tiempo y recursos sustanciales del computador. Además las varianzas compartidas no siempre se pueden estimar o pueden no ser válidas (es decir, valores mayores que 1 o menos que 0), lo que requiere la supresión de la variable del análisis (ver ejemplo más adelante). Las complicaciones del análisis factorial común han contribuido al uso generalizado del análisis de componentes principales. Aunque todavía los expertos siguen discutiendo acerca Manuel Hurtado Sánchez
Página 137
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
cual de los modelos factoriales es el más apropiado, la investigación empírica ha mostrado resultados similares en muchos casos. En la mayoría de las aplicaciones, tanto el análisis de componentes principales como los análisis factoriales comunes llegan a resultados esencialmente idénticos si el número de variables excede a 30, o las varianzas compartidas exceden a 0,60 para la mayoría de las variables. Si el investigador está preocupado por los supuestos del análisis de componentes de componentes principales, entonces debe aplicar también el análisis factorial común para valorar su estructura de representación. Cuando se llega a una decisión acerca del modelo factorial, el investigador está preparado está preparado para extraer los factores sin rotación iniciales. Con el examen de la matriz sin rotación, el investigador puede explorar las posibilidades de reducción de datos para una serie de variables y obtener una estimación preliminar de los factores a extraer. Sin embargo, se debe esperar para determinar el número de factores final hasta que se haga una rotación de los resultados y se interpreten los factores.
Criterios para el cálcul o del número de factores a ser extraídos ¿Cómo decidimos el número de factores que se deben extraer? Cuando una gran serie de variables se somete a la extracción de factores, en primer lugar el método extrae las combinaciones de las variables que explican la cantidad mayor de la varianza y después continúa con combinaciones que justifican cantidades de varianza cada vez menores. Para decidir cuántos factores se deben extraer, el investigador empieza generalmente con algún criterio predeterminado, tal como el porcentaje de varianza o el criterio de raíz latente, para llegar a un número de factores específico (se abordan estas dos técnicas más adelante). Después de estimar la solución inicial, se calculan varias soluciones de prueba adicionales – normalmente un factor menos que el número inicial y dos o tres factores más que los que se estimaron inicialmente. Posteriormente, en función de la información que se obtiene de estos análisis previos, se examinan las matrices de factores y se escoge el número de factores que represente mejor los datos. Por analogía, la elección del número de factores es como enfocar un microscopio. Un ajuste demasiado alto o demasiado bajo hará más oscura una estructura que es obvia cuando el ajuste es acertado. Por tanto, al examinar un número de estructuras factoriales diferentes que se derivan de varias soluciones de pruebas, el investigador puede comparar y contrastar para llegar a la mejor representación de los datos. Se puede decir que Manuel Hurtado Sánchez
Página 138
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
todavía no se ha desarrollado una base cuantitativa exacta para decidir el número de factores a extraer. No obstante en general se utilizan los siguientes criterios para la extracción del número de factores. Criteri o de raíz latente . La técnica se
utiliza más frecuentemente esel criterio de raíz latente. Esta técnica es sencilla de aplicar. La racionalidad que se usa para el criterio de raíz latente es que cualquier factor individual debería justificar la varianza de por lo menos una única variable. Cada variable contribuye con un valor de 1 para el autovalor total. Por tanto, solo se consideran los factores que tienen raíces latentes o autovalores mayores que 1; Explican al menos una variable, se considera que todos los factores con raíces latentes menores que 1 (explican menos de una variable) no son significativas y por tanto, se desestimarán a la hora de incorporarlos a la interpretación. El uso del autovalor para establecer un corte es más fiable, cuando el número de variables está entre 20 y 50. Si el número de variables es menor que 20, hay una tendencia a que este método extraiga un número de factores conservador (demasiado poco); por el contrario si hay más de 50 variables, lo más común es que se extraigan demasiados factores. Criterio a priori . El criterio a priori es un criterio simple y a la vez razonable bajo ciertas
circunstancias. Con su aplicación, el investigador ya sabe cuantos factores hay que extraer antes de iniciar el análisis factorial. El investigador simplemente instruye al computador para parar el análisis cuando se haya extraído el número de factores deseado. Esta aproximación resulta de utilidad cuando se prueba una teoría o una hipótesis acerca del número de factores para ser extraído. También puede ser justificado con el objetivo de replicar el trabajo de otro investigador y extraer el mismo número de factores que se encontraron previamente. Criterio de porcentaje de la varianza . El criterio de porcentaje de la varianza es una
aproximación que se basa en obtener un porcentaje acumulado especificado de la varianza total extraída. El propósito es asegurar una significación práctica de los factores derivados, asegurando que explican por lo menos una cantidad especificada de la varianza. No se ha adoptado un umbral absoluto para todas las aplicaciones. Sin embargo, en las ciencias naturales, el procedimiento de factores normalmente no debería ser detenido hasta que los factores extraídos cuenten por lo menos con un 95% de la varianza o hasta que el factor justifique solamente una porción (menos del 5%). Por contraste en las ciencias sociales, donde la información muchas veces es menos precisa, es normal considerar una solución que represente un 60% de la varianza total (y en algunos casos incluso menos) como satisfactoria. Manuel Hurtado Sánchez
Página 139
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Una variante de este criterio implica la selección de suficientes factores para obtener una Comunalidad para cada una de las variables. Si las razones teóricas o prácticas requieren una cierta varianza compartida para cada variable, entonces la investigación incluirá tantos factores como sean necesarios para representar de forma adecuada cada una de las variables originales.
Criterio de contraste de caída . Recordemos que con el modelo de componentes principales, los factores posteriores que han sido extraídos contienen tanto la varianza común como la varianza única. Aunque todos los factores contienen por lo menos alguna varianza única, la proporción de la varianza única es sustancialmente más alta en los factores posteriores que en los primeros. El contraste de caída se utiliza para identificar el número óptimo de factores que pueden ser extraídos antes de que la cantidad de la varianza única empiece a dominar la estructura de la varianza común. Se estima el contraste de caída con el trazo de raíces latentes en función del número de factores en su orden de extracción, y se utiliza la forma de la curva consiguiente para evaluar el punto de corte. La figura 6 representa los primeros 18 factores extraídos de una investigación realizada por Anderson y Cia. Si empezamos con el primer factor, el trazo tiene inicialmente una inclinación descendente y a continuación de convierte paulatinamente en una línea mas o menos horizontal. Se considera que el punto en que la curva empieza a rectificarse indica el máximo número de factores a extraer. En le caso que nos ocupa, se incluirán los primeros 10 factores. Por encima de 10, se incluirá una proporción de la varianza única demasiado grande, por lo que estos factores no son deseables. Es importante señalar que con el uso del criterio de raíz latente solamente se tienen en cuenta 8 factores. Por el contrario, la utilización del criterio de contraste de caída, nos proporciona dos factores más. Por regla general, el contraste de caída normalmente tiene como resultado que se incluya uno y a veces dos o más factores adicionales que cuando se utiliza el criterio de raíz latente.
Heterogeneidad de la muestra . La existencia de varianza compartida entre las variables es el núcleo tanto de los modelos de factores comunes como de los de componente. Un supuesto subyacente es que la varianza compartida se extiende a lo largo de toda la muestra. Si la muestra es heterogénea al menos con respecto a un subconjunto de variables, los primeros factores representarán aquellas variables que son más homogéneas a lo largo de toda la muestra. Las variables con mayor capacidad de discriminar entre subconjuntos maestrales cargarán sobre los últimos factores, en muchas ocasiones aquellos no Manuel Hurtado Sánchez
Página 140
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
seleccionados de acuerdo a los criterios comentados más arriba. Cuando los objetivos sea identificar factores que discriminen entre subconjuntos muestrales, el investigador deberá seleccionar factores adicionales entre aquellos señalados por los métodos anteriormente expuestos y examinar la capacidad de los factores adicionales para discriminar entre grupos. Si resultan ser peores al discriminar, la solución puede estar en proceder de nuevo y eliminar estos últimos factores.
Figura Nº 6Gráfico de autovalor para el criterio de contraste de caída Resumen de
los criterios de selección de factores .
En la práctica, rara vez los
investigadores utilizan un único criterio al determinar cuántos factores extraer. En su lugar, inicialmente emplean un criterio como el de la raíz latente como orientación en un primer intento de interpretación. Después de haber interpretado los factores, como se expone en la siguiente sección, se valora su carácter práctico. También se interpretan los factores identificados mediante otros criterios. Elegir el número de factores está interrelacionado con la valoración de la estructura, lo que se revela en la etapa de interpretación. De esta forma se examinan varias soluciones factoriales con diferentes números de factores antes que la estructura esté bien definida.
Manuel Hurtado Sánchez
Página 141
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
: Puede resultar inconveniente seleccionar tanto muchos como pocos factores para representar los datos. Si se emplean pocos factores, no se revela la estructura correcta y pueden omitirse importantes dimensiones. Si se mantienen demasiados factores, las interpretaciones resultan más difíciles cuando se rotan los resultados (como se expone en la siguiente sección). Tal y como ocurre con otros aspectos de los modelos multivariantes, es importante la parsimonia). Una excepción a Un aviso previo a la selección del conjunto definido de factores
destacar es cuando el análisis de los factores se emplea en exclusiva para la reducción de datos y se especifica la extracción de un nivel de conjunto de varianza. El investigador deberá siempre en esforzarse en conseguir el conjunto de factores lo más representativo y parsimonioso posible.
Quinto Paso: Interpretación de los factores . Para interpretar los factores y seleccionar la solución factorial definitiva se deben seguir tres pasos. En primer lugar se calcula la matriz inicial de factores no rotados para que nos de una indicación preliminar acerca del número de factores a extraer. La matriz de factores contiene las cargas factoriales para cada variable sobre cada factor. Al calcular la matriz factorial no rotada, el investigador simplemente está interesado en la mejor combinación lineal de variables, es decir, en encontrar aquella combinación particular de las variables originales que cuenta con el mayor porcentaje de varianza de los datos. En consecuencia, el primer factor puede contemplarse como el mejor resumen de las relaciones lineales que los datos manifiestan. El segundo factor se define como la segunda mejor combinación lineal de las variables, sujeta a la restricción que sea ortogonal al primer factor. Para ser ortogonal al primer factor, el segundo factor puede derivarse de la varianza restante tras la extracción del primer factor. Así, el segundo factor puede definirse como la combinación lineal de las variables que da cuenta del mayor porcentaje de varianza residual una vez se ha eliminado de los datos el efecto del primer factor. Los factores subsiguientes se definen en forma análoga hasta haber agotado la varianza de los datos. Las soluciones factoriales no rotadas alcanzan el objetivo de reducción de datos, pero el investigador debe preguntarse si la solución factorial no rotada (que se adecua a los requisitos matemáticos deseables) facilita una información que ofrezca la interpretación más adecuada de las variables examinadas. La mayor parte de las veces no sepulta ser así. La carga factorial es el medio para interpretar la función que cada variable desempeña al definir cada factor. Las cargas factori ales son las correlaciones entre cada variable y el factor. Las cargas indican el Manuel Hurtado Sánchez
Página 142
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
grado de correspondencia entre cada variable y el factor, haciendo a una variable con mayor carga representativa del factor. La solución factorial no rotada puede no suministrar un patrón significativo de cargas de las variables. Si se espera que los factores no rotados sean significativos, el usuario puede especificar que la rotación no se lleve a cabo. Generalmente la rotación es deseable por que simplifica la estructura de los factores, y habitualmente es difícil determinar si los factores no rotados serán significativos. Por tanto, el segundo paso hace uso de un método de rotación para lograr soluciones factoriales más simples y teóricamente más significativas. En muchos casos la rotación de los factores mejora la interpretación disminuyendo alguna de las ambigüedades que a menudo acompañan a las soluciones factoriales inicialmente no rotadas. En una tercera etapa, el investigador valora la necesidad de especificar de nuevo el modelo de factores debido a (1) la eliminación de variables en el análisis, (2) El deseo de emplear un método de rotación diferente para la interpretación, (3) la necesidad de extraer un número diferente de factores, o (4) el deseo de cambiar de un método de extracción a otro. La especificación nueva del modelo factorial viene acompañada de la vuelta a la etapa de extracción, rotación de factores y de nuevo a su interpretación.
Rotación de factores.
Una herramienta importante al interpretar los factores es la rotación de factores . El término rotación significa exactamente lo que se indica. Concretamente se giran en el origen los ejes de referencia de los factores hasta alcanzar una determinada posición. Como se indicó previamente, las soluciones factoriales no rotadas extraen factores según su orden de importancia. El primer factor tiende a ser un factor general por el que casi toda variable se ve afectada significativamente dando cuenta del mayor porcentaje de varianza. El segundo y siguientes factores se basan en la varianza residual. Cada uno explica porcentajes de varianza cada vez menores. El efecto último de rotar la matriz de factores es redistribuir la varianza de los primeros factores a los últimos para lograr un patrón de factores más simple y teóricamente más significativo. El caso más simple de rotación es la rotación ortogonal, en la que los ejes se mantienen formando un ángulo de 90 grados entre los ejes de referencia. Cuando no se limita a ser
Manuel Hurtado Sánchez
Página 143
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ortogonal, la rotación se denomina oblicua. Las rotaciones de factores ortogonal y oblicua están ilustradas en las figuras 7 y 8 respectivamente. Una ilustración de la rotación de factores. La figura 7, en el que se han representado cinco variables en un diagrama de factores bidimensional, ilustra la rotación de factores. El eje vertical representa el factor no rotado II, y el horizontal el factor no rotado I. El cero indica el origen de coordenadas yendo éstas de -1,0 á 1,0. El número sobre los ejes representan las cargas factoriales. Las cinco variables están denominadas como V1, V2, V3, V4, y V5. La carga factorial de la variable 2 (V2) sobre el factor no rotado II está indicado horizontalmente mediante una línea de rayas del punto de los datos al eje vertical del factor II. Análogamente se dibuja una línea vertical de la variable 2 al eje horizontal del factor no rotado I para determinar la carga de la variable 2 sobre el factor 1. Un procedimiento similar para las variables restantes determina las cargas factoriales para las soluciones no rotadas y rotadas, como se muestra en la tabla 1 a efectos comparativos. Sobre el primer factor no rotado, todas las variables cargan bastante alto. Sobre el segundo factor no rotado, las variables 1 y 2 cargan muy alto en el lado positivo.
Manuel Hurtado Sánchez
Página 144
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Figura Nª 7 Rotación factorial
ortogonal
La variable 5 tiene una carga moderadamente alta en el lado negativo, y las variables 3 y 4 tienen cargas considerablemente inferiores en el lado negativo. De la inspección visual de la Figura 7, resulta obvio que hay dos grupos de variables. Las variables 1 y 2 van juntas, así como las 3,4 y 5. Sin embargo, este patrón de variables no es tan obvio a partir de las cargas de factores no rotados. Rotando los ejes originales en el sentido de las agujas del reloj, como se indica en la Figura 7, obtenemos un patrón de carga factorial completamente distinto.
Manuel Hurtado Sánchez
Página 145
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Figura Nª 8 Rotación factorial oblicua
Manuel Hurtado Sánchez
Página 146
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Nótese que al rotar los factores, los ejes mantienen el ángulo de 90 grados. Este procedimiento implica que los factores son matemáticamente independientes y que la rotación ha sido ortogonal. Después de rotar el eje de factores, las variables 3 y 4 cargan muy poco sobre el factor I, y las 1 y 2 cargan mucho sobre el factor II. Así, el patrón o agolpamiento de estas variables en dos grupos resulta más obvio que antes de la rotación, incluso la posición relativa o configuración de las variables permanece inalterada. TABLA 1. Comparación entre cargas factoriales rotadas y no rotadas Cargas factoriales no rotadas
Cargas factoriales rotadas
Variables I
II
I
II
V1
0,50
0,80
0,03
0,94
V2
0,60
0,70
0,16
0,90
V3
0,90
-0,25
0,95
0,24
V4
0,80
-0,30
0,84
0,15
V5
0,60
-0,50
0,76
-0,13
Los mismos principios generales de las rotaciones ortogonales atañen a las oblicuas. El método de la rotación oblicua es más flexible porque los ejes de factores no necesitan ser ortogonales. También es más realista porque las dimensiones subyacentes teóricamente más importantes, se suponen relacionadas entre sí. En la Figura 8 se comparan los dos métodos de rotación. Nótese que la rotación de factores oblicua representa el agrupamiento de variables con más precisión. Esa precisión se deriva del hecho de que cada eje de factores rotado está ahora más cerca del grupo respectivo de variables. Además, la solución oblicua provee de información sobre la medida en que los factores realmente están correlacionados uno con otro. La mayor parte de los investigadores están de acuerdo en que soluciones factoriales no rotadas, aunque más directas, no resultan suficientes; es decir, en muchos casos la rotación mejorará la interpretación paliando alguna de las ambigüedades que a menudo acompañan al análisis preliminar. Las alternativas disponibles son la rotación ortogonal o la oblicua. El objetivo último de toda rotación es obtener algunos factores teóricamente significativos y, si es posible, la estructura de factores más simple. La rotación ortogonal se emplea con más frecuencia dada su presencia en todos los programas informáticos de análisis factorial, mientras que los métodos oblicuos no están tan extendidos. Además, las rotaciones Manuel Hurtado Sánchez
Página 147
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ortogonales se utilizan con más frecuencia porque los procedimientos analíticos para llevar a cabo rotaciones oblicuas no están totalmente desarrollados y están todavía sujetos a controversia. Existen varias aproximaciones distintas para llevar a cabo rotaciones ortogonales u oblicuas. Sin embargo, sólo un número escaso de procedimientos de rotación oblicua está disponible en la mayoría de los programas estadísticos; por eso el investigador tendrá que aceptar probablemente alguno de los provistos.
Métodos de rotación o rtogonal: En la práctica, el objetivo de todos los métodos de rotación
es simplificar las filas y columnas de la matriz de factores para facilitar la interpretación. En una matriz de factores, las columnas representan los factores, con cada fila correspondiendo a las cargas de las variables para cada uno de los factores. Simplificando las filas, queremos aproximar lo más posible a cero tantos valores corno sea posible (es decir, maximizar la carga de una variable sobre un único factor). Simplificando las columnas, queremos aproximar lo más posible a cero tantos valores como sea posible (es decir, haciendo que el número de cargas «altas» sea el menor posible). Se han desarrollado principalmente tres aproximaciones:
QUARTIMAX El objetivo último de una rotación QUARTIMAX es simplificar las filas de una
matriz de factores; esto es, QUARTIMAX se centra en rotar los factores iniciales de tal forma que una variable cargue alto sobre un factor y tan bajo como sea posible sobre los otros factores. En estas rotaciones muchas variables pueden cargar alto o cerca sobre el mismo factor porque la técnica se centra en las filas. El método QUARTIMAX no ha demostrado gran capacidad para generar estructuras más simples. Su dificultad está en que tiende a producir un factor general, como el primer factor, sobre el que la mayor parte, si no todas las variables, tiene cargas mayores. Con independencia del concepto que cada cual tenga de estructuras «más simples», inevitablemente se ha de tratar con agrupaciones de variables; un método que tiende a producir un factor general grande (por ejemplo, el QUARTIMAX) no responde a los objetivos de la rotación.
VARIMAX En contraste con el QUARTIMAX, el criterio VARIMAX se centra en simplificar las
columnas de la matriz de factores. Con la aproximación rotacional VARIMAX, se alcanza la máxima simplificación posible si sólo hay ceros y unos en una columna. Manuel Hurtado Sánchez
Página 148
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Esto es, el método VARIMAX maximiza la suma de las varianzas de las cargas requeridas de la matriz de factores. Recuérdese que en la aproximación QUARTIMAX, muchas variables pueden cargar alto o cerca de lo alto sobre el mismo factor porque la técnica se centra en simplificar las filas". Con la aproximación rotacional VARIMAX, tiende a haber altas cargas factoriales (esto es, cercanas a -1 o +1) y algunas cargas cerca de O en cada columna de la matriz. Si la lógica está en que la interpretación es más fácil cuando las correlaciones variable factor están (1) cercanas a-1 o +1, indicando así una clara asociación positiva o negativa entre la variable y el factor; o (2) cercanas a O señalando una clara ausencia de asociación. Esta estructura resulta esencialmente sencilla. Aunque la solución QUARTIMAX es analíticamente más simple que la solución VARIMAX, VARIMAX parece suministrar una separación más clara de factores. En general, el experimento de Kaiser [21, 22] Índica que el patrón factorial obtenido mediante la rotación VARIMAX tiende a resultar más robusto que el obtenido por el método QUARTIMAX cuando se analizan diferentes subconjuntos de variables. El método VARIMAX ha demostrado tener más éxito como aproximación analítica para lograr una rotación ortogonal de factures.
Métodos de rotación oblicua : Las rotaciones oblicuas son similares a las rotaciones orto-
gonales, Excepto que las rotaciones oblicuas permiten la existencia de factores correlacionadas en lugar de mantener la independencia entre los factores rotados. Aunque en la mayor parte de los programas estadísticos hay varias alternativas de aproximación ortogonal, suele haber escasas de rotaciones oblicuas. Por ejemplo, SPSS cuenta con OBLIMIN; SAS con PROMAX y ORTOBLIQUE; y BMDP con DQUART, DOBLIMIN y ORTOBLIQUE. Los objetivos de simplificación son comparables a los de los métodos ortogonales, con el rasgo añadido de existencia de factores correlacionados. Con esta posibilidad, el investigador ha de tener un cuidado adicional al validar los factores rotados oblicuamente, puesto que cuenta con una forma adicional (no ortogonalidad) de proceder, específica a la muestra y no generalizable, especialmente en muestras pequeñas o de bajos ratios casos/variable.
Selección del método de rotación: No se han desarrollado reglas concretas que guíen al
investigador en la selección de una técnica de rotación particular ortogonal u oblicua. En la mayor parte de las ocasiones, el investigador simplemente utiliza la técnica rotacional Manuel Hurtado Sánchez
Página 149
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
suministrada por el programa de computador. Muchos programas cuentan por defecto con la rotación VARIMAX, pero también resultan fácilmente accesibles los métodos rotacionales más comunes. Sin embargo, no existe una razón analítica incuestionable a favor de un método de rotación u otro. La elección de una rotación ortogonal u oblicua debería hacerse según las necesidades concretas de un problema de investigación determinado. Si el objetivo del investigador es reducir el número de variables originales, con independencia de la significación resultante de los factores, la solución apropiada debería ser la ortogonal. Además, si el investigador desea reducir un gran número de variables a un conjunto pequeño de variables incorrelacionadas para un uso posterior en el análisis de regresión u otras técnicas de predicción, la solución ortogonal resulta la más adecuada. Sin embargo, si el objetivo último del análisis factorial es obtener varios factores teóricamente significativos, resulta apropiada una solución oblicua. Llegamos a esta conclusión dado que, realmente, muy pocos factores están incorrelacionados, como ocurre con la rotación ortogonal.
Criterios para la signifi cación d e las cargas factori ales Al interpretar los factores, ha de adoptarse una decisión en tomo a qué cargas factoriales merece la pena considerar. La siguiente exposición considera diversos aspectos relativos a la significación práctica y estadística, además de al número de variables, que afectan a la interpretación de las cargas factoriales.
Asegurar la significación práctica: La primera sugerencia no está basada en afirmaciones
matemáticas, sino que tiene que ver más con la significación práctica. Consiste en un tipo de regla empírica empleado frecuentemente como forma de realizar un examen preliminar de la matriz de factores. Brevemente, las cargas factoriales mayores a ±0,30 se considera que están en el nivel mínimo; las cargas de ±0,40 se consideran más importantes; y las cargas de ±0,50 o mayores, se consideran prácticamente significativas. Así, cuanto mayor sea el tamaño absoluto de la carga factorial, más importante resulta la carga al interpretar la matriz factorial. Dado que la carga factorial es la correlación entre la variable y el factor, el cuadrado de la carga es la cuantía de la varianza total de la variable de ¡a que da cuenta el factor. Así, una carga de 0,30 implica aproximadamente una explicación de un 10 por ciento, y una carga de 0,50 quiere decir que un 25 por ciento de la varianza es debida al factor. Para que un factor Manuel Hurtado Sánchez
Página 150
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
explique un 50 por ciento de la varianza ha de contar con una carga que supere el 70 por ciento. El investigador debería darse cuenta de que cargas extremadamente elevadas (0,80 o más) no son normales y que la significación práctica es un criterio importante. Estas orientaciones son de aplicación cuando el tamaño muestral supera las 100 observaciones.
Valoración de la signif icación estadística: Como se indicó previamente, la carga factorial
representa la correlación entre la variable original y su factor. Al determinar el nivel de significación para la interpretación de las cargas, se debería emplear una aproximación similar a la utilizada para la significación estadística de los coeficientes de correlación. Sin embargo, diversas investigaciones han demostrado que las cargas factoriales cuentan con errores estándar sustancialmente mayores que las correlaciones habituales, por lo que las cargas factoriales deberían evaluarse con niveles considerablemente más estrictos. El investigador puede utilizar el concepto de potencia estadística, para especificar cargas factoriales consideradas significativas según diferentes tamaños muéstrales. Con el objetivo establecido en lograr un nivel de potencia del 80 por ciento, el uso de un nivel de significación de un 0,05, y la inflación probada de los errores estándar de las cargas factoriales, la Tabla 3.2 contiene los tamaños muéstrales necesarios para que cada valor de la carga factorial se considere significativo. Por ejemplo, en una muestra de 100 observaciones, las cargas factoriales de 0,55 o más son significativas. Sin embargo, en una muestra de 50, la significación implica una carga factorial de 0,75. En comparación con la anterior regla empírica que implicaba la significación para cargas del 0,30, esta aproximación consideraría a una carga de 0,30 significativa si el tamaño muestral fuera de 350 observaciones. Existen varias orientaciones prudentes cuando se comparan con las de la sección previa o incluso con errores estándar asociados a los coeficientes de correlación convencionales. Por ello, estas orientaciones deberían emplearse como punto de partida en la interpretación de las cargas factoriales, considerando significativas cargas factoriales bajas y de forma añadida a la interpretación basada en otras consideraciones. La siguiente sección detalla el proceso de interpretación y la función que pueden desempeñar otras consideraciones.
Manuel Hurtado Sánchez
Página 151
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
TABLA 2. Directrices para la identificación de cargas factoriales significativas basadas en el tamaño muestral
Carga factorial
Tamaño muestral necesario para la significacióna
0,30
350
0,35
250
0,40
200
0,45
150
0,50
120
0,55
100
0,60
85
0,65
70
0,70
60
0,75
50
La significación se basa en un nivel de significación de 0,05 (x), un nivel de potencia del 80 por ciento y los errores estándar supuestamente dos veces mayores que los coeficientes convencionales de correlación. a
Fuente: Cálculos realizados con SOLO
Power Análisis , BMDP Statistical Software, Inc, 1993
Ajustes basados en el número de variables : Una desventaja de las aproximaciones an-
teriores es que no se considera el número de variables y los factores concretos que se analizan. Se ha comprobado que, a medida que el investigador se mueve del primer factor a los últimos factores, debe incrementarse el grado aceptable para considerar a una carga como significativa. El hecho de que la varianza única y la varianza del error empiecen a aparecer en los últimos factores significa que debería incluirse algún ajuste al alza en el nivel de significación, Al decidir qué cargas son significativas también es importante el número de variables que se analizan. Según el número de variables analizadas, se incrementa el nivel aceptable para considerar significativa una carga que decrece. El ajuste por número de variables crece en importancia según uno se mueve del primer factor extraído a los últimos. Resumiendo los criterios para la significación de las cargas factoriales, se pueden establecer las siguientes orientaciones: (1) a mayor tamaño muestral, menor puede ser la carga para ser Manuel Hurtado Sánchez
Página 152
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
considerada como significativa; (2) a mayor número de variables analizadas, menor ha de ser la I carga para ser considerada como significativa; (3) a mayor número de factores, mayor ha de ser el tamaño de la carga de los últimos factores para considerarse como significativa en la interpretación.
Interpretación de la matriz de factores La interpretación de las complejas relaciones representadas en la matriz de factores no es una tarea fácil. Siguiendo el procedimiento señalado a continuación, sin embargo, se puede simplificar considerablemente el procedimiento de interpretación factorial.
El examen de la matriz de cargas factoriales: Cada columna de números en la matriz de
factores representa un factor aislado. Las columnas de números son las cargas factoriales de cada variable sobre cada factor. Con el fin de identificar, el computador normalmente imprime identificando los factores de izquierda a derecha por los números 1, 2, 3, 4, etc. También las variables por su número de arriba a abajo. Para facilitar aún más la interpretación, el investigador debería escribir el nombre de cada variable en el margen izquierdo al lado del número de cada variable. Si se ha utilizado una rotación oblicua, se presentan dos matrices de cargas factoriales. La primera es la matriz de patrones factoriales, que contiene las cargas que representan la contribución única de cada variable al factor. La segunda es la matriz de estructura factorial, que contiene las correlaciones simples entre variables y factores, pero estas cargas contienen tanto la varianza única entre variables y factores como la correlación entre factores. Según crece la correlación entre factores, es más difícil distinguir qué variables cargan únicamente sobre cada factor en la matriz de estructura factorial. Muchos investigadores suministran los resultados de la matriz de patrones factoriales.
Identificación de la mayor carga para cada variable: La interpretación debería comenzar
con la primera variable sobre el primer factor y moverse horizontalmente de izquierda a derecha, observando la mayor carga para cada variable sobre cada factor. Cuando se Manuel Hurtado Sánchez
Página 153
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
identifica la mayor carga (en valor absoluto), debe subrayarse si es significativa. Entonces la atención debe centrarse en la segunda variable, y de nuevo moviéndose de izquierda a derecha horizontalmente, comprobar la mayor carga de cada variable sobre cada factor y subrayarla. Este procedimiento debe continuar para toda variable hasta que todas las variables se hayan subrayado una vez en la mayor carga sobre un factor. Recuérdese que para tamaños muéstrales menores a 100, la menor carga factorial que se considere significativa debería ser en la mayor parte de las ocasiones de ±0,30. El proceso de subrayar sólo la mayor carga como significativa para cada variable es un ideal que debería perseguirse pero rara vez se consigue. Cuando cada variable tiene sólo una carga sobre un factor que es considerado significativo, la interpretación del significado de cada factor se simplifica considerablemente. En la práctica, sin embargo, muchas variables cuentan con varias cargas de tamaño moderado, todas las cuales son significativas, y el trabajo de interpretar los factores es mucho más complicado. La dificultad surge porque tina variable con varias cargas significativas debe tenerse en cuenta al interpretar (etiquetar) todos los factores sobre los cuales tiene una carga significativa. Muchas soluciones factoriales no concluyen con una solución de estructura simple (una única alta carga para cada variable sólo sobre un factor). Por eso el investigador deberá continuar, tras encontrar la mayor carga para cada variable, evaluando la matriz de factores para encontrar todas las cargas significativas para una variable sobre todos los factores. Por último, el objetivo es minimizar el número de cargas significativas sobre cada fila y la matriz de factores (esto es, hacer que cada variable se asocie sólo con un factor). Una variable con varias cargas altas es candidata a ser eliminada.
Valoración de la comunalidad: Una vez que todas las variables se han agrupado en sus
respectivos factores, el investigador debería examinar la matriz de factores para identificar variables que no hayan sido incluidas en ningún factor. La comunalidad representa la proporción de varianza con la que contribuye cada variable a la solución final. El investigador debería observar la comunalidad de cada variable para evaluar si alcanza niveles aceptables de explicación. Por ejemplo, un investigador puede especificar que al menos sea explicada la mitad de la varianza de cada variable. Haciendo uso de este consejo, el investigador debería identificar todas las variables con comunalidades menores a 0,50 como carentes de explicación suficiente.
Manuel Hurtado Sánchez
Página 154
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Si hay variables que no cargan sobre ningún factor o cuyas comunalidades se juzgan demasiado bajas, caben dos alternativas: (1) interpretar la solución tal cual es y simplemente prescindir de esas variables; o (2) evaluar cada una de esas variables para su supresión eventual. Prescindir de variables puede resultar apropiado si el objetivo es únicamente la reducción de datos, pero el investigador todavía debe percatarse de que las variables en cuestión están pobremente representadas en la solución factorial. La consideración sobre su eliminación debe depender de la contribución conjunta de las variables para el investigador además del índice de comunalidad. Si la variable en cuestión es de escasa importancia para el objetivo del estudio o cuenta con una comunalidad inaceptable, podría ser eliminada y se procedería posteriormente a especificar e! modelo factorial excluyendo esa variable. Etiquetación de los factores: Cuando se ha obtenido una solución factorial en que todas las
variables tienen una carga significativa sobre un factor, el investigador procura atribuir un significado al patrón de cargas factoriales. Las variables con mayores cargas se consideran más importantes y tienen mayor influencia sobre el nombre o etiqueta seleccionada para representar al factor. Por eso, e! investigador examinará todas las variables agrupadas en un factor particular y, poniendo mayor énfasis en las variables con mayor carga factorial, intentará asignar un nombre o etiqueta al factor que refleje con precisión las variables cargadas sobre el factor. Los signos se interpretan como otros coeficientes de correlación. Sobre cada factor, signos iguales significan que las variables están positivamente relacionadas, signos opuestos significan que las variables están negativamente relacionadas. En soluciones ortogonales los factores son independientes unos de otros. Por tanto, los signos de las cargas factoriales se relacionan sólo con el factor en el cual aparecen, no con otros factores en la solución. Esta etiqueta no viene asignada por el análisis factorial realizado por el programa de computador; en su lugar, la etiqueta se fabrica intuitivamente de acuerdo a la conveniencia para representar, las dimensiones subyacentes de un factor concreto. El resultado final será el nombre o etiqueta que representa cada uno de los factores obtenidos con tanta precisión corno sea posible. En algunas ocasiones, no es posible asignar un nombre a cada uno de los factores. Cuando surge tal situación, el investigador desearía etiquetar un factor o factores derivados de la solución como «indefinidos». En tales casos el investigador interpreta sólo aquellos factores que son significativos y elude aquellos indefinidos o menos significativos. Al describir la solución factorial, el investigador Índica que esos factores se obtuvieron pero que eran
Manuel Hurtado Sánchez
Página 155
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
indefinidos y que sólo se interpretan aquellos factores que representan relaciones significativas. Como se expuso anteriormente, la selección de un número concreto de factores y el método de rotación están interrelacionados. Se pueden llevar a cabo varias rotaciones adicionales de prueba y comparando la interpretación factorial para las diferentes rotaciones ensayadas, el investigador puede seleccionar el número de factores a extraer. En resumen, la habilidad para asignar algún significado a los factores, o para interpretar la naturaleza de las variables, son consideraciones extremadamente importantes para determinar el número de factores a extraer.
Sexto paso: Validación del análisis factorial La sexta etapa comprende la evaluación del grado de generabilidad, de los resultados para la población y la influencia potencial de causas o individuos sobre los resultados globales. El aspecto de la generabilidad es esencial en cada uno de los métodos multivariantes, pero es especialmente relevante en los métodos de interdependencia por describir una estructura de datos que debería ser representativa también de la población. El método más directo de validación de los resultados consiste en adoptar una perspectiva de confirmación, valorando la replicabilidad de los resultados, bien dividiendo la muestra con los datos originales, bien con una muestra adicional. La comparación de los resultados de dos o más modelos factoriales siempre ha sido problemática. Sin embargo, existen varias alternativas para realizar una comparación objetiva. El auge del análisis factorial confirmatorio (CEA) a través de la modelización de ecuaciones estructurales supone una alternativa, pero generalmente es más complicado y requiere software adicional como LISREL o EQS [4,20]. En el capítulo 11, se discute el análisis factorial confirmatorio en detalle. Además del CFA, se han propuesto otros métodos que van desde un simple índice de adecuación a programas (FMATCH) diseñados especialmente para valorar la correspondencia entre matrices de factores [34]. Estos métodos cuentan con un uso ocasional, debido en parte a (1) la percepción de ausencia de sofisticación y (2) la no disponibilidad de software o programas analíticos que automaticen las comparaciones. Por eso, cuando CFA no es apropiado estos métodos facilitan una base objetiva para la comparación.
Manuel Hurtado Sánchez
Página 156
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Otro aspecto de la generalización es la estabilidad de los resultados del modelo factorial. La estabilidad factorial depende primeramente del tamaño muestral y del número de casos por variable. El investigador siempre está obsesionado por contar con el mayor tamaño muestral posible y desarrollar modelos parsimoniosos que incrementen la ratio-casos-por-variable. Si el tamaño muestral lo permite, el investigador puede dividir aleatoriamente la muestra en dos subconjuntos y estimar los modelos factoriales de cada uno. La comparación de las dos matrices factoriales resultantes suministrará una valoración de la robustez de la solución a lo largo de la muestra. Además de la generabilidad, otro aspecto de importancia para la validación del análisis factorial es la detección de observaciones influyentes. Las discusiones del Capítulo 2 sobre la detección de atípicos y del Capítulo 4 sobre observaciones influyentes en la regresión se deben aplicar también al análisis factorial. El investigador procura estimar el modelo con y sin observaciones identificadas como atípicas para valorar su influencia sobre los resultados. También, como se discutió en el Capítulo 4, son de aplicación al análisis factorial varias medidas de influencia que reflejan la posición relativa de una observación respecto a las otras (por ejemplo, el ratio de la covarianza). Finalmente, se han propuesto métodos específicos de análisis factorial para identificar observaciones influyentes, pero su complejidad ha restringido su aplicación.
Séptimo paso: Usos adicionales de los resultados del análisis factorial Dependiendo de los objetivos de partida al aplicar el análisis factorial, el investigador puede detenerse en la interpretación de los factores o proseguir con uno de los métodos de reducción de datos. Si el objetivo simplemente consiste en identificar combinaciones lógicas de variables y una mejor comprensión de las relaciones entre variables, entonces basta con la interpretación de los factores. Esta facilita una base empírica para enjuiciar la estructura de las variables y la influencia de esta estructura cuando se interpretan los resultados a partir de otras técnicas multivariantes. Si el objetivo, sin embargo, es identificar variables apropiadas para aplicaciones subsiguientes de otras técnicas estadísticas, se empleará alguna forma de reducción de datos. Las alternativas consisten en (1) examinar la matriz de factores y seleccionar la variable con mayor carga factorial como un representante de una dimensión Manuel Hurtado Sánchez
Página 157
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
factorial particular, o (2) reemplazar el conjunto original de variables por uno totalmente nuevo con menos variables creado a partir de escalas aditivas o de la puntuación de factores. Cada alternativa suministrará nuevas variables para ser usadas, por ejemplo, como variables independientes en una regresión o en el análisis discriminante, o como variables dependientes en el análisis multivariante de la varianza, o incluso como las variables agrupadas e n el análisis cluster. Cada una de estas alternativas para la reducción de datos se exponen en las siguientes secciones.
Selección de variables suplentes para el anáfisis subsigu iente
Si el objetivo del investigador es sencillamente identificar variables apropiadas para la aplicación subsiguiente de otras técnicas estadísticas, cuenta con la alternativa de examinar la matriz factorial y seleccionar la variable con la mayor carga factorial sobre cada factor para que actúe como variable suplente del factor. Este enfoque es simple y directo sólo cuando una variable tiene una carga factorial que es sustancialmente mayor que las otras cargas factoriales. En muchas ocasiones, sin embargo, el proceso de selección es mucho más difícil porque dos o más variables tienen cargas que son significativas y bastante cercanas entre si. Estos casos requieren un examen crítico de las cargas factoriales de tamaño aproximado y sólo una como representativa de una dimensión concreta. Esta decisión debería basarse en el conocimiento previo de la teoría por parte del investigador que pueda sugerir que una variable con preferencia a otra pueda ser representativa de la dimensión. Además, el investigador puede contar con un conocimiento que le sugiera que una variable con una carga ligeramente inferior es de hecho más fiable que la variable con la mayor carga. En tales casos, puede elegir la variable con carga ligeramente inferior como la mejor variable suplente de un factor concreto. La aproximación de seleccionar una única variable como representativa del factor - aunque simple y manteniendo la variable original - cuenta con varios inconvenientes potenciales. En primer lugar, no orienta sobre el error de medida que aparece cuando se emplean medidas únicas (véase la siguiente sección para una discusión más detallada) y se corre, además, el riesgo de confundir potencialmente los resultados seleccionando sólo una única variable para representar un resultado posiblemente más complejo. Por ejemplo, supongamos que las variables que representan competitividad en precio, calidad del producto y valor, cargan en varios factores. La selección de cualquiera de estas variables aislada daría lugar a Manuel Hurtado Sánchez
Página 158
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
interpretaciones sustancial-mente distintas en cualquier análisis subsiguiente, aunque las tres pueden estar tan próximamente relacionadas como para excluir tal acción. En segundo lugar, en casos donde varias cargas elevadas complican la selección de una única variable, el investigador puede no tener otra elección que la de emplear el análisis factorial como la base para calcular una escala aditiva o la puntuación de factores para usar como variables suplentes. El objetivo, como en el caso de seleccionar una única variable, es representar de la mejor forma posible la naturaleza básica del factor o componente.
Creación de escalas aditivas
En el Capitulo 1 se introdujo el concepto de escala aditiva, que está formada por la combinación de varias variables individuales dentro de una única medida compuesta. Simplificando, se combinan todas las variables que cargan alto sobre un factor, y el total - o más normalmente la puntuación media de las variables - se emplea como variable de sustitución. Una escala aditiva cuenta con dos ventajas concretas. Primeramente, es una forma de eludir en alguna forma el error de medida inherente a todas las variables observadas. El error de medida es el grado en el cual los valores observados no son representativos de los valores «verdaderos» debido a cierto número de razones, desde errores reales (por ejemplo, errores en la entrada de los datos) a la incapacidad de los individuos de suministrar información con precisión. El error de medida enmascara cualquier relación (por ejemplo, correlaciones o comparación de medias de grupos) y hace más difícil la estimación en los modelos muí ti variantes. La escala aditiva reduce el error de medida utilizando indicadores múltiples (variables) para reducir la desconfianza sobre una única respuesta. Empleando la «media» o la respuesta «típica» a un conjunto de variables relacionadas, el error de medida que podría tener lugar en una única respuesta se reducirá. Una segunda ventaja de la escala aditiva es su capacidad para representar los múltiples aspectos de un concepto en una única medida. En muchas ocasiones empleamos más variables en nuestros modelos multivariantes en un intento de representar las muchas «facetas» de un concepto que sabemos es bastante complejo. Pero al actuar así, complicamos la interpretación de los resultados debido a la redundancia de la información asociada con el concepto. Por eso, nos gustaría no sólo obtener una descripción mejor de los conceptos utilizando múltiples variables, sino también mantener la parsimonia en el número de variables de nuestros modelos multivariantes. La escala aditiva, cuando se construye apropiadamente, Manuel Hurtado Sánchez
Página 159
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
combina los múltiples indicadores en una medida única representando lo que se mantiene en común a lo largo del conjunto de medidas. El proceso de construcción de la escala está fundamentado teórica y empíricamente en una serie de disciplinas que incluyen la teoría psicométrica, la sociología y el marketing. Aunque un tratamiento completo de las técnicas y aspectos involucrados están más allá del alcance de curso, existen fuentes excelentes para un estudio más extenso de estas materias. Adicionalmente hay una serie de compilaciones de escalas existentes que pueden aplicarse en varias situaciones. Aquí expondremos, sin embargo, cuatro aspectos básicos en la construcción de cualquier escala aditiva: la definición conceptual, la dimensionalidad, la fiabilidad y la validación.
Defini ción c onceptual El punto de partida para construir una escala aditiva es su definición
conceptual. La definición conceptual específica las bases teóricas de la escala aditiva definiendo el concepto que está representado en términos aplicables al contexto de investigación. En la investigación académica, las definiciones teóricas están basadas en investigación previa que define el carácter y naturaleza de un concepto. En un ámbito de gestión empresarial, los conceptos concretos pueden definirse con relación a los objetivos propuestos, tales como la imagen, el valor o la satisfacción. En cualquier caso, la definición conceptual es la que orienta y concreta el carácter y tipo de ítems que son candidatos a ser incluidos en la escala. La validación del contenido es la evaluación de la correspondencia de las variables incluidas en la escala aditiva con su definición conceptual. Esta forma de validación, también conocida como validación aparente, sirve para apreciar subjetivamente la correspondencia entre los ítems individuales y el concepto a través de evaluaciones de expertos, contrastes previos con múltiples sub-poblaciones, u oíros medios. El objetivo es asegurar que los ítems de la escala abarquen algo más que aspectos empíricos, también consideraciones teóricas y prácticas.
Dimensionalidad: Un supuesto subyacente y requisito esencial para construir una escala adi-
tiva es que los ítems sean unidimensionales, lo que significa que estén fuertemente asociados unos con otros representando un único concepto. El análisis factorial sirve de apoyo realizando una valoración empírica de la dimensionalidad del conjunto de ítems determinando el número Manuel Hurtado Sánchez
Página 160
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
de factores y las cargas de cada variable sobre el factor o factores. El contraste de unidimensionalidad consiste en que en una escala aditiva los ítems carguen de forma elevada en un único factor. Si se propone que una escala aditiva cuente con múltiples dimensiones, cada dimensión reflejará un factor aislado. El investigador puede evaluar la unidimensionalidad bien con un análisis factorial exploratorio, como se discutió en este capítulo, o bien un análisis factorial confirmatorio, como se describe más adelante.
Fiabilidad: La fiabilidad es el grado de consistencia entre las múltiples medidas de una
variable. Una forma de fiabilidad es el test-retest por el cual la consistencia se mide entre las respuestas de un individuo en dos momentos del tiempo. El objetivo es asegurar que las respuestas no varían demasiado a lo largo de períodos temporales por lo que una medida tomada en cualquier momento del tiempo es certera. Una segunda medida de la fiabilidad más utilizada es la consistencia interna que se aplica a la consistencia entre las variables en una escala aditiva. La motivación para la consistencia interna es que los ítems individuales o indicadores de la escala deberían estar midiendo las mismas construcciones y, de esta forma, estar altamente ínter correlacionadas. Debido a que no hay un único ítem que sea una medida perfecta de un concepto, debemos delegar en un conjunto de medidas de diagnosis para valorar la consistencia interna. En primer lugar, existen varias medidas que se relacionan con cada ítem aislado, incluyendo la correlación ítem-total (la correlación del ítem con la puntuación de la escala aditiva) o la correlación inter-ítem (la correlación entre ítems). La práctica empírica sugiere que la correlación ítem-total exceda de 0,50 y que las correlaciones inter-ítem excedan de 0,30. El segundo tipo de medida de diagnosis es el coeficiente de fiabilidad que valora la consistencia de la escala entera, el alfa de Cronbach que es la medida más extensamente utilizada. El acuerdo general sobre el limite inferior para al alfa de Cronbach es de 0,70, aunque puede bajar a 0,60 en la investigación exploratoria. Un aspecto en la valoración del alfa de Cronbach es su relación positiva con el número de ítems de la escala. Debido a que al aumentar el número de ítems, incluso con el mismo grado de intercorrelación, se incrementará el valor de la Habilidad, los investigadores deben imponer requisitos más restrictivos para escalas con un mayor número de ítems. También están disponibles medidas de fiabilidad derivadas del análisis factorial confirmatorio. Dentro de ellas están la fiabilidad compuesta y la varianza media extraída.
Manuel Hurtado Sánchez
Página 161
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Cada uno de los programas estadísticos más utilizados contiene ahora módulos de evaluación de la fiabilidad, de tal forma que el investigador está provisto de un análisis completo de medidas tanto específicas de cada ítem como medidas de fiabilidad globales. En toda escala aditiva debería analizarse la fiabilidad para asegurar su adecuación antes de proceder a una evaluación de su validación.
Validación: Habiendo asegurado que una escala (1) se adecua a su definición conceptual, (2)
es unidimensional, y (3) alcanza los niveles necesarios de fiabilidad, el investigador debe realizar una evaluación final: la validación de la escala. La validación es la medida en que una escala o un conjunto de medidas representa con precisión el concepto de interés. Ya hemos discutido una forma de validación el contenido o validación por confrontación en relación a las definiciones conceptuales. Otras formas de validación se miden empíricamente por la correlación entre los conjuntos de variables definidas teóricamente. Las tres formas más extensamente admitidas de validación son la convergente, la discriminante y la nomológica. La validación convergente valora el grado en el cual dos medidas del mismo concepto están correlacionadas. Aquí el investigador debe buscar medidas alternativas de un concepto y córrela donarlas con la escala aditiva. Alias correlaciones indican que la escala está midiendo el concepto que se pretendía. La validación discriminante es el grado en el cual dos conceptos conceptualmente parecidos difieren. El contraste empírico de nuevo es la correlación entre las medidas, pero esta vez la escala aditiva está correlacionada con una medida parecida, pero conceptualmente distinta. Ahora la correlación debería ser baja, demostrando que la escala aditiva es conceptualmente distinta de otro concepto parecido. Finalmente, la validación nomológica refleja el grado en que la escala aditiva hace predicciones precisas de otros conceptos en un modelo basado en la teoría. El investigador debe identificar relaciones apoyadas en investigación previa o en principios aceptados y evaluar si la escala cuenta con las correspondientes relaciones. En resumen, la validación convergente confirma que la escala está correlacionada con otras medidas conocidas del concepto, la validación discriminante asegura que la escala es suficientemente distinta de otros conceptos parecidos que sean distintos, y la validación nomológica determina si la escala demuestra las relaciones cuya existencia se deriva de la teoría; y/o de investigación previa. Existen varios métodos para evaluar la validación, que van desde el multirasgo, las matrices (MTMM) a las aproximaciones basadas en ecuaciones estructurales. Aunque vayan \ más allá
Manuel Hurtado Sánchez
Página 162
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
del alcance de este libro, existen una serie de fuentes que orientan sobre el conjunto de métodos disponibles y de los aspectos implicados por las técnicas concretas.
Resumen Las escalas aditivas, uno de los desarrollos recientes en la investigación académica, cuentan cotí" aplicación creciente en investigación aplicada y también en gestión empresarial. La capacidad de la escala aditiva para plasmar conceptos complejos en una única medida reduciendo el error de medida supone un añadido valioso en cualquier análisis multivariante. El análisis factorial ofrece al investigador una evaluación empírica de las relaciones entre las variables, esencial en la formación de los fundamentos conceptuales y empíricos de la escala aditiva por medio de la evaluación de la validación del contenido y la dimensionalidad de la escala.
Cálcul o de la puntuación factorial
La tercera alternativa para crear un conjunto más pequeño de variables es reemplazar el conjunto original por medio del cálculo de la puntuación factorial. Las puntuaciones factoriales constituyen también medidas compuestas de cada factor calculadas para cada sujeto. Conceptualmente, la puntuación factorial representa el grado en el cual cada individuo puntúa en el grupo de ítems que cuentan con cargas elevadas sobre un factor. Por tanto, mayores valores en las variables con altas cargas sobre un factor resultarán en una mayor puntuación factorial. Una de las características clave que diferencia la puntuación factorial de la escala aditiva es que la puntuación factorial se calcula en base a las cargas factoriales, mientras que la escala aditiva se calcula combinando sólo las variables elegidas. En consecuencia, aunque el investigador sea capaz de caracterizar un factor por medio de las variables con cargas mayores, se debe también atender a las cargas de las otras variables, aunque menores, y su influencia sobre la puntuación factorial.
Manuel Hurtado Sánchez
Página 163
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
La mayoría de los programas estadísticos puede calcular puntuaciones factoriales fácilmente para cada elemento muestral. Seleccionando la alternativa de puntuación factorial, se graban estas puntuaciones para su uso en análisis subsiguientes. Una desventaja de la puntuación factorial es que no se pueden replicar fácilmente en otros estudios debido a que están basados en la matriz factorial obtenida en cada estudio. La replicación de la misma matriz factorial en distintos estudios requiere un importante trabajo de programación.
Selección entre lo s tres m étodos
Para elegir entre las tres alternativas para reducir datos el investigador debe adoptar una serie de decisiones. La primera elección está en seleccionar una única variable suplente para cada factor o calcular una medida compuesta. La variable suplente única cuenta con las ventajas de ser de sencillo tratamiento e interpretación, pero tiene las desventajas de no representar las otras «facetas» del factor y su propensión al error de medida. Si el investigador desea emplear alguna forma de medida compuesta, debe elegir entre la puntuación factorial y las escalas aditivas. Ambas cuentan con ventajas y desventajas y no hay un criterio tajante aplicable a todas las situaciones. La puntuación factorial tiene la ventaja de representar un compuesto de las cargas de las variables sobre el factor, aunque esto supone también una desventaja potencial al contar todas las variables con algún grado de influencia en el cálculo de la puntuación factorial y hacer la interpretación más difícil. La escala aditiva está a medio camino entre la variable suplente y la alternativa de la puntuación factorial. Es una medida compuesta, como la puntuación factorial, reduciendo por tanto el error de medida y representando múltiples facetas de un concepto. Aunque similar a la aproximación de variable suplente incluye sólo las variables que cargan alto sobre el factor y excluye aquellas con escasos efectos. Además, su fácil replicación entre muestras es similar al enfoque de variable suplente. Finalmente, como las variables suplentes, las escalas aditivas no son necesariamente ortogonales, mientras que los factores pueden ser ortogonales o incorrelados, si se necesita evitar complicaciones en su uso en otras técnicas multivariantes. La regla de decisión, por tanto, seria que si los datos se emplean sólo en la muestra original o se debe mantener la ortogonalidad, la puntuación factorial es la adecuada. Si se desea la transferibilidad o la generalización, las escalas aditivas o las variables suplentes son más apropiadas. Si la escala aditiva está bien construida, validada y es fiable, es probable que sea la mejor alternativa. Pero si la escala aditiva no está contrastada y revisada, con poca o
Manuel Hurtado Sánchez
Página 164
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
ninguna prueba de fiabilidad o validación, deberían considerarse en su lugar las variables suplentes si no es posible un análisis añadido que mejore la escala aditiva.
Un ejemplo ilustrativo En las secciones precedentes se han discutido ¡as principales preguntas concernientes a la aplicación del análisis factorial en el contexto de la construcción de modelos introducido en el Capítulo 1. Para aclarar más estos temas, exponemos un ejemplo ilustrativo de aplicación d el análisis factorial basado en ítems de la base de datos HATCO. Nuestra discusión del ejemplo empírico sigue también el proceso de construcción de modelos en seis pasos. Se presentan en primer lugar los tres primeros, comunes al análisis factorial común y al de componentes principales. Posteriormente, los pasos cuarto al sexto se dedican al análisis de componentes principales, junto a los ejemplos de los usos adicionales del análisis factorial. Concluimos con un análisis de las diferencias para el análisis factorial común en los pasos cuarto y quinto.
Primer paso: Objetivos del análisis factorial El análisis factorial puede identificar la estructura de un conjunto de variables además de suministrar un proceso para la reducción de datos. En nuestro ejemplo, se examinan las percepciones de HATCO sobre siete atributos (X1 a X7) para (1) comprender si esas percepciones pueden ser «agrupadas» y (2) reducir las siete variables a un número menor. Incluso el número relativamente menor de percepciones examinadas presenta aquí un cuadro complejo de 21 correlaciones aisladas. Agrupando las percepciones, HATCO dispondrá de un panorama que le permitirá comprender a sus clientes y lo que éstos piensan sobre HATCO. Si las siete variables pueden representarse en un número menor de variables compuestas, las otras técnicas multivariantes pueden ser más parsimoniosas. Por supuesto, este enfoque supone que existe un determinado orden subyacente en los datos analizados.
Segundo paso: Diseño del análisis factorial La comprensión de la estructura de las percepciones de las variables requiere un análisis factorial de tipo R y una matriz de correlación entre las variables, no entre las respuestas. Todas las variables son métricas y forman un conjunto homogéneo apropiado para el análisis Manuel Hurtado Sánchez
Página 165
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
factorial. Atendiendo a la adecuación del tamaño muestral en este ejemplo hay un ratio de observaciones a variables de 14 a 1, que entra en los ¡imites aceptables. Además, el tamaño muestral de 100 supone una base adecuada para el cálculo de las correlaciones entre variables.
Tercer paso: Supuestos de análisis factorial Los supuestos estadísticos subyacentes afectan al análisis factorial en la medida en que afectan a las correlaciones obtenidas. Incumplimientos de la normalidad, la homocedasticidad y la linealidad pueden reducir las correlaciones entre variables. El investigador puede también evaluar la aplicación del análisis factorial con el análisis de la matriz de correlaciones. El primer paso es el examen visual de las correlaciones, identificando aquellas que sean estadísticamente significativas. La Tabla 3 muestra la matriz de correlaciones para las siete percepciones de HATCO. La inspección de la matriz de correlaciones revela que 11 de las 21 correlaciones (52 por ciento) son significativas al nivel del 0,01.
Este análisis suministra una base adecuada para el siguiente nivel, el examen empírico de la suficiencia del análisis factorial tanto sobre bases globales como para cada variable. El siguiente paso es valorar la significación de la matriz de correlación con el contraste de Barlett. En este ejemplo, las correlaciones, cuando se toman conjuntamente, son significativas a un nivel del 0,0001 (véase Tabla 3). Pero con este test se contrasta sólo la presencia de correlaciones no nulas, no el patrón de esas correlaciones. El otro contraste global es la medida de adecuación muestral (MSA), que en este caso cae en el rango de no aceptación (por debajo del 0,50) con un valor de 0,446. El examen de los valores para cada variable identifica tres variables (X1, X2 y X5) que también tienen valores por debajo de 0,50. Debido a que X. tiene el menor valor MSA, será omitida con el fin de obtener un conjunto de variables que puedan exceder los niveles mínimos aceptables MSA.
TABLA 3. Evaluación de la conveniencia del análisis factorial: Correlaciones, medidas de suficiencia de muestreo
y correlaciones parciales entre variables
Manuel Hurtado Sánchez
Página 166
UNIVERSIDAD SAN PEDRO
Variable X1 : Velocidad de entrega
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Correlación entre las variables
X1
X2
X3
X4
X5
X6
X7
1,00
-0,35*
0,51*
0,05
0,61*
0,08
-0,48*
1,00
-0,49*
0,27*
0,51*
0,19
0,47*
1,00
-0,12
0,07
-0,03
-0,45*
1,00
0,30*
0,79*
0,20
1,00
0,24
-0,06
1,00
0,18
X2 : Nivel de precio X3 : Flexibilidad de precio X4 : Imagen del fabricante X5 : Servicio X6 : Imagen del personal de ventas X7 : Calidad del producto
1,00
* Indica las correlaciones significativas al nivel 0,01. Medida de suficiencia de muestreo general: 0,446 Contraste de esfericidad de Bartlett: 567,541 Significación: 0,0000
Variable
Medidas de suficiencia de muestreo y correlaciones parciales*
X1
X2
X3
X4
X5
X6
X1 : Velocidad de entrega
0,344
X2 : Nivel de precio
0,957
0,330
X3 : Flexibilidad de precio
0,018
0,155
0,913
X4 : Imagen del fabricante
0,149
0,134
0,095
0,558
X5 : Servicio
-0,978
-0,975
-0,091
-0,173
0,288
X6 : Imagen del personal de ventas
-0,060
-0,045
-0,085
-0,766
0,052
0,552
X7 : Calidad del producto
-0,016
-0,141
0,140
-0,039
0,088
-0,092
X7
0,927
*Los valores de la diagonal principal son medidas de suficiencia de muestreo para variables individuales; los valores fuera de la diagonal son correlaciones anti-imagen (correlaciones parciales negativas)
La Tabla 4 contiene la matriz de correlación para el conjunto revisado de variables (X1 X 2 X3 X4, X6 y X7) junto a las medidas de adecuación muestral y el valor del contraste de Barlett. En la matriz de correlaciones reducida, 7 de las 15 correlaciones son estadísticamente significativas. Como con el conjunto completo de variables, el contraste de Barlett muestra que Manuel Hurtado Sánchez
Página 167
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
las correlaciones no nulas existen a un nivel de significación del 0,0001. El conjunto reducido de variables colectivamente alcanza el umbral necesario de suficiencia muestral con un valor MSA de 0,665. Cada una de las variables también excede el valor del umbral, indicando que el conjunto reducido de variables alcanza los requisitos fundamentales para el análisis factorial. Finalmente, con la excepción de una correlación parcial (X4 y X6), las demás son todas bastante bajas, lo que es otro indicador de la fortaleza de las relaciones entre las variables del conjunto reducido. Todas estas medidas indican que el conjunto reducido de variables es apropiado para el análisis factorial, y que se puede proseguir con los siguientes pasos. Análi sis de factores componentes: Del paso cuarto al sépt imo
Como se indicó anteriormente, los procedimientos de análisis factorial están basados en el cálculo inicial de una tabla completa de intercorrelaciones entre las variables (matriz de correlación). Esta matriz de correlación se transforma entonces por medio de la estimación de un modelo de factores para obtener la matriz de factores. Las cargas de cada variable sobre los factores se interpretan entonces para identificar la estructura subyacente de las variables, en este caso percepciones de HATCO. Estos pasos del análisis factorial, contenidos en los pasos cuarto a siete, se examinan primero para el análisis de componentes principales. Entonces, se lleva a cabo un análisis factorial común y se comparan los dos modelos de factores. TABLA 4. Evaluación de la conveniencia del análisis factorial para la serie de variables revisada: correlaciones, medidas de suficiencia de muestreo y correlaciones parciales entre variables
Variable X1 : Velocidad de entrega
Correlación entre las variables
X1
X2
X3
X4
X6
X7
1,00
-0,35*
0,51*
0,05
0,08
-0,48*
1,00
-0,49*
0,27*
0,19
0,47*
1,00
-0,12
-0,03
-0,45*
1,00
0,79*
0,20
1,00
0,18
X2 : Nivel de precio X3 : Flexibilidad de precio X4 : Imagen del fabricante X6 : Imagen del personal de ventas X7 : Calidad del producto
1,00
* Indica las correlaciones significativas al nivel 0,001. Manuel Hurtado Sánchez
Página 168
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Medida de suficiencia de muestreo general: 0,665 Contraste de esfericidad de Bartlett: 205,965 Significación: 0,0000
Variable
Medidas de suficiencia de muestreo y correlaciones parciales*
X1
X2
X3
X4
X6
X1 : Velocidad de entrega
0,721
X2 : Nivel de precio
0,074
0,787
X3 : Flexibilidad de precio
-0,338
0,301
0,748
X4 : Imagen del fabricante
-0,098
-0,160
0,081
0,542
X6 : Imagen del personal de ventas
-0,045
0,026
-0,081
-0,769
0,532
X7 : Calidad del producto
0,331
-0,253
0,149
-0,024
-0,097
X7
0,779
* Los valores de la diagonal principal son medidas de suficiencia de muestreo para variables individuales los valores fuera de la diagonal son correlaciones anti-imagen (correlaciones parciales negativas)
Cuarto paso: Derivación de los factores y valoración del ajuste global El primer paso es seleccionar el número de componentes que se van a mantener para un análisis posterior. La Tabla 5 contiene la información relativa a los seis posibles factores y su poder explicativo relativo expresado por sus autovalores. Además de valorar la importancia de cada componente, podemos emplear los autovalores como ayuda para seleccionar el número de factores. Si aplicamos el criterio de raíz latente, se mantendrán dos componentes. El contraste de caída (Figura 9), sin embargo indica que los tres factores pueden resultar apropiados. Al mirar el autovalor para el tercer factor, se determinó que su valor bajo (0,597) relativo al criterio de raíz latente de 1,0 impide su inclusión. Si su autovalor hubiera estado cercano a 1, entonces también podría haberse considerado su inclusión. Estos resultados ilustran la necesidad de criterios de decisión múltiples al decidir el número de componentes que se mantienen. Los dos factores mantenidos representan el 71 por ciento de la varianza de las seis variables.
Manuel Hurtado Sánchez
Página 169
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Los resultados para la extracción de los factores de componente
TABLA 5.
Factor
Autovalor
Porcentaje de varianza
Porcentaje de varianza acumulado
1
2,51349
41,9
41,9
2
1,73952
29,0
70,9
3
0,59749
10,0
80,8
4
0,52956
8,8
89,7
5
0,41573
6,9
96,6
6
0,20422
3,4
100,0
FIGURA 9. Contraste de caída para el análisis de componente.
Manuel Hurtado Sánchez
Página 170
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Quinto paso: Interpretación de los factores El resultado del cuarto paso se presenta en la Tabla 6, la matriz de factores del análisis de componentes no rotados. Para empezar el análisis, expliquemos en primer lugar las cantidades incluidas en la tabla. Se muestran tres columnas de números. Las dos primeras son los resultados para dos factores que van a extraerse (esto es, cargas factoriales sobre cada variable para cada factor). La tercera columna suministra estadísticas de resumen detallando cómo cada variable está «explicada» por los dos componentes, que son discutidos en la siguiente sección. La primera fila de números al final de cada columna es la suma de los cuadrados de las cargas factoriales (autovalores) e indica la importancia relativa de cada factor dando cuenta de la varianza asociada con el conjunto de variables que se analiza. Nótese que la suma de los cuadrados para los dos factores son 2,51 y 1,74 respectivamente. Como se esperaba, la solución factorial ha extraído los factores en el orden de su importancia, con el factor 1 dando cuenta de la mayor parte de varianza y el 2 algo menos. En el extremo derecho de la fila está el número 4,25, que representa la suma explicada total de los cuadrados (2,51 ± 1,74). La suma total de los factores al cuadrado representa la cantidad tota! de varianza explicada por la solución factorial. TABLA 6.
Matriz de factores de análisis de componente no rotado Variables
Factores 1
2
Comunalidades
X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto
-0,627 0,759 -0,730 0,494 0,425 0,767
0,514 -0,068 0,337 0,798 0,832 -0,168
Suma de cuadrados (autovalor) Porcentaje de traza* * Traza = 6,0 (suma de los autovalores)
2,51 41,9
1,74 29,0
0,66 0,58 0,65 0,88 0,87 0,62 Total 4,25 70,9
La cantidad total de varianza explicada por la solución factorial (4,25) puede compararse con la variación total en el conjunto de variables tal como viene representada por la traza de la Manuel Hurtado Sánchez
Página 171
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
matriz factorial. La traza es la varianza total a explicar y es igual a la suma de los autovalores del conjunto de variables. En el análisis de componentes principales, la traza es igual al número de variables puesto que cada variable tiene un posible autovalor igual a 1,0. Los porcentajes de traza explicados por cada uno de los dos factores (41,9 por ciento y 29,0 por ciento respectivamente) aparecen como la última fila de valores de ia Tabla 3.6. El porcentaje de traza se obtiene dividiendo la suma de los cuadrados de cada factor por la traza para el conjunto de variables analizado. Por ejemplo, dividiendo la suma de los cuadrados de 2,51 para el factor 1 por la traza de 6,0 resulta un porcentaje de traza del 41,9 por ciento para el factor 1. Sumando los porcentajes de traza para cada uno de los dos factores, obtenemos el porcentaje total de traza extraído para la solución factorial, que puede emplearse como índice para determinar con qué bondad da cuenta una solución factorial concreta de lo que todas las variables representan conjuntamente. Si todas ¡as variables son muy diferentes unas de otras, este índice será bajo. Si las variables pertenecen a uno o más grupos altamente redundantes o relacionados, o si los factores extraídos dan cuenta de todos los grupos, el índice se aproximará al 100 por cien. El índice para la solución presente muestra que el 70,9 por ciento del total de la varianza está representado por la información contenida en la matriz factorial de la solución para los dos factores. Por tanto, el índice para esta solución es elevado, y las variables están de hecho altamente relacionadas unas con otras. La fila suma de las cargas de los factores al cuadrado se muestra en el extremo derecho de la Tabla 6. Estas cifras, señaladas en la tabla como comunalidades, muestran la cantidad de varianza en una variable que es explicada por los dos factores tomados conjuntamente. El tamaño de la comunalidad es un índice útil para valorar cuánta varianza en una variable concreta viene explicada por la solución factorial. Grandes comunalidades indican que la solución factorial ha extraído una gran cantidad de varianza en una variable. Pequeñas comunalidades muestran que una porción sustancial de la varianza en una variable viene explicada por los factores. Por ejemplo, la comunalidad de 0,65 para la variable X3 indica que tiene menos en común con las otras variables incluidas en el análisis de lo que lo hace la variable X4 que tiene una comunalidad de 0,88. Ambas variables, sin embargo, todavía «comparten» en torno a un medio de su varianza con los otros factores. Habiendo definido los diversos elementos de la matriz de factores no rotados, examinemos los patrones de cargas factoriales. Como se anticipó, el primer factor da cuenta de la mayor cantidad de varianza y es un factor general, en que todas las variables tienen una carga alta. Las cargas del segundo factor muestran tres variables (X1, X4 y X6) que también tienen cargas altas. Basados en este Manuel Hurtado Sánchez
Página 172
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
patrón de altas cargas factoriales, la interpretación resultaría bastante difícil y teóricamente menos significativa. Por tanto, el investigador debería proceder a rotar la matriz factorial para redistribuir la varianza de los primeros factores a los últimos. De la rotación debe resultar un patrón factorial más sencillo y teóricamente más significativo.
La aplicación de la rotación ortogonal (VARIMAX): La matriz de factores del análisis de
componentes rotados VARIMAX se muestra en la Tabla 7. Nótese que la cantidad total de varianza es la misma en la solución rotada de lo que lo era en la no rotada, esto es, el 70,9. Aun así aparecen dos diferencias. Primero, la varianza se ha redistribuido para que el patrón de carga factorial y el porcentaje de varianza para cada uno de los factores sean distintos. Concretamente, en la solución rotada VARIMAX, el primer factor responde del 39,5 por ciento de la varianza en comparación con el 41,9 por ciento en la solución no rotada. De la misma forma, el segundo factor da cuenta de 31,4 por ciento frente al 29,0 por ciento en la solución no rotada. Así, el poder explicativo se ha desplazado ligeramente hacia una distribución más uniforme debido a la rotación. En segundo lugar, la interpretación de la matriz factorial se ha simplificado.
TABLA 7. Matriz de factores del análisis de componentes VARIMAX
Variables
X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Suma de cuadrados (autovalor) Porcentaje de traza*
Cargas rotadas VARIMAX Factor 1
Factor 2
Comunalidades
-0,787 0,714 -0,804 0,102 0,025 0,764
0,194 0,266 -0,011 0,933 0,934 0,179
0,66 0,58 0,65 0,88 0,87 0,62
2,37 39,5
1,88 31,4
Total 4,25 70,9
* Traza = 6,0 (suma de los autovalores)
Manuel Hurtado Sánchez
Página 173
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Recuérdese que en la solución factorial no rotada todas las variables cargaban significativamente sobre el primer factor. En la solución factorial rotada, sin embargo, las variables X1, X 2, X 3 y X7 cargan significativamente sobre el factor 1, y las variables y X4 y X6 cargan significativamente sobre el factor 2. Ninguna variable carga significativamente sobre más de un factor. Debería resultar aparente que la interpretación factorial se ha simplificado considerablemente al rotar la matriz factorial.
Denominación de los factores: Cuando se ha obtenido una solución factorial satisfactoria, el
investigador normalmente intenta atribuirle algún significado. El proceso implica la interpretación sustantiva del patrón de cargas factoriales para las variables, incluidos sus signos, en un esfuerzo por denominar cada uno de los factores. Antes de la interpretación, debe seleccionarse un nivel mínimo aceptable de significación para el factor. Normalmente, en la interpretación se emplean todas las cargas factoriales significativas. Pero las variables con mayores cargas influyen en una mayor medida en el nombre o etiqueta seleccionada para representar a un factor. Observemos los resultados de la Tabla 7 para ilustrar este procedimiento. La solución factorial se obtuvo de un análisis de componentes con una rotación VARIMAX de las seis percepciones ofrecidas por HATCO. El punto de corte de las cargas a efectos interpretativos en este ejemplo fue del 55 por ciento (véase Tabla 3.2). Este resulta un punto de corte prudencialmente alto y puede ajustarse de ser necesario. Pero en nuestro ejemplo, todas las cargas caen sustancialmente por encima o por debajo de este umbral, haciendo la interpretación bastante fácil. La interpretación sustantiva se basa en las mayores cargas significativas. El factor 1 tiene cuatro cargas significativas y el factor 2, dos. Para el factor 1, vemos dos grupos de variables. El primero es el nivel de precios (X2) y la calidad del producto (X7), ambas con signos positivos. Las otras dos variables, la rapidez en el envío (X1) y la flexibilidad de precios (X3) tienen signos negativos. Por ello, la calidad del producto y el nivel de precios varían juntos, lo mismo que la rapidez en el envío y la flexibilidad de precios. Sin embargo, un grupo respecto a otro se mueven en sentidos opuestos. En nuestro ejemplo, esto podría indicar que cuando calidad de producto y precio crecen, la rapidez en el envío o la flexibilidad de precios decrecen, o viceversa. Existen cuatro características tangibles de HATCO en el conjunto de variables, y Manuel Hurtado Sánchez
Página 174
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
están agrupadas juntas en un único factor. Este factor, quizá denominado valor básico, representa una concesión entre las percepciones del precio o calidad del producto y las percepciones de rapidez en el envío y flexibilidad de precios. Volviendo al factor 2, notamos que las variables X4 (imagen del productor) y X6 (imagen de los vendedores) se relacionan ambas con componentes de imagen, apuntando quizá a una etiqueta como imagen HATCO como segundo factor. Ambas variables tienen el mismo signo, sugiriendo que estas percepciones son bastante similares en las respuestas no actuando en sentidos opuestos, como observamos con el primer factor. Deberíamos notar que el servicio global (X5) no estaba incluido en el análisis factorial. Cuando se presentaron las interpretaciones de las cargas factoriales, se decidió no incluir esta variable, SÍ se utilizan los resultados en otro análisis multivariante, X5 podría incluirse como una variable aislada, aunque esto no asegurarla que fuera ortogonal a la puntuación factorial. Ha quedado así expuesto el proceso de denominar los factores. Se habrá notado que está basado en la opinión subjetiva del investigador. En multitud de ocasiones, varios investigadores no dudarán en atribuir nombres diferentes a los mismos resultados debido a las diferencias en su formación y ejercicio. Por este motivo, el proceso de denominar los factores está sujeto a una controversia considerable. Pero sí se puede asignar un nombre lógico que represente la naturaleza subyacente de los factores, normalmente facilita la presentación y comprensión de la solución factorial y por tanto es un procedimiento justificable. La aplic ación de una rotación oblic ua: La rotación VARIMAX es ortogonal, lo que significa
que los factores permanecen incorrelacionados con el proceso de rotación. Pero en muchas ocasiones, los factores no necesitan estar incorrelacionados e incluso pueden estar conceptualmente ligados, lo que requiere una correlación entre los factores. En nuestro ejemplo, es bastante razonable esperar que las dimensiones perceptivas puedan estar correlacionadas; así quedaría justificada una rotación oblicua. La Tabla 8 contiene las matrices de patrón y estructura con las cargas factoriales para cada variable sobre cada factor. Como se discutió más arriba, la matriz de patrones se emplea normalmente con fines interpretativos, concretamente si los factores cuentan con una alta correlación entre ellos. En este caso, la correlación entre los factores es sólo del 0,12, por eso las matrices de patrones y estructura tienen cargas bastante comparables. Examinando las variables que cargan alto sobre cada factor, notamos que la interpretación es exactamente la misma que se encontró con la rotación VARIMAX. Manuel Hurtado Sánchez
Página 175
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
TABLA 8. Rotación oblicua de una matriz factorial del análisis de componente Variables Matriz de patrones (cargas) X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Matriz de estructura X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Matriz de correlación de factores Factor 1 Factor 2
Cargas de rotación oblicuas Factor 1 Factor 2 -0,803 0,704 -0,808 0,051 -0,026 0,759
0,248 0,219 0,043 0,931 0,937 0,129
-0,773 0,730 -0,802 0,164 0,088 0,774
0,151 0,304 -0,054 0,938 0,934 0,220
Factor 1 1,00 0,121
Factor 2
Comunalidadesa 0,66 0,58 0,65 0,88 0,87 0,62
1,00
a Los valores de las varianzas compartidas no son iguales a la suma de las cargas al cuadrado debido a la correlación de los factores.
Sexto paso: Validación del análisis factorial La validación de los resultados de cualquier análisis factorial es esencial, especialmente cuando se intenta definir la estructura subyacente entre las variables. Óptimamente, deberíamos seguir siempre nuestro análisis factorial con alguna forma de análisis factorial confirmatorio, tal como el modelo de ecuaciones estructurales, pero esto a menudo no es factible. Debemos contemplar otros medios, como el análisis de división de la muestra o la aplicación a muestras enteramente nuevas. En este ejemplo, dividimos la muestra en dos partes iguales de 50 respuestas y reestimamos los modelos factoriales para contrastar la compatibilidad. La Tabla 3.9 contiene las rotaciones VARIMAX para los dos modelos factoriales, junto a las comunalidades. Como puede verse, Manuel Hurtado Sánchez
Página 176
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
las dos rotaciones VARIMAX son bastante comparables en términos tanto de las cargas como de las comunalidades para las seis percepciones. Un suceso notable es el cambio de signo del factor 1 en la primera submuestra frente a la segunda. Las interpretaciones de la relación entre las variables (por ejemplo, la rapidez del envío crece, la percepción del nivel de precios decrece) no cambian porque están relacionadas con las cargas en cada factor. Con estos resultados, podemos estar más seguros de que los resultados son estables dentro de nuestra muestra. De ser posible, nos gustaría llevar a cabo un trabajo posterior obteniendo respuestas adicionales y asegurando que los resultados se generalizan entre la población.
Séptimo paso: Usos adicionales de los resultados del análisis factorial El investigador tiene la posibilidad de utilizar el análisis factorial no sólo como instrumento para resumir datos, como hemos visto en la discusión previa, sino también como instrumento para reducir datos. En este contexto, el análisis de factores podría servir de ayuda para reducir el número de variables, o para seleccionar un conjunto de variables suplentes, una por factor, o creando nuevas variables compuestas para cada factor. Las siguientes secciones detallan los aspectos propios de la reducción de datos para este ejemplo.
Examinemos los datos de la Tabla 7 para aclarar el procedimiento para la selección de variables suplentes. Primero, recordemos que las variables suplentes deberían seleccionarse sólo cuando la rotación sea ortogonal, porque cuando estamos interesados en utilizar variables suplentes en análisis subsiguientes, es lo mejor, en la medida de lo posible, que las variables independientes estén incorrelacionadas entre sí. Por ello debe elegirse una solución ortogonal en lugar de una oblicua. Selección de variables suplentes para un análisi s s ubsigui ente:
Manuel Hurtado Sánchez
Página 177
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
TABLA 9. Validación del análisis de componente por estimación de división de la muestra VARIMAX
Variables
Muestras de división 1 X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Muestras de división 2 X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto
Cargas rotadas VARIMAX Factor 1
Factor 2
Comunalidades
-0,695 0,772 -0,822 0,045 0,056 0,811
0,397 0,142 -0,098 0,944 0,916 0,043
0,64 0,62 0,69 0,89 0,84 0,66
0,842 -0,625 0,829 -0,167 0,008 -0,681
-0,002 0,396 0,107 0,915 0,945 0,315
0,71 0,55 0,70 0,87 0,89 0,56
a Los valores de las varianzas compartidas no son iguales a la suma de las cargas al cuadrado debido a la correlación de los factores.
Suponiendo que queremos seleccionar una única variable para su uso posterior, antes que construir una escala aditiva o utilizar la puntuación factorial (véanse las siguientes secciones), examinaríamos la magnitud de las cargas factoriales. Centrándonos en las cargas factoriales del factor 2, vemos que la carga para la variable X4 es 0,933 y para la variable es de 0,934. La selección de un representante es difícil en casos como éste porque los tamaños de las cargas son esencialmente idénticos. Sin embargo, si no tenemos pruebas previas que sugieran que la fiabilidad o validación para una de las variables es mejor que para la otra, podríamos seleccionar la X6 como variable suplente, sabiendo que representa elementos de imagen en mayor grado. Dadas las altas cargas para ambas variables, la selección de una sola podría ser suficiente debido al alto grado de intercorrelación entre ellas (mostrado por las altísimas cargas sobre el mismo factor o componente). De la misma forma, las cargas para el factor 1 son de 0,714 para la variable X2 y de 0,764 para X7, con cargas negativas comparables para
Manuel Hurtado Sánchez
Página 178
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
X1, (-0.787) y X3 (-0.804). Para ambos factores, ninguna variable «representa» el mejor componente; por lo que la puntuación factorial o escalas aditivas serían más apropiados.
Creación de escalas aditivas: Una escala aditiva es un valor compuesto para un conjunto de
variables calculado por un procedimiento tan sencillo como tomar la media de las variables en la escala. Esto es bastante parecido a los valores teóricos en otras técnicas multivariantes, excepto que las ponderaciones para cada variable se supone son iguales en el proceso de promediar. El análisis factorial ayuda en la construcción de escalas aditivas identificando la dimensionalidad de las variables, que puede entonces estar relacionada con la definición conceptual. En este ejemplo, la solución de dos factores sugiere que deberían construirse dos escalas aditivas. Los dos factores tratados previamente, corresponden a dimensiones que pueden denominarse y relacionarse con conceptos con un contenido de validación adecuado. La dimensionalidad de cada escaláosla apoyada por la interpretación «clara» de cada factor, con mayores cargas factoriales de cada variable sólo sobre un factor. La fiabilidad de las escalas aditivas está mejor representada por el alfa de Cronbach, que en este caso es de 0,77 para la escala 1 y de 0,85 para la escala 2. Ambos valores exceden el nivel recomendado del 0,70. Aunque no hay disponible ningún contraste directo para evaluar la validación de la escala aditiva, se pueden hacer comparaciones con análisis hechos con las variables originales y la puntuación factorial. La Tabla 3.10 ilustra el uso de las escalas aditivas junto con la puntuación factorial como sustitutos de las variables originales. Seleccionamos el ejemplo de identificar diferencias entre respuestas de pequeñas empresas frente a grandes (X8). Las escalas aditivas muestran los mismos patrones de diferencias entre pequeñas y grandes empresas tanto en variables Individuales como en la puntuación factorial. Por eso, demuestran cierto nivel de validación convergente con estas otras medidas. Los diferentes signos de las cargas del factor 1 apuntan a un aspecto importante al construir escalas aditivas. Cuando las variables tienen cargas tanto positivas como negativas dentro del mismo factor, o bien las variables con las cargas positivas o negativas, deben tener los valores de los datos cambiados. Normalmente, las variables con las cargas negativas tienen la puntuación factorial cambiada por lo que las correlaciones, y las cargas, están ahora en positivo dentro del factor. La puntuación inversa es el proceso por el cual se cambian los valores de los datos de una variable para que las correlaciones con las otras variables cambien de signo (esto es; pasen de negativo a positivo). Por ejemplo, sobre nuestra escala de O a 10, Manuel Hurtado Sánchez
Página 179
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
podríamos cambiar la puntuación de una variable sustrayendo de 10 el valor original (es decir, puntuación Inversa = 10 - valor original). De esta forma, las puntuaciones originales de 10 y O ahora tendrían las puntuaciones inversas de O y 10. Se mantendrían todas las características de la distribución; sólo que la distribución sería la opuesta. La finalidad de la puntuación inversa es evitar una «cancelación» de variables con cargas positivas y negativas. Usemos como ejemplo dos variables con una correlación negativa, V1 y V2, con V1, teniendo carga positiva y V2 negativa. Esto significa que si 10 el es la puntuación tope en V1, el tope en V2 sería 0. Supongamos ahora dos casos. En el caso 1, V 1, tiene un valor de 10 y F, de O (el mejor caso). En el caso 2, V1 tiene un valor de 0 y V2 de 10 (el peor caso). Si a V2 no se le invierte la puntuación, entonces la escala de puntuación calculada sumando las dos variables para ambos casos 1 y 2 es 10, sin mostrar ninguna diferencia, mientras que sabemos que el caso 1 es el mejor y el caso 2 el peor. Si invertimos la puntuación de V2 sin embargo la situación cambia. Ahora el caso 1 tiene valores de 10 y 10 sobre V1 y V2, respectivamente, y el caso 2 tiene valores de 0 y 0. La puntuación de escala aditiva es ahora de 20 para el caso 1 y O para el caso 2, que los distingue como la mejor y la peor situación.
Manuel Hurtado Sánchez
Página 180
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
TABLA 3.10. Valoración del reemplazo de las variables originales por puntuaciones de factores o escalas aditivas Diferencia de media entre grupos de encuestados basada en X 8 , tamaño de empresa
Prueba estadística
Puntuación de media Medida
Grupo 1: pequeñas
Grupo 2: grandes
empresas
empresas
4,19 1,95 8,62 5,21 2,69 6,09
Prueba - F Ratio F
Significación
2,50 2,99 6,80 5,30 2,63 8,29
64,7 22,0 70,2 0,1 0,2 86,2
0,000 0,000 0,000 0,709 0,674 0,000
-0,640 0,052
0,959 -0,078
159,8 0,41
0,000 0,525
3,81 3,95
5,49 3,96
156,8 0,00
0,000 0,957
Variables originales
X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Puntuaciones de factores
Puntuación de factor 1 Puntuación de factor 2 Escalas aditivas
Escala 1 Escala 2
Correlaciones entre las puntuaciones de factores y las escalas a ditivas Puntuación de factores
Puntuación de factor 1 Puntuación de factor 2 Escalas aditiva 1 b Escalas aditiva 2 b
1 1,000 0,000 0,995 0,075
2 0,000 1,00 0,085 0,0985
Escalas aditivasb
1 0,995 0,085 1,000 0,154
2 0,075 0,985 0,154 1,000
a Tienen cargas de factores negativas. b Escalas aditivas calculadas como puntuación media a lo largo de los artículos. Por ejemplo, escala 1 es la media de X 1, X2, X3 y X7. Nótese: X1 y X3 son de escala inversa, debido a sus cargas de factores negativas.
Uso de las puntuaciones f actoriales: En lugar de calcular las escalas aditivas, podríamos
calcular las puntuaciones factoriales para cada uno de los dos factores en nuestro análisis de componentes principales. De esta forma, cada respuesta contaría con dos nuevas variables (puntuaciones factoriales para los factores 1 y 2) que podrían sustituir a las seis variables originales en otras técnicas multivariantes. En el contraste de diferencia de medias entre dos grupos de respuestas (Tabla 3.9), vemos que todas las variables que cargan alto sobre el Factor 1 (X1, X2 X3, y X7) son significativamente distintas en las respuestas de pequeñas y grandes empresas, mientras que las variables que cargan alto sobre el factor 2 (X4 y X 6) no Manuel Hurtado Sánchez
Página 181
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
cuentan con diferencias significativas. Las puntuaciones factoriales y las escalas aditivas deberían mostrar patrones similares si son realmente representativas de las variables. Como se vio en la Tabla 3.10, las puntuaciones factoriales difieren en concordancia con este patrón. La puntuación factorial 1 muestra diferencias significativas que la puntuación del factor 2 no tiene. Se contemplan diferencias similares entre ambos grupos para las escalas aditivas. Además, estas escalas están altamente correlacionadas con las puntuaciones factoriales. Por eso, en este ejemplo, tanto las puntuaciones factoriales como las escalas aditivas retratan con precisión los conceptos que representan. Selección del método de reducción de los datos: Si las variables originales se van a
reemplazar por las puntuaciones factoriales o las escalas aditivas, se debe decidir su uso. Esta decisión está basada en la necesidad de réplica en otros estudios (que favorece el uso de escalas aditivas) frente al deseo de ortogonalidad de las medidas (que favorece las puntuaciones factoriales). La Tabla 3.10 también contiene la matriz de correlación de las puntuaciones factoriales y las escalas aditivas. Debido a que empleamos una rotación ortogonal, la correlación entre las puntuaciones factoriales es de 0,0. Pero las escalas aditivas pueden estar correlacionadas y en este caso la correlación esa de 0,1545. El investigador debe averiguar la necesidad de la ortogonalidad frente a la replicabilidad al seleccionar las puntuaciones factoriales frente a las escalas aditivas.
Análisis factorial común: Pasos cuarto y quinto El análisis factorial común es el segundo modelo de análisis factorial que presentamos. La primera distinción entre análisis de componentes principales y análisis factorial común es que el último considera sólo la varianza común asociada con un conjunto de variables. Este objetivo se cumple factorizando una matriz de correlación «reducida» con comunalidades iniciales estimadas en la diagonal en lugar de unidades. Las diferencias entre el análisis de componentes principales y el análisis factorial común aparecen en las etapas de estimación de los factores y de interpretación (pasos 4 y 5). Una vez que las comunalidades están en la diagonal, el modelo factorial común extrae los factores de un modo similar al análisis de componentes principales. El investigador utiliza los mismos criterios para la selección de los factores y su interpretación. Para ilustrar las diferencias que pueden aparecer entre análisis factorial común y de componentes principales, las siguientes secciones detallan la extracción Manuel Hurtado Sánchez
Página 182
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
e interpretación en el análisis factorial común de las seis percepciones HATCO empleadas en el análisis de componentes principales.
Cuarto paso: Derivación de los factores y valoración d el ajuste global Se ha empleado la matriz de correlaciones «reducidas» con las comunalidades en la diagonal en el análisis factorial común. Nótese que X5, se omitió del análisis de componentes principales debido a un valor MSA inaceptable. Si se hubiera incluido en el análisis factorial común, sin embargo, la comunalidad no se podría haber estimado en la extracción original de factores. Por eso, el análisis factorial común todavía podría haberse llevado a cabo con seis variables incluso si X5 no se hubiera eliminado debido al bajo valor MSA. El primer paso es determinar el número de factores que se mantendrán para su examen y posible rotación. La Tabla 3.11 muestra las estadísticas de la extracción. Si fuéramos a emplear el criterio de raíz latente con un valor de corte de 1,0 para el autovalor, se mantendrían dos factores. Sin embargo, el análisis de caída indica que se retienen tres factores (véase Figura 3.10). Al combinar estos dos criterios, mantendremos dos factores para el análisis posterior debido al bajo valor del autovalor para el tercer factor y para mantener la compatibilidad con el análisis de componentes principales. De nuevo, como en el análisis de componentes principales examinado previamente, el investigador debería emplear una combinación de criterios para determinar el número de factores a mantener y podría incluso examinar la solución de tres factores como una alternativa.
TABLA 3.11. Resultados para la extracción de factores comunes
Factor
Autovalor
1 2 3 4 5 6
2,51349 1,73952 0,59749 0,52956 0,41573 0,20422
Manuel Hurtado Sánchez
Porcentaje de varianza 41,9 29,0 10,0 8,8 6,9 3,4
Porcentaje acumulado de varianza 41,9 70,9 80,8 89,7 96,6 100,0
Página 183
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
La matriz de factores no rotados (Tabla 3.12) muestra que la solución factorial común da cuenta del 58,6 por ciento del total de la varianza. Debido a que el modelo factorial común final difiere a veces de las estimaciones de extracción iniciales (véase Tabla 3.11), el investigador debería asegurarse de evaluar las estadísticas de extracción para el modelo factorial común final. Si el investigador no estuviera satisfecho con la varianza total explicada, podría estimarse además un modelo de factores comunes que extraiga tres factores. Notemos que las comunalidades de cada variable son menores a las encontradas en el análisis de componentes principales. Esto se debe en primer lugar a la menor varianza global explicada, no al comportamiento de ninguna variable. De nuevo, la exploración del modelo de tres factores podría ser realizada para incrementar las comunalidades, junto con la varianza general explicada. Para nuestros propósitos aquí, interpretamos la solución de dos factores.
Quinto paso: Interpretación de los factores Mediante el examen de las cargas no rotadas, señalamos la necesidad de una rotación de matriz factorial. Nos centramos entonces en el análisis factorial común rotado VARIMAX (Tabla 3.13). Examinemos corno se compara con la matriz del análisis de componentes de factores rotados.
Manuel Hurtado Sánchez
Página 184
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
FIGURA 3.10. Contraste de caída para la solución del análisis común
TABLA 12. Matriz de factor común sin rotación
Variables
Factores
Comunalidades
1
2
X1 Velocidad de entrega
0,485
0,512
0,50
X2 Nivel de precio
0,629
0,187
0,43
X3 Flexibilidad de precio
0,602
0,401
0,52
X4 Imagen del fabricante
0,625
0,683
0,87
X6 Imagen del personal de ventas
0,526
0,670
0,72
X7 Calidad de producto
0,641
0,269
0,48 Total
Suma de cuadrados (autovalor)
2,07
1,45
3,52
Porcentaje de trazo*
34,5
24,1
58,6
* Traza = 6,0 (suma de los autovalores) La información que proporciona la solución de factores comunes es similar a aquella que proporciona la solución de análisis de componentes principales. Se proporcionan las sumas de cuadrados, los porcentajes de varianza, las comunalidades, las sarnas totales de cuadrados y las varianzas totales extraídas de la misma manera que con la solución del análisis de componentes principales. Una comparación de la información proporcionada en la matriz de análisis factorial común de factores y la matriz del análisis de componente de factores rotados demuestra una similitud notable. Las diferencias principales entre el análisis de componentes principales y el análisis factorial común son las cargas generalmente más bajas en el análisis factorial común, principalmente debido a las varianzas compartidas más bajas de las variables utilizadas en el Manuel Hurtado Sánchez
Página 185
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
análisis factorial común. Otra comparación que podría ser de utilidad para el investigador es el porcentaje de la varianza total indicado por cada factor. En el análisis de componentes principales (Tabla 7), los dos factores con rotación tenían una diferencia de un 8 por ciento (39,5 por ciento frente a 31,4 por ciento, respectivamente). En los resultados de factor común (Tabla 13), la de la rotación «dispersa» para los dos factores es casi igual en la varianza indicada (31,0 por ciento para el factor 1 y 27,6 por ciento para el factor 2). Sin embargo, incluso con estas diferencias tan ligeras en la varianza indicada, las pautas de las cargas y las interpretaciones básicas son idénticas entre el análisis de componentes principales y el análisis factorial común. TABLA 13. VARIMAX matriz de factor común con rotación
Variables X1 Velocidad de entrega X2 Nivel de precio X3 Flexibilidad de precio X4 Imagen del fabricante X6 Imagen del personal de ventas X7 Calidad de producto Suma de cuadrados (autovalor) Porcentaje de trazo* * Traza = 6,0 (suma de los autovalores)
Cargas con rotación VARIMAX Factor 1 Factor 2 -0,693 0,133 0,620 0,215 -0,722 -0,026 0,109 0,925 0,037 0,846 0,677 0,155 1,86 31,0
1,66 27,6
Comunalidades 0,50 0,43 0,52 0,87 0,72 0,48 Total 3,52 58,6
Una consideración gerencial de los resultados Tanto el análisis de componentes principales como el análisis factorial común proporcionan al investigador varías ideas claves acerca de la estructura de las variables y las opciones para la reducción de datos. En primer lugar, con relación a la estructura de las variables, existen claramente dos dimensiones de valoración separadas y destacadas utilizadas por los clientes de HATCO. Una dimensión, denominada el valor básico, se refiere a los aspectos tangibles del HATCO y sus productos. Dentro de esta dimensión existe una concesión entre el precio del producto y la calidad frente a las características de la velocidad de entrega y la flexibilidad de precios. La segunda dimensión, la imagen de HATCO, se refiere a las percepciones de imagen del fabricante y su personal de ventas. Manuel Hurtado Sánchez
Página 186
UNIVERSIDAD SAN PEDRO
VICERRECTORADO DE INVESTIGACIÓN Dirección General de Investigación
Los planificadores empresariales dentro de HATCO pueden debatir planes a partir de estas dos áreas en vez de tener que tratar con las variables por separado, El análisis factorial también proporciona la base para la reducción de datos mediante las escalas aditivas o las puntuaciones de factores. El investigador tiene ahora un método para combinar las variables dentro de cada factor y con una puntuación única que puede reemplazar la serie de variables original con dos variables compuestas nuevas. Cuando se buscan diferencias, tales como aquellas que existen entre las empresas grandes y pequeñas, estas nuevas variables compuestas pueden ser utilizadas para que sólo se analicen las diferencias en dos valores, el valor básico e imagen.
Manuel Hurtado Sánchez
Página 187