Introducción a las técnicas de “Análisis Multivariante”
Fco. Javier Burguillo Universidad de Salamanca
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis multivariante Objetivo tivo:: est estudio udio de varias variables variables simultá simultáneam neamente ente:: • Obje X1
X2
X3
X4
X5
Objeto 1
12
34
126
0.1
0.7
Objeto 2
24
36
32
0.5
0.3
Objeto 3
100
5
240
0.4
0.2
......
....
...
...
...
...
•Métodos con variable dependiente Hay una una variab variable le que que “depende “depende”” de o otra tras s que se miden miden como “independientes o predictoras”.Tienen un interés predictivo. • Métodos con sólo variables independientes No se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos objetos en función de las variables. VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis multivariante Objetivo tivo:: est estudio udio de varias variables variables simultá simultáneam neamente ente:: • Obje X1
X2
X3
X4
X5
Objeto 1
12
34
126
0.1
0.7
Objeto 2
24
36
32
0.5
0.3
Objeto 3
100
5
240
0.4
0.2
......
....
...
...
...
...
•Métodos con variable dependiente Hay una una variab variable le que que “depende “depende”” de o otra tras s que se miden miden como “independientes o predictoras”.Tienen un interés predictivo. • Métodos con sólo variables independientes No se distingue entre variables dependientes e independientes. Tienen un interés descriptivo en el sentido de clasificar objetos objetos en función de las variables. VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Métodos con variable dependiente y
X1
X2
X2
X4
Objeto 1
12
34
126
0.1
0.7
Objeto 2
24
36
32
0.5
0.3
Objeto 3
100
5
240
0.4
0.2
......
....
...
...
...
...
•Regresión lineal múltiple •Regresión lineal generalizada Regresión logística binaria Regresión logit
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Métodos con sólo variables independientes a) No se conocen los grupos de los objetos X1
X2
X3
X4
X5
Objeto 1
12
34
126
0.1
0.7
Objeto 2
24
36
32
0.5
0.3
Objeto 3
100
5
240
0.4
0.2
......
....
...
...
...
...
Análisis de clusters
Jerárquicos K-medias
Análisis de componentes principales
Métodos biplot
b) Sí que se conoce conocen n los grupos grupos de de los objeto objetos s Grupo
X2
X3
X4
X5
Objeto 1
1
34
126 0.1
0.7
Objeto 2
1
36
32 0.5
0.3
Objeto 3
2
5
240 0.4
0.2
Objeto 4
2
23
45
0.3
37
VI curso de Análisis de Datos (30 Marzo de 2009)
MANOVA Análisis en variables canónicas Análisis discriminante
Análisis multivariante
Regresión lineal múltiple por mínimos cuadrados La regresión lineal simple
Ahora: la regresión lineal múltiple
∗ Sólo una variable independie nte :
por ejemplo línea recta y = C + Bx
SSQ = ∑ (y i − ( a + bx i )) 2 ∂ (SSQ) ∂a ∂ (SSQ) ∂b
∗ Más de una variable independiente :
y = C + B1x1 + B2 x 2 + B3 x 3
= .......... ..... = 0
⇒ a = .........
• Tratamiento matemático análogo a regresión lineal simple.
= .......... ..... = 0
⇒ b = ..........
• Se puede explicitar cada parámetro, solución única, método exacto
• Se puede explicitar cada parámetro, solución única, método exacto
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Ejemplo de regresi ón lineal múltiple
•La aplicación importante es estimar “Masa” tumoral para un caso nuevo VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Regresión logí stica stica binaria y(i)
1=vivo 0=muerto
log
p(1) 1 − p(1)
variables: X1 , X2 , X3 ,...... p(1) = probabilidad de que y = 1
= L = a 0 + a1 X 1 + a 2 X 2 + a1 X 3.....
• La aplicación importante es estimar p(1) para un caso nuevo:
p(1) =
1 1+ e
− L
VI curso de Análisis de Datos (30 Marzo de 2009)
(ej: p(1) = 0.73 de sobrevivir)
Análisis multivariante
Análisis de clusters X1
X2
X3
Xm
Objeto 1
12
34
126
...
0.7
Objeto 2
24
36
32
...
0.3
Objeto 3
100
5
240
...
0.2
......
....
...
...
...
...
Objeto n
27
77
54
...
0.8
Dada una serie de “n” objetos y “m” variables X 1, X 2 ,…, X m, el propósito es clasificar los objetos en grupos (clusters) según la similitud (menor distancias) distancias) entre ellos:
Aglomerativos o divisivos Procedimientos:
Jerárquicos Supervisados (k-medias)
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis jerárquico de clusters (Ejemplo) Análisis de 20 pacientes X1
X2
X3
….
Paciente 1
12
34
126
0.7
Objeto 2
24
36
32
0.3
Objeto 3
10
5
240
0.2
......
....
...
...
...
Los 20 pacientes se agrupan (dendrograma)
¿Transformar variables?
4 grupos
Sin transformar Métrica distancia entre objetos m
d = ∑ x ij
ik
− x jk
k =1
CML
ALL
AML
Algoritmo de unión de clusters
d
i , jk
= min
d , d ij
ik
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
RCML
Etapas de un análisis jerárquico de clusters (variables cuantitativas)
1) Estandarizar las variables si fuera necesario. 2) Elegir una medida de distancia entre objetos. 3) Elegir un algoritmo para unir (fusionar) grupos. 4) Decidir el número final de clusters e interpretarlos.
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
1) Transformación de variables para uniformar sus escalas (sólo variables cuantitativas)
1) No transformar si las variables están medidas en las mismas unidades. 2) Normalizar variables a media = 0 y desviación estándar = 1: x − x x = s 1) Aplicar raíz cuadrada a las variables. 2) Hacer el logaritmo de las variables.
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
2a) Elegir una medida de distancia entre objetos •
Distancia ciudad (city block): m
Dij =
∑ x
ik
x j 2
− x jk
k =1
•
xi1
Distancia Euclidia : 1 / 2
m
Dij =
∑ (( x
ik
2 variables (plano)
xi 2
− x jk
x j1 2 variables (plano)
)) 2
k =1
•
Distancia Euclidia al cuadrado.
•
Disimilaridad de Bray-Curtis (en %).
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
2b) Calcular la matriz de distancias X1
X2
X3
X4
X5
Objeto 1
12
34
126
...
0.7
Objeto 2
24
36
32
...
0.3
Objeto 3
100
5
240
...
0.2
......
....
...
...
...
...
Objeto 5
27
77
54
...
0.8
Objeto
0 d 21 d 31 d 41 d 51
d 12
d 13
d 14
0
d 23
d 24
d 32
0
d 34
d 42
d 43
0
d 52
d 53
d 54
d 15
d 25 d 35 d 45 0
Matriz de distancias VI curso de Análisis de Datos (30 Marzo de 2009)
1
2 3 4 5
1 2
2
3
6
4
10 9 4
5
9
5 8 5 3
Matriz de distancias Análisis multivariante
3) Algoritmos de unión (fusión) de clusters El primer cluster consiste en “n” clusters de 1 objeto cada uno, el algoritmo los va fusionando por pasos hasta llegar a un último cluster que contiene los “n” objetos. ¿Qué criterio se sigue para ir fusionando los clusters?
Por centroides Cluster 1
Vecino más próximo (single link)
Cluster 3
Cluster 2
Vecino más lejano (complete link) VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Ejemplo del algoritmo “vecino más próximo” s a i c n a t s i d z i r t a M
Objeto
1
2
3 4 5
1 2
2
3
6
4
10 9
4
5
9
5 3
Dendrograma (árbol)
5 8
Distancia
Cluster
0
1,2,3,4,5
2
(1, 2), 3, 4, 5
3
(1, 2), 3, (4, 5)
4
(1, 2), (3, 4, 5)
5
(1, 2, 3, 4, 5)
VI curso de Análisis de Datos (30 Marzo de 2009)
Distancia entre 4 y 5 (rama)
Análisis multivariante
Algoritmos de unión (fusión) de clusters (cont.) Método del promedio del grupo Cluster A
Cluster B
1
3 4
2
5 6 7 8
D AB =
6
Y análogamente:
D AC = Cluster C
VI curso de Análisis de Datos (30 Marzo de 2009)
D13 + D14 + D15 + D23 + D24 + D25
D16 + D17 + D18 + D26 + D27 + D28 6
…etc
Análisis multivariante
Ejemplo del algoritmo “promedio de grupo” Objeto
1
2 3 4 5
1 2
2
3
6
4
10 9 4
5
Dendrograma (árbol)
5
9 8 5 3 Distance matrix
Distancia Cluster 0
1,2,3,4,5
2
(1, 2), 3, 4, 5
3
(1, 2), 3, (4, 5)
4.5
(1, 2), (3, 4, 5)
7.8
(1, 2, 3, 4, 5)
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
¿Por donde “cortar” el dendrograma? o el “problema del número de grupos” Análisis de 20 pacientes X1
X2
X3
….
Paciente 1
12
34
126
0.7
Paciente 2
24
36
32
0.3
Paciente 3
10
5
240
0.2
......
....
...
...
...
Los 20 pacientes se agrupan (dendrograma)
2 grupos
3 grupos 4 grupos
¿Transformar variables? Sin transformar Métrica distancia entre objetos
dis tan cia ciudad
CML
ALL
AML
Algoritmo de unión de clusters
vecino más próximo VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
RCML
Ojo: el dendrograma depende de la transformación de los datos, tipo de distancia y algoritmo elegidos elegidos Sin transformar, distancia euclidia, vecino más próximo
Estandarizados, distancia euclidia, vecino más próximo
Estandarizados, distancia ciudad, promedio de grupo
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis de clusters por K medias (ejemplo ) • Es un análisis de clusters de tipo supervisado (no jerárquico). • El número de clusters que se desea tiene que decidirse a priori.
Análisis de 20 pacientes
Análisis con 3 clusters
Caso
X1
X2
X3
X4
X5
1
12
34
126
0.1
0.7
2
24
36
32
0.5
0.3
3
100
5
240
0.4
0.2
......
....
...
...
...
...
Se deciden k centroides (3 por ej.) centroide X1
X2 X3
X4
X5
1
12
34
126
0.1
0.7
2
24
36
32
0.5
0.3
3
100
5
240
0.4
0.2
VI curso de Análisis de Datos (30 Marzo de 2009)
CML ALL
AML
Análisis multivariante
Fundamento de Clusters por K-medias 1) Imaginemos “n” objetos a clasificar en base a “m” variables
2) Elegimos un procedimiento para decidir las estimas iniciales de los k centroides (semillas):
Semilla 1
• El investigador elige los k centroides.
Semilla 2
• Seleccionar k objetos al azar • k primeros objetos
Semilla 3
3) Elegir un algoritmo para reasignar los objetos a los clusters hasta alcanzar un criterio de convergencia.
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis por “Componentes Principales ” (Ejemplo) 15 variables autoperimetría laser (campo visual) s e t n e i c a p 2 6 1
Caso
X1
X2 X3
X4
X5
X5
X3 .... X15
1
12
34
34
34
34
126 ...
34
2
Reducir las 15 variables
3
3-4 componentes principales
Caso
CP1 CP2 CP3
1
12
34
34
4
24
36
36
..... 162
..
..
..
2 3
4
24
36
36
36
36
36
32
...... 162
.. .. .. .. .. .. ....
...
CP 1 = a 11 X 1 + a 12 X 2 + ... + a 1 m X m CP 2 = a 21 X 1 + a 22 X 2 + ... + a 2 m X m .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ...
CP m = a m 1 X 1 + a m 2 X 2 + ... + a mm X m - Estas CPi explicarán la mayor variabilidad de las variables originales - Las CPi presentan incorrelación entre ellas VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Extracción de las componentes principales Transformación = Untransformed Tipo de matriz = Correlation matrix Tipo de puntuación = Standardised scores Eigenvalores Proporción Acumulativa CP1 6.833E+00 0.4555 0.4555 CP2 3.724E+00 0.2483 0.7038 CP3 2.321E+00 0.1548 0.8586 CP4 1.055E+00 0.0703 0.9289 CP5 5.849E-01 0.0390 0.9679 CP6 2.691E-01 0.0179 0.9858 CP7 1.968E-01 0.0131 0.9989 CP8 7.668E-03 0.0005 0.9995 CP9 4.829E-03 0.0003 0.9998 CP10 3.070E-03 0.0002 1.0000 CP11 2.153E-04 0.0000 1.0000 CP12 6.593E-05 0.0000 1.0000 CP13 3.677E-06 0.0000 1.0000 CP14 1.308E-06 0.0000 1.0000 CP15 2.115E-07 0.0000 1.0000
VI curso de Análisis de Datos (30 Marzo de 2009)
CP1
CP2 CP3 CP4
Se extraen 4 componentes: CP1, CP2, CP3 y CP4
Análisis multivariante
Contribución de las variables originales a CP1 y CP2
Las 15 variables originales
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Representaci ón de los casos bajo CP1 y CP2 (puntuaciones o scores en CP1 y CP2) Los 162 pacientes
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Representación Biplot: ¿Cómo surge? Imaginemos “2” variables medidas sobre “n” sujetos, ¿se pueden representar a la vez variables y sujetos? :
X1
X2
Sujeto 1
12
34
Sujeto 2
24
36
Sujeto 3
10
5
......
....
...
X2 (Peso)
21
38
25 12
Si
29
22
2
16 5
27
33
4
9 7 5
X1 (Talla)
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
¿Cómo generalizarlo?: La representación Biplot ¿Cómo representar simultáneamente “m” variables y “n” sujetos? X1 X2
X3
…
Xm
Sujeto 1 12
34
126
… 0.7
Sujeto 2 24
36
32
… 0.3
Sujeto 3 10
5
240
… 0.2
......
....
...
...
… ...
Sujeto n ....
...
...
… ...
1) No es posible representar, tal cual están, más de 3 variables (3D). 2) Se recurre a extraer la información mediante 2 o 3 componentes o ejes ficticios (Biplot 2D o 3D), obtenidos por descomposición de la matriz original en valores singulares (SVD). Var 1
Sujeto 4
Var 5 Sujeto 6
Sujeto 3
Sujeto 2 Var 4
Sujeto 5
Var 3 Sujeto 1
Var 2 VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Representación Biplot (Interpretación) A partir del gráfico Biplot se puede reconocer: • La variabilidad en las variables (desviación Var 1
Sujeto 4
Var 5 Sujeto 6
Sujeto 2
Sujeto 3 Var 4 Sujeto 5
Var 3 Sujeto 1
estándar), ya que a mayor longitud del vector mayor error en la variable.
• La correlación entre variables, ya que 2 vectores formando ángulo pequeño se interpretan como variables bien correlacionadas. Vectores perpendiculares se refieren a variables con correlación nula y vectores contrarios a variables correlacionadas negativamente.
• Agrupaciones de casos: casos próximos Var 2
tiene valores parecidos de las variables.
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Ejemplo: Biplot para variedades de lirios Fisher estudió 150 muestras de lirios del campo y a todos les medió la longitud y la anchura del sépalo y la longitud y anchura del pétalo.
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Biplot para los datos de lirios de Fisher
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Biplot (fundamento matemático) 1) Se tiene una matriz X de n filas por m columnas:
... ... ... ... X = ... ... ... ... ... ... ... ...
2) Se hace una descomposición en valores singulares (SVD):
X = U ΣV T 3) Nos quedamos con la aproximación dada por los 2 primeros valores singulares:
4) Esta aproximación se puede escribir de 3 formas: Biplot simétrico
Biplot con énfasis en filas
VI curso de Análisis de Datos (30 Marzo de 2009)
Biplot con énfasis en columnas
Análisis multivariante
Métodos con sólo variables independientes ( b. Cuando se conocen los grupos de los objetos) Objetivo: Estudiar las diferencias entre grupos y predecir el grupo de nuevas muestras. Grupo
X2
X3
X4
X5
Objeto 1
1
34
126 0.1
0.7
Objeto 2
1
36
32 0.5
0.3
Objeto 3
2
5
240 0.4
0.2
Objeto 4
2
23
45
0.3
37
VI curso de Análisis de Datos (30 Marzo de 2009)
MANOVA Análisis en variables canónicas Análisis discriminante
Análisis multivariante
MANOVA (ANOVA de varias variables) Imaginemos que se miden 4 variables en 3 grupos:
Grupo
X1 X2
X3
X4
Objeto 1
Grupo 1
34
126 0.1
0.7
Objeto 2
Grupo 1
36
32 0.5
0.3
Objeto 3
Grupo 1
52
24
0.4
0.2
Objeto 4
Grupo 2
21
25
34
39
Objeto 5
Grupo 2
16
12
15
18
Objeto 6
Grupo 2
15
25
29
33
Objeto 7
Grupo 3
23
25
29
13
Objeto 8
Grupo 3
23
21
25
26
Objeto 9
Grupo 3
22
67
24
32
VI curso de Análisis de Datos (30 Marzo de 2009)
H0 : No hay diferencia entre los vectores de medias de las 4 variables en los 3 grupos:
x11 x12 x13 x14 x21 x22 x23 x24 x x x x 33 34 31 32 H1 : al menos hay 2 vectores de medias que difieren significativamente de un grupo a otro.
Análisis multivariante
MANOVA (Ejemplo: datos de lirios de Fisher )
VARIABLE 1
VARIABLE 2
VARIABLE 3
VARIABLE 4
GROUP 1
5.00600E+00
3.42800E+00
1.46200E+00
2.46000E-01
GROUP 2
5.93600E+00
2.77000E+00
4.26000E+00
1.32600E+00
GROUP 3
6.58800E+00
2.97400E+00
5.55200E+00
2.02600E+00
POOLED MEAN
5.84333E+00
3.05733E+00
3.75800E+00
1.19933E+00
¿Hay diferencias entre estos vectores de medias?
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
MANOVA (datos de lirios de Fisher (cont.) ) VARIABLE 1
VARIABLE 2
VARIABLE 3
VARIABLE 4
GROUP 1
5.00600E+00
3.42800E+00
1.46200E+00
2.46000E-01
GROUP 2
5.93600E+00
2.77000E+00
4.26000E+00
1.32600E+00
GROUP 3
6.58800E+00
2.97400E+00
5.55200E+00
2.02600E+00
POOLED MEAN
5.84333E+00
3.05733E+00
3.75800E+00
1.19933E+00
¿Hay diferencias entre estos vectores de medias?
Para decidirlo se hacen diferentes tests estadísticos: Statistic Wilks lambda Roys largest root Lawley-Hotelling T Pillais trace
Value 2.344E-02 3.219E+01 3.248E+01 1.192E+00
Transform deg.free. 4.149E+00 8 288
p 0.0001
Reject H0
5.846E+02
0.0000
Reject H0
8
144
Como p < 0.01 se concluye que al menos 2 vectores de medias si difieren
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
MANOVA: ¿Hay igualdad de perfiles?
MANOVA H0: selected Hotelling T^2 = Test statistic S = Numerator DOF = Denominator DOF = P(F >= S) =
group profiles are equal 2.031E+03 6.632E+02 3 96 0.0000 Reject H0 at 1% sig.level
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis por variables canónicas Grupo
Imaginemos: Se han medido varias variables en diferentes objetos de 2 grupos.
X1
X2
X3
X4
Objeto 1
1
34
126
0.1
0.7
Objeto 2
1
36
32
0.5
0.3
….
….
….
….
….
Objeto 3
2
5
240
0.4
0.2
Objeto 4
2
23
45
37
0.3
….
….
….
….
….
….
….
Objetivos: • Para discriminar entre los grupos todo lo posible se busca una combinación lineal de las variables que maximice la la relación de la variabilidad “entre” grupos respecto a la variabilidad “intra” grupos.
Esquema para 2 variables:
x1 x12 x22
Dirección de máxima separación
Y 1 = a11 X 1 + a12 X 2 x11 x21
VI curso de Análisis de Datos (30 Marzo de 2009)
x2
Análisis multivariante
Análisis por variables canónicas (Ejemplo: Lirios de Fisher) Grupo variables 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 ..................... 2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 ..................... 3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1 Muestras a asignar ? 4.6 3.6 1.0 0.2 ? 5.9 3.2 4.8 1.8 ? 6.2 3.4 5.4 2.3
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Análisis por variables canónicas (Fundamento matemático) CV 1 = a11 X 1 + a12 X 2 + a13 X 3 + a14 X 4 CV 2 = a21 X 1 + a22 X 2 + a23 X 3 + a24 X 4 Correlations Eigenvalues 0.9848 32.1919 0.4712 0.2854 Canonical variate means -7.608E+00 2.151E-01 1.825E+00 -7.279E-01 5.783E+00 5.128E-01 Canonical coefficients -8.294E-01 2.410E-02 -1.534E+00 2.165E+00 2.201E+00 -9.319E-01 2.810E+00 2.839E+00
CV 1
Proportions 0.9912 0.0088
Chi-sq. 546.1153 36.5297
NDOF p 8 0.0000 3 0.0000
CV 2
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Asignación de objetos a grupos por Análisis Discriminante Grupo variables 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 ..................... 2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 ..................... 3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1 Muestras a asignar y1 = a11x1 + · · · + a1 p x p + ? 4.6 3.6 1.0 0.2 ? 5.9 3.2 4.8 1.8 ······· ·· ? 6.2 3.4 5.4 2.3
a10
y m = a m1x1 + · ·· + a mp x p + a m0 VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Asignación de objetos a grupos por Análisis Discriminante (ej: Lirios de Fisher) Serie de entrenamiento
Distancias de Mahalanobis entre grupos
Grupo LongSep AnchSep LongPet AnchPet 1 5.1 3.5 1.4 0.2 1 4.9 3.0 1.4 0.2 1 4.7 3.2 1.3 0.2 --------------------------------------------------------------2 7.0 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 2 6.9 3.1 4.9 1.5 -------------------------------------------------------------3 6.3 3.3 6.0 2.5 3 5.8 2.7 5.1 1.9 3 7.1 3.0 5.9 2.1
Distancias de Mahalanobis muestras- grupos
Muestras a asignar a grupos Muestra 1 Muestra 2 Muestra 3
4.6 5.9 6.2
3.6 3.2 3.4
1.0 4.8 5.4
0.2 1.8 2.3
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Aplicación del Análisis multivariante en las investigaciones con Chips de ADN
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Los 10 Genes principales asociados a la respuesta a Imatinib Usando la prueba t de student #genename
t-statistic
pvalue
R06581
-3.789523125
0.00067859
H13205
-3.342012644
0.002239682
AA088678
-3.105088949
0.004130574
AA126760
2.934455395
0.006351529
R08434
-2.872010231
0.007416606
A101777
-2.790141583
0.009068974
AI023731
-2.698203802
0.011333359
AA456314
2.660455942
0.012407669
-2.629109144
0.013371006
T95268 AA775957
2.592031002
VI curso de Análisis de Datos (30 Marzo de 2009)
0.014599937
Análisis multivariante
Exploración de datos en la serie de entrenamiento (32 pacientes y 10 genes predictores)
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Cluster jerárquico de los 32 pacientes
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante
Componentes principales
VI curso de Análisis de Datos (30 Marzo de 2009)
Análisis multivariante