You are on page 1of 32

CEDEX - Curso de formaci on estadstica

Tecnicas de analisis multivariante


Andres M. Alonso
Departamento de Estadstica
Universidad Carlos III de Madrid
Madrid - 19 de diciembre de 2005
2
Estructura
1. Introduccion.
2. Tecnicas de analisis multivariante - I.
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
3. Tecnicas de analisis multivariante - II.
Analisis discriminante lineal.
Analisis discriminante logstico.
Analisis cluster.
Analisis de correlaciones canonicas.
Tecnicas de analisis multivariante - I Andres M. Alonso
3
Introducci on
Matriz de datos.
Vector de medias y matriz de covarianzas.
Proyecciones y combinaciones lineales.
Representacion graca de los datos: matriz de diagramas de dispersi on,
diagramas de estrellas y de caras, diagramas de Andrews.
Tecnicas de analisis multivariante - I
4
Variable (vectorial o multivariante): es un conjunto de caractersticas o rasgos
de los elementos de una poblacion. Notacion: x.
Observacion o dato: valor de una variable multivariante en un elemento de la
muestra. Notacion: x
i
corresponde al elemento i.
Matriz de datos: representacion de los valores de una muestra de tama no n de
una variable vectorial x.
X =
_

_
x
11
x
12
x
1p
x
21
x
22
x
2p
.
.
.
.
.
.
.
.
.
.
.
.
x
n1
x
n2
x
np
_

_
=
_

_
x

1
x

2
.
.
.
x

n
_

_
=
_
x
(1)
x
(2)
x
(p)

,
donde: x
ij
es el valor de la variable escalar j en el individuo i.
x

i
es un vector la 1 p que representa los valores de las p
variables univariantes en el individuo i.
x
(j)
es un vector columna n 1 que representa los valores de
la variable escalar j en las n observaciones.
Tecnicas de analisis multivariante - I
5
Ejemplo 0. Rectangulos.
Ejemplo 5.9 del libro Analisis de Datos Multivariantes de Daniel Pe na.
Se tienen 6 observaciones bivariantes, cada observaci on corresponde con un
rectangulo y las variables univariantes son la longitud de la base y la altura del
rectangulo. La matriz de datos es:
X =

2,0 2,0
1,5 0,5
0,7 0,5
0,5 1,5
0,5 0,7
0,7 0,7

.
Tecnicas de analisis multivariante - I
6
Ejemplo 1. Medidas de craneos de cocodrilos.
Codigo Descripcion
cl Longitud del craneo
cw Ancho del craneo
sw Ancho del hocico
sl Longitud del hocico
dcl Longitud dorsal del craneo
ow Ancho maximo orbital
oiw Ancho mnimo interorbital
ol Longitud maxima orbital
lcr Longitud del paladar postorbital
wcr Ancho posterior del paladar craneal
wn Ancho maximo entre oricios nasales
Tecnicas de analisis multivariante - I
7
Ejemplo 2. Medidas o caractersticas de automoviles.
C odigo Descripcion
consumo Consumo (l/100Km)
motor Cilindrada en cc
cv Potencia (CV)
peso Peso total (kg)
acel Aceleracion 0 a 100 km/h (segundos)
a no A no del modelo
origen Pas de origen
cilindr N umero de cilindros
Tecnicas de analisis multivariante - I
8
Ejemplo 3. Gases contaminantes
En la Tabla siguiente se presentan las 10 primeras observaciones de cinco
variables de niveles de gases contaminantes (CO: X
3
, NO: X
4
, NO
2
: X
5
,
O
3
: X
6
, y HC: X
7
) y dos variables relacionadas (Intensidad del viento: X
1
, y
Radiaci on solar: X
2
).
X
1
X
2
X
3
X
4
X
5
X
6
X
7
8 98 7 2 12 8 2
7 107 4 3 9 5 3
7 103 4 3 5 6 3
10 88 5 2 8 15 4
6 91 4 2 8 10 3
8 90 5 2 12 12 4
9 84 7 4 12 15 5
5 72 6 4 21 14 4
7 82 5 1 11 11 3
8 64 5 2 13 9 4
Tecnicas de analisis multivariante - I
9
Ejemplo 4. Gracos de control de un proceso industrial.
XXX
n60
: 60 Mediciones del proceso en n maquinas.
Tecnicas de analisis multivariante - I
10
Ejemplo 5. Esclerosis m ultiple.
En un estudio sobre esclerosis m ultiple se registran las respuestas del ojo
izquierdo (I) y del ojo derecho (D) a dos estmulos visuales diferentes. Se
consideran dos grupos, 29 individuos que padecen esclerosis m ultiple y un
grupo control de 69 individuos que no la padecen. Se registran las siguientes
variables: X
1
: Edad, X
2
= R1L+R1D, X
3
= |R1LR1D|, X
4
= R2L+R2D,
X
5
= |R2L R2D|.
X
1
X
2
X
3
X
4
X
5
Paciente/Control
23 148.0 0.8 205.4 0.6 1
25 195.2 3.2 262.8 0.4 1
25 158.0 8.0 209.8 12.2 1
28 134.4 0.0 198.4 3.2 1
29 190.2 14.2 243.8 10.6 1
18 152.0 1.6 198.4 0.0 0
19 138.0 0.4 180.8 1.6 0
20 144.0 0.0 186.4 0.8 0
20 143.6 3.2 194.8 0.0 0
20 148.8 0.0 217.6 0.0 0
Tecnicas de analisis multivariante - I
11
Estadsticos univariantes y bivariantes
Media muestral de la variable x
j
:
x
j
=
1
n
n

i=1
x
ij
.
Varianza muestral de la variable x
j
:
s
2
j
= s
jj
=
1
n
n

i=1
(x
ij
x
j
)
2
.
Covarianza muestral entre las variables x
j
y x
k
:
s
jk
=
1
n
n

i=1
(x
ij
x
j
)(x
ik
x
k
).
Tecnicas de analisis multivariante - I
12
Los estadsticos anteriores dependen de las unidades de medidas y por esto
suelen utilizarse, como complemento en el resumen numerico, los siguientes
estadsticos:
Coeciente de variacion de la variable x
j
:
CV
j
=

s
2
j
x
2
j
,
que podra calcularse siempre que x
j
sea distinta de cero.
Correlaci on muestral entre las variables x
j
y x
k
:
r
jk
=
s
jk

s
jj
s
kk
=
s
jk
s
j
s
k
.
Tecnicas de analisis multivariante - I
13
Estadsticos multivariantes - I
Vector de medias muestral de la variable vectorial x:
x =
1
n
n

i=1
x
i
=
_

_
x
1
x
2
.
.
.
x
p
_

_
.
x es un vector de dimension p 1. Tambien podemos obtener el vector de
medias de la siguiente expresion:
x =
1
n
X

1,
donde 1 es un vector de unos de dimension n 1.
Tecnicas de analisis multivariante - I
14
Estadsticos multivariantes - II
Matriz de varianzas y covarianzas de la variable vectorial x:
S =
_

_
s
11
s
12
s
1p
s
21
s
22
s
2p
.
.
.
.
.
.
.
.
.
.
.
.
s
p1
s
p2
. . . s
pp
_

_
.
S es una matriz cuadrada simetrica (s
jk
= s
kj
) de dimension p p. Tam-
bien podemos obtener la matriz de varianzas y covarianzas de las siguientes
expresiones:
S =
1
n
n

i=1
(x
i
x)(x
i
x)

=
1
n
(X1 x

(X1 x

) =
1
n

X,
donde la matriz

X = X 1 x

= X
1
n
11

X recibe el nombre de
matriz de datos centrados.
Tecnicas de analisis multivariante - I
15
Estadsticos multivariantes - Ejemplo - I
Ejemplo 0. De las siguientes salidas de SPSS podemos obtener el vector de
medias y las matrices de covarianzas y de correlaciones del conjunto de datos
de rectangulos:
Estadsticos descriptivos
6 ,9833 ,62102 ,386
6 ,9833 ,62102 ,386
6
BASE
ALTURA
N vlido (segn lista)
N Media Desv. tp. Varianza
Vector de medias:
x =
_
0,9833
0,9833
_
.
Tecnicas de analisis multivariante - I
16
Estadsticos multivariantes - Ejemplo - II
Ejemplo 0.
Correlaciones
1 ,461
,386 ,178
6 6
,461 1
,178 ,386
6 6
Correlacin de Pearson
Covarianza
N
Correlacin de Pearson
Covarianza
N
BASE
ALTURA
BASE ALTURA
Matriz de covarianzas: S =
_
0,386 0,178
0,178 0,386
_
.
Matriz de correlaciones: R =
_
1,000 0,461
0,461 1,000
_
.
Tecnicas de analisis multivariante - I
17
Estadsticos multivariantes - Ejemplo - III
Estadsticos descriptivos
398 5 26 11,23 3,946
406 66 7456 3179,73 1724,013
400 46 230 104,83 38,522
406 244 1713 989,51 283,277
406 8 25 15,50 2,821
406 70 82 75,92 3,749
405 1 3 1,57 ,798
405 3 8 5,47 1,710
391
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Pas de origen
Nmero de cilindros
N vlido (segn lista)
N Mnimo Mximo Media Desv. tp.
La media y la varianza no tienen sentido en la variable Pais de origen.
El vector de medias es:
x =
_
11, 23 3179, 73 104, 83 989, 51 15, 50 75, 92 5, 47

.
Tecnicas de analisis multivariante - I
18
Estadsticos multivariantes - Ejemplo - IV
Correlaciones
1 ,837** ,836** ,837** -,490** -,554** ,842**
. ,000 ,000 ,000 ,000 ,000 ,000
398 398 392 398 398 398 397
,837** 1 ,897** ,933** -,545** -,370** ,952**
,000 . ,000 ,000 ,000 ,000 ,000
398 406 400 406 406 406 405
,836** ,897** 1 ,859** -,701** -,417** ,844**
,000 ,000 . ,000 ,000 ,000 ,000
392 400 400 400 400 400 399
,837** ,933** ,859** 1 -,415** -,296** ,895**
,000 ,000 ,000 . ,000 ,000 ,000
398 406 400 406 406 406 405
-,490** -,545** -,701** -,415** 1 ,314** -,528**
,000 ,000 ,000 ,000 . ,000 ,000
398 406 400 406 406 406 405
-,554** -,370** -,417** -,296** ,314** 1 -,357**
,000 ,000 ,000 ,000 ,000 . ,000
398 406 400 406 406 406 405
,842** ,952** ,844** ,895** -,528** -,357** 1
,000 ,000 ,000 ,000 ,000 ,000 .
397 405 399 405 405 405 405
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Consumo
(l/100Km)
Cilindrada en
cc Potencia (CV)
Peso total
(kg)
Aceleracin 0
a 100 km/h
(segundos)
Ao del
modelo
Nmero de
cilindros
La correlacin es significativa al nivel 0,01 (bilateral). **.
Tecnicas de analisis multivariante - I
19
Estadsticos multivariantes - Ejemplo - V
Correlaciones
1 -,101 -,194 -,270 -,110 -,254 ,156
. ,523 ,219 ,084 ,489 ,105 ,324
42 42 42 42 42 42 42
-,101 1 ,183 -,074 ,116 ,319* ,052
,523 . ,247 ,643 ,465 ,039 ,744
42 42 42 42 42 42 42
-,194 ,183 1 ,502** ,557** ,411** ,166
,219 ,247 . ,001 ,000 ,007 ,293
42 42 42 42 42 42 42
-,270 -,074 ,502** 1 ,297 -,134 ,235
,084 ,643 ,001 . ,056 ,398 ,135
42 42 42 42 42 42 42
-,110 ,116 ,557** ,297 1 ,167 ,448**
,489 ,465 ,000 ,056 . ,292 ,003
42 42 42 42 42 42 42
-,254 ,319* ,411** -,134 ,167 1 ,154
,105 ,039 ,007 ,398 ,292 . ,329
42 42 42 42 42 42 42
,156 ,052 ,166 ,235 ,448** ,154 1
,324 ,744 ,293 ,135 ,003 ,329 .
42 42 42 42 42 42 42
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
VIENTO
RADIACIO
CO
NO
NO2
O3
HC
VIENTO RADIACIO CO NO NO2 O3 HC
La correlacin es significante al nivel 0,05 (bilateral). *.
La correlacin es significativa al nivel 0,01 (bilateral). **.
Tecnicas de analisis multivariante - I
20
Proyecciones y combinaciones lineales
Una forma simple de resumir una variable vectorial, x, es construir una
variable univariante, y, que sea el resultado de una combinaci on lineal de las
componentes de x:
y = a

x,
donde a es un vector de constantes de dimension p 1.
Si obtenemos las combinaciones lineales de todos los datos tendremos un
vector y de dimension n 1. y puede obtenerse de la siguiente expresion:
y = Xa,
donde X es la matriz de datos de dimension n p.
Tecnicas de analisis multivariante - I
21
Ejemplo de rectangulos
Ejemplo 0. En el ejemplo de los rectangulos, una variable de interes es el
permetro del rectangulo, 2(base + altura), que podemos obtener mediante:
y = Xa =
_

_
2,0 2,0
1,5 0,5
0,7 0,5
0,5 1,5
0,5 0,7
0,7 0,7
_

_
_
2,0
2,0
_
=
_

_
8,00
4,00
2,40
4,00
2,40
2,80
_

_
0 0.5 1 1.5 2
0
0.5
1
1.5
2
1
2 3
4
5 6
Tecnicas de analisis multivariante - I
22
Estandarizaci on univariante
Estandarizaci on univariante:
y = D
1/2
(x x),
donde D
1/2
es una matriz diagonal de dimensi on p p con la siguiente
expresion:
D
1/2
=
_

_
s
1
1
0 0
0 s
1
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 s
1
p
_

_
.
Propiedades:
La media de y es cero, i.e., y = 0.
La matriz de covarianzas de y es la matriz de correlaciones de x, i.e.,
S
y
= R
x
.
Tecnicas de analisis multivariante - I
23
Estandarizaci on multivariante
Estandarizaci on multivariante: Si S
x
es la matriz de covarianzas de x podemos
denir su raz cuadrada, S
1/2
x
, por la siguiente condici on:
S
x
= S
1/2
x
(S
1/2
x
)

.
Esto nos permitira denir la estandarizaci on multivariante mediante la expre-
sion:
y = S
1/2
x
(x x).
Propiedades:
La media de y es cero, i.e., y = 0.
La matriz de covarianzas de y es la matriz identidad de dimensi on p p,
i.e., S
y
= I.
Tecnicas de analisis multivariante - I
24
Representaci on graca de datos
El objetivo que perseguimos con la representaci on graca de datos es identicar:
Relaciones (debil/fuerte o lineal/no lineal?).
Grupos (los grupos o conglomerados observados corresponden a grupos o
categoras conocidas?)
Atpicos.
Estudiaremos los siguientes gracos:
Matriz de diagramas de dispersi on.
Diagramas de estrellas.
Diagramas de caras.
Diagramas de Andrews.
Tecnicas de analisis multivariante - I
25
Matriz de diagramas de dispersi on - I
Si tenemos p variables podemos con-
struir p(p 1)/2 diagramas de disper-
sion diferentes tomando las variables por
pares. Una manera de presentar estos
gracos es en forma de matriz.
Ejemplo 1. La Figura muestra la ma-
triz de diagramas de dispersi on en la
que observamos, por ejemplo: (i ) rela-
ciones lineales entre la mayor parte de
las variables, (ii ) posible relacion no lin-
eal entre las variables oiw y ow, y entre
oiw y wn, (iii ) posibles atpicos en la
variable ow.
Grfico
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
Grfico
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
Tecnicas de analisis multivariante - I
26
Matriz de diagramas de dispersi on - II
Ejemplo 1. (Zoom x2)
Grfico
SL
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11 DCL
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
OW
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
OIW
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
cp8
cn9
am11
OL
Tecnicas de analisis multivariante - I
27
Matriz de diagramas de dispersi on - III
Ejemplo 1. (Zoom x8)
OIW
100 80 60 40 20 0
O
W
70
60
50
40
30
20
10
cp8
cn9
am11
am4
Tecnicas de analisis multivariante - I
28
Diagramas de estrellas - I
Cada dato se representara mediante una
estrella que tendra tantos rayos o ejes como
variables se deseen representar.
La longitud del rayo j-esimo en la estrella
que representa al datos i dependera del
valor de la variable j en ese dato, x
ij
.
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
cl
cw
sw
sl
dcl
ow oiw
ol
lcr
wcr
wn
Tecnicas de analisis multivariante - I
29
Diagramas de estrellas - II
Ejemplo 1. 44 observaciones.
cn1
cn2
cn3
cn4
cn5
cn6
cn7
cn8
cn9
cp1
cp2
cp3
cp4
cp5
cp6
cp7
cp8
ot1
ot2
ot3
ot4
ot5
ot6
ot7
ot8
ot9
ot10
ot11
ot22
ot23
ot24
ot25
ot26
am1
am2
am3
am4
am5
am6
am7
am8
am9
am10
am11
Tecnicas de analisis multivariante - I
30
Diagramas de estrellas - III
Ejemplo 1. Medias por especies.
Crocodylus niloticus
Crocodylus porosus
Osteolaemus tetraspis
Alligator mississippiensis
Tecnicas de analisis multivariante - I
31
Diagramas de caras
Caras de Cherno: Cada dato se rep-
resentara mediante una cara. A cada
variable se asocia un rasgo o carac-
terstica de una cara, por ejemplo:
(1) area de la cara, (2) forma de la
cara, (3) longitud de la nariz, (4)
localizaci on de la boca, (5) curva de
la sonrisa (6) grosor de la boca, (7)
localizaci on, separaci on, inclinaci on,
forma y grosor de los ojos, etcetera.
Crocodylus niloticus
Crocodylus porosus
Osteolaemus tetraspis
Alligator mississippiensis
Tecnicas de analisis multivariante - I
32
Diagramas de Andrews - I
Los diagramas de Andrews representan
al vector de observaciones x

i
=
[x
i1
x
i2
x
ip
] mediante el graco de la
siguiente funci on:
f
i
(t) =
x
i1

2
+x
i2
sin(t) +x
i3
cos(t)+
+x
i4
sin(2t) +x
i5
cos(2t) +
con t .
Es claro que la funcion anterior cambia
si cambiamos el orden de las variables,
por lo que se recomienda explorar distintos
ordenes para decidir cual representa mejor
los datos.
-4 -2 0 2 4
0
200
400
600
800
1000
Tecnicas de analisis multivariante - I
33
Diagramas de Andrews - II
Ejemplo 1.
-4 -2 0 2 4
0
200
400
600
800
1000
-4 -2 0 2 4
0
50
100
150
200
250
300
350
400
-4 -2 0 2 4
-1000
-500
0
500
1000
-4 -2 0 2 4
-200
-100
0
100
200
300
Tecnicas de analisis multivariante - I
34
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
35
Tecnicas de analisis para la reducci on de la dimensi on
Analisis de componentes principales:
Interpretaci on geometrica.
Obtencion y propiedades de las componentes principales.
Criterios para elegir el n umero de componentes.
Interpretaci on de las componentes.
Tecnicas de analisis multivariante - I
36
Analisis de componentes principales
Al estudiar una matriz de datos X, es posible que encontremos correlaciones
altas (en valor absoluto) entre varias variables. El caso mas extremo es que
una de las variables sea combinaci on lineal de las restantes. Entonces,
el investigador puede preguntarse si no sera mas adecuado estudiar un
subconjunto de las variables originales o combinaciones lineales de estas.
Tambien el n umero de variables, p, puede ser grande, lo que diculta su
analisis conjunto y en tal caso el trabajo del investigador se facilitara
si existiese un conjunto de dimension menor (r < p) de combinaciones
lineales que describiera la matriz de datos X con una peque na perdida de
informaci on.

Reduccion de la dimensi on
Tecnicas de analisis multivariante - I
37
El analisis de componentes principales tiene como objetivo la
reduccion de la dimension de p variables preservando en lo posible la es-
tructura de varianzas presente en la matriz X. Se intentara explicar la mayor
variabilidad posible con un n umero r < p de combinaciones lineales de las
variables originales. As:
La primera componente principal sera la combinaci on lineal z
1
= Xa
1
que
tenga varianza maxima.
La segunda componente principal sera la combinaci on lineal z
2
= Xa
2
que
tenga varianza maxima y que sea incorrelada con z
1
.
Las siguientes componentes se denen de manera similar, es decir, se intenta
obtener la maxima varianza con combinaciones lineales que sean incorreladas
con las componentes previamente calculadas.
Cuantas componentes se necesitan para explicar el 100 % de la variabilidad?
Tecnicas de analisis multivariante - I
38
Interpretacion geometrica
Tecnicas de analisis multivariante - I
39
Obtencion de las componentes principales
Supuesto inicial: El vector de medias cumple que x = 0.
Obtencion de la primera componente principal: z
1
= Xa
1
.
Varianza de z
1
:
2
z
1
= a

1
Sa
1
, donde S =
1
n
X

X es la matriz de covarianzas de
x.
Que problema debemos resolver para obtener z
1
?
Maximizar {a

1
Sa
1
}
s.a. ||a
1
|| = 1.
Tecnicas de analisis multivariante - I
40
Soluci on:
Mediante los multiplicadores de Lagrange:
L = a

1
Sa
1
(a

1
a
1
1).
Derivamos respecto de a
1
e igualamos la derivada a 0:
L
a
1
= 2Sa
1
2a
1
= 0.
La solucion cumple que: Sa
1
= a
1
.
El vector, a
1
, que dene la primera componente principal es un vector
propio de la matriz de covarianzas, S.
Pero,
2
z
1
= a

1
Sa
1
= a

1
a
1
= , Entonces:
El vector, a
1
, que dene la primera componente principal es el vector
propio asociado al mayor valor propio de la matriz de covarianzas, S.
Tecnicas de analisis multivariante - I
41
Obtencion de la segunda componente principal: z
2
= Xa
2
.
Problema a resolver:
Maximizar {a

2
Sa
2
}
s.a.
_
||a
2
|| = 1.
a

1
a
2
= 0.
Que equivale a:
L = a

2
Sa
2

1
(a

2
a
2
1)
2
a

1
a
2
.
Derivamos respecto de a
2
e igualamos la derivada a 0:
L
a
2
= 2Sa
2
2
1
a
2

2
a
1
= 0.
Tecnicas de analisis multivariante - I
42
Obtencion de la segunda componente principal:
Premultiplicando la expresion anterior por a

1
obtenemos:
2a

1
Sa
2
2
1
a

1
a
2

2
a

1
a
1
= 0 + 0 +
2
= 0,
es decir
2
= 0. Por lo tanto:
2Sa
2
= 2
1
a
2
.
El vector, a
2
, que dene la segunda componente principal es el vec-
tor propio asociado al segundo mayor valor propio de la matriz de
covarianzas, S.
Tecnicas de analisis multivariante - I
43
Componentes principales - Ejemplo
Ejemplo 0. En el tema anterior calculamos la matriz de covarianzas de este
ejemplo:
S =
_
0,386 0,178
0,178 0,386
_
.
y sus valores y vectores propios:

1
= 0,5633, a
1
=
_
0,7071
0,7071
_
, y
2
= 0,2080, a
2
=
_
0,7071
0,7071
_
.
De manera que las componentes principales son:
z
1
= 0,7071 x
1
+ 0,7071 x
2
,
z
2
= 0,7071 x
1
0,7071 x
2
.
Tecnicas de analisis multivariante - I
44
Componentes principales - Ejemplo con SPSS - I
Ejemplo 0. Resultados utilizando SPSS:
Matriz de componentes
,531 -,322 ,855 -,519
,531 ,322 ,855 ,519
BASE
ALTURA
1 2
Componente
1 2
Componente
Bruta Reescalada
Comp. bruta:
_

_
b
1
=

1
a
1
=

0,5633
_
0,7071
0,7071
_
=
_
0,5307
0,5307
_
b
2
=

2
a
2
=

0,2080
_
0,7071
0,7071
_
=
_
0,3224
0,3224
_
.
Tecnicas de analisis multivariante - I
45
Componentes principales - Ejemplo con SPSS - II
Ejemplo 0.
Matriz de componentes
,531 -,322 ,855 -,519
,531 ,322 ,855 ,519
BASE
ALTURA
1 2
Componente
1 2
Componente
Bruta Reescalada
Comp. re-escalada:
_

_
c
1
=
_
b
11
/
1
b
12
/
2
_
=
_
0,5307/0,621
0,5307/0,621
_
=
_
0,8551
0,8551
_
c
2
=
_
b
21
/
1
b
22
/
2
_
=
_
0,3224/0,621
0,3224/0,621
_
=
_
0,5191
0,5191
_
.
Tecnicas de analisis multivariante - I
46
Componentes principales - Ejemplo - III
Matriz de componentes
a
3,404 ,736 -,523 -1,137 ,095 1,205
1714,500 -15,221 ,271 ,002 ,001 ,000
34,415 2,310 -16,596 ,175 ,146 -,027
264,193 98,475 ,422 -,008 -,016 -,010
-1,507 ,676 1,445 -,183 1,659 -,095
-1,347 ,419 ,785 3,274 ,118 ,415
1,620 ,029 ,054 -,010 -,036 ,068
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3 4 5 6
Componente
Bruta
Mtodo de extraccin: Anlisis de componentes principales.
Matriz de componentes
a
,874 ,189 -,134 -,292 ,024 ,310
1,000 -,009 ,000 ,000 ,000 ,000
,899 ,060 -,434 ,005 ,004 -,001
,937 ,349 ,001 ,000 ,000 ,000
-,546 ,245 ,524 -,066 ,601 -,034
-,366 ,114 ,214 ,891 ,032 ,113
,951 ,017 ,031 -,006 -,021 ,040
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3 4 5 6
Componente
Reescalada
Mtodo de extraccin: Anlisis de componentes principales.
6 componentes extrados a.
Tecnicas de analisis multivariante - I
47
Propiedades de las componentes principales - I
1. Conservan la variabilidad inicial: la suma de las varianzas de las p compo-
nentes principales es igual a la de las p variables originales:

p
j=1

2
x
j
=

p
j=1

j
=

p
j=1

2
z
j
.
2. La proporci on de variabilidad explicada por una componente es igual al valor
propio asociado dividido por la suma de los valores propios de S:
var(
2
z
h
) =

h

p
j=1

j
.
3. Las covarianzas entre la componente principal z
h
y la variable x es:
Cov(z
h
, x) =
h
a
h
,
donde
h
es el h-esimo valor propio de S y a
h
su vector propio asociado.
Tecnicas de analisis multivariante - I
48
Propiedades de las componentes principales - II
4. La correlaci on entre la componente principal z
h
y la variable univariante x
k
es:
Corr(z
h
, x
k
) =

h
a
kh
_

h
s
2
k
= a
kh

h
s
k
.
5. La estandarizaci on de las componentes principales, Z, permite obtener la
estandarizaci on multivariante de la matriz de datos, X:
Z
u
= ZD
1/2
= XAD
1/2
,
y recordamos que Y
m
= XAD
1/2
A

. Por lo tanto, Z
u
y Y
m
son iguales
salvo rotaciones.
Tecnicas de analisis multivariante - I
49
Analisis normado de componentes principales
Como es la primera componente de S =
_
_
100 0 0
0 2 1
0 1 2
_
_
?
Respuesta: a

1
=
_
1 0 0

.
Problema: Una variable con mayor varianza que el resto de las variables
tendra asociada la primera componente principal. Ejemplo 2
Soluci on: Obtener las componentes principales de la matriz de correlaciones.
R =
_
_
1 0 0
0 1 0,5
0 0,5 1
_
_
Cuyos valores y vectores propios son:

1
= 1,5, a

1
=
_
0 1/

2 1/

2

,

2
= 1,0, a

2
=
_
1 0 0

,

3
= 0,5, a

3
=
_
0 1/

2 1/

2

.
Tecnicas de analisis multivariante - I
50
Propiedades de las componentes principales - III
6. La proporci on de variabilidad explicada por una componente normada z
R
h
es:
var(
2
z
R
h
) =

R
h

p
j=1

R
j
=

R
h
p
,
donde
R
h
es el h-esimo valor propio de la matriz R.
7. Las covarianzas entre la componente principal normada z
R
h
y la variable
vectorial y
u
(estandarizaci on univariante de x) es:
Cov(z
R
h
, y
u
) =
R
h
a
R
h
,
donde
R
h
es el h-esimo valor propio de R y a
R
h
su vector propio asociado.
8. La correlaci on entre la componente principal z
R
h
y la variable univariante y
k
(estandarizaci on univariante de x
k
) es:
Corr(z
R
h
, y
k
) = a
R
kh
_

R
h
.
Tecnicas de analisis multivariante - I
51
Componentes principales normadas - Ejemplo- I
Observacion: En general, los valores y vectores propios de S y de R no coin-
ciden. Esto hace que los resultados del analisis de componentes principales
y de componentes principales normadas sean, en general, diferentes.
Ejemplo 0. Obtenemos los valores y vectores propios de la matriz de correla-
ciones, R =
_
1,000 0,461
0,461 1,000
_
:

R
1
= 1,4610, a
R
1
=
_
0,7071
0,7071
_
, y
R
2
= 0,5390, a
R
2
=
_
0,7071
0,7071
_
.
Entonces, las componentes principales son:
_
z
R
1
= 0,7071 y
1
+ 0,7071 y
2
,
z
R
2
= 0,7071 y
1
0,7071 y
2
.
En este caso los vectores propios de S y R coinciden.
Tecnicas de analisis multivariante - I
52
Componentes principales normadas - Ejemplo - II
Ejemplo 0. Resultados utilizando SPSS:
Matriz de componentes
,855 ,519
,855 -,519
BASE
ALTURA
1 2
Componente
Componentes:
_

_
a
1
=
1

1
b
1
=
1

1,4610
_
0,855
0,855
_

_
0,7073
0,7073
_
a
2
=
1

2
b
2
=
1

0,539
_
0,519
0,519
_

_
0,7069
0,7069
_
Tecnicas de analisis multivariante - I
53
Componentes principales normadas - Ejemplo - III
Matriz de componentes
a
,936 -,088 ,195 ,186 -,198 ,064
,964 ,161 ,075 -,115 ,052 -,027
,951 ,041 -,150 ,148 ,187 ,114
,928 ,233 ,205 ,091 ,032 -,173
-,648 ,120 ,747 ,018 ,072 ,053
-,499 ,845 -,172 ,063 -,047 ,031
,934 ,184 ,103 -,262 -,054 ,073
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3 4 5 6
Componente
Mtodo de extraccin: Anlisis de componentes principales.
6 componentes extrados
a.
Tecnicas de analisis multivariante - I
54
Criterios de reducci on de la dimensi on
Graco de sedimentacion o de codo: Obtener el graco de los valores
propios,
i
, frente a i. Buscar un codo en el graco, i.e., un punto a partir
del cual los valores propios son aproximadamente iguales.
Criterio de la varianza explicada: Seleccionar el n umero de componentes
necesario para explicar una proporci on predeterminada de la varianza, por
ejemplo, el 80 % o el 90 %.
Criterio del valor propio: Seleccionar los componentes principales asociados
a valores propios superiores a un valor prejado, por ejemplo, la varianza
media:

p
j=1

j
/p en componentes principales,

p
j=1

R
j
/p = 1 en componentes principales normadas.
Tecnicas de analisis multivariante - I
55
Reducci on de la dimensi on - Ejemplo - I
Ejemplo 1. Analisis de componentes principales normadas.
El criterio de la variabilidad expli-
cada (> 90 %) sugiere utilizar una
componente.
El criterio del valor propio (> 1)
sugiere utilizar una componente.
10,326 93,871 93,871
,383 3,480 97,352
,114 1,038 98,390
6,490E-02 ,590 98,980
4,130E-02 ,375 99,355
3,910E-02 ,355 99,711
1,965E-02 ,179 99,889
7,515E-03 6,832E-02 99,958
3,306E-03 3,005E-02 99,988
1,051E-03 9,556E-03 99,997
3,090E-04 2,809E-03 100,000
Componente
1
2
3
4
5
6
7
8
9
10
11
Total
% de la
varianza % acumulado
Autovalores iniciales
Tecnicas de analisis multivariante - I
56
Reducci on de la dimensi on - Ejemplo - II
Ejemplo 1.
Nmero de componente
11 10 9 8 7 6 5 4 3 2 1
A
u
to
v
a
lo
r
12
10
8
6
4
2
0
El criterio del graco de sedimentacion sugiere utilizar una componente.
Tecnicas de analisis multivariante - I
57
Reducci on de la dimensi on - Ejemplo - III
Ejemplo 2. Analisis de componentes principales.
Varianza total explicada
3010511,5 99,661 99,661 3010511,5 99,661 99,661
9935,469 ,329 99,990
278,648 ,009 99,999
12,078 ,000 100,000
2,798 9,263E-05 100,000
1,639 5,426E-05 100,000
,268 8,878E-06 100,000
Componente
1
2
3
4
5
6
7
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
Autovalores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Tecnicas de analisis multivariante - I
58
Reducci on de la dimensi on - Ejemplo - IV
Ejemplo 2. Analisis de componentes principales normadas.
Varianza total explicada
5,112 73,024 73,024 5,112 73,024 73,024
,852 12,168 85,192
,706 10,085 95,276
,151 2,158 97,434
,088 1,264 98,698
,057 ,813 99,511
,034 ,489 100,000
Componente
1
2
3
4
5
6
7
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
Autovalores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Tecnicas de analisis multivariante - I
59
Reducci on de la dimensi on - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.
Grfico de sedimentacin
Nmero de componente
7 6 5 4 3 2 1
A
u
t
o
v
a
l
o
r
6
5
4
3
2
1
0
Tecnicas de analisis multivariante - I
60
Interpretacion de las componentes - Ejemplo - I
Ejemplo 0. Las componentes principales:
_
z
1
= 0,7071 x
1
+ 0,7071 x
2
,
z
2
= 0,7071 x
1
0,7071 x
2
.
La primera componente, que explica el 73.03 % de la variabilidad total,
asigna igual peso a las variables base y altura, x
1
y x
2
. Si reescribimos
esta componente como: z
1
=
0,7071
2
(2x
1
+2x
2
) podemos interpretarla como
una ponderaci on del permetro del rectangulo.
Si ordenamos los datos seg un esa componente. obtenemos:
Es decir, los rectangulos quedan ordenados seg un su tama no.
Tecnicas de analisis multivariante - I
61
Interpretacion de las componentes - Ejemplo- II
Ejemplo 0. Las componentes principales:
_
z
1
= 0,7071 x
1
+ 0,7071 x
2
,
z
2
= 0,7071 x
1
0,7071 x
2
.
La segunda componente, que explica el 26.97 % de la variabilidad total,
asigna igual peso a la base y la altura pero con signo diferente. As, por
ejemplo, un valor de z
2
positivo correspondera a un rectangulo con mas
base que altura.
Si ordenamos los datos seg un esa componente, obtenemos:
Es decir, los rectangulos quedan ordenados seg un su forma.
Tecnicas de analisis multivariante - I
62
Interpretacion de las componentes - Casos Particulares - I
Componentes principales de una matriz diagonal: =
_

2
1
0 0
0
2
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
2
p
_

_
.
Entonces, los pares valorvector propio son:

2
1
y a
1
=
_

_
1
0
.
.
.
0
_

_
,
2
2
y a
2
=
_

_
0
1
.
.
.
0
_

_
, ,
2
p
y a
p
=
_

_
0
0
.
.
.
1
_

_
.
Las componentes principales en matrices diagonales son las variables origi-
nales.
En una matriz de covarianzas no necesariamente diagonal, si existe una
variable, x
k
, incorrelada con el resto de las variables, entonces habra una
componente principal que dara peso 1 a la variable x
k
y 0 al resto.
Tecnicas de analisis multivariante - I
63
Interpretacion de las componentes - Casos Particulares - II
Componentes principales de una matriz equicorrelada: R =
_

_
1
1
.
.
.
.
.
.
.
.
.
.
.
.
1
_

_
Entonces, los pares de valorvector propio son:

1
= 1 + (p 1) a

1
=
_
1

p
,
1

p
,
1

p
,
1

p
, . . . ,
1

p
_
,

2
= 1 a

2
=
_
1

12
,
1

12
, 0, 0, . . . , 0
_
,

3
= 1 a

3
=
_
1

23
,
1

23
,
2

23
, 0, . . . , 0
_
,
.
.
.
.
.
.

p
= 1 a

p
=
_
1

(p1)p
,
1

(p1)p
,
1

(p1)p
,
1

(p1)p
, . . . ,
(p1)

(p1)p
_
.
Tecnicas de analisis multivariante - I
64
Interpretacion de las componentes - Casos Particulares - III
Componentes principales de una matriz equicorrelada:
Si > 0, entonces el mayor valor propio es
1
= 1 + (p 1) y su vector
propio asociado a
1
dene una componente principal que asigna igual peso
a todas las variables: z
1
=
1

p
j=1
x
j
.
Si > 0, entonces la primera componente principal explica una proporci on
1+(p1)
p
= +
1
p
. Por ejemplo, si = 0,9 y p = 10, entonces la primera
componente explica el 90.01 % de la variabilidad total.
Si es cercano a 1, entonces las restantes p 1 componentes, explican una
peque na proporci on de la variabilidad total.
Tecnicas de analisis multivariante - I
65
Interpretacion de las componentes - Ejemplo - I
Ejemplo 1. La matriz de correlaciones de este ejemplo es aproximadamente
equicorrelada:
1,000 ,991 ,976 ,997 ,999 ,821 ,963 ,929 ,962 ,984 ,900
,991 1,000 ,987 ,986 ,989 ,840 ,965 ,934 ,968 ,993 ,914
,976 ,987 1,000 ,969 ,974 ,859 ,952 ,950 ,956 ,985 ,941
,997 ,986 ,969 1,000 ,998 ,796 ,958 ,917 ,958 ,978 ,890
,999 ,989 ,974 ,998 1,000 ,824 ,961 ,930 ,964 ,983 ,900
,821 ,840 ,859 ,796 ,824 1,000 ,766 ,906 ,858 ,861 ,893
,963 ,965 ,952 ,958 ,961 ,766 1,000 ,895 ,932 ,958 ,833
,929 ,934 ,950 ,917 ,930 ,906 ,895 1,000 ,922 ,945 ,954
,962 ,968 ,956 ,958 ,964 ,858 ,932 ,922 1,000 ,974 ,886
,984 ,993 ,985 ,978 ,983 ,861 ,958 ,945 ,974 1,000 ,908
,900 ,914 ,941 ,890 ,900 ,893 ,833 ,954 ,886 ,908 1,000
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
CL CW SW SL DCL OW OIW OL LCR WCR WN
Tecnicas de analisis multivariante - I
66
Interpretacion de las componentes - Ejemplo - II
Ejemplo 1.
La primera componente principal
estara denida por un vector
aproximadamente igual a a

1
=
_
1

11
,
1

11
, . . . ,
1

11
_
.
Recordemos que en SPSS aparece

1
a
1
, por tanto los coecientes seran
aproximadamente iguales a

10,326

11
0,969.
Matriz de componentes
,989
,992
,991
,982
,988
,882
,957
,964
,975
,993
,940
CL
CW
SW
SL
DCL
OW
OIW
OL
LCR
WCR
WN
1
Componente
Tecnicas de analisis multivariante - I
67
Interpretacion de las componentes - Ejemplo - III
Ejemplo 1. Diagrama de caja de la primera componente.
12 5 7 8 N =
Osteolaemus_tetraspi
Crocodylus_porosus
Crocodylus_niloticus
Alligator_mississipp
3
2
1
0
-1
-2
ot26 ot25
am1
Tecnicas de analisis multivariante - I
68
Interpretacion de las componentes - Ejemplo - IV
Ejemplo 1. Matriz de diagramas de dispersi on de las tres primeras CP.
CP1
4 4
4 4 4 4 4 444 4 4
3
3
3
3
3
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
44
4 4 4 4 4 4 4 44 4
3
3
3
3
3
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
4
4
4
4
4
4
4
44
4
4
4
3
3
3
3
3
2
2 2
2
2
2
2
1
1
1
1
1
1
1
1
CP2
4
4
4
4
4
4
4
4 4
4
4
4
3
3
3
3
3
2
2 2
2
2
2
2
1
1
1
1
1
1
1
1
44
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
2
2
2
2
2
2 2
1
1
1
1
1
1
1 1
4 4
4
4
4
4
4
4
4
4
4
4
3
3
3
3
3
2
2
2
2
2
2 2
1
1
1
1
1
1
1 1
CP3
Tecnicas de analisis multivariante - I
69
Interpretacion de las componentes - Ejemplo - V
Ejemplo 2. Analisis de componentes principales normadas.
Matriz de componentes
a
,936 -,088 ,195
,964 ,161 ,075
,951 ,041 -,150
,928 ,233 ,205
-,648 ,120 ,747
-,499 ,845 -,172
,934 ,184 ,103
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3
Componente
Mtodo de extraccin: Anlisis de componentes principales.
3 componentes extrados
a.
Tecnicas de analisis multivariante - I
70
Interpretacion de las componentes - Ejemplo - VI
Ejemplo 2. Analisis de componentes principales normadas.
CP 1
CP 2
CP 3
Pas de origen
Japn
Europa
EE.UU.
Tecnicas de analisis multivariante - I
71
Interpretacion de las componentes - Ejemplo - VII
Ejemplo 5. Esclerosis m ultiple.
2,917 58,342 58,342
1,227 24,534 82,876
,703 14,056 96,932
9,095E-02 1,819 98,751
6,245E-02 1,249 100,000
Componente
1
2
3
4
5
Total
% de la
varianza % acumulado
Autovalores iniciales
Matriz de componentes
,299 ,734
,878 ,316
,862 -,433
,852 ,336
,766 -,535
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Componente
La primera componente da mayor peso a las variables relacionadas con las
respuestas a estmulos visuales, y menor peso a la edad.
La segunda componente da mayor peso a la edad, y por otra parte con-
trapone las variables de tipo respuesta conjunta y respuesta diferencial.
Tecnicas de analisis multivariante - I
72
Interpretacion de las componentes - Ejemplo - VIIII
Ejemplo 5. Esclerosis m ultiple.
REGR factor score 2 for analysis 1
4 2 0 -2 -4 -6
R
E
G
R
fa
c
to
r s
c
o
re
1
fo
r a
n
a
ly
s
is
1
6
5
4
3
2
1
0
-1
-2
1
1
1
1
1
1
1
1
1
1 1
1
1
1
1
1
1
1 1
1
1
1
1 1
1
1
1
1
1
Tecnicas de analisis multivariante - I
73
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
74
Tecnicas de analisis para la reducci on de la dimensi on
Analisis Factorial:
Modelo factorial.
Estimacion del modelo factorial.
Contraste del modelo factorial.
Rotaciones y puntuaciones factoriales.
Tecnicas de analisis multivariante - I
75
Analisis Factorial
El objetivo del analisis factorial es representar la estructura de covarianza
presente en las variables originales mediante un n umero peque no de variables
latentes o no observadas que denominaremos factores.
Modelo de analisis factorial: Sea x el vector de p variables escalares y sean
y su esperanza y su matriz de covarianzas. El modelo expresa a x como
funci on de m factores comunes, f = [f
1
, f
2
, . . . , f
m
], y de p factores especcos,
u = [u
1
, u
2
, . . . , u
p
]:
x
1
=
1
+
11
f
1
+
12
f
2
+ +
1m
f
m
+u
1
,
x
2
=
2
+
21
f
1
+
22
f
2
+ +
2m
f
m
+u
2
,
.
.
.
.
.
.
x
p
=
p
+
p1
f
1
+
p2
f
2
+ +
pm
f
m
+u
p
.
Tecnicas de analisis multivariante - I
76
Analisis Factorial - Modelo
Modelo de analisis factorial en notaci on matricial:
x = +f +u,
donde =
_

11

12

1m

21

22

2m
.
.
.
.
.
.
.
.
.
.
.
.

p1

p2

pm
_

_
es una matriz de dimension p m de
constantes desconocidas que denominaremos matriz de carga.
El elemento
kj
recibe el nombre de saturacion de la variable x
k
en el factor
f
j
.
Tecnicas de analisis multivariante - I
77
Analisis Factorial - Supuestos
El vector de factores comunes tiene media cero y matriz de covarianzas la
identidad, i.e. E[f ] = 0 y E[

] = I. Notemos que esta hipotesis implica


que los factores comunes son incorrelados y estandarizados.
El vector de factores especcos tiene media cero y matriz de covarianzas
diagonal, i.e. E[u] = 0 y E[uu

] = =
_

2
1
0 0
0
2
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
p
_

_
. Notemos
que esta hip otesis implica que los factores especcos son incorrelados.
Los vectores f y u son incorrelados, i.e. E[fu

] = 0.
Tecnicas de analisis multivariante - I
78
Analisis Factorial - Propiedades - I
1. La matriz de covarianzas de la variable vectorial x verica que:
=

+.
Si nos centramos en la diagonal de la matriz , tenemos que:

jj
=
2
j
=

m
k=1

2
jk
+
2
j
,
donde h
2
j
=

m
k=1

2
jk
recibe el nombre de comunalidad o variabilidad
com un y
2
j
recibe el nombre de variabilidad especca.
Observacion: En el analisis de componentes principales, la matriz
se descompone en el producto ADA

que podemos escribir como


AD
1/2
(AD
1/2
)

. En SPSS, el analisis de componentes principales puede


obtenerse como un caso particular de analisis factorial en el que la
matriz de carga = AD
1/2
.
Tecnicas de analisis multivariante - I
79
Analisis Factorial - Propiedades - II
2. La covarianza entre la variable vectorial, x, y los factores, f , verica que:
cov(x, f ) = E[(x )f

] = ,
es decir, el elemento
kj
de la matriz de carga es la covarianza entre la
variable original x
k
y el factor f
j
.
3. No unicidad de la solucion factorial: Si tomamos una matriz ortogonal H
de dimension mm, es decir HH

= I, entonces:
x = +f +u
= + (H)(H

f ) +u,
y esto implica que H y H

f tambien satisfacen el modelo factorial.


Tecnicas de analisis multivariante - I
80
Estimaci on del modelo factorial - I
Estimacion por el metodo de las componentes principales: Sea S la matriz de
covarianzas de dimensi on pp, y sean (d
1
, a
1
), (d
2
, a
2
), . . . , (d
p
, a
p
) sus pares
de valorvector propio que supondremos ordenados d
1
d
2
d
p
0.
Sea m < p el n umero de factores comunes en el modelo factorial, entonces:
La estimacion de la matriz de carga es:

=
_
d
1
a
1
.
.
.

d
2
a
2
.
.
.
.
.
.

d
m
a
m

.
La estimacion de las varianzas especcas es:

2
j
= s
2
j

m
k=1

2
jm
, donde

jm
es el elemento de la la j y columna m de la matriz estimada

.
La estimacion de las comunalidades es:

h
2
j
=

m
k=1

2
jk
.
El metodo de estimacion basado en componentes principales tiene la ventaja
de que siempre converge a una solucion.
Tecnicas de analisis multivariante - I
81
Estimaci on del modelo factorial - II
Estimacion maximo verosmil: Si f N
m
(0, I) y u N
p
(0, ), entonces la
variable vectorial x seguira una normal multivariante y podemos escribir su
funci on de verosimilitud:
L =

n
i=1
||
1/2
(2)
p/2
exp
_
(1/2)(x
i
)

1
(x
i
)
_
.
Si sustituimos, en la expresion anterior, por su estimador x y por

+,
no es difcil comprobar que:
L = |

+|
n/2
(2)
np/2
exp
_
(n/2)tr((

+)
1
S)
_
.
Los estimadores maximo verosmiles,

,

y = x, maximizan L sujeto
a que

sea diagonal. Esta condici on se impone para solventar el


problema de la no unicidad de la soluci on.
Tecnicas de analisis multivariante - I
82
Contraste del modelo factorial
Contraste de raz on de verosimilitudes: Nos interesa contrastar si el modelo
factorial es adecuado:
H
0
: =

+,
H
1
: =

+.
Podemos utilizar el estadstico obtenido por raz on de verosimilitudes:
2 ln = nln
|

+

|
|S|
,
donde

y

son los estimadores maximo verosmil bajo H
0
. Bajo H
0
, el
estadstico se distribuye como una
2
((pm)
2
pm)/2
, y por tanto rechazaremos
la hip otesis nula cuando:
nln
|

+

|
|S|
>
2
((pm)
2
pm)/2
().
Tecnicas de analisis multivariante - I
83
Estimaci on y contraste - Ejemplo - I
Ejemplo 5.
Estimacion
Matriz de componentes
,299 ,734
,878 ,316
,862 -,433
,852 ,336
,766 -,535
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Componente
Matriz factorial
a
,200 ,290
,886 ,462
,886 -,462
,813 ,435
,742 -,538
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Mtodo de extraccin: Mxima verosimilitud.
2 factores extrados. Requeridas 10 iteraciones. a.
Contraste
Modelo con un factor
157,278 5 ,000
Chi-cuadrado gl Sig.
Modelo con dos factores
,891 1 ,345
Chi-cuadrado gl Sig.
Tecnicas de analisis multivariante - I
84
Estimaci on y contraste - Ejemplo - II
Ejemplo 2.
Matriz factorial
a
,895
,989
,911
,945
-,554
-,384
,955
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1
Factor
Mtodo de extraccin: Mxima verosimilitud.
1 factores extrados. Requeridas 6 iteraciones. a.
Prueba de la bondad de ajuste
521,732 14 ,000
Chi-cuadrado gl Sig.
Matriz factorial
a
,501 ,751
,573 ,800
,720 ,613
,451 ,848
-,999 ,030
-,304 -,256
,535 ,787
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2
Factor
Mtodo de extraccin: Mxima verosimilitud.
2 factores extrados. Requeridas 7 iteraciones. a.
Prueba de la bondad de ajuste
296,893 8 ,000
Chi-cuadrado gl Sig.
Tecnicas de analisis multivariante - I
85
Estimaci on y contraste - Ejemplo - III
Ejemplo 2.
Matriz factorial
a
,871 ,489 -,029
,843 ,307 ,422
,913 ,132 ,208
,781 ,439 ,337
-,846 ,532 ,006
-,493 -,231 ,312
,804 ,314 ,412
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3
Factor
Mtodo de extraccin: Mxima verosimilitud.
3 factores extrados. Requeridas 6 iteraciones. a.
Prueba de la bondad de ajuste
96,174 3 ,000
Chi-cuadrado gl Sig.
Advertencia
El nmero de grados de libertad (-1) no es positivo. El anlisis factorial podra no
ser apropiado.
Matriz factorial
a
Se han intentado extraer 4 factores. En la iteracin 25, el Hessian
no ha sido definido positivo. Se ha terminado la extraccin.
a.
Tecnicas de analisis multivariante - I
86
Estimaci on y contraste - Ejemplo - IV
Ejemplo 2.
Correlaciones reproducidas
,999
b
,873 ,854 ,885 -,478 -,552 ,842
,873 ,984
b
,898 ,936 -,548 -,355 ,948
,854 ,898 ,894
b
,841 -,701 -,416 ,861
,885 ,936 ,841 ,916
b
-,425 -,381 ,905
-,478 -,548 -,701 -,425 ,999
b
,296 -,511
-,552 -,355 -,416 -,381 ,296 ,394
b
-,340
,842 ,948 ,861 ,905 -,511 -,340 ,914
b
-1,686E-05 -5,313E-05 8,136E-05 -2,388E-07 ,000 6,609E-05
-1,686E-05 -2,407E-05 -,002 5,162E-06 -,013 ,003
-5,313E-05 -2,407E-05 ,022 -3,080E-05 ,005 -,019
8,136E-05 -,002 ,022 4,254E-05 ,078 -,007
-2,388E-07 5,162E-06 -3,080E-05 4,254E-05 ,000 -3,988E-05
,000 -,013 ,005 ,078 ,000 -,001
6,609E-05 ,003 -,019 -,007 -3,988E-05 -,001
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
Correlacin reproducida
Residual
a
Consumo
(l/100Km)
Cilindrada en
cc Potencia (CV)
Peso total
(kg)
Aceleracin 0
a 100 km/h
(segundos)
Ao del
modelo
Nmero de
cilindros
Mtodo de extraccin: Mxima verosimilitud.
Los residuos se calculan entre las correlaciones observadas y reproducidas. Hay 1 (4,0%) residuales no redundantes con valores absolutos mayores que 0,05. a.
Comunalidades reproducidas b.
Tecnicas de analisis multivariante - I
87
Rotaciones
Sabemos que la soluci on del modelo factorial no era unica. A partir de una
solucion y f podemos hallar otra soluci on mediante una matriz ortogonal
H: H y H

f son soluciones que tienen la misma matriz residual, varianzas


especcas y comunalidades.
Cual es el resultado de multiplicar por una matriz ortogonal? Una rotaci on de
los factores.
Metodos de rotacion:
Varimax: minimiza el n umero de variables que tienen saturaciones altas en
cada factor.
Quartimax: minimiza el n umero de factores necesarios para explicar cada
variable.
Equamax: metodo de rotacion que combina los dos metodos anteriores.
Rotaciones oblicuas: metodos de rotacion no ortogonal, i.e. H es una matriz
no singular general. Los factores resultantes son correlados.
Tecnicas de analisis multivariante - I
88
Rotaciones - Ejemplo - I
Ejemplo 5.
Rotacion Varimax:
Matriz de factores rotados
a
-3,915E-02 ,350
,365 ,930
,972 ,233
,328 ,861
,913 8,082E-02
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Mtodo de extraccin: Mxima verosimilitud.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
La rotacin ha convergido en 3 iteraciones. a.
Rotacion Quartimax:
Matriz de factores rotados
a
-5,256E-02 ,348
,329 ,944
,962 ,270
,295 ,873
,909 ,116
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Mtodo de extraccin: Mxima verosimilitud.
Mtodo de rotacin: Normalizacin Quartimax con Kaiser.
La rotacin ha convergido en 3 iteraciones. a.
Tecnicas de analisis multivariante - I
89
Rotaciones - Ejemplo - II
Rotacion Oblicua Promax:
Matriz de configuracin.
a
-,174 ,409
5,811E-02 ,968
,990 1,794E-02
4,246E-02 ,899
,981 -,140
EDAD
R1SUMA
R1DIF
R2SUMA
R2DIF
1 2
Factor
Mtodo de extraccin: Mxima verosimilitud.
Mtodo de rotacin: Normalizacin Promax con Kaiser.
La rotacin ha convergido en 3 iteraciones. a.
Matriz de correlaciones entre los factores
1,000 ,518
,518 1,000
Factor
1
2
1 2
Notemos que en este caso los factores son correlados, sin embargo hemos
logrado la matriz de carga mas sencilla y por tanto mas facil de interpretar.
Tecnicas de analisis multivariante - I
90
Rotaciones - Ejemplo - III
Ejemplo 2.
Rotacion Varimax:
Matriz de componentes rotados
a
,851 ,192 -,401
,925 ,287 -,150
,798 ,501 -,206
,962 ,146 -,103
-,279 -,947 ,128
-,191 -,126 ,970
,916 ,247 -,127
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3
Componente
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Varimax con Kaiser.
La rotacin ha convergido en 4 iteraciones. a.
Rotacion Quartimax:
Matriz de componentes rotados
a
,922 -,266 ,023
,979 -,006 -,056
,915 -,076 -,293
,973 ,044 ,088
-,512 ,070 ,851
-,357 ,928 ,057
,957 ,015 -,020
Consumo (l/100Km)
Cilindrada en cc
Potencia (CV)
Peso total (kg)
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
Nmero de cilindros
1 2 3
Componente
Mtodo de extraccin: Anlisis de componentes principales.
Mtodo de rotacin: Normalizacin Quartimax con Kaiser.
La rotacin ha convergido en 4 iteraciones. a.
Tecnicas de analisis multivariante - I
91
Puntuaciones factoriales
En analisis factorial, usualmente, el interes se centra en los parametros del
modelo factorial, en particular en la matriz de carga. Sin embargo, puede ser
util obtener los valores de los factores comunes:
Metodo basado en regresion:

f
i
=

1
(x
i
x), con i = 1, 2, . . . , n.
Este metodo puede obtener soluciones correladas incluso cuando los factores
sean ortogonales.
Metodo de Bartlett o Metodo de mnimos cuadrados ponderados:

f
i
= (

)
1

1
(x
i
x), con i = 1, 2, . . . , n.
El metodo de AndersonRubin es una modicacion de este metodo que
asegura la ortogonalidad de los factores.
Tecnicas de analisis multivariante - I
92
Puntuaciones factoriales - Ejemplo
Ejemplo 5. Esclerosis m ultiple. Factores rotados.
A-R factor score 2
3 2 2 1 1 0 -1 -1
A
-R
fa
c
to
r s
c
o
re
1
10
8
6
4
2
0
-2
1 1
1
1
1
1
1
1
1
1 1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Tecnicas de analisis multivariante - I
93
Ejemplo con gracos de control - I
Ejemplo 4. Seis tipos de escenarios.
Varianza total explicada
31,479 52,465 52,465 31,479 52,465 52,465
5,930 9,884 62,348 5,930 9,884 62,348
4,184 6,973 69,322 4,184 6,973 69,322
1,989 3,314 72,636 1,989 3,314 72,636
1,846 3,077 75,712 1,846 3,077 75,712
1,254 2,090 77,803 1,254 2,090 77,803
1,011 1,685 79,488 1,011 1,685 79,488
,957 1,595 81,082
,736 1,226 82,309
,715 1,192 83,501
: : :
,045 ,076 99,792
Componente
1
2
3
4
5
6
7
8
9
10
:
60
Total
% de la
varianza % acumulado Total
% de la
varianza % acumulado
Autovalores iniciales
Sumas de las saturaciones al cuadrado
de la extraccin
Mtodo de extraccin: Anlisis de Componentes principales.
Tecnicas de analisis multivariante - I
94
Ejemplo con gracos de control - II
Ejemplo 4. (AF) Componentes principales normadas.
CP 1
CP 2
CP 3
Tend.Decreciente
Tend. Creciente
Normal
Esc.Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
95
Ejemplo con gracos de control - III
Ejemplo 4. (AF) Componentes principales normadas rotadas.
CP 1 (r)
CP 2 (r)
CP 3 (r)
Tend. Decreciente
Tend. Creciente
Normal
Esc. Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
96
Ejemplo con gracos de control - IV
Ejemplo 4. Interpretaci on de las CP - factores.
Variable
58
55
52
49
46
43
40
37
34
31
28
25
22
19
16
13
10
7
4
1
1,5
1,0
,5
0,0
-,5
-1,0
Coef. CP 1 (r)
Coef. CP 2 (r)
Coef. CP 3 (r)
Tecnicas de analisis multivariante - I
97
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
98
Escalado multidimensional - I
Las tecnicas de escalado multidimensional son una generalizacion de com-
ponentes principales cuando en lugar de una matriz de datos, XXX, tenemos
una matriz de distancias o de disimilaridades, DDD, entre los elementos de la
muestra en estudio.
Similitudes entre n productos fabricados por una empresa.
Distancias percibidas entre n candidatos polticos.
Diferencias de dicultad entre las n preguntas de un examen.
Las mediciones de estas distancias pueden obtenerse mediante:
Estimacion directa por expertos: n(n 1)/2 evaluaciones.
Estimacion por rangos: se selecciona un elemento y se pide a los expertos
que ordenen los restantes n1 seg un proximidad al elemento seleccionado.
Se contin ua con el siguiente elemento.
Estimacion por pares: se forman todos los pares posibles y se pide a los
expertos que los ordene de mayor a menor distancia.
Tecnicas de analisis multivariante - I
99
Escalado multidimensional - II
El objetivo del escalado multidimensional es representar la matriz de distan-
cias mediante un conjunto de variables ortogonales tales que las distancias
eucldeas entre estas variables sea lo mas pr oximo posible a DDD.
DDD
nn
XXX
np
.
Distancias eucldeas de XXX DDD.
Es siempre posible encontrar XXX
np
tal que se verique la igualdad? No.
Si la matriz de distancias, DDD, es una matriz de distancias eucldeas entonces
recuperaremos las componentes principales.
El escalado multidimensional es complementario a componentes principales
en el sentido que CP considera la matriz p p de covarianzas entre las
variables mientras que el EM considera la matriz n n de distancias entre
los individuos.
Tecnicas de analisis multivariante - I
100
Escalado multidimensional metrico - I
A partir de la matriz de datos, XXX, podemos obtener la matriz de datos
centrada:

XXX = (III n
1
111111)XXX = PPPXXX
y a partir de ella las siguientes matrices cuadradas y semidenidas positivas:
SSS =

XXX

XXX/n: Matriz de covarianzas.


QQQ =

XXX

XXX

: Matriz de covarianzas entre individuos.


Las siguientes relaciones permiten obtener DDD a partir de QQQ y viceversa:
d
2
ij
= q
ii
+q
jj
2q
ij
,
y
q
ij
=
1
2
_
d
2
ij
d
2
i
d
2
j
+d
2

_
.
Tecnicas de analisis multivariante - I
101
Escalado multidimensional metrico - II
Como obtener XXX a partir de QQQ?
Bajo el supuesto de que QQQ sea de rango p se puede escribir mediante la
descomposicion en valores, , y vectores propios, V:
QQQ = VV

= V
1/2

1/2
V

.
Tomamos como matriz de datos a YYY = V
1/2
.
YYY son p variables incorreladas medidas en n individuos.
No es posible obtener la matriz de datos original, XXX, pues la matriz de
distancias es invariante ante traslaciones y rotaciones de los datos.
Tecnicas de analisis multivariante - I
102
Escalado multidimensional metrico - III
Es siempre posible encontrar YYY
np
tal que las distancias eucldeas entre sus
elementos sea igual a DDD? Respuesta 1: En general, no.
Ejemplo: Consideremos la distancia por
carretera:
DDD =

0 1 1

2
1 0 2 1
1 2 0 1

2 1 1 0

QQQ =

0,390 0,036 0,036 0,316


0,036 0,536 0,463 0,036
0,036 0,463 0,536 0,036
0,316 0,036 0,036 0,390

-0.2 0 0.2 0.4 0.6 0.8 1 1.2


-0.2
0
0.2
0.4
0.6
0.8
1
1.2
X
1
X
2
X
3
X
4
que tiene como valores propios a: 0.0000, 0.1464, 0.7071 y 1.0000.
Tecnicas de analisis multivariante - I
103
Escalado multidimensional metrico - IV
Respuesta 2: Si es posible cuando la matriz QQQ
nn
=
1
2
PPPDDDPPP es de rango p y
semidenida positiva.
Ejemplo: Consideremos la distancia por ciudad:
DDD =
_

_
0 1 1 2
1 0 2 1
1 2 0 1
2 1 1 0
_

_
QQQ =
_

_
0,5 0 0 0,5
0 0,5 0,5 0
0 0,5 0,5 0
0,5 0 0 0,5
_

_
.
que tiene como valores propios a: 0, 0, 1 y 1.
Tecnicas de analisis multivariante - I
104
Ejemplo: Si tomamos los dos valores propios (positivos) mayores obtenemos:
YYY
(1)
=

0,5946 0,0000
0,0000 0,7071
0,0000 0,7071
0,5946 0,0000

e
YYY
(2)
=

0,7071 0
0 0,7071
0 0,7071
0,7071 0

-1 -0.5 0 0.5 1
-1
-0.5
0
0.5
1
X
1
X
2
X
3
X
4
Y
(1)
1
Y
(1)
2
Y
(1)
3
Y
(1)
4
Y
(2)
1
Y
(2)
2
Y
(2)
3
Y
(2)
4
Precision de la aproximaci on: (0.7071 + 1)/(0.1464 + 0.7071 + 1) = 92.1 %,
y 100 %, respectivamente.
Tecnicas de analisis multivariante - I
105
Escalado multidimensional metrico - Resumen
1. Construir la matriz QQQ
nn
=
1
2
PPPDDDPPP.
2. Calcular los valores propios de QQQ. Tomar los p valores propios mayores, de
manera que los n r valores propios restantes sean pr oximos a cero.
3. Obtener las coordenadas de las variables ortogonales y
i
= v
i

i
, donde
i
es un valor propio y v
i
su vector propio asociado.
Este procedimiento equivale a aproximar la matriz QQQ mediante:
QQQ
r
= V
r

1/2
r

1/2
r
V

r
,
y tomar como matriz de datos (centrados y rotados) a:
YYY
r
= V
r

1/2
r
.
Tecnicas de analisis multivariante - I
106
Ejemplo con gracos de control - I
Ejemplo 4. Distancias eucldeas entre los casos (n = 600).
Medidas de ajuste y stress
,02315
,15214
a
,30873
a
,02130
b
,97685
,98836
Stress bruto normalizado
Stress-I
Stress-II
S-Stress
Dispersin explicada
(D.A.F.)
Coeficiente de
congruencia de Tucker
PROXSCAL minimiza el stress bruto normalizado.
Factor para escalamiento ptimo = 1,024. a.
Factor para escalamiento ptimo = ,972. b. DIM_2
,6 ,4 ,2 ,0 -,2 -,4 -,6 -,8 -1,0
D
I
M
_
1
1,5
1,0
,5
0,0
-,5
-1,0
-1,5
Tend. Decreciente
Tend. Creciente
Normal
Esc. Positivo
Esc. Negativo
Ciclico
Tecnicas de analisis multivariante - I
107
Ejemplo con gracos de control - II
Ejemplo 4. Distancias eucldeas entre las variables (p = 60).
Medidas de ajuste y stress
,05256
,22926
a
,52979
a
,08298
b
,94744
,97337
Stress bruto normalizado
Stress-I
Stress-II
S-Stress
Dispersin explicada
(D.A.F.)
Coeficiente de
congruencia de Tucker
PROXSCAL minimiza el stress bruto normalizado.
Factor para escalamiento ptimo = 1,056. a.
Factor para escalamiento ptimo = ,935. b. Nmero de variable
58 55 52 49 46 43 40 37 34 31 28 25 22 19 16 13 10 7 4 1
1,0
,5
0,0
-,5
-1,0
DIM_1
DIM_2
Tecnicas de analisis multivariante - I
108
Escalado multidimensional no metrico - I
Supongamos que la matriz de distancias es no eucldea, entonces la matriz
QQQ =
1
2
PPPDDDPPP tiene valores propios negativos.
El objetivo de escalado multidimensional no metrico es transformar las
distancias, d
i,j
, para convertirlas en eucldeas conservando las relaciones de
proximidad originales:
Si d
i,j
d
k,l
entonces

d
i,j


d
k,l
,
donde

d
i,j
= (d
i,j
) y es una transformaci on monotona.
Existen varias posibilidades para la funci on . Por ejemplo:

1
(d
i,j
) =
_
d
2
i,j
2a si i = j
0 si i = j

2
(d
i,j
) =
_
d
i,j
+c si i = j
0 si i = j
Tecnicas de analisis multivariante - I
109
Escalado multidimensional no metrico - II
Los parametros ay c se seleccionan de manera que se minimice las diferencias
entre las distancias originales y las transformadas:

j
(d
i,j


d
i,j
)
2
.
Un criterio de ajuste utilizado para evaluar la representaci on obtenida es el
conocido por STRESS (adecuado si < 5 %):
S
2
=

i<j
(d
i,j


d
i,j
)
2

i<j

d
2
i,j
.
Otra alternativa es obtener el diagrama de Shepard que consiste en repre-
sentar los n(n 1)/2 puntos (d
i,j
,

d
i,j
) y comprobar la monotona de la
curva resultante.
Tecnicas de analisis multivariante - I
110
Ejemplo:
YYY
(1)
=

0,5946 0,0000
0,0000 0,7071
0,0000 0,7071
0,5946 0,0000

e
YYY
(nm)
=

0,1854 0,6118
0,8667 0,2577
0,8705 0,2668
0,1796 0,6213

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1


-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
Tecnicas de analisis multivariante - I
111
Ejemplo: Si calculamos las matrices de distancias eucldeas de las matrices de
datos obtenidas, YYY
(1)
y YYY
(nm)
:
DDD
(1)
=
_

_
0 0,923 0,923 1,189
0,923 0 1,414 0,923
0,923 1,414 0 0,923
1,189 0,923 0,923 0
_

_
DDD
(nm)
=
_

_
0 1,110 1,114 1,285
1,110 0 1,814 1,115
1,114 1,814 0 1,108
1,285 1,115 1,108 0
_

_
y las comparamos con la matriz original: DDD =
_

_
0 1 1

2
1 0 2 1
1 2 0 1

2 1 1 0
_

_
Obtenemos que el STRESS es: 0.0417 y 0.0101 y el S-STRESS es: 0.6414 y
0.3827.
Tecnicas de analisis multivariante - I
112
Reconstrucci on del mapa de Espa na - I
A partir de las distancias entre provincias:
Alicante 171
Almera 369 294
Avila 366 537 663
Badajoz 525 696 604 318
Barcelona 540 515 809 717 1022
Bilbao 646 817 958 401 694 620
Burgos 488 659 800 243 536 583 158
Cceres 504 675 651 229 89 918 605 447
Cdiz 617 688 484 618 342 1284 1058 900 369
Castelln 256 231 525 532 805 284 607 524 701 873
Ciudad Real 207 378 407 256 318 811 585 427 324 464 463
Crdoba 354 525 332 457 272 908 795 637 319 263 610 201
A Corua 860 1031 1172 538 772 1118 644 535 683 1072 1026 799 995
Cuenca 142 313 511 282 555 562 562 404 451 708 305 244 445 776
Gerona 640 615 909 817 1122 100 720 683 1018 1384 384 911 1008 1218 662
Granada 363 353 166 534 438 868 829 671 485 335 584 278 166 1043 479 968
Guadalajara 309 480 621 173 459 563 396 238 355 721 396 248 458 667 486 663 492
Albacete
Guadalajara
A Corua
Cuenca
Gerona
Granada
Cdiz
Castelln
Ciudad Real
Crdoba
Barcelona
Bilbao
Burgos
Cceres
Alicante
Almera
Avila
Badajoz
...
Tecnicas de analisis multivariante - I
113
Reconstrucci on del mapa de Espa na - II
Iteration history for the 2 dimensional solution (in squared distances)
Youngs S-stress formula 1 is used.
Iteration S-stress Improvement
1 ,09112
2 ,07500 ,01612
3 ,07373 ,00127
4 ,07354 ,00020
Iterations stopped because S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which is accounted for by
their corresponding distances. Stress values are Kruskals stress formula 1.
Stress = ,05474 RSQ = ,98449
Tecnicas de analisis multivariante - I
114
Reconstrucci on del mapa de Espa na - III
Distancias originales
5 4 3 2 1 0
D
i
s
t
a
n
c
i
a
s

t
r
a
n
s
f
o
r
m
a
d
a
s
5
4
3
2
1
0
Tecnicas de analisis multivariante - I
115
Reconstrucci on del mapa de Espa na - IV
-600 -400 -200 0 200 400 600 800
-800
-600
-400
-200
0
200
400
600
Albacete
Alicante
Almera
Avila
Badajoz
Barcelona
Bilbao
Burgos
Cceres
Cdiz
Castelln
Ciudad Real
Crdoba
Corua
Cuenca
Gerona
Granada
Guadalajara
Huelva
Huesca
Jan
Len Lrida
Logroo
Lugo
Madrid
Mlaga
Murcia
Orense
Oviedo
Palencia
Pamplona Pontevedra
Salamanca
SanSebastin
Santander
Segovia
Sevilla
Soria
Tarragona
Teruel
Toledo
Valencia
Valladolid
Vitoria
Zamora
Zaragoza
Tecnicas de analisis multivariante - I
116
Tecnicas de analisis multivariante - I
Analisis de componentes principales.
Analisis factorial.
Escalado multidimensional.
Analisis de correspondencias.
Tecnicas de analisis multivariante - I Andres M. Alonso
117
Analisis de correspondencias
El analisis de correspondencias es una tecnica analoga a las componentes
principales para variables cualitativas.
Se utiliza para representar tablas de contingencias. Esto es, la informaci on
de partida es una matriz de dimensi on I J que representa las frecuencias
absolutas de dos variables cualitativas observadas en n individuos.
X : Y D1 D2 DJ
C1
C2
.
.
.
CI
Tecnicas de analisis multivariante - I
118
Analisis de correspondencias - Ejemplo
Tabla de contingencia del color de los ojos y el pelo de escolares escoceses
(R.A. Fisher, 1940).
Ojos : Pelo Rubio Pelirrojo Casta no Oscuro Negro
Claros 688 116 584 188 4
Azules 326 38 241 110 3
Casta nos 343 84 909 412 26
Oscuros 98 48 403 681 85
Podemos representar esta tabla en forma de matriz de datos con n = 5387
individuos y p = 9 = 4 (ojos) + 5 (pelo) variables dicot omicas.
Representar las variables en un espacio de dimensi on menor.
Asignar valores numericos a variables cualitativas.
Tecnicas de analisis multivariante - I
119
Analisis de correspondencias - Procedimiento - I
1.- Se obtiene la tabla de contingencia en terminos de frecuencias relativas, FFF:
Ojos : Pelo Rubio Pelirrojo Casta no Oscuro Negro
Claros 0.128 0.022 0.108 0.035 0.001
Azules 0.061 0.007 0.045 0.020 0.001
Casta nos 0.064 0.016 0.169 0.076 0.005
Oscuros 0.018 0.009 0.075 0.126 0.016
2.- Se estandarizan las frecuencias relativas respecto a las frecuencias relativas
marginales por las y columnas, ZZZ = DDD
1/2
f
FFFDDD
1/2
c
:
Ojos : Pelo Rubio Pelirrojo Casta no Oscuro Negro
Claros 0.454 0.173 0.318 0.127 0.009
Azules 0.319 0.084 0.195 0.110 0.010
Casta nos 0.213 0.118 0.467 0.262 0.057
Oscuros 0.071 0.078 0.240 0.504 0.216
Tecnicas de analisis multivariante - I
120
Analisis de correspondencias - Procedimiento - II
3.- Se obtiene la matriz ZZZ

ZZZ y sus valores y vectores propios:


ZZZ

ZZZ =
_

_
0,358 0,136 0,323 0,184 0,035
0,136 0,057 0,145 0,101 0,026
0,323 0,145 0,415 0,305 0,083
0,184 0,101 0,305 0,351 0,126
0,035 0,026 0,083 0,126 0,050
_

_
Valores propios: 0.001, -0.0001, 0.0304, 0.1998, 0.9998 (1).
Vectores propios:
-0.2195 -0.1024 -0.5219 -0.6317 0.5196
0.9073 0.3229 -0.0673 -0.1225 0.2303
-0.0554 -0.1593 0.7556 -0.0609 0.6300
-0.2028 0.3995 -0.3002 0.6716 0.5081
0.2907 -0.8368 -0.2492 0.3623 0.1479
Tecnicas de analisis multivariante - I
121
Analisis de correspondencias - Procedimiento - III
4.- Se toman los dos vectores propios, aaa
1
y aaa
2
, ligados a los mayores valores
propios que sean menores que 1.
5.- Calcular las proyecciones ZZZaaa
1
y ZZZaaa
2
y representarlas gracamente.
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
-0.1
-0.05
0
0.05
0.1
0.15
Ojos claros
Ojos azules
Ojos castaos
Ojos oscuros
Tecnicas de analisis multivariante - I
122
Analisis de correspondencias - Procedimiento - IV
El procedimiento es analogo para las columnas y ambos resultados pueden
combinarse.
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
-0.1
-0.05
0
0.05
0.1
0.15
O. claro
O. azules
O. oscuros
O. castao
Rubio
Pelirrojo
P. castao
P. oscuro
P. negro
Tecnicas de analisis multivariante - I
123
Analisis de correspondencias - Resumen
El procedimiento de Analisis de correspondencias conduce a una representacion
de las las (columnas) de una tabla de consistencia.
1. Caracterizar las las (columnas) por sus frecuencias relativas condicionadas,
y considerarlas como puntos en el espacio. Por que es necesario?
2. Denir una distancia entre puntos que tenga en cuenta que cada la se
mide con distinta precision,
2
.
3. Proyectar los puntos sobre las direcciones de maxima variabilidad.
Tecnicas de analisis multivariante - I
124
Analisis de correspondencias - Estandarizaci on
Suspenso Aprobado Notable Sobresaliente Total
Zona A 0.03 0.06 0.15 0.06 0.3
Zona B 0.07 0.14 0.35 0.14 0.7
Total 0.1 0.2 0.5 0.2 1.0
Suspenso Aprobado Notable Sobresaliente Total
Zona A 0.1 0.2 0.5 0.2 1.0
Zona B 0.1 0.2 0.5 0.2 1.0
Aunque las frecuencia relativas de las dos zonas son muy distintas, pero la
distribuci on de calicaciones es la misma para ambas zonas.
Tecnicas de analisis multivariante - I
125
Ejemplo: Tipo de fumador vs Categora en la empresa - I
Tabla de correspondencias
4 2 3 2 11
4 3 7 4 18
25 10 12 4 51
18 24 33 13 88
10 6 7 2 25
61 45 62 25 193
Staff Group
Senior Managers
Junior Managers
Senior Employees
Junior Employees
Secretaries
Total
None Light Medium Heavy Total
Smoking
Resumen
,273 ,075 ,878 ,878 ,070 ,020
,100 ,010 ,118 ,995 ,076
,020 ,000 ,005 1,000
,085 16,442 ,172
a
1,000 1,000
Dimensin
1
2
3
Total
Valor propio Inercia Chi-cuadrado Sig. Explicada Acumulada
Proporcin de inercia
Desviacin
tpica 2
Correlacin
Confianza para el Valor propio
12 grados de libertad a.
Tecnicas de analisis multivariante - I
126
Ejemplo: Tipo de fumador vs Categora en la empresa - II
Dimensin 1
,8 ,6 ,4 ,2 ,0 -,2 -,4 -,6 -,8 -1,0
D
i
m
e
n
s
i

n

2
1,0
,8
,6
,4
,2
-,0
-,2
-,4
-,6
Smoking
Staff Group
Heavy
Medium
Light
None
Secretaries
Junior Employees
Senior Employees
Junior Managers
Senior Managers
Tecnicas de analisis multivariante - I
127
Lecturas recomendadas
Analisis de componentes principales: Captulo 5 de Cuadras (2004); Captulo 8 de Johnson
y Wichern (2002); Captulo 2 de McGarigal et al (2000); Captulo 5 de Pe na (2002);
Captulo 7 de Selvin (1995).
Analisis factorial: Captulo 6 de Cuadras (2004); Captulo 9 de Johnson y Wichern (2002);
Captulo 12 de Pe na (2002).
Escalado multidimensional: Captulo 8 de Cuadras (2004); Captulo 12 de Johnson y
Wichern (2002); Captulo 6 de Pe na (2002).
Analisis de correspondencias: Captulo 9 de Cuadras (2004); Captulo 12 de Johnson y
Wichern (2002); Captulo 7 de Pe na (2002).
Cuadras, C. (2004) Analisis multivariante, Universidad de Barcelona.
Johnson, R.A. y Wichern, W.A. (2002) Applied multivariate statistical analysis, Prentice
Hall.
McGarigal, K., Cushman, S. y Staord, S. (2000) Multivariate analysis for wildlife and
ecology research, Springer.
Pe na, D. (2002) Analisis de datos multivariantes, McGrawHill.
Selvin, S. (1995) Practical biostatistical methods, Duxbury Press.
Tecnicas de analisis multivariante - I

You might also like