1 Tema1 PDF

Indice general
1. Analisis de Componentes Principales (ACP). 1

1.1. Construccion de las CP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Denicion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2. Calculo de la primera componente principal. . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3. Calculo de la segunda componente principal. . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4. Calculo de la (r + 1)-esima componente principal (1 r + 1 p). . . . . . . . . . . . . 3
1.1.5. Construccion conjunta de las p componentes principales. . . . . . . . . . . . . . . . . . . 3
1.2. Estructura de la matriz de covarianza en el ACP. . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Propiedad de invariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2. Correlacion entre las CP y las variables originales. . . . . . . . . . . . . . . . . . . . . . 4
1.2.3. Componentes principales extradas sobre y sobre R (estandarizacion) . . . . . . . . . 5
1.2.4. Estructuras especiales de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.5. Muestras de combinaciones lineales de variables aleatorias. . . . . . . . . . . . . . . . . 7
1.3. Analisis de Componentes Principales Muestral (ACPM). . . . . . . . . . . . . . . . . . . . . . . 8
1.4. Analisis de Componentes Principales en poblaciones normales. . . . . . . . . . . . . . . . . . . 9
1.4.1. Resultados de Anderson-Girschick. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5. Calculo de las Componentes Principales poblacionales. . . . . . . . . . . . . . . . . . . . . . . . 11
1.6. Manejo simultaneo de todas las componentes principales. . . . . . . . . . . . . . . . . . . . . . 13
1.7. Test en el ACP basados en la matriz S de covarianzas muestrales. . . . . . . . . . . . . . . . . 14
1.7.1. Test de Bartlett (1947). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7.2. Test de Bartlett-Lawley (1956). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.7.3. Test de Anderson (1963). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.8. Test en ACP sobre R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.9. Sobre la seleccion del n umero de componentes principales a retener. . . . . . . . . . . . . . . . 17
1.9.1. Actuacion con matriz de covarianzas muestrales. . . . . . . . . . . . . . . . . . . . . . . 17
1.9.2. Actuacion con matriz de correlaciones muestrales. . . . . . . . . . . . . . . . . . . . . . 18
1.10. Analisis de componentes principales y observaciones anomalas. . . . . . . . . . . . . . . . . . . 18
1.11. Representaciones gracas en el ACP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.12. Aplicaciones del ACP: ACP sobre k-grupos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.12.1. Modelo de Okamoto (1976) o modelo de efectos jos . . . . . . . . . . . . . . . . . . . 22
1.12.2. El ACP y la Regresion Lineal (Latenet root regression) . . . . . . . . . . . . . . . . . . 23
1.13. Resultados previos: Elipsoides equiprobables en una N
p
(; ) y combinaciones lineales de un
vector aleatorio multidimensional. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.13.1. Combinaciones lineales de un vector aleatorio X. . . . . . . . . . . . . . . . . . . . . . . 25
I Aplicaci on a SPSS y R 26
2. Practicas de Analisis de Componentes Principales (ACP). 27
2.1. Aplicacion en R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2. Ejemplo de aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1
Tema 1
Analisis de Componentes Principales
(ACP).
Las componentes principales (CP) asociadas a un vector de variables aleatorias X = (X
1
, . . . , X
n
)
, son
combinaciones lineales de dichas variables sometidas a ciertas propiedades. Es una tecnica cuyo objetivo basico
es la reduccion de la dimension de un problema con p variables a otro con un n umero posiblemente menor
de nuevas variables. Por otro lado, en el ACP parametrico, que aqu abordamos, el vector aleatorio X se su-
pondra modelizado, a la hora de realizar inferencia, por una distribucion normal p-dimensional.
1.1. Construcci on de las CP.
El ACP pretende explicar la estructura de covarianza de un vector aleatorio X mediante la b usqueda de un
nuevo sistema de ejes coordenados (las CP) que indican las direcciones de mayor variabilidad en una situacion
teorica dada (con matriz de covarianza de X conocida) o posteriormente de una matriz estimada a partir
de datos observados.
Analizamos en primer lugar el Modelo Teorico del ACP, supuesto que conocemos la matriz o la matriz
de correlaciones R del vector X. Estudiaremos el metodo clasico de obtencion de las CP.
Supongamos X = (X
1
, . . . , X
n
)
con Cov(X) = semidenida positiva

1
y con
1

2

p
0, las
races caractersticas correspondientes. Sean las combinaciones lineales
_
_
Y
1
= l
1
X = l
11
X
1
+ +l
1p
X
p
.
.
.
Y
p
= l
p
X = l
p1
X
1
+ +l
pp
X
p
Consideremos el vector aleatorio Y = (Y
1
, . . . , Y
n
)
. Dadas dos cualesquiera de sus componentes, i y j, es

claro que
V ar(Y
i
) = l
i
l
i
Cov(Y
i
, Y
j
) = l
i
l
j
y esto es cierto para todo vector X, cualquiera que sea su distribucion.
1.1.1. Denici on.
Se llaman componentes principales (CP) las combinaciones lineales Y
1
, . . . , Y
p
que son incorreladas entre
s y tales que hacen maximas, en el sentido que luego se precisara, las varianzas l
i
l
i
, i = 1, . . . , p.
1
En general es denida no negativa
1
2 Analisis de Componentes Principales (ACP)
Para construir las CP as denidas realizaremos el siguiente proceso:
Consideremos la combinacion lineal de varianza maxima (llamemosla Y
1
) de modo que esta varianza
sera V ar(Y
i
) = l
i
l
i
. Obviamente esto tiene una indeterminacion ya que dicha varianza aumentara sin
mas que multiplicar l por una constante positiva.
Introducimos por tanto la restriccion de que los vectores l sean unitarios en todas las CP a obtener, por
tanto l
i
l
i
= 1.
Llamamos primera componente principal a la CL Y
1
= l
1
X tal que hace maxima V ar(Y
1
) con la restric-
cion l
1
l
1
= 1.
Llamamos segunda componente principal a la CL Y
2
= l
2
X tal que hace maxima V ar(Y
2
) con la restric-
cion l
2
l
2
= 1 y con la restriccion adicional de ser incorrelada con Y
1
, esto es
Cov(l
1
X, l
2
X) = 0.
El procedimiento se contin ua hasta construir las p combinaciones lineales Y
1
, . . . , Y
p
. Tal que una Y
i
cualquiera, i = 1, . . . , p, por denicion, maximiza V ar(l
i
X) sujeta a l
i
l
i
= 1 y a Cov(l
i
X, l
k
X) = 0 para
k < i.
Estos sucesivos problemas de maximo (condicionados) se pueden resolver facilmente, obteniendose sucesi-
vamente las p CP. Enfocando el calculo mediante multiplicadores de Lagrange se obtienen sucesivamente las
CP.
1.1.2. Calculo de la primera componente principal.
La primera componente principal la denimos como
Y
1
= e
1
X, e
1
e
1
= 1
tal que
V ar(Y
1
) = V ar(l
X), max
l
V ar(l
X) = V ar(e
1
X) = e
1
e
1
.
Estando ante el Problema de Lagrange de maximizacion condicionada:
_
max
l
{l
l}
l
l = 1
_
1
(l) = l
l (l
l 1)

1
(l)
l
= 2l 2l = 0 ( I)l = 0
Supuesto que
pp
tiene autovalores
1

2

p
0,
2
con autovectores asociados e
1
, e
2
, . . . , e
p
y
como l
l = l
l = 1, V ar(l
l) = y es claro que tomando l = e

1
, correspondiente al mayor autovalor, se
resuelve el problema planteado, de modo que la primera CP es Y
1
= e
1
X y se tiene V ar(Y
1
) =
1
.
1.1.3. Calculo de la segunda componente principal.
Se trata de obtener, seg un la denicion anterior, una combinacion lineal Y
2
= l
X, incorrelada con Y
1
y de
varianza maxima. Por tanto,
max
l
{l
Xl}, con l
l = 1, l
e
1
= 0
2
(l) = l
l (l
l 1) 2v(l
e
1
)

2
(l)
l
= 2l 2l 2ve
1
.
El problema se resuelve con la raiz
2
, segunda en orden decreciente y con el correspondiente autovector e
2
de modo que Y
2
= e
2
X y V ar(Y
2
) =
2
.
2
, en general, como matriz de covarianza, es semidenida positiva
R. Gutierrez, R. Gutierrez-Sanchez, A. Gonzalez
1.1.4. Calculo de la (r + 1)-esima componente principal (1 r + 1 p).
En este caso tenemos
Y
r+1
= l
X; l
l = 1; l
e
i
= 0, i = 1, . . . r
r+1
(l) = l
l (l
l 1) 2
r
i=1
v
i
l
e
i
.
Puede demostrarse que, siendo
i
= 0, i = 1, . . . , r el problema conduce a v
i
= 0, i = 1, . . . , r de modo que
el sistema que resuelve el problema de maximizacion es
{2l 2l = 0, l l = 0, ( I)l = 0}
Si
r+1
= 0, basta tomar =
r+1
, l = e
r+1
y se obtiene la (r + 1)-esima CP que es
Y
r+1
= e
r+1
X, V ar(Y
r+1
) =
r+1
.
En el caso en que
r+1
= 0,
i
= 0, i = r + 1, se toma una CL de
r+1
y
i
para la cual
i
= 0.
Una vez conseguidos A = (e
1
, . . . , e
p
), = diag(
1
, . . . ,
p
),
1

2

p
0, como A
A = I y
A = A, se tiene que A
A = .
En caso que haya races caractersticas m ultiples, es posible probar el siguiente teorema:
Teorema 1 (Teorema de las races caractersticas m ultiples). Si
r+1
=
r+m
= , entonces I es de
rango p m. Los correspondientes vectores caractersticos
r+1
, . . . ,
r+m
estan unvocamente determinados,
salvo multiplicacion por la derecha por una matriz ortogonal.
1.1.5. Construccion conjunta de las p componentes principales.
En lugar de ir obteniendo sucesivamente las CP resolviendo los sucesivos problemas de maximo condi-
cionado y al nal considerar globalmente todos, como antes se ha descrito, cabe, metodologicamente, actuar
globalmente desde un comienzo. Por supuesto obtenemos los mismos resultados, pero en lugar de ir aplicando
y resolviendo los sucesivos problemas de maximos condicionados de Lagrange, nos basaremos en un conocido
resultado de maximizacion.
Lema 1 (Lema de maximizacion). Sea A una matriz p p denida positiva, con autovalores
1

2

p
> 0 y autovalores normalizados e
1
, . . . , e
p
, y sea x un vector p 1, arbitrario no nulo. Entonces se cumple
que:
max
x
x
Ax
x
x
=
1
, alcanzado en x = e
1
,
mn
x
x=0
x
Ax
x
x
=
p
p
,
max
xe1,...,ep
x
Ax
x
x
=
k+1
k+1
, k = 1, 2, . . . , p 1.
Es posible, entonces, demostrar el siguiente resultado.
Teorema 2 (Teorema de componentes principales.). Sea X = (X
1
, . . . , X
p
)
un vector aleatorio con matriz de

covarianza conocida denida positiva y real y sean (
i
, e
i
) los autovalores-autovectores de con
1

2

p
> 0. La CP i-esima Y
i
antes denida viene dada por
Y
i
= e
i
X = e
i1
X
1
+ +e
ip
X
p
, i = 1, . . . , p,
vericandose
V ar(Y
i
) = e
i
e
i
=
i
Cov(Y
i
, Y
j
) = e
i
e
j
= 0, i = j.
Si hay autovalores iguales, pongamos
k
, entonces los e
k
asociados no son unicos, por lo que, en este caso,
las respectivas CP no son unicas.
Dada una matriz B, p p, denida positiva con descomposicion espectral B =
p
i=1
i
e
i
, sea la matriz
P = (e
1
, . . . , e
p
) formada por columnas, con los autovectores normalizados e
i
. Entonces, B = PP
=
p
i=1
i
e
i
e
i
,
siendo PP
= I y = diag(
1
, . . . ,
p
).
En el caso en que
i
> 0 se puede utilizar esta descomposicion para denir la matriz B
1/2
, raz cuadrada
de B, ya que, al ser B
1
= P
1
P
=
p
i=1
1
i
e
i
e
i
, se dene B
1/2
= P
1/2
P
=
p
i=1
_
i
e
i
e
i
.
1.2. Estructura de la matriz de covarianza en el ACP.
Del teorema de las CP se deduce que = PP
( > 0), donde es la matriz diagonal de autovalores y

P es la matriz de los autovectores, por columnas, que verica PP
= P
P = I. Por tanto, el ACP induce una

factorizacion estructural de la matriz de covarianzas del vector X.
3
Esta factorizacion tiene una importante
propiedad, que conduce a la invarianza.
1.2.1. Propiedad de invariancia
En las condiciones del teorema de las CP, tr() = tr(). En efecto,
tr() = tr(PP
) = tr(P
P) = tr(I) = tr()
es decir,
11
+ +
pp
=
p
i=1
V ar(X
i
) =
1
+ +
p
=
p
i=1
V ar(Y
i
).
Esta invariancia es en realidad la base de la aplicacion practica del ACP, pues la proporcion de la varianza
total del vector X, es decir
p
i=1
V ar(X
i
), que es debida a j-esima CP, Y
j
, es

j
1
+ +
p
, j = 1, . . . , p.
Si las CP son tales que unas pocas explican un alto porcentaje de la varianza total, merece la pena sustituir
el vector X original por esas CP.
Por otra parte, tambien es un invariante la varianza generalizada (Wilks) respecto de las variables originales
y respecto de las CP, ya que de la estructura = PP
se deduce que || = |PP
| = ||.
1.2.2. Correlaci on entre las CP y las variables originales.
Sean las p CP, Y
j
asociadas al vector aleatorio X de matriz de covarianzas conocida y sean (
i
, e
i
) sus
autovalores-autovectores. Vamos a calcular
Yi,X
k
para ello consideremos h
k
= (0, . . . , 0, 1, 0, . . . , 0), denido
por h
ki
=
ki
. Entonces,
Cov(Y
i
, X
k
) = Cov(e
i
X, h
k
X) = e
i
h
k
= h
k
e
i
= h
i
e
i
=
i
h
k
e
i
=
i
e
ki
.
Por otro lado, V ar(Y
i
) =
i
, V ar(X
k
) =
kk
, luego tenemos
Yi,X
k
=

i
e
ki
_
kk
=
e
ki
_
kk
=
e
ki
_
k
i, k = 1, . . . , p.
Que signicado tiene este resultado? A la vista de la expresion obtenida para
Yi,X
k
queda claro que la
componente k-esima del autovector e
i
que proporciona la CP Y
i
, mide la importancia que la variable original
k-esima, X
k
, tiene en dicha CP, de modo que cuanto mayor sea |e
ki
| mayor es la correlacion entre X
k
y la Y
i
considerada.
3
En el caso en que haya autovalores iguales, no es unica la matriz P de autovectores.
Ejemplo 1. Supongamos X = (X
1
, X
2
, X
3
) con =
_
_
1 2 0
2 5 0
0 0 2
_
_
. Los autovalores son
1
= 5,83,
2
=
2,00,
3
= 0,17 y los autovectores son e
1
= (0,383, 0,924, 0), e
2
= (0, 0, 1) y e
3
= (0,924, 0,383, 0). Las
componentes principales son
4
Y
1
= 0,383X
1
0,924X
2
Y
2
= X
3
Y
3
= 0,924X
1
+ 0,383X
2
Sabemos que V ar(Y
i
) =
i
. Comprobemoslo para Y
1
.
V ar(Y
1
) = V ar(0,383X
1
0,924X
2
) = E [0,383(X
1
1
) 0,924(X
2
2
)]
2
=
(0,383)
2
E(X
1
1
)
2
+ (0,924)
2
E(X
2
2
)
2
+ 2(0,383)(0,924)E [(X
1
1
)(X
2
2
)] =
(0,383)
2
V ar(X
1
) + (0,924)
2
V ar(X
2
) + 2(0,383)(0,924)Cov(X
1
, X
2
) =
(0,383)
2
1 + (0,924)
2
5 + 2(0,383)(0,924) (2) = 0,147 + 0,854 5 + 0,708 2 = 5,83.
Sabemos que las CP son incorreladas. Comprobemoslo, por ejemplo, con
Cov(Y
1
, Y
2
) = Cov(0,383X
1
0,924X
2
, X
3
) = E [0,383(X
1
1
)(X
2
2
)] =
0,383E [(X
1
1
), (X
3
3
)] 0,924E [(X
2
2
), (X
3
3
)] =
0,383Cov(X
1
, X
3
) 0,924Cov(X
2
, X
3
) = 0,383 0 0,924 0 = 0.
Observese tambien que la traza es invariante, ya que
1 + 5 + 2 = 5,83 + 2,00 + 0,17.
El porcentaje de varianza explicado por la primera componente Y
1
es del 73 %
_
5,83
8
100
_
. An alogamen-
te, entre Y
1
e Y
2
explican el 98 %, por lo que, a efectos practicos, podemos sustituir el vector (X
1
, X
2
, X
3
) por
el vector (Y
1
, Y
2
).
Podemos tambien calcular las correlaciones entre Y
i
y X
j
. As, por ejemplo,
Y1,X1
=
0,383
_
5,83
1
= 0,925
y
Y1,X2
=
0,924
_
5,83
5
= 0,998,
5
de donde se deduce que X
1
y X
2
son pr acticamente igual de importantes
para la primera CP. Del mismo modo,
Y2,X1
= 0,
Y2,X2
= 0 y
Y2,X3
= 1. Pueden calcularse,
Y3,X1
,
Y3,X2
y
Y3,X3
.
1.2.3. Componentes principales extradas sobre y sobre R (estandarizaci on)
Sea la variable X = (X
1
, . . . , X
p
)
con E(X) = y Cov(X) = . Realicemos la transformacion de estan-

darizacion Z = D
1/2
(X ), siendo D = diag(
11
, . . . ,
pp
), Esto es:
_
_
_
Z
11
.
.
.
Z
pp
_
_
_ =
_
_
_
1
1
.
.
.
1
p
_
_
_
_
_
_
X
1
1
.
.
.
X
p
p
_
_
_.
El vector Z tiene unas CP basadas en su propia matriz de covarianzas. Ahora bien,
Cov(Z) = Cov[D
1/2
(X )(X )
D
1/2
] = D
1/2
D
1/2
= R,
siendo R la matriz de correlacion de X.
La pregunta que se plantea inmediatamente es la siguiente: Son invariantes las CP por un cambio como el
que hemos realizado
6
? Son homogeneas frente al cambio?. La contestacion a ambas preguntas es negativa en
4
Observese que X
3
es una CP por que es incorrelada con las otras dos.
5
Observese que puede ser enga noso ver los coecientes, s olo en X
1
6
Una anidad.
general, pudiendose enunciar el siguiente resultado.
Lema 2. La i-esima componente principal del vector tipicado Z con matriz de covarianzas R, viene dada
por Y
i
=
i
Z =
i
D
1/2
(X ), i = 1, . . . , p siendo
i
los autovectores asociados a los autovalores
i
de
R,
7
cumpliendo la propiedad de que
1

2

p
0, vericandose ademas que
p
i=1
V ar(Y
i
) =
p
i=1
V ar(Z
i
) = p.
Ejemplo 2. Sea X = (X
1
, X
2
) con =
_
1 4
4 100
_
. En este caso sera D
1/2
=
_
1 0
0 0,1
_
y por tanto
R = D
1/2
D
1/2
=
_
1 0,4
0,4 1
_
.
Si trabajamos con la matriz tenemos:
| I| = 0
1
= 100,16,
2
= 0,84,
1
+
2
= 101.
1
= (0,040, 0,999)

2
= (0,999, 0,040)
.
Y
1
= 0,040X
1
+ 0,999X
2
Y
2
= 0,999X
1
0,040X
2
.
Y
1
explica el 100
100,16
100
% = 99,2 % Y
2
explica el 100
0,84
100
% = 0,8 %
Y1,X1
= 0,400
Y1,X2
= 0,100
Si trabajamos con la matriz R tenemos:
|R I| = 0
1
= 1,4,
2
= 0,6,
1
+
2
= 2.
1
= (0,707, 0,707)

2
= (0,707, 0,707)
.
Y
1
= 0,707Z
1
+ 0,707Z
2
Y
2
= 0,707Z
1
0,707Z
2
.
Y
1
explica el 100
1,4
2
% = 70 % Y
2
explica el 100
0,6
2
% = 30 %
Y1,Z1
= 0,837
Y1,Z2
= 0,837
Observamos, por tanto, que cuando las variables se estandarizan, tanto Z
1
como Z
2
contribuyen por igual
a la primera CP de R, explicando el 70 % de la varianza total.
As pues, la estructura de las CP cambia seg un nos basemos en o en R. A menudo es practica habitual
la tipicacion, especialmente si el rango de medicion es muy diferente.
1.2.4. Estructuras especiales de
A veces nos encontramos con estructuras especiales, como es el caso de un problema en Biologa en que la
matriz de covarianzas es de la forma
=
_
_
_
_
_
2

2
2

2
.
.
.
.
.
.
.
.
.
.
.
.
2

2
_
_
_
_
_
7
Notese que seran las raices de |R I| = 0
a la que corresponde una matriz de correlaciones
R =
_
_
_
_
_
1
1
.
.
.
.
.
.
.
.
.
.
.
.
1
_
_
_
_
_
que es la matriz de covarianzas de las variables primitivas tipicadas.
8
Se puede demostrar que las races de la ecuacion | I| = 0 son, cuando es positivo, las siguientes:
1
= 1 + (p 1)
2
= =
p
= 1
por tanto, una raz mayor
1
y una de orden de multiplicidad p 1. A la primera corresponde un autovector
1
= (1, . . . , 1)
p
1/2
en tanto que a la raz m ultiple corresponde un subespacio de dimension p 1 en el que
podemos denir por ejemplo:
2
= (1, 1, 0, . . . , 0, . . . , 0)
1 2.
3
= (1, 1, 2, . . . , 0, . . . , 0)
2 3.
.
.
.
.
.
..
i
= (1, 1, . . . , (i 1), 0, . . . , 0)
_
(i 1) i.
.
.
.
.
.
.
p
= (1, 1, 1, . . . . . . . . . , (p 1))
_
(p 1) p.
La primera CP es Y
1
=
1
X = p
1/2
i=1
X
1
que explica

p
= +
1
.
1.2.5. Muestras de combinaciones lineales de variables aleatorias.
Sea X = (X
1
, X
2
, . . . , X
p
)
y una combinacion lineal (CL) denida c
X. Si tomamos una muestra de tama no

N, las CL muestrales seran
c
x
j
= c
1
x
1j
+ +c
p
x
pj
, j = 1, . . . , N
siendo x
j
= (x
1j
, . . . , x
pj
) el j-esimo individuo de la muestra.
La varianza muestral de las CL muestrales sera:
1
N 1
_
(c
x
1
c
x)
2
+ (c
x
2
c
x)
2
+ + (c
x
N
c
x)
2
=
1
N 1
[c
(x
1
x)(x
1
x)
c +c
(x
2
x)(x
2
x)
c + +c
(x
N
x)(x
N
x)
c] =
1
N 1
c
[(x
1
x)(x
1
x)
+ (x
2
x)(x
2
x)
+ + (x
N
x)(x
N
x)
] c =
c
i=1
(x
i
x)(x
i
x)
N 1
c = c
Sc.
Supongamos otra CL distinta b
X para la misma muestra. Es facil ver que su media muestral sera b
x y su
varianza muestral b
Sb y que la covarianza muestral entre las dos CL consideradas sera b
Sc = c
Sb.
En efecto, la covarianza sera:
1
N 1
[(b
x
1
b
x)(c
x
1
c
x)
+ (b
x
2
b
x)(c
x
2
c
x)
+ + (b
x
N
b
x)(c
x
N
c
x)
] =
8
La estructura especial, indica que todas las variables esten igualmente correlacionadas.
1
N 1
[b
(x
1
x)(x
1
x)
c +b
(x
2
x)(x
2
x)
c + +b
(x
N
x)(x
N
x)
c] =
b
(x
1
x)(x
1
x)
+ (x
2
x)(x
2
x)
+ + (x
N
x)(x
N
x)
N 1
c = b
Sc.
1.3. Analisis de Componentes Principales Muestral (ACPM).
Consideremos la siguiente situacion: Se dispone de una muestra aleatoria de tama no N, x
1
, x
2
, . . . , x
N
,
de una poblacion X = (X
1
, . . . , X
p
)
, de vector de medias E(X) = y matriz de covarianzas Cov(X) =

(desconocida). Sean x y S los correspondientes valores muestrales. El objetivo del ACPM es conseguir explicar
el mayor porcentaje posible de variacion de la muestra con unas CL incorreladas de las variables que hagan
maximas las varianzas.
As pues, dada la muestra x
1
, . . . , x
N
tendremos una CL denida por
l
i
x
j
= l
1i
x
1j
+l
2i
x
2j
+ +l
pi
x
pj
j = 1, . . . , N.
Se tendra, por tanto, para cada CL, l
i
x
j
, una media muestral l
i
x y una varianza muestral l
i
Sl
i
, y para cada
par l
i
x
j
y l
k
x
j
una covarianza muestral l
i
Sl
k
.
Llamamos primera componente principal muestral a una CL l
1
X tal que al considerar sus N valores sobre
la muestra, {l
1
x
1
, l
1
x
2
, . . . , l
1
x
N
}, estos hacen maxima la varianza V ar[{l
1
x
1
, l
1
x
2
, . . . , l
1
x
N
}] = l
1
Sl
1
sujeto a
la restriccion de l
1
l
1
= 1.
Llamamos segunda componente principal muestral a una CL l
2
la muestra, {l
2
x
1
, l
2
x
2
, . . . , l
2
x
N
2
x
1
, l
2
x
2
, . . . , l
2
x
N
}] = l
2
Sl
2
sujeto a
las restricciones de que l
2
l
2
= 1 y ademas
Cov[{l
1
x
1
, l
1
x
2
, . . . , l
1
x
N
}, {l
2
x
1
, l
2
x
2
, . . . , l
2
x
N
}] = 0
esto es, l
1
Sl
2
= l
2
Sl
1
= 0.
Llamamos i-esima componente principal muestral a una CL l
i
la muestra, {l
i
x
1
, l
i
x
2
, . . . , l
i
x
N
i
x
1
, l
i
x
2
, . . . , l
i
x
N
}] = l
i
Sl
i
sujeto a
las restricciones de que l
i
l
i
= 1 y ademas
Cov[{l
k
x
1
, l
k
x
2
, . . . , l
k
x
N
}, {l
i
x
1
, l
i
x
2
, . . . , l
i
x
N
}] = 0
esto es, l
k
Sl
i
= l
i
Sl
k
= 0, para k < i.
Teorema 3. Sea X = (X
1
, X
2
, . . . , X
p
)
una variable aleatoria con E(X) = y Cov(X) = desconocida.

Sea una muestra x
1
, . . . , x
N
de X, con x
j
= (x
1j
, . . . , x
pj
), j = 1, ...N. Sea x =
1
N
N
i=1
x
i
la media muestral y
S = (s
ij
) =
1
N 1
N
i=1
(x
i
x)(x
i
x)
la covarianza muestral. Sean

p
0 los p autovalores de
S,
9
solucion de la ecuacion |S I| = 0 y sean e
1
, . . . , e
p
los respectivos autovectores.
Sean y
i
= e
i
x, donde x es cualquier observacion de la variable X, y
i
son las CP muestrales.
Se cumple que
Varianza Muestral( y
i
) =

i
.
9
Suponemos que S es denida no negativa
Covarianza Muestral( y
i
, y
k
) = 0 si i = k.
Varianza Total Muestral =
p
i=1
s
ii
=

1
+ +

p
y
yi,x
k
=
e
ki
_
s
kk
.
Tambien en el caso de ACP muestral, es frecuente tipicar las observaciones, con un comportamiento analogo
al caso del modelo teorico. As, tipicando la muestra {x
1
, . . . , x
N
}, siendo x
j
= (x
1j
, . . . , x
pj
) se obtiene
z
j
=

D
1/2
(x
j
x), esto es z
ij
=
x
ij
x
i
s
ii
, i = 1, . . . , p; j = 1, . . . , N.
Es facil comprobar que z =
1
N
N
1
z
j
= 0, S
z
=
1
N 1
N
1
(z
i
z)(z
i

z)
=

R, matriz de correlacion
muestral, de tal modo que R = (r
ij
) = D
1/2
SD
1/2
. En nomenclatura matricial, llamando 1 = (1, . . . , 1)
N1
y Z = (z
1
, . . . , z
N
)
pN
se tiene
z =
1
N
Z1 S
z
=
1
N 1
(Z z1
)(Z z1
.
1.4. Analisis de Componentes Principales en poblaciones normales.
Hasta ahora no hemos supuesto que X = (X
1
, . . . , X
p
)
sea normal p-variante, sino solo que E(X) = y

Cov(X) = . A su vez hemos analizado dos casos:
1. conocida, con lo que
i
y e
i
son conocidos determinsticamente.
2. desconocida, en cuyo caso hemos basado el ACP en una muestra de la poblacion y, al no conocer ,
nos hemos basado en una matriz de cuasivarianzas muestrales S de dicha muestra, desarrollando el ACP
muestral.
Para poder conocer el comportamiento de

i
y e
i
y, en denitiva, de y
i
, obtenidos en el ACP muestral,
es preciso basarse en la distribucion en el muestreo de

i
, raices caractersticas de la matriz muestral S y, en
consecuencia, hay que modelizar la distribucion de S o, de manera analoga, de

R y de sus raices
i
.
Para ello hay que empezar modelizando X. El caso bien conocido del Analisis Multivariante teorico corres-
ponde a la distribucion N
p
(, ). El esquema es el siguiente:
X
_
_
_
x

S
i
(te oricos)
_
_
_
S

_
N
p
(, ) T. Fisher y Zehna Wishart Distribuci on de las
r.c. muestrales Wishart
Notese que si X N
p
(, ), > 0 desconocida, y X
pN
es la matriz de una muestra, se puede dar
una interpretacion de la matriz S muestral. En efecto, en este caso S =
A
N 1
y

=
A
N
, o lo que es igual
=
N 1
N
S. Si > 0 (seg un el Teorema de Dykstra) S (o A) son denidas positivas y todos sus autovalores
son distintos (c.s.). Si no es denida positiva puede utilizarse la modelizacion normal con rang() < p.
En el primer caso es claro que las CP muestrales son los estimadores de maxima verosimilitud de su con-
trapartida teorica: las CP teoricas asociadas a que no seran conocidas nunca (seg un el Teorema Zhenna).
Prescindiendo del desarrollo teorico del estudio, en el caso normal, del comportamiento de

i
, nos limitamos
a dar algunos contrastes basicos de caracter asintotico.
Suponemos que todos los autovalores de son distintos y positivos ( denida positiva), esto es
1
>
2
>

p
> 0.
1.4.1. Resultados de Anderson-Girschick.
En las condiciones enunciadas sea

= (
1
, . . . ,
p
)
y ( e
1
, . . . , e
p
) los autovalores y autovectores de S y
analogamente y (e
1
, . . . , e
p
) de . Sea = diag(
1
, . . . ,
p
) y E
i
=
i
p
k=1
k=i
k
(
k
i
)
2
e
k
e
k
. Entonces:
N(
) N
p
(0, 2
2
) (1.1)
N( e
i
e
i
) N
p
(0, E
i
) (1.2)
y ademas cada

i
se distribuye independientemente de los elementos del respectivo e
i
.
Nota 1. El resultado 1.1 implica que si N tiende a , los

i
se distribuyen independientemente (ya que la
matriz de covarianza de la N
p
asintotica es diagonal). Ademas, aproximadamente,

i
es N(
i
, 2
2
i
/N). Ello
permite establecer intervalos de conanza al 100(1 ) % del siguiente modo:
P
_
|
i
| z
/2
i
_
2/N
_
= 1
i
1 +z
/2
_
2/N

i

i
1 z
/2
_
2/N
Un intervalo simultaneo (Bonferroni), para un
i
, sera poniendo z
/2m
.
Nota 2. Hay que tener cuidado con estos intervalos cuando un
i
es muy grande, aun cuando N no lo sea.
Conviene actuar, siempre que se pueda, sobre R. La razon es que en estos casos se producen intervalos muy
amplios.
Nota 3. Del resultado 1.2 se deduce que los e
i
se distribuyen normalmente alrededor de los e
i
respectivos para
N . Pero los elementos de e
i
estan correlacionados, no son independientes, y el grado de correlaci on
depende de la separacion de los autovalores
1
, . . . ,
p
, que no se conoce, y del tama no N.
Los errores tpicos aproximados de los coecientes e
ki
, componentes de e
i
, vienen dados por la diagonal de
1
N
E
i
, donde

E
i
coincide con E
i
sustituyendo
k
por

k
.
Observese nalmente que los anteriores resultados asintoticos de Anderson (1963) y Girschick (1939) supo-
nen que las raices caractersticas teoricas de en la distribucion base son todas distintas y no nulas. Si esta
hipotesis no es cierta no pueden aplicarse, aparte el hecho de que a un cuando s se apliquen, en el resultado (ii)
la matriz E
i
depende, en elementos fuera de la diagonal principal, de los valores teoricos que no son conocidos.
Ejemplo 3. Un ejemplo concreto que se puede abordar y resolver asintoticamente es el caso en que la matriz
sea de la forma
ij
=
ii
jj
o lo que es lo mismo, que la matriz de correlaciones sea
R
0
=
_
_
_
_
_
1
1
.
.
.
.
.
.
.
.
.
.
.
.
1
_
_
_
_
_
.
Si se supone el test H
0
: R = R
0
frente a H
1
: R = R
0
, se puede abordar por el metodo del cociente de
verosimilitudes o bien por el metodo de Lawley (1963). Este resultado asintotico es el siguiente: Se rechaza H
0
si
N 1
(1 r)
2
_
_
1<k
(r
ik
r)
2

p
j=1
( r
j
r)
_
_
>
2
(p+1)(p+2)/2
()
siendo
r
k
=
1
p 1
p
i=1
i=k
r
ik
, k = 1, . . . p.
r =
2
p(p + 1)
i<k
r
ik
.
=
(p 1)
2
[1 (1 r)
2
]
p (p 2)(1 r)
2
.
1.5. Calculo de las Componentes Principales poblacionales.
Sea X = (X
1
, . . . , X
p
)
un vector aleatorio p-variante con E[X] = y matriz de covarianza conocida .

Consideremos casos en los cuales es una matriz semidenida positiva y admitimos que pueda tener raices
m ultiples. Como solo nos interesan varianzas y covarianzas de X, supondremos que = 0.
La primera componente principal de X es la combinacion lineal normalizada de X: Y
1
= e
X, e =
(e
1
, . . . , e
p
) R
p
con e
e = 1 tal que
V ar(e
X) = max
l
V ar(l
X) l R
p
satisfaciendo l
l = 1.
Sabemos que V ar(l
X) = l
l. Entonces, para encontrar la primera componente principal e
X necesitamos
encontrar el e que maximiza l
l para todas las elecciones de l R

p
sujeto a la restriccion l
l = 1. Usando
multiplicadores de Lagrange, , buscamos el e que maximiza:
1
(l) = l
l (l
l 1) l R
p
tal que l
l = 1
Como l
l y l
l tienen derivada, podemos derivar

1
con respecto a l, e igualando a 0 obtenemos la ecuacion
que debe vericar:
2e 2e = 0 (1.3)
o equivalentemente
( I)e = 0.
Como e = 0, por ser e
e = 1, la Eq(1.3) tiene solucion si det(I) = 0; esto es, es una raz caracterstica

de y e es el vector caracterstico correspondiente. Como es de dimension p p, hay p valores de que
satisfacen Eq(1.3). Sean
1

2

p
las races caractersticas ordenadas de y sean:
e
1
= (e
11
, . . . , e
1p
)
, , e
p
= (e
p1
, . . . , e
pp
)
los vectores caractersticos correspondientes de . Como es semidenida positiva, algunas de las raices
caractersticas pueden ser cero, es mas, algunas de las raices pueden tener multiplicidad mayor que la unidad.
De Eq(1.3) se tiene:
e
e = e
e =
entonces, si e es tal que e
e = 1 y satisface , verica:
V ar(e
X) = e
e =
donde es la raz caracterstica de correspondiente a e.
Para maximizar V ar(e
X) necesitamos que =
1
, la raz caracterstica mayor de , y e = e
1
, el vector
caracterstico de correspondiente a
1
.
Se dene la primera componente principal como la funcion lineal normalizada Y
1
= e
1
X =
p
i=1
e
1i
X
i
donde
e
1
es el vector caracterstico normalizado de correspondiente a su raz caracterstica mayor
1
.
Nota 4. Hasta ahora no hemos supuesto que X siga una distribucion especial. Si X se distribuye seg un
una normal p-variante con matriz de covarianza , denida positiva, entonces, las supercies de densidad de
probabilidad constante son los elipsoides de concentracion y, Y
1
= e
1
X representa el eje mayor principal de
este elipsoide. En general, bajo la suposicion de normalidad de X, las componentes principales implicaron una
rotacion de los ejes coordenados a los ejes principales de estos elipsoides. Si hay races m ultiples, estos ejes no
estan unicamente determinados.
La segunda componente principal es la funcion lineal normalizada e
X = Y
2
que tiene maxima varianza
entre todas las funciones normalizadas lineales l
X que estan incorreladas con Y

1
.
Si toda funcion lineal normalizada l
X esta incorrelada con Y

1
, entonces
0 = Cov(l
X; Y
1
) = (conE[X] = = 0)E[l
XY
1
] = E[l
XX
e
1
] =
E[XX
] = l
e
1
= l
1
e
1
=
1
l
e
1
= 0 (1.4)
Esto implica que los vectores l y e
1
son ortoganales
10
. Queremos encontrar una combinacion lineal e
X que
tenga varianza maxima entre todas las combinaciones lineales normalizadas l
X incorreladas con Y
1
. Usando
multiplicadores de Lagrange , , buscamos el e que maximiza:
2
(l) = l
l (l
l 1) 2(l
e
1
).
Derivando con respecto a l
2
l
= 2l 2l 2e
1
. (1.5)
Por tanto, e debe satisfacer
e
1
e e
1
e e
1
e
1
= 0
De la Eq.(1.4) tenemos que: e
1
e = 0
11
y e
1
e
1
=
1

1
= 0. Como
1
= 0 = 0 (usando Eq.(1.5))
2e 2e = 0 ( I)e = 0 y por tanto, los coecientes de la segunda componente principal de X son
los elementos del vector caracterstico e
2
de normalizado, correspondiente a su segunda raz caracterstica
mayor
2
(recordemos que es simetrica y si es denida positiva, todas sus raices caractersticas son reales y
positivas). La segunda componente principal de X es Y
2
= e
2
X.
Se puede continuar as hasta r (r < p) componentes principales obteniendo Y
r
. Para la r + 1-esima com-
ponente principal queremos encontrar una combinacion lineal e
X que tenga varianza maxima entre todas las

combinaciones lineales normalizadas l
X, incorreladas con Y
1
, . . . , Y
r
.
As, si Y
i
= e
i
X i = 1, . . . , r
Cov(l
X; Y
i
) = l
e
i
= l
i
e
i
=
i
l
e
i
= 0; i = 1, . . . , r
Para encontrar e se necesita maximizar:
r+1
(l) = l
l (l
l 1) 2
r
i=1
i
l
e
i
. (1.6)
donde ,
1
, . . . ,
r
son los multiplicadores de Lagrange.
10
Notese que
1
l
e
1
= 0 l
e
1
= 0 cuando
1
= 0, y
1
= 0 si = 0. El caso = 0 es trivial y no se considera.
11
Dado que l
e
1
= 0, e
e
1
= 0 (e
e
1
)
= 0 e
1
e = 0.
Se calcula

r+1
l
y se iguala a 0, obteniendose que el vector buscado e ha de satisfacer:
2e 2e 2
r
i=1
i
e
i
= 0
o equivalentemente
e
i
e e
i
e e
r
i=1
i
= 0
dado que e
i
e
i
=
i
.
Se concluye que si
i
= 0
i
i
= 0
i
= 0. Si
i
= 0 e
i
=
i
e
i
= 0 l
e
i
= 0 el factor l
e
i
desaparece en Eq.(1.6).
As, el e que maximiza la expresion considerada es el vector caracterstico de , ortogonal a e
i
, i = 1, . . . , r,
correspondiente a su raz caracterstica . Si
r+1
= 0, tomando =
r+1
y e como el vector caracterstico
normalizado e
r+1
correspondiente a la (r +1)-esima raz caracterstica mayor
r+1
, obtenemos la (r +1)-esima
componente principal, que es Y
r+1
= e
r+1
X.
Sin embargo, si
r+1
= 0 y
i
= 0 para i = r +1 entonces e
i
e
r+1
= 0 no implica que e
i
e
r+1
= 0. En tales
casos, reemplazando e
r+1
por una combinacion lineal de e
r+1
y el e
i
para el cual
i
= 0, podemos construir el
nuevo e
r+1
ortogonal a todos los e
i
, i = 1, . . . , r.
Continuamos de esa forma hasta el m-esimo paso, de tal manera que en el (m+1)-esimo paso no podamos
encontrar un vector normalizado e tal que e
X sea incorrelado con todas las componentes principales Y

1
, . . . , Y
m
.
Como es p p, obviamente m < p o m = p. Veamos que m = p es la unica solucion. Supongamos que fuera
m < p, entonces existiran p m vectores ortogonales normalizados:
B
m+1
, . . . , B
p
tales que e
i
B
j
= 0 i = 1, . . . , m j = m+ 1, . . . , p.
Sea B = (B
m+1
, . . . , B
p
). Consideremos una raz de |B
B I| = 0 y el correspondiente vector B
0
=
(B
0
m+1
, . . . , B
0
p
) satisfaciendo
(B
B I)B
0
= 0 (1.7)
Como
e
i
BB
0
=
i
e
i
p
j=m+1
B
j
B
0
j
=
i
p
j=m+1
B
0
j
e
i
B
j
= 0
el vector e
i
es ortogonal a BB
0
= BC, donde C es un vector de p m componentes. Ahora
B
BB
0
= B
BC = C
de Eq.(1.7) tenemos que
B
0
= C (BB
0
) = BB
0
.
Entonces (BB
0
)X es incorrelada con e
j
X, j = 1, . . . , m, y conduce a un nuevo e
m+1
. Esto contradice la
suposicion de que m < p y se tiene entonces que m = p.
1.6. Manejo simultaneo de todas las componentes principales.
Sea P = (e
1
, . . . , e
p
) y =
_
_
_
_
_
1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
p
_
_
_
_
_
donde
1

2

p
son todas las raices
caractersticas ordenadas de y e
1
, . . . , e
p
son los vectores caractersticos normalizados correspondientes. Como
P
P = I y P = P, se tiene P
P = . Entonces para Y = (Y
1
, . . . , Y
p
)
tenemos el siguiente teorema:

Teorema 4. Existe una transformacion ortogonal Y = P
X tal que Cov(P) = donde es una matriz

diagonal de elementos
1

p
0 que son las races ordenadas de | I| = 0. La i-esima columna
de P, e
i
, satisface ( I)e
i
= 0. Las componentes de Y son incorreladas y Y
i
tiene varianza maxima entre
todas las combinaciones lineales normalizadas incorreladas con Y
1
, . . . , Y
i1
.
El vector Y es llamado el vector de componentes principales de X. En el caso de raices m ultiples, supongamos
que:
r+1
= =
r+m
= entonces ( I)
i
= 0, i = r + 1, . . . , r + m. Esto es,
i
(i = r + 1, . . . , r + m)
son m soluciones linealmente independientes. Para mostrar que no puede haber otra solucion linealmente
independiente de
( I) = 0, (1.8)
tomamos
p
i=1
a
i
i
(a
i
escalares) solucion de Eq.(1.8), con lo que se tendra:
i=1
a
i
i
=
_
p
i=1
a
i
i
_
=
p
i=1
a
i
i
=
p
i=1
a
i
i
Como a
i
=
i
a
i
implica que a
i
= 0, a menos que i = r +1, . . . , r +m. Esto es, el rango de (I) es pm.
Obviamente, si (
r+1
, . . . ,
r+m
) es una solucion de Eq.(1.8), entonces para cualquier matriz no singular C,
(
r+1
, . . . ,
r+m
)C es tambien solucion de Eq.(1.8). Pero de la condicion de ortonormalidad de
r+1
, . . . ,
r+m
se concluye facilmente que C es una matriz ortogonal. As se tiene el siguiente teorema:
Teorema 5. Si
r+1
= =
r+m
= , entonces ( I) es una matriz de rango p m. Ademas, los
correspondientes vectores caractersticos e
r+1
, . . . , e
r+m
estan unicamente determinados salvo multiplicacion
por la derecha de una matriz ortogonal.
1.7. Test en el ACP basados en la matriz S de covarianzas mues-
trales.
A continuacion damos algunos tests basados en S, utiles en ACP. Recordemos que (=

= A/N.
1.7.1. Test de Bartlett (1947).
Sirve para contrastar que los p k autovalores mas peque nos son todos iguales. Es decir
H
0
:
k+1
=
k+2
= =
p
Se efect ua mediante el estadstico
_
N k 1
2q + 1 +
2
q
6
_
_
_
ln |S|
k
j=1
ln l
(j)
+q ln l
_
_
en donde: q = p k, l
(j)
= j-esimo autovalor de S y
l =
1
q
_
_
tr(S)
k
j=1
l
(j)
_
_
.
Bajo la hipotesis nula, sigue una distribucion
2
con
1
2
(pk1)(pk+2) grados de libertad, asintoticamente.
1.7.2. Test de Bartlett-Lawley (1956).
El anterior estadstico se corrige a nadiendo: l
2
k
j=1
1
(l
(j)
l)
2
, obteniendose una
2
con
1
2
(q+2)(q1) grados
de libertad asintoticamente. Esta correccion depende del valor l antes indicado.
1.7.3. Test de Anderson (1963).
En el conjunto de autovalores de :
1
>
2
> >
k
>
k+1

q+r
> >
p
se contrasta:
H
0
:
k+1
= =
q+r
= .
El metodo del cociente de verosimilitudes y su comportamiento asintotico conducen al siguiente estadstico:
(N 1)
q+r
i=q+1
ln l
i
+ (N 1)v ln
_
_
1
v
q+r
i=q+1
l
i
_
_
2
1
2
[r(r+1)]1
el cual, cuando q + r = p (igualdad de las ultimas p q races caractersticas) coincide con el de Bartlett.
Asimismo, si q = 0, igualdad de todas la races caractersticas, proporciona el test de Bartlett para dicho caso
(caso de esfericidad):
_
(N 1)
1
6
(2p + 1 +
2
p
)
_
_
ln |S| +p ln (1/p)
p
i=1
l
i
_
p
2
(p1)(p+2)/2
(k = 0 en la expresion de Bartlett).
Este test de Anderson es dado sin la correccion de Lawley.
Nota 5. El test de Bartlett-Lawley antes dado, basado en la matriz de covarianzas muestrales S, es decir en:
S =
1
N
N
i=1
(x
i
x)(x
i
x)
que en el caso de una poblacion N

p
(; ), con > 0, es tal que:
S =

,
depende de un valor desconocido ( = valor com un en la H
0
), por tanto no es estrictamente hablando un
estadstico.
El resultado original de Bartlett-Lawley dice: Para contrastar la hipotesis nula, H
0
:
k+1
=
k+2
= =
p
= sobre la base de S =

, se construye la variable:
L =
_
N 1 k
1
6
(2q +
2
q
+ 1) +
2
k
i=1
1
(
i
)
2
_
_
ln
_
|
k
i=1
i
_
+q ln
_
tr
k
i=1
i
q
__
; q = pk.
Esta variable se comporta, con un orden de aproximacion de (1/N
2
), seg un una
2
con 1/2(q +2)(q 1) grados
de libertad.
Ahora bien, esta variable no es, como antes decamos, un estadstico al no ser conocido, ni tampoco los
i
,
raices caractersticas de . En tal caso se sustituyen los
i
por los

i
, sus estimadores de m axima verosimilitud
(en una N
p
(; ) y por el Teorema de Zehna sobre

= S), y por
1
p k
_
tr
i=1
i
_
=
1
q
_
tr
i=1
i
_
observese que
1
p k
_
tr
i=1
i
_
=
1
p k
_
p
i=1
i
_
=

.
Es interesante tambien dar una variante del test de Bartlett-Lawley preparada para cuando =
0
por
hipotesis. En este caso puede probarse que
_
_
_
N 1 k
1
6
(2q + 1
2
q + 1

1
q + 1
_
k
i=1
_
2
+
2
k
i=1
1
(
i
)
2
_
_
_
_
p ln ln
|
k
i=1
i
+
tr
k
i=1
q
_
; q = p k
se comporta seg un una
2
con
1
2
q(q + 1) grados de libertad, con un orden de aproximacion de 1/N
2
.
Se nalemos nalmente la losofa del test Bartlett-Lawley respecto de la practica del ACP Hemos visto que
versa sobre la hipotesis nula
H
0
:
k+1
= =
p
=
Supongamos que se han extrado k componentes principales, correspondientes a las k primeras raices carac-
tersticas

i
; i = 1, . . . , k, de la matriz S =

. Como decidir que las restantes (pk) componentes principales
no son signicativas? Es claro que si es verdad la hipotesis nula, con un peque no, podemos prescindir de esas
p k componentes principales restantes. En este sentido hay que aplicar el test de Bartlett-Lawley.
1.8. Test en ACP sobre R.
Los tests dados antes (en especial el de Bartlett-Lawley) se basan en S. Pero ya se vio que en la practica del
ACP muestral, es preciso en muchos casos tipicar los valores observados y por tanto hay que basar el analisis
en la matriz de correlaciones R, estimado por la matriz de correlaciones muestrales

R (estimadora de maxima
verosimilitud de aquella, en el caso de poblacion N
p
(; )).
Los tests en este caso son considerablemente mas complicados que los basados en S. El problema fue
estudiado por Lawley y recogido y aplicado por Dhrymes, entre otros. El test se plantea con la hipotesis nula:
H
0
:
k+1
= =
p
= ; k < p
en donde
i
son las raices caractersticas de R, estimados por
i
, races caractersticas de

R. Si se considera:
(N 1)
_
ln
|
R|
k
I=1

i
+q ln
tr
k
i=1

i
q
_
; q = p k
este estadstico, bajo H
0
, se comporta asint oticamente, con un orden de aproximacion de 1/N, seg un una
2
cuyos grados de libertad vienen dados por la expresion
p
=
1
2
(q 1)(q + 2)
1
q
_
_
_
(q 1)
p
i=1
p
j=1
c
2
ij
2
ij
p
i=1
p
j=1
c
ii
c
jj
2
ij
_
_
_
con c
ij
C = I
1
1
;
1
matriz de vectores caractersticos de las k primeras raices de . Observese que
p
depende de muchos parametros desconocidos. Por ejemplo y todos los

ij
(toda la matriz teorica R). En
consecuencia, no disponemos de un verdadero estadstico. En todo caso se hara practica esa variable y p
, sus-
tituyendo todos los parametros por sus estimadores de maxima verosimilitud, y en cualquier caso, calculado p
,
se aproximara por el entero mas proximo. Obviamente un calculo en ordenador para p
se hace imprescindible.
A veces uno se contenta con un contrate de hipotesis muy particular, que obviamente interesara rechazar
en la mayora de los casos. Se trata de
H
0
: R = I
En principio este test de esfericidad sobre R, equivale al antes utilizado sobre S (test de esfericidad de Bartlett).
En efecto, bajo la hipotesis nula
_
N 1
1
6
(2p + 5)
_
ln |
R|
2
p(p1)/2
.
Otro test util es el correspondiente a un caso de estructura teorica conocida de . En efecto, un ejemplo
concreto que se puede abordar y resolver asintoticamente es el caso en que la matriz sea as:
=
_
ii
jj
_
o lo que es lo mismo, que la matriz de correlaciones sea
R
0
=
_
_
_
_
_
1
1
.
.
.
.
.
.
.
.
.
.
.
.
1
_
_
_
_
_
Si se supone el test:
_
H
0
: R = R
0
H
1
: R = R
0
se puede abordar por el metodo del cociente de verosimilitudes o bien por el resultado de Lawley (1963); este
resultado asintotico es el siguiente: Se rechaza H
0
si
N 1
(1 r)
2
_
i<k
(r
ik
r)
2

p
k=1
( r
k
r)
2
_
>
2
(p+1)(p+2)/2
()
siendo
r
k
=
1
p 1
p
i=1
i=k
r
ik
; k = 1, . . . , p,
r =
2
p(p 1)
i<k
r
ik
,
=
(p 1)
2
{1 (1 r)
2
}
p (p 2)(1 r)
2
.
1.9. Sobre la selecci on del n umero de componentes principales a
retener.
Cuando el ACP tiene como objetivo prioritario la reduccion de la dimension de un problema multivariable,
es preciso decidir con cuantas componentes principales nos quedamos. Este problema no es facil pues aunque
teoricamente disponemos de algunos tests estadsticos que permiten fundamentar objetivamente tal decision,
la dicultad de estos junto a las fuertes hipotesis bajo las que se obtienen, hacen inviable o poco util muchas
veces esta va. Esto es particularmente verdad cuando se act ua con matriz de correlaciones R. Por ello, en la
practica del ACP, existen una serie de criterios practicos que sientan una metodologa aceptada en general.
1.9.1. Actuaci on con matriz de covarianzas muestrales.
En este caso la va de los tests antes dada es plausible, en general. De todas formas, un analisis de la
proporcion:
_
k
i=1
l
i
_
_
p
i=1
l
i
_; k < p
es la base de eleccion del n umero de componentes principales, siendo, desde luego, subjetiva la ley de parada.
1.9.2. Actuaci on con matriz de correlaciones muestrales.
Este caso, al que posiblemente nos vemos avocados en gran parte de los problemas practicos, por razones ya
expuestas, es practicamente poco abordable por tests estadsticos. Los criterios mas utilizados, alternativamente
a aquellos, son estos:
1. Criterio de Kaiser (1958), o criterio de raz caracterstica mayor de 1. Seleccionamos aquellas componentes
principales cuyo autovalor es mayor que 1. Tiene su base en que una componente principal cualquiera
debera explicar mas varianza que una de las variables originales.
2. Criterio de Catell (1966). (Screen test). Consiste en representar, los autovalores en el orden de extraccion
y analizar el punto de ruptura respecto de la recta determinada por los autovalores mas peque nos.
Catell-Jaspers (1967) sugieren tomar hasta el inmediato antes de comienzo de la recta. (El que aparezcan
en una recta indica su trivialidad respecto de los dados antes del punto de ruptura). Esto puede tener
complicaciones como varios puntos de ruptura o no haber un punto de ruptura claro.
3. Criterio de Horn (1965). Se representan igual que en el criterio de Catell, los autovalores de las componen-
tes principales. Por otra parte, se consideran K conjuntos de una Normal p-variante, de tama no N todos,
y conocemos la estructura de correlacion de esa poblacion
12
. Se generan entonces estas K muestras. Se
factorizan en CP cada muestra, se calculan los autovalores-medios (media aritmetica de los autovalores
en los K casos) y se representan, el primer autovalor medio, el segundo autovalor medio, etc. Algunos
pueden ser mayores que 1. Cabe esperar que la ordenada 1 se alcanza en p/2. Observese que para estos
datos simulados, las CP representan el caso en que todos los autovalores son 1, bajo la hipotesis nula. El
criterio de Horn consiste en quedarse con las componentes principales anteriores al punto de cruce.
1.10. Analisis de componentes principales y observaciones an oma-
las.
La explicacion tecnica de las representaciones gracas utilizadas la interpretacion del Analisis de Compo-
nentes Principales, se basa en la idea antes expuesta de considerar el comportamiento de
x
j
( valor asignado por las CP o valor predicho para x
j
)
es decir, en denitiva, en medir el error cometido al ajustar el dato mediante las componentes principales.
De manera global, esta idea se condensa en un resultado, que sigue, basado en medidas centralizadas:
(x
j
x; j = 1, . . . , N).
El error de ajuste a (x
j
x; j = 1, . . . , N) mediante una matriz A = (a
1
a
N
), vendra dado por:
error =
N
j=1
(x
j
x a
j
)
(x
j
x a
j
) =
p
i=1
N
j=1
(x
ij
x
i
a
ij
)
2
.
En denitiva, suponemos que la matriz
(x
1
x, x
2
x, . . . , x
N
x)
pN
es ajustada por la matriz
A = (a
1
, a
2
, . . . , a
N
)
pN
.
En general podemos suponer que rg(A) r < mn (p, N). Desde luego si el ACP se efect ua bajo hipotesis
de normalidad se podra precisar mejor esta condicion y ver sus implicaciones en .
12
Por ejemplo de R = I
Por otro lado, recuerdese que en el ACP muestral, las componentes principales son
y
i
= e
i
Z = e
1i
z
1
+ e
2i
z
2
+ + e
pi
z
p
; i = 1, . . . , p
con variables tipicadas; o bien
y
i
= ( e
i
)
(1p)
X
(p1)
= e
1i
x
1
+ + e
pi
x
p
; i = 1, . . . , p.
En conjunto:
y
(p1)
=
_
e
1
e
p
_
(pp)
X
(p1)
=
_
e
1
e
p
_
(pp)
_
_
_
x
1
.
.
.
x
p
_
_
_.
Si se consideran los valores de las componentes principales sobre toda la muestra (x
j
; = 1, . . . , N), tendre-
mos:
Y
(pN)
=
_
_
_
y
11
y
1N
.
.
.
.
.
.
y
N1
y
NN
_
_
_ =
_
e
1
e
p
_
(pp)
X
(p1)
.
En efecto:
y
i
= e
i
X =
_
e
1i
e
pi
_
_
_
_
x
1
.
.
.
x
p
_
_
_ = e
1i
x
1
+ + e
pi
x
p
,
y =
_
_
_
_
_
_
_
_
e
11
x
1
+ + e
p1
x
p
.
.
.
e
1i
x
1
+ + e
pi
x
p
.
.
.
e
1p
x
1
+ + e
pp
x
p
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
e
11
e
p1
.
.
.
.
.
.
e
1i
e
pi
.
.
.
.
.
.
e
1p
e
pp
_
_
_
_
_
_
_
_
_
_
_
x
1
.
.
.
x
p
_
_
_ =
=
_
_
_
_
_
_
_
_
e
1
.
.
.
e
i
.
.
.
e
p
_
_
_
_
_
_
_
_
X =
_
e
1
e
i
e
p
_
X
considerando toda la muestra (x
j
; j = 1, . . . , N)
Y =
_
_
_
_
_
_
_
_
y
11
y
1N
.
.
.
.
.
.
y
i1
y
iN
.
.
.
.
.
.
y
p1
y
pN
_
_
_
_
_
_
_
_
pN
=
_
e
1
e
i
e
p
_
_
_
_
_
_
_
_
_
x
11
x
1N
.
.
.
.
.
.
x
i1
x
iN
.
.
.
.
.
.
x
p1
x
pN
_
_
_
_
_
_
_
_
=
_
_
_
_
_
_
_
_
e
1
.
.
.
e
i
.
.
.
e
p
_
_
_
_
_
_
_
_
_
x
1
x
N
_
=
_
e
1
e
p
_
pp
_
x
1
x
N
_
pN
Entonces, despejando, sera
_
e
1
e
i
e
p
_

Y =
_
x
1
x
N
_
y desarrollandolo nos queda
_
_
_
e
11
e
1i
e
1p
.
.
.
.
.
.
.
.
.
e
p1
e
pi
e
pp
_
_
_
_
_
_
y
11
y
1N
.
.
.
.
.
.
y
p1
y
pN
_
_
_ =
_
_
_
_
_
_
_
_
x
11
x
1j
x
1N
.
.
.
.
.
.
.
.
.
x
i1
x
ij
x
iN
.
.
.
.
.
.
.
.
.
x
p1
x
pj
x
pN
_
_
_
_
_
_
_
_
_
e
1
e
i
e
p
_

Y =
_
x
1
x
j
x
N
_
de donde
_
e
1
e
i
e
p
_
_
_
_
y
1j
.
.
.
y
pj
_
_
_ = x
j
; j = 1, . . . , N
Es decir
y
1j
e
1
+ y
2j
e
2
+ + y
ij
e
i
+ + y
pj
e
p
= x
j
; j = 1, . . . , N.
donde ( y
1j
; y
2j
; . . . ; y
pj
) son los valores sobre el elemento x
j
de la muestra, de las p componentes principales.
Por ejemplo, y
ij
es el valor de la i-esima componente principal sobre x
j
, que sabemos por otro lado que vale
y
ij
= e
i
x
j
.
De modo que se puede escribir:
x
j
= y
1j
e
1
+ y
2j
e
2
+ + y
ij
e
i
+ + y
pj
e
p
=
( e
1
x
j
) e
1
+ ( e
2
x
j
) e
2
+ + ( e
i
x
j
) e
i
+ + ( e
p
x
j
) e
p
.
De las anteriores expresiones se deduce lo siguiente: Si tomamos un conjunto formado por las primeras q
componentes principales y el conjunto de las (p q) ultimas, y la parte de x
j
que es explicada por ambos
conjuntos de componentes principales, es decir:
y
1j
e
1
+ + y
qj
e
q
y
q+1,j
e
q+1
+ + y
pj
e
p
y consideramos el ajuste de x
j
mediante la primera, la segunda sera
x
j
( y
1j
e
1
+ + y
qj
e
q
)
una medida del error cometido en la aproximacion. La expresion
y
2
q+1,j
+ + y
2
pj
nos da la longitud al cuadrado, como error cometido. Este sera grande en la medida en que sobre alguno de los
ejes principales ( e
q+1
; ; e
p
) la coordenada respectiva sea grande.
Es claro que esta medida del error sera menor, por otra parte, cuanto mejor sea el ajuste del dato x
j
por
las q primeras CP, y es claro tambien que si una observacion es estructuralmente anomala frente a las demas,
provocara que el error sea grande, al ser grande, por ejemplo, una coordenada.
y
2
i,j
; i = q + 1, . . . , p.
Pero este analisis se ha realizado sobre una componente x
j
, individualmente considerada. Se podra expre-
sar el error cometido al ajustar todos los datos x
j
; j = 1, . . . , N por el grupo de las primeras q componentes
principales?
Porque lo anterior, con x
j
individuales, puede servir como un metodo de deteccion de observaciones anoma-
las, supuesto que estructuralmente las q componentes principales primeras ajustan bien al conjunto de las
observaciones y se buscan entonces las que estructuralmente son erroneas (outliers). Es preciso entonces
conocer el error global sobre toda la muestra (j=1,. . . ,N) que se comete al aproximar estructuralmente por las
primeras q componentes principales todos los elementos de la muestra. Para ello es preciso analizar la geo-
metra del ACP muestral.
De entrada, volviendo al planteamiento dado en al principio, puede probarse este resultado.
Teorema 6. Al aproximar (x
j
x; j = 1, . . . , N) por una matriz A =
_
a
1
a
N
_
, con rango rg(A) r <
mn (p, N), el error global
N
j=1
(x
j
x a
j
)
(x
j
x a
j
)
se minimiza cuando se toma por A la matriz

A =

E
_
y
1
y
r
_
donde
E =
_
e
1
e
r
_
formada con los primeros r autovectores. De modo que
A
pN
=
_
e
1
e
r
_
pr
_
_
_
y
1
.
.
.
y
r
_
_
_
rN
=
_
a
1
a
N
_
con a
j
= y
1j
e
1
+ + y
rj
e
r
y siendo
_
y
1j
y
rj
_
=
_
e
1
(x
j
x) e
r
(x
j
x)
_
los valores de las primeras r componentes principales muestrales sobre el elemento j-esimo de la muestra, cen-
trado en x.
El mnimo alcanzado (Error Cuadr atico) vale:
N
j=1
(x
j
x a
j
)
(x
j
x a
j
) = (N 1)(
r+1
+ +

p
).
Nota 6. Este teorema nos da pues el error cometido al aproximar toda la muestra por las primeras r componen-
tes principales y, ademas, nos lo expresa en terminos de los autovalores muestrales. Pero tambien nos interpreta
el signicado de las componentes principales obtenidas mediante la minimizacion de un error cuadratico come-
tido al aproximar la muestra centrada por los a
j
: se minimiza el error cuando la aproximacion A se construye
precisamente con las r primeras componentes principales, con rg(A) r < mn (p, N).
1.11. Representaciones gracas en el ACP.
Basandonos en los resultados de la interpretacion geometrica del ACP, pueden establecerse unas utiles
practicas gracas, que recogen estas ideas.
En primer lugar, es de interes comprobar la normalidad de las componentes principales primeras, lo cual se
realiza efectuando las representaciones gracas de los pares ( y
i
, y
l
) de componentes principales. Una normali-
dad conjunta puede aceptarse si el contorno de los valores de ( y
i
, y
l
) sobre (x
j
; j = 1, . . . , N) es sensiblemente
elptico, para valores no anomalos.
En segundo lugar se representan, va un Q-Q-plot, los valores de cada componentes principales sobre la
muestra (y
j
, j = 1, . . . , N), en la idea de detectar tambien valores anomalos.
Ambas cosas conviene hacerlas tambien con las ultimas componentes principales.
1.12. Aplicaciones del ACP: ACP sobre k-grupos.
En la practica podemos encontrarnos con que la muestra (x
j
; j = 1, . . . , N) proviene de varias poblaciones
distintas, con lo que esa muestra global no es aleatoria independiente. Cuando esto ocurre, como para el
problema con K muestras respecto del vector de medias, podemos optar por uno de estos dos caminos:
1. Aplicar ACP a cada grupo, por separado, y comparar las componentes principales deducidas en cada
caso.
2. Plantear un tratamiento global de la situacion, como es el ANOVA respecto de un test de diferencia de
medias dos a dos.
Desde luego, queda jado que en esta situacion de varios grupos, el objetivo es contrastar si son homogeneos
respecto de su estructura de componentes principales, si es conocida la estructura de los grupos. Si esta estruc-
tura no se conoce, se hara el ACP sobre toda la muestra, y puede este utilizarse para obtener posibles cluster
o grupos entre ellos.
Vamos a suponer a continuacion algunos modelos que se han propuesto para abordar esta situacion.
1.12.1. Modelo de Okamoto (1976) o modelo de efectos jos
Supongamos denidas las componentes principales escritas de manera centrada:
y
i
= e
i
(x x);

Y =
_
e
1
e
p
_
(X
1
x);
X
pN
=
_
e
1
e
p
_
pp
Y
pN
13
que al recorrer la muestra (x
j
; j = 1, . . . , N) dara los valores:
y
i
; y
ij
= e
i
(x
j
x) i = 1, . . . , p (CP); j = 1, . . . , N.
Ya vimos que x
j
= y
1j
e
1
+ + y
pj
e
p
, de donde, si tomamos q componentes principales
x
j
= y
1j
e
1
+ + y
qj
e
q
+ y
q+1,j
e
q+1
+ + y
pj
e
p
de donde:
x
jl
= y
1j
e
1l
+ + y
qj
e
ql
+
p
r=q+1
y
rj
e
rl
(l-esima componente de x
j
; j = 1, . . . , p).
x
jl
= x
l
+ y
1j
e
1l
+ + y
ql
e
ql
+
p
r=q+1
y
rj
e
rl
lo que sugiere el modelo teorico:
x
jl
=
l
+
q
r=1
p
rj
m
rl
+
jl
; j = 1, . . . , N; i = 1, . . . , p
13
X
pN
x
p1
1
1N
= X ( x
N
x)
pN
ya que x
p1
1
1N
= x(1
N
1) = ( x; x
N
x)
en el que se supone impuesta un estructura: Los m
rl
y p
rj
son tales que verican propiedades analogas a las
vericadas por los e
i
(ortogonalidad) y por la covarianzas entre y
lj
(covarianzas nulas).
Bajo esta estructura, puede efectuarse un analisis de varianza, como puede verse en Okamoto (Random
models and xed model of PCA ed. Ikeda: Essays in Prob. and Stat. (dedicated to J. Ogawa) pgs. 339-351.
Tokyo).
1.12.2. El ACP y la Regresi on Lineal (Latenet root regression)
Consideremos un modelo de Regresion Lineal M ultiple:
y
i
=
0
+
1
x
i1
+ +
p1
x
i,p1
+
i
; i = 1, . . . , N
o bien:
y
i
= +
1
(x
i1
x
1
) + +
p1
(x
i,p1
x
p1
) +
que matricialmente, como Modelo Lineal, se expresa:
y
N1
= 1
N
+

X
Np
p1
+
N1
; = (;
1
; ;
p1
)
X =
_
x
1
x x
N
x
_
Np
.
Sea entonces la matriz de cuadrados
(

X)
pp
=
N
i=1
(x
i
x)(x
i
x)
tal que
1
N 1
(

X) es la matriz de covarianzas muestrales sobre la que se efect ua el ACP muestral.

Supongamos que un autovalor muestral

es proximo a cero y su correspondiente vector es e. Entonces:
(

X) e
e = 0

X e 0 e

X e 0

X e 0
y ello signica que hay multicolinealidad.
Si hay un cierto n umero de restricciones lineales, por ejemplo p k, entonces:
E
2
0;

E = (
E
1
|
E
2
)
(siendo E
2
p (p k)). En este caso general, el Modelo Lineal de Regresion se puede volver a escribir en
terminos de as componentes principales de E
1
, es decir, de R componentes principales no nulas. En efecto:
X =

E(
) = (

E
1
|0)(
) = (

E
1
)(
).
1.13. Resultados previos: Elipsoides equiprobables en una N
p
(; )
y combinaciones lineales de un vector aleatorio multidimen-
sional.
Supongamos un vector aleatorio X N
p
(; ), con denida positiva. Si en esta densidad se considera
la familia de elipsoides
(X )
1
(X ) = c; c > 0
es claro que tal densidad es constante en cada elipsoide, correspondiente a un c concreto. Por otra parte, dicha
familia tiene como centro al vector , mientras que las caractersticas de determinan la forma y orientacion
de los elipsoides. Por ejemplo, en el caso p = 2, dicha familia es de elipses.
Como es sabido, existe un elipsoide especial obtenido cuando c = p+2, llamado elipsoide de concentracion
(Cramer (1946)), caracterizado por vericar la siguiente propiedad:
f(x) =
_
_
1
2
+ 1
_
||
1
(p + 2)
p/2
p/2
; si (x )
1
(x ) p + 2
0 ; fuera
tiene la misma media y matriz de covarianzas que la ley N
p
(; ).
Volviendo a la familia de elipsoides de equiprobabilidad nos planteamos el calculo de los ejes principales,
y ello lo hacemos por un metodo analtico (multiplicadores de Lagrange) en vista de la metodologa que luego
se utilizara en el Analisis de Componentes Principales. En efecto; supongamos una recta desde el centro a la
supercie del elipsoide, dada por sus coordenadas sobre dicha supercie. Es claro que el eje principal (primero)
del elipsoide ha de cumplir:
_
_
_
max
x
[(x )
(x )]
sujeto a (x )
1
(x ) = c
Observese que (x )
(x ) es el cuadrado de la semilongitud de tal eje principal cuando, en efecto, x

esta en la supercie considerada, a un punto para el que se verique el maximo indicado.
Resolviendo este problema de maximo por multiplicadores de Lagrange, se tendra
(x, ) = (x )
(x ) (x )
1
(x )
de donde el x buscado vericara
(x, )
x
= (x )
1
(x ) = 0
es decir (I
1
)(x ) = 0; ( I)(x ) = 0.
Si suponemos, como se dijo al principio, que > 0, entonces todas sus raices caractersticas (soluciones de
| I| = 0) son reales y no nulas:
1

2

p
> 0. Por tanto, si tomamos la mayor de ellas,
1
, es
claro que:
1. El eje principal mayor esta en la direccion determinada por vector caracterstico e
1
asociado a dicha raz.
2. El cuadrado de la longitud del eje principal considerado valdra 4
1
c, ya que
4(x )
(x ) = 4
1
(x )
1
(x ) = 4
1
c
Como calcular los restantes ejes principales del elipsoide? Pues volviendo a reiterar el calculo, tomando
las sucesivas raices caractersticas de , en orden decreciente, y los respectivos autovectores se van obteniendo
por los mismos argumentos utilizados para el eje principal mayor.
En el caso en que haya una raz caracterstica multiple, con un orden r de multiplicidad, el elipsoide es
hiperesferico en el subespacio r-dimensional correspondiente. Y, obviamente, si todas las raices caractersticas
son diferentes, sus autovectores correspondientes (y por tanto los ejes principales asociados) son ortogonales,
ya que a dos raices distintas corresponden autovectores ortogonales.
Es interesante, en este punto, con vistas al posterior Analisis de Componentes Principales, utilizar los
ejes principales calculados en la familia de elipsoides para denir una transformacion a los ejes principales.
Recordemos que estamos en el caso de una N
p
(; ), gracias a lo cual podemos hablar de ejes principales en
su sentido geometrico. En efecto, sea la transformacion
X N
p
(; ) Y = (Y
1
, . . . , Y
p
)
= A(X )
en donde A = (e
1
, . . . , e
p
) con e
1
, . . . , e
p
autovectores normalizados de > 0. Obviamente, al ser X N
p
(; ),
se tiene
Y N
p
(0; A
A)
Supongamos que todas las raices
i
de son distintas, entonces A es ortogonal, es decir: A
A = I A
=
A
1
. Por tanto, tenemos una transformacion:
X Y = A(X ).
tal que A
A es diagonal; es decir, que las componentes Y

i
de Y son incorreladas. Los elementos de la diagonal
principal no nula de A
A son las varianzas de las Y

i
.
En denitiva, es posible denir una transformacion ortogonal (giro) llevando el sistema de referencia al
origen y girando los ejes hasta coincidir con los ejes principales, de tal forma que se transforma el vector X
en uno Y que, respecto de dicho sistema nuevo, tiene sus componentes incorreladas, de tal forma ademas, que
la longitud de los ejes de cualquier elipsoide dado (c > 0) es proporcional a la varianza de las variables Y
i
.
Finalmente cabe preguntarse lo siguiente: Se podra denir esta transformacion ortogonal as cuando X no
sea N
p
(; )? Despues se vera la respuesta.
1.13.1. Combinaciones lineales de un vector aleatorio X.
Dado un vector aleatorio X = (X
1
, . . . , X
p
)
, no necesariamente normal, con media E[X] = y matriz de

covarianzas Cov(X) = , es claro que si tomamos una combinacion lineal
X; con = (
1
, . . . ,
p
)
R
p
se verica
E[
X] =
; Cov(
X] =
Obviamente, como ya se ve en el estudio general de la normal multivariante, si X N

p
(; ) y tomamos
combinaciones lineales
X, entonces
X N
p
(
)
Nota 7. El caracter cerrado por combinaciones lineales, de un cierto tipo o clase de distribuciones, es
siempre de interes en Calculo de Probabilidades y no es, naturalmente, privativo de la familia Normal.
Parte I
Aplicacion a SPSS y R
26
Tema 2
Practicas de Analisis de Componentes
Principales (ACP).
2.1. Aplicacion en R
Para realizar el analisis de componentes principales no vamos a usar SPSS, debido a que este no proporciona
esta funcion, y si analisis factorial por el metodo de componentes principales.
En R existen varias posibilidades de ejecutar un analisis de componentes principales, nosotros nos vamos a
centrar en una de las opciones del paquete ADE4 (en el tema de Analisis Factorial comentaremos los paquetes
prcomp y princomp). La sintaxis es:
dudi.pca(df, row.w = rep(1, nrow(df))/nrow(df),col.w = rep(1, ncol(df)),
center = TRUE, scale = TRUE,scannf = TRUE, nf = 2)
donde:
df : es un data frame con n las (individuos) y p columnas (variables numericas).
row.w: es opcional y es el peso de las columnas (por defecto uniforme).
col.w: es opcional y es el peso de las las.
center: es una valor logico o numerico. Si es True, se centra por la media, si es False no se centra. Si es
un vector numerico, la longitud debe ser igual al n umero de columnas.
scale: es un valor logico que indica si el vector de columnas debe ser normalizado por los pesos de row.w.
scannf : valor logico que indica si el screeplot sera facilitado.
nf : si scannf es False, nf es un entero que indica el n umero de ejes.
Los objetos del paquete pca son:
tab: es el data frame analizado, dependiendo de la transformacion de los datos.
cw: pesos de las columnas.
lw: pesos de las las.
eig: los autovalores.
rank: rango de la matriz analizada.
nf : numero de factores.
27
c1: los valores de las columnas normalizados, por ejemplo los ejes principales.
l1: valores de las las normalizados.
co: columna de las coordenadas
li: la de las coordenadas
call: funcion call.
cent: el vector p que contiene la media de las variables.
norm: vector p que contiene las desviaciones de las variables.
2.2. Ejemplo de aplicacion
Vamos a utilizar el chero comprincipales.txt que para diez tipos de cafe mide seis cualidades:
> datos<-read.table("comprincipales.txt",header=T,row.names=1)
> attach(datos)
> datos
intensidad aroma cuerpo acidez amargo astringencia
T1 7.7 7.0 6.8 5.0 5.0 5.3
T2 6.0 5.4 6.2 4.3 4.6 4.7
T3 6.4 5.9 6.4 4.5 4.8 4.8
T4 6.8 6.4 6.7 4.6 4.3 4.8
T5 7.0 6.2 6.7 4.7 4.9 4.9
T6 7.6 7.4 6.9 5.1 5.1 5.2
T7 6.1 5.8 6.2 4.0 4.4 4.9
T8 6.8 6.5 6.8 4.3 4.9 4.8
T9 6.6 7.0 6.7 4.6 5.0 4.9
T10 7.0 6.7 7.0 4.6 4.8 5.1
Evidentemente, antes de realizar cualquier analisis de componentes principales, podemos realizar un resumen
estadstico o gracos descriptivos bidimensionales, por ejemplo:
> plot(datos)
> summary(datos)
intensidad aroma cuerpo acidez amargo
Min. :6.00 Min. :5.400 Min. :6.200 Min. :4.000 Min. :4.300
1st Qu.:6.45 1st Qu.:5.975 1st Qu.:6.475 1st Qu.:4.350 1st Qu.:4.650
Median :6.80 Median :6.450 Median :6.700 Median :4.600 Median :4.850
Mean :6.80 Mean :6.430 Mean :6.640 Mean :4.570 Mean :4.780
3rd Qu.:7.00 3rd Qu.:6.925 3rd Qu.:6.800 3rd Qu.:4.675 3rd Qu.:4.975
Max. :7.70 Max. :7.400 Max. :7.000 Max. :5.100 Max. :5.100
astringencia
Min. :4.70
1st Qu.:4.80
Median :4.90
Mean :4.94
3rd Qu.:5.05
Max. :5.30
Figura 2.1: Gracos bidimensionales
Del mismo modo, es interesante, estudiar la matriz de correlaciones, y ver, que estas sean en general altas,
ya que esta es una de las hipotesis para el analisis de componentes principales. Para ello usamos la funcion cor
> cor(datos)
intensidad aroma cuerpo acidez amargo astringencia
intensidad 1.0000000 0.8454693 0.8315965 0.8927236 0.6228274 0.8468706
aroma 0.8454693 1.0000000 0.8507676 0.7725890 0.6578403 0.7588402
cuerpo 0.8315965 0.8507676 1.0000000 0.6954213 0.5649069 0.6177433
acidez 0.8927236 0.7725890 0.6954213 1.0000000 0.6446742 0.7339586
amargo 0.6228274 0.6578403 0.5649069 0.6446742 1.0000000 0.5515843
astringencia 0.8468706 0.7588402 0.6177433 0.7339586 0.5515843 1.0000000
Como ya hemos comentado, la funcion con la que vamos a realizar el analisis de componentes principales,
va a ser la funcion dudi.pca.
> acp<-dudi.pca(df=datos,scannf=T,nf=2)
Select the number of axes: 2
De esta manera generaremos el analisis de componentes principales y a su vez obtenemos la representacion
de las graca de los autovalores, en la que podemos ver que el primero es, con mucha diferencia, el mas impor-
tante, es decir, el que mas contribuye a la explicacion de las variables.
Para ver la importancia (contribuciones) absolutas y relativas, vamos a usar la funcion inertia.dudi, que
calcula dichas contribuciones:
> acpi<-inertia.dudi(acp, row.inertia=T, col.inertia=T)
> acpi
inertia cum ratio
1 4.6530860 4.653086 0.7755143
2 0.5064967 5.159583 0.8599304
3 0.4102166 5.569799 0.9282999
4 0.2576531 5.827452 0.9712421
5 0.1304960 5.957948 0.9929914
6 0.0420517 6.000000 1.0000000
aqu podemos ver como el primer eje, explicara un 77,55 % de la inercia, y que el resto de componentes explican,
respectivamente un 8.44 % (0.8599-0.7755 %), 6.83 % (0.9282-0.8599 %), 4.3 %, 2.16 % y 0.71 %.
Figura 2.2: Autovalores
A continuacion vamos a ir analizando las salidas que nos proporciona R.
En primer lugar vemos los resultados para las las. En este caso, obtendremos la representacion de cada
la en el espacio bidimensional (normalizado y sin normalizar):
> acp$l1
RS1 RS2
T1 -1.4206971 -0.4324037
T2 1.4901606 0.6701615
T3 0.6728236 0.9527306
T4 0.3965848 -2.2202626
T5 -0.1598943 0.5414411
T6 -1.6155313 0.1659967
T7 1.4331609 -0.8519015
T8 0.0944892 0.7531501
T9 -0.2787284 1.1656112
T10 -0.6123680 -0.7445234
> acp$li
Axis1 Axis2
T1 -3.0645876 -0.3077356
T2 3.2144274 0.4769444
T3 1.4513486 0.6780448
T4 0.8554737 -1.5801293
T5 -0.3449082 0.3853359
T6 -3.4848647 0.1181375
T7 3.0914732 -0.6062862
T8 0.2038228 0.5360062
T9 -0.6012454 0.8295489
T10 -1.3209397 -0.5298667
Estos puntos los podemos representar con la orden s.label de la forma:
> s.label(acp$li)
obteniendo el graco siguiente:
Figura 2.3: Componentes de las las
En donde podemos ver, como se agrupan los cafes Tipo6 y Tipo10 (a la izquierda); los Tipo9, Tipo5 y
Tipo8 (en el centro) y el Tipo2 con el Tipo7 (en la derecha).
Del mismo modo la representacion de las columnas sera:
> s.label(acp$co)
obteniendo el graco siguiente:
Figura 2.4: Componentes principales de las columnas
En este gura, observamos como la amargura se contrapone al resto de cualidades del cafe. Y las ayudas a
la interpretaci on son:
> acp$co
Comp1 Comp2
intensidad -0.9600465 -0.15912706
aroma -0.9287631 -0.04857958
cuerpo -0.8679552 -0.13305403
acidez -0.9014864 -0.01514345
amargo -0.7536662 0.65139639
astringencia -0.8571809 -0.19122055
> acp$c1
CS1 CS2
intensidad -0.4450633 -0.22359174
aroma -0.4305607 -0.06825988
cuerpo -0.4023711 -0.18695615
acidez -0.4179156 -0.02127828
amargo -0.3493884 0.91528650
astringencia -0.3973763 -0.26868676
con estas ayudas, del mismo modo, podemos ver como con respecto a la primera componente, todas las cualida-
des toman valores similares, sin embargo la segunda componente, contrapone la amargura al resto de cualidades.
Tambien podemos analizar las contribuciones a la inercia de la las (o columnas) de modo que:
> acpi
Contribucion absoluta a la inercia de las filas
Axis1 Axis2
T1 2018 187
T2 2221 449
T3 453 908
T4 157 4930
T5 26 293
T6 2610 28
T7 2054 726
T8 9 567
T9 78 1359
T10 375 554
Contribucion relativa a la inercia
Axis1 Axis2 con.tra
T1 -8871 -89 1765
T2 9397 207 1833
T3 7479 1632 469
T4 1720 -5867 709
T5 -1501 1873 132
T6 -9782 11 2069
T7 8452 -325 1885
T8 215 1487 322
T9 -1857 3535 324
T10 -5912 -951 492
Calidad de la representacion de las filas
Axis1 Axis2 remain
T1 8871 8960 1040
T2 9397 9604 396
T3 7479 9112 888
T4 1720 7587 2413
T5 1501 3374 6626
T6 9782 9793 207
T7 8452 8777 1223
T8 215 1702 8298
T9 1857 5392 4608
T10 5912 6864 3136
Contribucion absoluta a la inercia de las columnas
Comp1 Comp2
intensidad 1981 500
aroma 1854 47
cuerpo 1619 350
acidez 1747 5
amargo 1221 8377
astringencia 1579 722
Contribucion relativa a la inercia de las columnas
Comp1 Comp2 con.tra
intensidad -9217 -253 1667
aroma -8626 -24 1667
cuerpo -7533 -177 1667
acidez -8127 -2 1667
amargo -5680 4243 1667
astringencia -7348 -366 1667
Calidad de la representacion de las columnas
Comp1 Comp2 remain
intensidad 9217 9470 530
aroma 8626 8650 1350
cuerpo 7533 7710 2290
acidez 8127 8129 1871
amargo 5680 9923 77
astringencia 7348 7713 2287
Tambien podemos obtener la representacion conjunta de las y columnas sin mas que:
> biplot(acp$co,acp$li)
Figura 2.5: Graco de las y columnas
En este graco podremos sacar las conclusiones bidimensionales, como que el Tipo9, sera cercano a amargo,
o el Tipo10 a cuerpo, intensidad y astringencia.
Podemos obtener, nalmente, una representacion de las correlaciones de las variables, con la orden
> s.corcircle(acp$li)
> s.corcircle(acp$co)
Figura 2.6: Graco de las correlaciones

1 Tema1 PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

1 Tema1 PDF

Uploaded by

Copyright:

Available Formats

Indice general

1. Analisis de Componentes Principales (ACP). 1

con Cov(X) = semidenida positiva

. Dadas dos cualesquiera de sus componentes, i y j, es

l) = y es claro que tomando l = e

un vector aleatorio con matriz de

( > 0), donde es la matriz diagonal de autovalores y

P = I. Por tanto, el ACP induce una

se deduce que || = |PP

con E(X) = y Cov(X) = . Realicemos la transformacion de estan-

y una combinacion lineal (CL) denida c

X. Si tomamos una muestra de tama no

X para la misma muestra. Es facil ver que su media muestral sera b

Sb y que la covarianza muestral entre las dos CL consideradas sera b

, de vector de medias E(X) = y matriz de covarianzas Cov(X) =

una variable aleatoria con E(X) = y Cov(X) = desconocida.

la covarianza muestral. Sean

sea normal p-variante, sino solo que E(X) = y

un vector aleatorio p-variante con E[X] = y matriz de covarianza conocida .

l. Entonces, para encontrar la primera componente principal e

l para todas las elecciones de l R

l tienen derivada, podemos derivar

e = 1, la Eq(1.3) tiene solucion si det(I) = 0; esto es, es una raz caracterstica

X que estan incorreladas con Y

X esta incorrelada con Y

X que tenga varianza maxima entre todas las

X sea incorrelado con todas las componentes principales Y

tenemos el siguiente teorema:

X tal que Cov(P) = donde es una matriz

que en el caso de una poblacion N

depende de muchos parametros desconocidos. Por ejemplo y todos los

X) es la matriz de covarianzas muestrales sobre la que se efect ua el ACP muestral.

(x ) es el cuadrado de la semilongitud de tal eje principal cuando, en efecto, x

A es diagonal; es decir, que las componentes Y

A son las varianzas de las Y

, no necesariamente normal, con media E[X] = y matriz de

Obviamente, como ya se ve en el estudio general de la normal multivariante, si X N

You might also like