4 Castaño - Análisis de Datos Multivariados

______________________________________________________Elkin Castao V.
1

XII SEMINARIO DE ESTADSTICA APLICADA
III ESCUELA DE VERANO
VII COLOQUIO REGIONAL DE ESTADSTICA

INTRODUCCIN AL ANLISIS DE DATOS
MULTIVARIADOS EN CIENCIAS SOCIALES

Profesor

ELKIN CASTAO V.

Facultad de Ciencias, Universidad Nacional de Colombia,
Medelln

Facultad de Ciencias Econmicas, Universidad de
Antioquia

______________________________________________________Elkin Castao V.

2

CONTENIDO

Captulo 1. Aspectos Bsicos del Anlisis Multivariado

Captulo 2. Vectores y Matrices Aleatorias

Captulo 3. La Distribucin Normal Multivariada

Captulo 4. Anlisis de Componentes Principales

Captulo 5. Anlisis de Factor

______________________________________________________Elkin Castao V.

3
CAPTULO 1.

ASPECTOS BSICOS DEL ANLISIS MULTIVARIADO

1. INTRODUCCIN

La investigacin cientfica es un proceso iterativo aprendizaje

Los objetivos relacionados con la explicacin de un
fenmeno fsico o social deben ser especificados y probados
por medio de la consecucin y el anlisis de los datos.

A su vez, el anlisis de los datos generalmente sugerir
modificaciones a la explicacin del fenmeno: se agregarn
o suprimirn variables.

La complejidad de la mayora de los fenmenos exigen que el
investigador recoja informacin sobre muchas variables
diferentes.

El Anlisis de datos multivariados proporciona al investigador
mtodos para analizar esta clase de datos:

______________________________________________________Elkin Castao V.

4
Mtodos de reduccin de datos
Tratan de obtener representaciones de los datos en forma tan
simple como sea posible, sin sacrificar informacin.

Mtodos de Ordenamiento y agrupacin
Tratan de crear grupos de objetos o de variables que sean
similares.

Alternativamente, tratan de generar reglas para clasificar
objetos dentro de grupos bien definidos.

Mtodos para investigar las relaciones de dependencia entre
las variables, pues generalmente las relaciones entre las
variables son de inters.

Mtodos de prediccin
Establecidas las relaciones de las variables, se trata de
predecir los valores de una o ms variables sobre las base de
las observaciones de as dems variables.

Construccin y pruebas de hiptesis
Tratan de validar supuestos o reforzar convicciones a priori.

______________________________________________________Elkin Castao V.

5
2. LOS DATOS Y SU ORGANIZACIN

Tipos de datos: Los datos recolectados pueden ser generados
por:

Experimentacin: a travs del diseo experimental

Observacin: se recoge la informacin existente

Presentacin de los datos: su objetivo es facilitar el anlisis

Tablas

Arreglos matriciales

Medidas resmenes o descriptivas

Grficos

Tablas
Sea x
jk
el valor que toma la k-sima variable sobre el j-simo
objeto (o individuo o unidad experimental). Si se toman n
mediciones sobre p variables de inters, el conjunto de datos
puede ser presentado como

______________________________________________________Elkin Castao V.

6

Objeto var 1 Var 2 Var k Var p
1 x
11
x
12
x
1k
x
1p

2 x
21
x
22
x
2k
x
2p

j x
j1
x
j2
x
jk
x
jp

p x
n1
x
n2
x
nk
x
np

Arreglos matriciales
Los datos tambin pueden ser presentados usando arreglos
matriciales:

X=
11 12 1k 1p
21 22 2k 2p
j1 j2 jk jp
n1 n2 nk np
x x x x
x x x x
x x x x
x x x x
(
(
(
(
(
(
(
(
(

Estadsticas descriptivas:

Los conjuntos de datos generalmente son voluminosos.
Esto es un serio obstculo para extraer informacin
relevante visualmente.
Mucha de la informacin contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente
______________________________________________________Elkin Castao V.

7
ciertas caractersticas de los datos: localizacin, dispersin,
correlacin, simetra, curtosis.

La media aritmtica o media muestral: es una medida de
localizacin. Para los datos de la i-sima variable se define
como
1
1
n
i ji
j
x x
n
=
=

La varianza muestral: Es una medida de dispersin. Para
los datos de la i-sima variable se define como

2 2
1
( )
n
i ji i
j
s x x
n
=
=

Observacin: Algunos autores definen la varianza
muestral usando n-1 en lugar de n en el denominador.
Existen razones tericas para hacerlo, especialmente
cuando n es pequeo.

La desviacin estndar muestral: Es otra medida de
dispersin. Tiene la ventaja de que posee las mismas
unidades de medicin de los datos. Para los datos de la i-
sima variable se define como

______________________________________________________Elkin Castao V.

8
2
i i
s s = +

Covarianza muestral: es una medida de asociacin lineal
entre los datos de dos variables. Para los datos de la i-sima
y k-sima variable se define como

1
1
( )( )
n
ik ji i jk k
j
s x x x x
n
=
=

Interpretacin:

s
ik
>0 indica una asociacin lineal positiva entre los datos de
las variables

s
ik
<0 indica una asociacin lineal negativa entre los datos de
las variables
s
ik
=0 indica que no hay una asociacin lineal entre los datos
de las variables

Observacin: como la varianza muestral es la
covarianza muestral entre los datos de la i-sima
variable con ella misma, algunas veces se denotar
como s
ii

______________________________________________________Elkin Castao V.

9
Correlacin muestral: Es otra medida de asociacin lineal.
Para los datos de la i-sima y k-sima variable se define
como
ik
ik
ii kk
s
r
s s
=

A diferencia de la covarianza muestral, que no indica cul es
la fortaleza de la relacin lineal, la correlacin est acotada
entre -1 y 1.

Propiedades de r
ik
:
1) | r
ik
| 1
r
ik
=1 indica que hay una asociacin lineal positiva y perfecta
entre los datos de las variables. Los datos caen sobre una
lnea recta de pendiente positiva.
0<r
ik
<1 indica que hay una asociacin lineal positiva
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lnea recta de pendiente positiva.
r
ik
=-1 indica que hay una asociacin lineal negativa y
perfecta entre los datos de las variables. Los datos caen
sobre una lnea recta de pendiente negativa.
______________________________________________________Elkin Castao V.

10
-1<r
ik
<0 indica que hay una asociacin lineal negativa
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lnea recta de pendiente negativa.
r
ik
=0 indica que no hay una asociacin lineal entre los datos
de las variables.
2) Considere las versiones estandarizadas de las variables x
i

y x
k

ji i
ji
ii
x x
z
s
= y
jk k
jk
kk
x x
z
s
=

Entonces r
ik
es la covarianza muestral entre z
ji
y z
jk
.

3) Considere las transformaciones

ji ji
y ax b = +
jk jk
y cx d = +

Entonces la correlacin muestral entre x
ji
y x
jk
es la misma
que la que hay entre y
ji
y y
jk
, dado que a y c tengan el
mismo signo.

4) s
ik
y r
ik
solamente informan sobre la existencia o no de
una asociacin lineal.
______________________________________________________Elkin Castao V.

11
5) s
ik
y r
ik
son muy sensibles a la existencia de datos
atpicos (outliers). Cuando existen observaciones
sospechosas, es recomendable calcularlas con y sin dichas
observaciones.

Coeficiente de asimetra muestral: es una medida que
describe la asimetra de la distribucin de los datos con
respecto a la media muestral. Se define como:

3
1
3/ 2
2
1
( )
( )
( )
n
ji i
j
i
n
ji i
j
n x x
sk x
x x
=
=

=
(

(

Cuando los datos proceden de una distribucin simtrica,
como la distribucin normal, ( )
i
sk x 0

Coeficiente de curtosis muestral: es una medida que
describe el comportamiento en las colas de la distribucin de
los datos. Se define como

4
1
2
2
1
( )
( )
( )
n
ji i
j
i
n
ji i
j
n x x
k x
x x
=
=

=
(

(

______________________________________________________Elkin Castao V.

12
Cuando los datos proceden de una distribucin como la
normal, ( )
i
k x 3.

ARREGLOS BASADOS EN ESTADSTICAS DESCRIPTIVAS

Para las medias muestrales: El vector de media muestral se
define como
1
2
p
x
x
x
x
(
(
(
=
(
(
(

Para las varianzas y covarianzas muestrales: La matriz de
varianza y covarianza muestral, o matriz de covarianza
muestral, se define como

11 12 1p
12 22 2p
1p 2p pp
...
...
...
s s s
s s s
S
s s s
(
(
(
=
(
(
(

S es una matriz simtrica.

Para las correlaciones muestrales: La matriz de
correlaciones muestral se define como
______________________________________________________Elkin Castao V.

13
12 1p
12 2p
1p 2p
1 ...
1 ...
... 1
r r
r r
R
r r
(
(
(
=
(
(
(

R es una matriz simtrica.

Ejemplo: Lectura de datos en R y clculo de arreglos muestrales.
Datos sobre 8 variables para 22 compaas de servicio pblico.
X
1
: Cargo fijo
X
2
: Tasa de retorno del capital
X
3
: Costo por kilovatio
X
4
: Factor anual de carga
X
5
: Crecimiento del pico de la demanda desde 1964.
X
6
: Ventas
X
7
: Porcentaje de generacin nuclear
X
8
: Costo total de combustible

Empleo del programa R

# lectura de los datos desde un archivo de texto con nombres de las variables
publ_util<-read.table("c:/unal/datos/j-wdata/t12-5_sin.dat", header = TRUE)

# visualizacin de los datos ledos
publ_util

# asignacin de nombres a las variables: X1, X2, ....
attach(publ_util)

# obtencin del vector de media muestral
______________________________________________________Elkin Castao V.

14
medias<-mean(publ_util)
medias

# obtencin de la matriz de covarianza muestral
mat_cov<-cov(publ_util)
mat_cov

# obtencin de la matriz de correlacin muestral
mat_cor<-cor(publ_util)
mat_cor

# obtencin del coeficiente de asimetra muestral
skewness=function(x) {
m3=mean((x-mean(x))^3)
skew=m3/(sd(x)^3)
skew}
skewness(X1)

# obtencin del coeficiente de curtosis muestral
kurtosis=function(x) {
m4=mean((x-mean(x))^4)
kurt=m4/(sd(x)^4)
kurt}
kurtosis(X1)

Observacin: Los coeficientes de asimetra y curtosis muestrales
tambin se pueden calcular usando libreras como moments,
e1071 y fEcofin.

RESULTADOS:

TABLA DE DATOS

X1 X2 X3 X4 X5 X6 X7 X8
1 1.06 9.2 151 54.4 1.6 9077 0.0 0.628
2 0.89 10.3 202 57.9 2.2 5088 25.3 1.555
3 1.43 15.4 113 53.0 3.4 9212 0.0 1.058
4 1.02 11.2 168 56.0 0.3 6423 34.3 0.700
5 1.49 8.8 192 51.2 1.0 3300 15.6 2.044
6 1.32 13.5 111 60.0 -2.2 11127 22.5 1.241
7 1.22 12.2 175 67.6 2.2 7642 0.0 1.652
8 1.10 9.2 245 57.0 3.3 13082 0.0 0.309
9 1.34 13.0 168 60.4 7.2 8406 0.0 0.862
10 1.12 12.4 197 53.0 2.7 6455 39.2 0.623
11 0.75 7.5 173 51.5 6.5 17441 0.0 0.768
12 1.13 10.9 178 62.0 3.7 6154 0.0 1.897
13 1.15 12.7 199 53.7 6.4 7179 50.2 0.527
14 1.09 12.0 96 49.8 1.4 9673 0.0 0.588
______________________________________________________Elkin Castao V.

15
15 0.96 7.6 164 62.2 -0.1 6468 0.9 1.400
16 1.16 9.9 252 56.0 9.2 15991 0.0 0.620
17 0.76 6.4 136 61.9 9.0 5714 8.3 1.920
18 1.05 12.6 150 56.7 2.7 10140 0.0 1.108
19 1.16 11.7 104 54.0 -2.1 13507 0.0 0.636
20 1.20 11.8 148 59.9 3.5 7287 41.1 0.702
21 1.04 8.6 204 61.0 3.5 6650 0.0 2.116
22 1.07 9.3 174 54.3 5.9 10093 26.6 1.306

MEDIAS MUESTRALES

X1 X2 X3 X4
1.114091 10.736364 168.181818 56.977273

X5 X6 X7 X8
3.240909 8914.045455 12.000000 1.102727

MATRIZ DE COVARIANZA MUESTRAL

X1 X2 X3 X4
X1 0.034044372 0.2661299 -0.7812554 -6.752165e-02
X2 0.266129870 5.0357576 -32.1259740 -8.643723e-01
X3 -0.781255411 -32.1259740 1696.7272727 1.843290e+01
X4 -0.067521645 -0.8643723 18.4329004 1.990184e+01
X5 -0.149080087 -1.8201299 55.9207792 4.657359e-01
X6 -99.346385281 -76.6160173 4092.5151515 -4.560037e+03
X7 0.138809524 7.9676190 79.3095238 -1.229762e+01
X8 -0.001372165 -0.4088848 0.1195758 1.204446e+00

X5 X6 X7 X8
X1 -0.14908009 -9.934639e+01 1.388095e-01 -1.372165e-03
X2 -1.82012987 -7.661602e+01 7.967619e+00 -4.088848e-01
X3 55.92077922 4.092515e+03 7.930952e+01 1.195758e-01
X4 0.46573593 -4.560037e+03 -1.229762e+01 1.204446e+00
X5 9.72348485 1.952874e+03 -1.001429e+00 -1.236926e-02
X6 1952.87424242 1.260239e+07 -2.227602e+04 -1.106557e+03
X7 -1.00142857 -2.227602e+04 2.819686e+02 -1.728324e+00
X8 -0.01236926 -1.106557e+03 -1.728324e+00 3.092451e-01

MATRIZ DE CORRELACIN MUESTRAL

X1 X2 X3 X4
X1 1.00000000 0.642744766 -0.102793192 -0.08203019
X2 0.64274477 1.000000000 -0.347550467 -0.08634194
X3 -0.10279319 -0.347550467 1.000000000 0.10030926
______________________________________________________Elkin Castao V.

16
X4 -0.08203019 -0.086341943 0.100309264 1.00000000
X5 -0.25911109 -0.260111168 0.435367718 0.03347975
X6 -0.15167116 -0.009617468 0.027987098 -0.28793559
X7 0.04480188 0.211444212 0.114661857 -0.16416254
X8 -0.01337310 -0.327655318 0.005220183 0.48550006
X5 X6 X7 X8
X1 -0.259111089 -0.151671159 0.04480188 -0.013373101
X2 -0.260111168 -0.009617468 0.21144421 -0.327655318
X3 0.435367718 0.027987098 0.11466186 0.005220183
X4 0.033479746 -0.287935594 -0.16416254 0.485500063
X5 1.000000000 0.176415568 -0.01912532 -0.007133152
X6 0.176415568 1.000000000 -0.37368952 -0.560526327
X7 -0.019125318 -0.373689523 1.00000000 -0.185085916
X8 -0.007133152 -0.560526327 -0.18508592 1.000000000

COEFICIENTE DE ASIMETRA MUESTRAL DE x1

-0.01711117

COEFICIENTE DE CURTOSIS MUESTRAL DE x1

2.785947

Grficos

Los grficos son ayudas importantes en el anlisis de los datos.
Aunque es imposible graficar simultneamente los valores de
todas las variables en el anlisis y estudiar su configuracin,
los grficos de las variables individuales y de pares de
variables son muy informativos.

Grficos para variables individuales:
Sirven para conocer las distribuciones marginales de los
datos para cada variable. Entre ellos se encuentran:

______________________________________________________Elkin Castao V.

17
Grficos de puntos: recomendados para muestras
pequeas.
0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X1

Grficos de cajas: recomendados para muestras moderadas
o grandes. Sean Q
1
y Q
3
los cuartiles inferior y superior de
la distribucin de una variable aleatoria, y sea IQR= Q
3
- Q
1

el rango intercuartil. El grfico de cajas es un grfico
esquemtico de la distribucin de la variable aleatoria, como
se ilustra a continuacin. Se compara con el caso de que la
distribucin terica sea una normal.

______________________________________________________Elkin Castao V.

18
Para los datos de la variable X
1
del ejemplo,

0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X1

Los datos que caen ms a la izquierda de Q
1
-1.5*IQR y ms
a la derecha de Q
3
+1.5*IQR son considerados datos atpicos
o inusuales.

Histogramas: recomendados para muestras moderadas o
grandes.

0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X1
0.0
0.1
0.2
0.3
0.4
0.5
P
r
o
p
o
r
t
i
o
n

p
e
r

B
a
r
0
2
4
6
8
10
12
C
o
u
n
t

______________________________________________________Elkin Castao V.

19
Grficos para cada par de variables:
Son utilizados para estudiar distribucin de los datos para 2
variables. Dan indicaciones sobre la orientacin de los datos
en el plano cartesiano y la asociacin que hay entre ellos.
Son llamados diagramas de dispersin.

Hay varias clases diagramas de dispersin, por ejemplo:

a) Simple
6 7 8 9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X2
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
X
1

______________________________________________________Elkin Castao V.

20
b) Con marginales como diagramas de puntos

6 7 8 9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X2
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
X
1

c) Con marginales como grficos de cajas
6 7 8 9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X2
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
X
1

______________________________________________________Elkin Castao V.

21
El efecto de observaciones inusuales sobre la correlacin
muestral
Frecuentemente algunas observaciones de la muestra tienen un
efecto considerable en el clculo de la correlacin muestral.

Considere el grfico de dispersin para las variables X
1
y X
2
.

El coeficiente de correlacin muestral es r
12
=0.643

Ahora considere el grfico de dispersin en el cual el tamao
del punto est relacionado con el cambio que tiene el
coeficiente de correlacin muestral cuando la observacin
correspondiente a ese punto es eliminada.
______________________________________________________Elkin Castao V.

22

Los resultados muestran que al eliminar la observacin
denominada consolid, el coeficiente de correlacin muestral
tiene un cambio mayor de 0.10.

El coeficiente calculado sin esta observacin es 0.836.
Entonces su eliminacin produce un cambio positivo de 0.193,
el cual corresponde a una variacin porcentual del 30%!

Grficos para tres variables: Diagramas de dispersin
tridimensionales
Son utilizados para estudiar los aspectos tridimensionales de
los datos. Generalmente estos grficos permiten rotacin.
______________________________________________________Elkin Castao V.

23
El siguiente ejemplo presenta el diagrama de dispersin
tridimensional para X
1
, X
2
y X
3
con tres rotaciones.

0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X
1
6
7
8
9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X
2
100
200
300
X
3

0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X
1
6
7
8
9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X
2
100
200
300
X
3

______________________________________________________Elkin Castao V.

24
0
.
7
0
.
8
0
.
9
1
.
0
1
.
1
1
.
2
1
.
3
1
.
4
1
.
5
X
1
6
7
8
9
1
0
1
1
1
2
1
3
1
4
1
5
1
6
X
2
1
0
0
2
0
0
3
0
0
X
3

Matrices de dispersin o mltiples diagramas de
dispersin:
Presentan conjuntamente todos los diagramas de dispersin de
los datos para cada par variables. Se pueden construir varias
clases de matrices de dispersin, dependiendo del contenido
en su diagonal. Por ejemplo:

______________________________________________________Elkin Castao V.

25
a) con diagramas de puntos en la diagonal
X1
X
1
X2 X3 X4
X
1
X5
X
2
X
2
X
3
X
3
X
4
X
4
X1
X
5
X2 X3 X4 X5
X
5

a) con grficos de cajas en la diagonal

______________________________________________________Elkin Castao V.

26
c) con histogramas en la diagonal

d) con histogramas suavizados (curvas Kernel) en la diagonal

______________________________________________________Elkin Castao V.

27
Representaciones pictricas de datos multivariados:
Son imgenes que representan los valores de tres o ms
variables medidas para cada individuo, objeto o unidad
experimental. A diferencia de los grficos anteriores, no estn
diseadas para transmitir informacin numrica absoluta. En
general, su objetivo es ayudar a reconocer o observaciones
similares.

Cuando se usan estos grficos, se recomienda que todas las
variables estn medidas en la misma escala. Si no es as, se
deben emplear los datos estandarizados.

Grficos de estrellas:
Suponga que los datos consisten de observaciones sobre p2
variables. Se obtienen de la siguiente manera. En dos
dimensiones se construyen crculos de radio fijo con p rayos
igualmente espaciados emanando del centro del crculo. Las
longitudes de los rayos representan los valores de las
variables.

______________________________________________________Elkin Castao V.

28
Arizona Boston Central Common Consolid
Florida Hawaiian Idaho Kentucky Madison
Nevada NewEngla Northern Oklahoma Pacific
Puget SanDiego Southern Texas Wisconsi
United Virginia
X1
X2
X3
X4
X5
X6
X7
X8
X9

Curvas de Andrews:
Es un mtodo potente para identificar agrupamientos de
observaciones. Las curvas de Andrews son las componentes de
Fourier de los datos y el resultado para cada observacin es
una onda formada por funciones seno y coseno de sus
componentes. Se construyen de la siguiente forma:

______________________________________________________Elkin Castao V.

29
1
2 3 4 5
( ) ( ) ( ) (2 ) (2 )
2
j
j
x j j j j
x
f t x sen t x cos t x sen t x cos t = + + + + +
donde t < < .
-180 -90 0 90 180
Degrees
-2
-1
0
1
2
3
4
F
o
u
r
i
e
r

C
o
m
p
o
n
e
n
t
s

______________________________________________________Elkin Castao V.

30
Caras de Chernoff:
Es otra forma efectiva de agrupar datos multivariados,
particularmente para un procesamiento de la memoria de largo
plazo. Fueron introducidas por Chernoff (1973), quien usa
varias caractersticas de la cara para representar los datos de las
variables. Algunos paquetes estadsticos permiten representar
hasta 20 variables (SYSTAT), mientras que R permite asignar
18 variables. Las caractersticas que SYSTAT permite asignar
son:

1 Curvatura de la boca
2 ngulo de la ceja
3 Amplitud de la nariz
4 Longitud de la nariz
5 Longitud de la boca
6 Altura del centro de la boca
7 Separacin de los ojos
8 Altura del centro de los ojos
9 Inclinacin de los ojos
10 Excentricidad de los ojos
11 Longitud media de los ojos
12 Posicin de las pupilas
13 Altura de la ceja
14 Longitud de la ceja
15 Altura de la cara
16 Excentricidad de la elipse superior de la cara
17 Excentricidad de la elipse inferior de la cara
18 Nivel de las orejas
19 Radio de las orejas
20 Longitud del cabello

______________________________________________________Elkin Castao V.

31

Arizona Boston Central Common
Consolid Florida Hawaiian Idaho
Kentucky Madison Nevada NewEngla
Northern Oklahoma Pacific Puget
SanDiego Southern Texas Wisconsi
United Virginia

Identificacin de casos similares (grupos)

0
1
2
3
4
5
6
7
8
X10
Arizona Boston Central Common
Consolid Florida Hawaiian Idaho
Kentucky Madison Nevada NewEngla
Northern Oklahoma Pacific Puget
SanDiego Southern Texas Wisconsi
United Virginia

______________________________________________________Elkin Castao V.

32
Caras Asimtricas: Flury y Riedwyl (1981) proponen una nueva
cara en la cual los parmetros del lado derecho de la cara pueden
variar independientemente de los parmetros del lado izquierdo.
Esta cara puede ser aplicada de la misma manera que las caras de
Chernoff y permite representar hasta 36 variables, en lugar de las
18 variables originales de Chernoff. Para dibujar estas caras se
puede emplear el programa de uso libre FACEPLOT.

Lecturas recomendadas:

Jacob, R. J. K. (1983). Investigating the space of Chernoff faces.
Recent advances in statistics: A festschrift in honor of Herman
Chernoffs sixtieth birthday. M. H. Rzvi, J.
______________________________________________________Elkin Castao V.

33
Wang, P. C., ed. (1978). Graphical representation of multivariate
data. New York: Academic Press.

Wilkinson, L (2007) Cognitive Science and Graphic Design,
SYSTAT 12 Graphics, SYSTAT Software, Inc.

Wilkinson, L. (1982). An experimental evaluation of multivariate
graphical point representations. Human Factors in Computer
Systems: Proceedings. Gaithersburg, Md. 202209.


# lectura de los datos desde un archivo de texto
publ_util<-read.table("c:/unal/datos/j-wdata/t12-5.dat", header = TRUE)

# visualizacin de los datos ledos
publ_util

# asinacin de nombres a las variables: V1, V2, ....
attach(publ_util)

# grfico de puntos
stripchart(X1, method="stack")

# histograma
hist(X1)

# grfico de caja
boxplot(X1)

# matriz de dispersin
# pegado de las variables en la matriz X
X<-as.matrix(cbind(X1, X2, X3, X4, X5, X6, X7,X8))
pairs(X)

# grfico de estrellas
# estandarizacin de las variables
X1s=(X1-mean(X1))/sd(X1)

______________________________________________________Elkin Castao V.

34
# pegado de las variables estandarizadas en la matriz Xs
Xs<-as.matrix(cbind(X1s, X2s, X3s, X4s, X5s, X6s, X7s,X8s))

# los nombres de las observaciones son colocadas en el vector obs
obs=as.vector(X9)
stars(Xs, labels = obs, key.loc=c(10,1.8))

# invocar la librera aplpack para los grficos de caras
library(aplpack)

# grficos de caras
faces(Xs, labels = obs)

3. EL CONCEPTO DE DISTANCIA ESTADSTICA

Casi todas las tcnicas del anlisis multivariado estn
basadas en el concepto de distancia.

Distancia Euclidiana: considere el punto P=(x
1
, x
2
) en el
plano. La distancia Euclidiana del origen (0, 0) a P es

2 2
1 2
(0, ) d P x x = +
(Teorema de Pitgoras)

______________________________________________________Elkin Castao V.

35
El conjunto de todos los puntos P cuya distancia
cuadrtica a O es la misma, satisface

2 2 2
1 2
x x c + =
, con c>o

El lugar geomtrico corresponde a la circunferencia.

En general, si P=(x
1
, x
2
, , x
p
), su distancia euclidiana
al origen O es

2 2 2
1 2
(0, ) ...
p
d P x x x = + + +

y el conjunto de todos los puntos P cuya distancia
cuadrtica a O es la misma, satisface

2 2 2 2
1 2
...
p
x x x c + + + =
, con c>o

El lugar geomtrico de estos puntos corresponde a una
hiper-esfera.

La distancia euclidiana generalmente no es satisfactoria en
la mayora de las aplicaciones estadstica. El problema es
que cada coordenada contribuye igualmente en su clculo.
Esto supone:
______________________________________________________Elkin Castao V.

36
Que todos los puntos pueden ocurrir igualmente
Que no existen relaciones entre ellos.

Sin embargo, los datos generados por diferentes variables
aleatorias pueden tener diferente variabilidad y estar
relacionados.

Debemos desarrollar una distancia que tenga en cuenta estas
caractersticas.

Supongamos que tenemos n pares de medidas para dos
variables x
1
y x
2
.

Caso 1: Las mediciones varan independientemente, pero la
variabilidad de x
1
es mayor que la de x
2
.

______________________________________________________Elkin Castao V.

37
Una manera de proceder a calcular la distancia es
estandarizar las coordenadas, es decir, se obtienen

* * 1 2
1 2
11 22
x x
x y x
s s
= =

Las nuevas coordenadas tienen la misma variabilidad y para
calcular la distancia se puede usar la distancia Euclidiana.
Entonces, la distancia estadstica de un punto P=( x
1
, x
2
) al
origen (0, 0) es

( ) ( )
2 2
2 2
* *
1 2
1 2
11 22
(0, )
x x
d P x x
s s
= + = +

El conjunto de todos los puntos P cuya distancia cuadrtica
a O es la misma, satisface

2 2
2
1 2
11 22
x x
c
s s
+ =
con c>o

El lugar geomtrico corresponde a una elipse centrada en el
origen y cuyos ejes mayor y menor coinciden con los ejes de
coordenadas.

______________________________________________________Elkin Castao V.

38

La distancia anterior puede ser generalizada para calcular la
distancia de un punto cualquiera P=(x
1
, x
2
) a un punto fijo
Q=(y
1
, y
2
). Si las coordenadas varan independientemente
unas de otras, la distancia estadstica de P a Q esta dada por,

( ) ( )
2 2
1 1 2 2
11 22
( , )
x y x y
d P Q
s s

== +

La extensin a ms de dos dimensiones es directa. Si P=(x
1
,
x
2
, , x
p
) y Q=(y
1
, y
2
, , y
p
). Si las coordenadas varan
independientemente unas de otras, la distancia estadstica de
P a Q fijo, est dada por

______________________________________________________Elkin Castao V.

39
( ) ( )
( )
2
2 2
1 1 2 2
11 22
( , )
p p
pp
x y
x y x y
d P Q
s s s

= + + +

El lugar geomtrico corresponde a una hiperelipsoide
centrada en Q y cuyos ejes mayor y menor son paralelos a
los ejes de coordenadas.

Observaciones:
1. La distancia de P al origen O se obtiene haciendo y
1
=y
2
=
= y
p
= 0.
2. Si s
11
= s
22
= =s
pp
, la frmula de la distancia Euclidiana es
apropiada.

Caso 2. Las variabilidades de las mediciones sobre las
variables x
1
y x
2
son diferentes y estn correlacionadas.
Considere el siguiente grfico

______________________________________________________Elkin Castao V.

40

Se observa que si rotamos el sistema original de coordenadas a
travs del ngulo , mantenido los puntos fijos y denominando
los nuevos ejes como
1
x y
2
x , la dispersin en trminos de los
nuevos ejes es similar al caso 1. Esto sugiere, que para calcular
la distancia estadstica del punto P=(
1 2
, x x ) a origen O=(0, 0)
se puede usar
2 2
1 2
11 22
(0, )
x x
d P
s s
= +

donde las
ii
s son varianzas muestrales de los datos
1
x y
2
x .
La relacin entre las coordenadas originales y las rotadas es
______________________________________________________Elkin Castao V.

41

1 1 2
cos( ) ( ) x x x sen = +
2 1 2
( ) cos( ) x x sen x = +

Dadas estas relaciones, podemos expresar la distancia de P al
origen O en trminos de las coordenadas originales como,

2 2
11 1 22 2 12 1 2
(0, ) 2 d P a x a x a x x = + +

donde
11
a ,
22
a y
12
a son constantes tales que la distancia es
no negativa para todos los posibles valores de x
1
y x
2
.

En general, la distancia estadstica de un punto P=(x
1
, x
2
) a un
punto fijo Q=(y
1
, y
2
), es

2 2
11 1 1 22 2 2 12 1 1 2 2
(0, ) ( ) ( ) 2 ( )( ) d P a x y a x y a x y x y = + +

El conjunto de puntos P=(x
1
, x
2
) que tienen la misma distancia
cuadrtica al punto fijo Q=(y
1
, y
2
) satisfacen que

2 2
11 1 1 22 2 2 12 1 1 2 2
( ) ( ) 2 ( )( ) a x y a x y a x y x y + + =c
2

El lugar geomtrico de estos puntos corresponde a una elipse
centrada en Q y cuyos ejes mayor y menor son paralelos a los
ejes rotados.
______________________________________________________Elkin Castao V.

42

La generalizacin de las frmulas a p dimensiones es directa.
Sea P=(x
1
, x
2
, , x
p
) un punto cuyas coordenadas representan
variables que estn correlacionadas y sujetas a diferente
variabilidad, y sea Q=(y
1
, y
2
, , y
p
) un punto. Entonces la
distancia estadstica de P a Q est dada por

2 2 2
11 1 1 22 2 2 22
12 1 1 2 2 13 1 1 3 3
1, 1 1
( ) ( ) ( )
(0, ) 2 ( )( ) 2 ( )( )
2 ( )( )
p p
p p p p p p
a x y a x y a x y
d P a x y x y a x y x y
a x y x y

+ + +
= + +
+ +

donde las constantes
ik
a son tales que las distancias son
siempre no negativas.

______________________________________________________Elkin Castao V.

43
El lugar geomtrico de todos los puntos P cuya distancia
cuadrtica a Q es la misma es una hiperelipsoide.

Observaciones:
1. Si las constantes
ik
a son llevadas a una matriz simtrica de
pxp de la forma

11 12 1p
12 22 2p
1p 2p pp
...
...
...
a a a
a a a
A
a a a
(
(
(
=
(
(
(

Entonces la distancia estadstica de P a Q, se puede escribir
como,
( , ) ( ) ' ( ) d P Q x y A x y =

donde
1 1
2 2
p p
x y
x y
x y
x y
(
(
(
=
(
(
.
2. Para que la distancia estadstica sea no negativa, la matriz A
debe ser definida positiva.

3. Cuando A=S
-1
, la distancia estadstica definida como

______________________________________________________Elkin Castao V.

44
1
( , ) ( ) ' ( ) d P Q x y S x y
=

Es llamada la distancia muestral de Mahalanobis y juega un
papel central en el anlisis multivariado.

La necesidad de usar la distancia estadstica en lugar de la
Euclidiana se ilustra heursicamente a continuacin. El
siguiente grfico presenta un grupo (cluster) de observaciones
cuyo centro de gravedad (el vector de media muestrales) est
sealado por el punto Q.

La distancia Euclidiana del punto Q al punto P es mayor que la
distancia de Q a O. Sin embargo, P es ms parecido a los
puntos en el grupo que O. Si tomamos la distancia estadstica
______________________________________________________Elkin Castao V.

45
de Q a P, entonces Q estar ms cerca de P que de O, lo cual
parece razonable dada la naturaleza de grfico de dispersin.

CAPTULO 2.

VECTORES Y MATRICES ALEATORIAS

Vector aleatorio: es un vector cuyas componentes son
variables aleatorias.
Matriz aleatoria: es una matriz cuyas componentes son
variables aleatorias.
Notacin: Si X es una matriz de n x p cuyos elementos son
X
ij
, se denota como

X=[ X
ij
]

Valor esperado de una matriz aleatoria:

E(X)=
11 12 1
21 22 2
1 2
( ), ( ),..., ( )
( ), ( ),..., ( )
( ), ( ),..., ( )
p
p
n n np
E X E X E X
E X E X E X
E X E X E X
(
(
(
(
(
(

donde, para cada elemento de la matriz

______________________________________________________Elkin Castao V.

46
E(X
ij
)=
( )
( )
todos
x
ij
ij ij ij ij ij R
ij ij ij ij
x f x dx para X continua
x p x para X discreta

Vectores de media

Suponga que X=
1
2
p
X
X
X
(
(
(
(
(
(

es un vector aleatorio de px1.

Entonces,

Cada variable aleatoria X
i
tiene su propia distribucin de
probabilidades marginal la cual permite estudiar su
comportamiento.

Media marginal de X
i
:

( )
( )
( )
todos
x
i
i i i i i R
i i
i i i i
E X
= =

A
i
se le llama la media poblacional marginal de X
i
.

Varianza marginal de X
i
:
______________________________________________________Elkin Castao V.

47
2
2 2
2
( ) ( )
( )
( ) ( )
todos
x
i
i i i i i i R
i i i
i i i i i
E X
= =

A
2
i
se le llama la varianza poblacional marginal de X
i
.

El comportamiento conjunto de cada par de variables
aleatorias X
i
y X
k
est descrito por su funcin de
distribucin conjunta.

Una medida de asociacin lineal: la covarianza poblacional

( )( )
ik i i k k
E X X =

donde

( )( ) ( , )
( )( ) ( , )
k
todos todos
x x
i
i i k k ik i k i k i k R R
ik
i i k k ik i k i k
x x f x x dx dx para X y X continuas
x x p x x para X y X discretas

A
ik
se le llama la covarianza poblacional de X
i
y X
k
.

Interpretacin
ik
>0 indica una asociacin lineal positiva entre X
i
y X
k
.
ik
<0 indica una asociacin lineal negativa entre X
i
y X
k
.
ik
=0 indica que no hay una asociacin lineal entre X
i
y X
k
.
______________________________________________________Elkin Castao V.

48
Debido a que la varianza poblacional de X
i
es la covarianza
poblacional entre X
i
y X
i
, a veces se denota
2
i
como
ii
.

Otra medida de asociacin lineal: la correlacin

ik
ik
ii kk

=

Interpretacin:
ik
=1 indica una asociacin lineal positiva perfecta entre X
i

y X
k
.
0<
ik
<1 indica una asociacin lineal positiva imperfecta
entre X
i
y X
k
. Mientras ms cerca de 1 se encuentre, ms
fuerte es la relacin.

ik
=-1 indica una asociacin lineal negativa perfecta entre
X
i
y X
k
.
-1<
ik
<0 indica una asociacin lineal negativa entre X
i
y
X
k
. Mientras ms cerca de -1 se encuentre, ms fuerte es la
relacin.

ik
=0 indica que no hay una asociacin lineal entre X
i
y X
k
.

______________________________________________________Elkin Castao V.

49
El comportamiento conjunto de las p variables aleatorias X
1
,
X
2
, , X
p
, est descrita por la funcin de distribucin
conjunta o por su funcin de densidad de probabilidad
conjunta f(x
1
, x
2
, , x
p
), si todas las variables aleatorias son
continuas.

Las p variables aleatorias continuas son llamadas
mutuamente estadsticamente independientes si

f(x
1
, x
2
, , x
p
)= f
1
(x
1
) f
2
(x
2
) f
n
(x
n
)

Si X
i
, X
k
son estadsticamente independientes, entonces
Cov(X
i
, X
k
)=0. Lo contrario no es necesariamente cierto.

Vector de medias poblacional: El vector de p x 1,

1
2
( )
p
E X
(
(
(
= =
(
(
(

es llamado el vector de medias poblacional.

La matriz de varianza y covarianza poblacional: La
matriz de p x p
______________________________________________________Elkin Castao V.

50
11 12 1p
21 22 2p
1p 2p pp
, , ,
, , ,
( )( )'
, , ,
E X X

(
(
(
= =
(
(
(

Es llamada la matriz de varianza y covarianza (o de
covarianza) poblacional.

La matriz de correlacin poblacional: La matriz de p x p

12 1p
12 2p
1p 2p
1, , ,
, 1, ,
, , , 1

(
(
(
=
(
(
(

Es llamada la matriz de correlacin poblacional.

Relacin entre y :
Sea
V
1/2
=
11
22
0 0
0 0
0 0
pp
(
(
(
(
(
(
(

Entonces
______________________________________________________Elkin Castao V.

51
1/ 2 1/ 2
V V =
y
1/ 2 1 1/ 2 1
( ) ( ) V V

=

Vector de Media y la matriz de Covarianza de
Combinaciones Lineales

1. Una sola combinacin lineal de las variables del vector
aleatorio X. Sea
1
2
p
c
c
c
c
(
(
(
=
(
(
(

y sea
Z
1
=c
1
X
1
+ c
2
X
2
++ c
p
X
p
= ' c
Entonces,

1
1 1 1 2 2
( ) ... '
Z p p
E Z c c c c = = + + + =

Var(Z
1
)=
2
1 1 1
'
p p p
i ii i k ik
i i k
c c c c c
= = =
+ =

2. q combinaciones lineales de las variables del vector
aleatorio X. Sea

______________________________________________________Elkin Castao V.

52
Z
1
=c
11
X
1
+ c
12
X
2
++ c
1p
X
p

Z
2
=c
21
X
1
+ c
22
X
2
++ c
2p
X
p

Z
q
=c
q1
X
1
+ c
q2
X
2
++ c
qp
X
p
o,

11 11 1p
1 1
2 21 21 2p 2
q p
q1 q1 qp
, , ,
, , ,
, , ,
c c c
Z X
Z c c c X
Z CX
Z X
c c c
(
( (
(
( (
(
( (
= = =
(
( (
(
( (
( ( (

Entonces,
( )
Z
E Z C = =

( )( )' '
Z Z Z
E Z Z CVC = =

Ejemplo. Suponga que X=[X
1
, X
2
] es un vector aleatorio con
vector de medias
'
1 2
[ , ]
X
= y matriz de covarianza
11 12
12 22

(
=
(

. Encuentre el vector de medias y la matriz de
covarianza del vector
1 2
1 2
X X
Z
X X
(
=
(
+

.

Observe que
1 2 1
1 2 2
1 1
1 1
X X X
Z CX
X X X
( ( (
= = =
( ( (
+

______________________________________________________Elkin Castao V.

53
Entonces,
( )
Z
E Z = =
1 1 2
2 1 2
1 1
1 1
X
C

( ( (
= =
( ( (
+

y,
( ) '
Z X
Cov Z C C = = =
11 12
12 22
1 1 1 1
1 1 1 1

( ( (
( ( (

=
11 12 22 11 22
11 22 11 12 22
2
2

+ (
(
+ +

CAPTULO 3.

1. MUESTRAS ALEATORIAS

Una observacin multivariada consiste de las p mediciones
tomadas a una unidad experimental. Para la j-sima unidad
experimental,

j
X =
1
2
j
j
jp
x
x
x
(
(
(
(
(
(

, j=1,2,..,n

es la j-sima observacin multivariada.

______________________________________________________Elkin Castao V.

54
Si se eligen n unidades experimentales, antes de observarlas
sus valores son aleatorios, y el conjunto completo de ellas
puede ser colocado en una matriz aleatoria X de n x p,

X=
11 12 1p
11 12 1p
n1 n2 np
, , ,
, , ,
, , ,
X X X
X X X
X X X
(
(
(
(
(
(

=
1
2
(
(
(
(
(
(

'
'
'
n
X
X
X

donde,
j
X =
1
2
j
j
jp
X
X
X
(
(
(
(
(
(

, j=1,2,..,n

es la j-sima observacin multivariada.

Muestra aleatoria: si los vectores X
1
, X
2
, , X
n
, son
observaciones independientes de una misma distribucin
conjunta f(x)=f(x
1
, x
2
, , x
p
), entonces X
1
, X
2
, , X
n
es
llamada una muestra aleatoria de tamao n de la poblacin
f(x).

Observaciones:
______________________________________________________Elkin Castao V.

55
1) Las mediciones de las p variables en una sola unidad
experimental (o ensayo), generalmente estarn
correlacionadas. Sin embargo, las mediciones para
diferentes unidades deben ser independientes.

2) La independencia entre unidades experimentales puede
no cumplirse cuando las variables son observadas en el
tiempo. Por ejemplo, en un conjunto de precios de acciones
o de indicadores econmicos. La violacin del supuesto de
independencia puede tener un serio impacto sobre la calidad
de la inferencia estadstica.

Si X
1
, X
2
, , X
n
es una muestra aleatoria de una
distribucin conjunta con vector de medias y matriz de
covarianzas , entonces

a) E( X )= , es decir X es un estimador insesgado para .
b) Cov( X )=
1
n

c) E(S
n
)=
1 n
n
, es decir S
n
no es un estimador insesgado
para .
d) S=
1
n
n
S
n
=
1
1
( )( )
1
=

n
j j
j
X X X X
n
es un estimador
insesgado para .

______________________________________________________Elkin Castao V.

56
2. VARIANZA GENERALIZADA

Para una sola variable, la varianza muestral generalmente se
usa para describir la variacin de las mediciones de la
variable.

Cuando se observan p variables, una manera de describir su
variacin es usar la matriz de covarianzas muestral, S.

S contiene p varianzas y p(p-1)/2 covarianzas, las cuales
describen la variabilidad de los datos de cada variable y la
asociacin lineal para los datos de cada par de variables.

Otra generalizacin de la varianza muestral es llamada la
Varianza Generalizada muestral definida como,

Varianza generalizada muestral=|S|

A diferencia de S, |S| es un solo nmero.

Interpretacin geomtrica:

Considere el vector que contiene los datos para la i-sima
variable
______________________________________________________Elkin Castao V.

57
1i
2i
i
ni
y
y
y
y
(
(
(
=
(
(
(

y el vector de desviaciones con respecto a la media

1i i
2i i
i
ni i
y x
y x
d
y x
(
(
(
=
(
(

Para i=1,2, sean Ld
1
y Ld
2
sus longitudes.

El rea del trapezoide es |Ld
1
sen( )|Ld
2

Dado que

Ld
i
=
n
2
ji i ii
j 1
(x x ) (n 1)s
=
= , i=1,2
______________________________________________________Elkin Castao V.

58
y
12
12
11 22
s
r cos( )
s s
= =

Entonces

(rea)
2
=(n-1)
2
|S|
o,

Varianza Generalizada muestral, |S|=(n-1)
-2
(rea)
2

Por tanto, la VGM es proporcional al cuadrado del rea generada
por los vectores de desviaciones.
En general, para p vectores de desviaciones,

|S|=(n-1)
-p
(volumen)
2

Es decir, para un conjunto fijo de datos, la VGM es proporcional
al cuadrado del volumen generado por los p vectores de
desviaciones.

Observaciones:
1) Para una muestra de tamao fijo, |S| aumenta cuando:
a) La longitud de cualquier d
i
aumenta (o cuando s
ii

aumenta.
______________________________________________________Elkin Castao V.

59
b) Los vectores de desviaciones de longitud fija son
movidos hasta que formen ngulos rectos con los dems.

2) Para una muestra de tamao fijo |S| ser pequea cuando:
a)Uno de los s
ii
son pequeos
b)uno de los vectores cae cerca del hiperplano formado por
los otros.
c) Se dan los dos casos anteriores.

La VGM tambin tiene interpretacin en el grfico de dispersin
p dimensional que representa los datos. Se puede probar que el
volumen de la hiper-elipsoide dada por

p 1 2
{x R : (x x) 'S (x x) c }

______________________________________________________Elkin Castao V.

60
Es tal que

Volumen
p 1 2 1/ 2 p
p
({x R : (x x) 'S (x x) c }) k | S| c
=

Es decir,

(Volumen(hiper-elipsoide))
2
cons tan te | S| =

Por tanto, un volumen grande (datos muy dispersos) corresponde
a una VGM grande.

Observacin:
Aunque la VGM tiene interpretaciones intuitivas importantes,
sufre de debilidades.

Ejemplo. Interpretacin de la varianza generalizada
Suponga se tienen datos para tres vectores aleatorios
bidimensionales tales que tienen el mismo vector de media
muestral x'=[1, 2] y sus matrices de covarianza muestrales son

5 4
4 5
S
(
=
(

3 0
0 3
S
(
=
(

y
5 4
4 5
S
(
=
(

Los diagramas de dispersin correspondientes son los siguientes:
______________________________________________________Elkin Castao V.

61

Estos grficos muestran patrones de correlacin muy diferentes.
Cada matriz de covarianza muestral contiene la informacin sobre
la variabilidad de las variables y la informacin requerida para
calcular el coeficiente de correlacin muestral correspondiente.
En este caso S captura la orientacin y el tamao del patrn de
dispersin.

______________________________________________________Elkin Castao V.

62
Sin embargo, la varianza generalizada muestral, |S| da el mismo
valor, |S|=9 para los tres casos y no proporciona informacin
sobre la orientacin del patrn de dispersin. Solamente nos
informa que los tres patrones de dispersin tienen
aproximadamente la misma rea. Por tanto, la varianza
generalizada es ms fcil de interpretar cuando las muestras que
se comparan tienen aproximadamente la misma orientacin.

Se puede probar que S contiene la informacin sobre la
orientacin y el tamao del patrn de dispersin a travs de sus
valores propios y vectores propios:

La direccin de los vectores propios determinan la direcciones de
mayor variabilidad del patrn de dispersin de los datos, y
valores propios proporcionan informacin sobre la variabilidad en
cada una de estas direcciones.

La siguiente grfica muestra, para cada patrn de dispersin, las
direcciones de mayor variabilidad y el tamao de ella.

______________________________________________________Elkin Castao V.

63

3. LA VGM DETERMINADA POR R.

La VGM, |S|, est afectada por las unidades de medicin de cada
variable.

Por ejemplo, suponga que una s
ii
es grande o muy pequea.
Entonces, geomtricamente, el correspondiente vector de
______________________________________________________Elkin Castao V.

64
desviaciones d
i
es muy largo o muy corto, y por tanto ser un
factor determinante en el clculo del volumen.

En consecuencia, algunas veces es til escalar todos los vectores
de desviaciones de manera que todos tengan a misma longitud.

Esto se puede hacer reemplazando las observaciones x
jk
por su
valor estandarizado
jk k kk
(x -x )/ s . La matriz de covarianza
muestral de las variables estandarizadas es R, que es la matriz de
correlacin muestral de las variables originales.

Se define,
Varianza Generalizada
muestral de las | |
variablesestandarizadas
R
| |
|
=
|
|
\

Puesto que los vectores estandarizados

1k k kk
j2 k kk
nk k kk
(x -x )/ s
(x -x )/ s
(x -x )/ s
(
(
(
(
(
(
(

para k=1, 2, , p, tienen todos a misma longitud 1 n , la
varianza generalizada muestral de las variables estandarizadas
______________________________________________________Elkin Castao V.

65
ser grande cuando estos vectores sean aproximadamente
perpendiculares y ser pequea cuando dos o ms vectores estn
casi en la misma direccin.

Como para el caso de S, el volumen generado por los vectores de
desviaciones de las variables estandarizadas est relacionado con
la varianza generalizada como,

2
Varianza Generalizada
muestral de las | | ( 1) (volumen)
variablesestandarizadas
p
R n

| |
|
= =
|
|
\

Las varianzas generalizadas |S| y |R| estn conectadas por medio
de la relacin
11 22 pp
|S| =(s s ...s )|R|
Entonces,
______________________________________________________Elkin Castao V.

66
p p
11 22 pp
(n-1) |S| =(n-1) (s s ...s )|R|

Lo que implica que el cuadrado del volumen al cuadrado
p
(n-1) |S|
es proporcional al volumen al cuadrado
p
(n-1) |R| .

La constante de proporcionalidad es el producto de las varianzas,
la cual a su vez es proporcional al producto de las longitudes
cuadrticas de las (n-1)s
ii
de las d
i
.

4. OTRA GENERALIZACIN DE LA VARIANZA

La varianza total muestral se define como

varianza total muestral = s
11
+ s
22
++ s
pp

Geomtricamente, la varianza total muestral es la suma de los
cuadrados de las longitudes de p vectores de desviaciones,
dividido por n-1. Este criterio no tiene en cuenta la estructura de
correlacin de los vectores de desviaciones.

______________________________________________________Elkin Castao V.

67
CAPTULO 4.

LA DISTRIBUCIN NORMAL MULTIVARIADA

1. INTRODUCCIN

La generalizacin a varias dimensional de la densidad
normal univariada juega un papel fundamental en el anlisis
multivariado.

La importancia de la distribucin normal multivariada se
basa en su papel dual:

Muchos de los fenmenos naturales del mundo real
pueden ser estudiados por medio de la distribucin
normal multivariada.

Aunque el fenmeno estudiado no siga este modelo de
distribucin, las distribuciones de muchos de los
estadsticos usados en el anlisis multivariado tiene
una distribucin aproximadamente normal
multivariada.

______________________________________________________Elkin Castao V.

68
2. LA DENSIDAD NORMAL MULTIVARIADA Y SUS
PROPIEDADES

Recuerde que la distribucin normal univariada con media
y varianza
2
tiene una funcin de densidad de
probabilidad dada por:

2
1
2
2
1
( )
2
x
f x e x
| |
|
\
= < <

Si X es una variable aleatoria que sigue esta distribucin, se
denota como X ~ N( ,
2
).

En la grfica, estn representadas las reas bajo la curva dentro
del los intervalos y 2 . Estas reas son
probabilidades y en la normal

( ) 0.68 P X + =
______________________________________________________Elkin Castao V.

69
( 2 2 ) 0.95 P X + =

El trmino en el exponente

2
2 1
( )( ) ( )
x
x x
| |
=
|
\

Es la distancia cuadrtica de x a medida en unidades de
desviacin estndar. Esta cantidad puede ser generalizada para
un vector p-dimensional x de observaciones sobre p variables,
como
1 -
(x-)' (x-)

donde E(X)= y Cov(X)=, con simtrica y definida
positiva. La expresin
1 -
(x-)' (x-) es el cuadrado de la
distancia generalizada de x a .

La distribucin normal multivariada puede ser obtenida
reemplazando la distancia univariada por la distancia
generalizada en la densidad de la normal univariada.

Cuando se hace este reemplazo es necesario cambiar la
constante
1/ 2 2 1/ 2
(2 ) ( )

de la normal univariada por una
constante ms general de forma tal que el volumen bajo la
______________________________________________________Elkin Castao V.

70
superficie de la normal multivariada sea 1. La nueva
constante es
/ 2 1/ 2
(2 ) | |
p

.

La funcin de densidad de probabilidad normal multivariada
para un vector aleatorio X es

1
/ 2 1/ 2
1
(x- )' (x- )
1
2
(x)
(2 ) | |
p
f e

donde x
i
< <, i=1, 2, , p.

La distribucin normal multivariada se denota como
X ~ N( , ).

Ejemplo. La distribucin normal bivariada

Para p=2, la distribucin normal bivariada tiene vector de medias

1
2
(
=
(

y matriz de covarianza
11 12
12 22

(
=
(

.

La matriz inversa de es

______________________________________________________Elkin Castao V.

71
22 12 1
2
12 11
11 22 12
1

(
=
(

Reemplazando en la densidad multivariada general y haciendo
operaciones, se obtiene que la densidad de la normal bivariada es

2 2
1 1 2 2 1 1 2 2
12 2
12 11 22 11 22
1
2
2(1 )
1 2
2
11 22 12
1
( , )
2 (1 )
x x x x
f x x e

(
| | | | | || |

(
+ | | | |
| | | |
(
\ \ \ \

=

______________________________________________________Elkin Castao V.

72
Contornos de densidad de probabilidad constantes:

La densidad de la normal multivariada es constante sobre
superficies donde la distancia cuadrtica
-1
(x-)' (x-) es
constante. Estos conjuntos de puntos son llamados contornos.

Contorno de densidad
probabilidad constante
=
{ }
1 2
x : (x )' (x ) c
=

Un contorno corresponde a la superficie de una elipsoide
centrada en . Los ejes estn en la direccin de los vectores
propios de y sus ejes son proporcionales a las races
cuadradas de sus vectores propios.

Si
1 2
...
p
son los valores propios de y e
1
, e
2
, , e
p
,
son los correspondientes vectores propios, donde e e
i i
i
= ,
entonces el contorno dado por
{ }
1 2
x : (x )' (x ) c
= es
una elipsoide centrada en y cuyo eje mayor es
1 1
e c , el
segundo eje mayor es
2 2
e c , etc.

Ejemplo: Contornos de una normal bivariada
Considere la normal bivariada donde
11 22
= . Los ejes de los
contornos estn dados por los valores y vectores propios de .
______________________________________________________Elkin Castao V.

73
Los valores propios se obtienen como solucin a la
ecuacin | | 0 I = , o

11 12 2 2
11 12 11 12 11 12
12 11
0 ( ) ( )( )

= = = +

Por tanto los valores propios son

1 11 12
2 11 12

= +
=

El primer vector propio se determina como solucin a
1 1 1
e e = , es decir,

11 12 11 11
11 12
12 11 21 21
( )
e e
e e

( ( (
= +
( ( (

o,
11 11 12 21 11 12 11
12 11 11 21 11 12 21
( )
( )
e e e
e e e

+ = +
+ = +

Estas ecuaciones implican que e
11
= e
21
. Despus de
normalizacin, el primer par valor propio-vector propio es
______________________________________________________Elkin Castao V.

74
1 11 12
= + , e
1
=
1
2
1
2
(
(
(
(
(

De manera similar se determina el segundo vector propio
como solucin a
2 2 1
e e = , resultando el segundo par valor
propio-vector propio

2 11 12
= , e
2
=
1
2
1
2
(
(
(
(
(

Si la covarianza
12
( o la correlacin
12
) es positiva:

1 11 12
= + es el mayor valor propio y su vector propio
asociado e
1
=
1
2
1
2
(
(
(
(
(

cae sobre una recta de 45
o
a travs de
punto
1
2
(
=
(

. El eje mayor est determinado por

11 12
1
2
1
2
c
(
(
( +
(
(

______________________________________________________Elkin Castao V.

75
2
11 12
= es el menor valor propio y su vector propio
asociado e
2
=
1
2
1
2
(
(
(
(
(

cae sobre una recta perpendicular a la
recta de 45
o
a travs de punto
1
2
(
=
(

. El eje menor est
determinado por

11 12
1
2
1
2
c
(
(
(
(
(

Si la covarianza
12
( o la correlacin
12
) es negativa:

______________________________________________________Elkin Castao V.

76
2
11 12
= es el mayor valor propio y su vector propio
asociado e
2
=
1
2
1
2
(
(
(
(
(

cae sobre una recta perpendicular a la
recta de 45
o
a travs de punto
1
2
(
=
(

. El eje mayor est
determinado por
11 12
1
2
1
2
c
(
(
(
(
(

1 11 12
= + es el menor valor propio y su vector propio
asociado e
1
=
1
2
1
2
(
(
(
(
(

cae sobre una recta de 45
o
a travs de
punto
1
2
(
=
(

. El eje menor est determinado por

11 12
1
2
1
2
c
(
(
( +
(
(

______________________________________________________Elkin Castao V.

77
La densidad normal multivariada tiene un mximo valor
cuando la distancia cuadrtica
-1
(x-)' (x-) es igual a cero, es
decir, cuando x= . Por tanto el punto es el punto de
mxima densidad, o la moda, y tambin es la media.

Contornos para las distribuciones normales bivariadas graficadas

3. OTRAS PROPIEDADES DE LA DISTRIBUCIN NORMAL
MULTIVARIADA

1. Si un vector aleatorio X ~ N( , ), entonces toda
combinacin lineal de las variables en X,
1 1 2 2
' ...
p p
a X a X a X a X = + + + tiene una distribucin N( ' , ' a a a ).

2. Si ' a X tiene una distribucin N( ' , ' a a a ) para todo vector de
constantes
1 2
, ,...,
p
a a a a ( =

, entonces X ~ N( , ).

______________________________________________________Elkin Castao V.

78
3. Si un vector aleatorio X ~ N( , ), entonces el vector de q
combinaciones lineales de X,

11 1 12 2 1
21 1 22 2 2
1 1 2 2
p p
p p
q q qp p
a X a X a X
a X a X a X
AX
a X a X a X
+ + +
(
(
+ + +
(
=
(
(
+ + + (

tienen una distribucin N( , ' A A A ).

Ejemplo.
Suponga que X ~ N
3
( , ) y considere el vector de
combinaciones lineales

1
1 2
2
2 3
3
1 1 0
0 1 1
X
X X
X AX
X X
X
(
( (
(
= =
( (
(

(

Entonces AX ~ N
2
( , ' A A A ), donde

A =
1
1 2
2
2 3
3
1 1 0
0 1 1
(
( (
(
=
( (
(

(

y

______________________________________________________Elkin Castao V.

79
' A A =
11 12 13
12 22 23
13 23 33
1 0
1 1 0
1 1
0 1 1
0 1

( (
(
( (
(
( (

( (

' A A =
11 22 12 12 23 22 13
12 23 22 13 22 33 23
2
2

+ +
(
(
+ +

4. Si un vector aleatorio X ~ N
p
( , ), entonces todos los
subconjuntos de variables de X tienen distribucin normal
multivariada.

Ejemplo.
Suponga que X ~ N
5
( , ). Encuentre la distribucin del
subvector
1
2
X
X
(
(

.

Sea X=
1
2
1
3
2
4
5
X
X
X
X
X
X
X
(
(
(
(
(
=
(
(

(
(

, donde
1
X =
1
2
X
X
(
(

.

Entonces, por el resultado anterior

1
X ~ N
2
1 11 12
2 12 22
,

| | ( (
|
( (
\

______________________________________________________Elkin Castao V.

80
5. Si X=
1
2
X
X
(
(

~
1 2
1 11 12
2 21 22
,
q q
N
+
| |
( (
|
( (

\

, donde X
1
es de q
1
x1,
X
2
es de q
2
x1,
1
es el vector de medias de X
1
,
2
es el vector
de medias de X
2
,
11
es la matriz de covarianza de X
1
,
22
es la
matriz de covarianza de X
2
y
12
es la matriz de covarianza entre
las variables X
1
y X
2
, entonces X
1
y X
2
son independientes
estadsticamente si y slo si
12
=0.

Ejemplo.
Suponga que X ~ N
3
( , ), con
4 1 0
1 3 0
0 0 2
(
(
=
(
(

.

Son X
1
y X
2
independientes? No porque
12
0 .
Son
1
2
X
X
(
(

y X
3
independientes?
Observe que la matriz de covarianza entre
1
2
X
X
(
(

y X
3
es

cov
13 1
2 23
X 0
, X3
X 0
| | ( ( (
= =
|
( ( (
\

Por tanto,
1
2
X
X
(
(

y X
3
son independientes.
______________________________________________________Elkin Castao V.

81
Adems cada componente de
1
2
X
X
(
(

es independiente de X
3
.

6. Si X=
1
2
X
X
(
(

~
1 2
1 11 12
2 21 22
,
q q
N
+
| |
( (
|
( (

\

, donde X
1
es de q
1
x1, X
2

es de q
2
x1. Entonces la distribucin condicional de X
1
dado X
2
=
x
2
es normal multivariada con vector de media

1
1.2 1 12 22 21
= +


1
1.2 11 12 22 21
=

Ejemplo.
Suponga que X ~ N
2
( , ). Encuentre la distribucin condicional
de X
1
dado X
2
=x
2
.

Por resultado anterior, la distribucin condicional de

X
1
/ X
2
=x
2
~ N( )
1.2 1.2
,

donde
1
1.2 11 12 22 2 2
(x )
= + =
1
11 12 22 2 2
( ) x
+
______________________________________________________Elkin Castao V.

82
2
1 1
12
1.2 11 12 22 21 11 12 22 12 11
22

= = =

Observaciones.

i) En la regresin multivariada, la media condicional
1.2 1 2
( / ) E X X = es llamada la curva de regresin.

Sea
1, 1 1, 2 1,
2, 1 2, 2 2,
1
12 22
, 1 , 2 ,
q q p
q q p
q q q q q p

+ +
+ +
+ +
(
(
(
=
(
(
(

.

Entonces la curva de regresin en la normal multivariada,
1.2 1 2
( / ) E X X = , se puede escribir como

1 2
( / ) E X X
1 1 2
2 1 2
1 2
( / , , , , )
( / , , , , )
( / , , , , )
q q p
q q p
q q q p
E X X X X
E X X X X
E X X X X
+ +
+ +
+ +
(
(
(
=
(
(
(

=
1
1 12 22 2 2
(x )
+

=
1 1, 1 1 1 1, 2 2 2 1,
2 2, 1 1 1 2, 2 2 2 2,
, 1 1 1 , 2 2 2 ,
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
q q q q q q p p p
q q q q q q p p p
q q q q q q q q q q p p p
x x x
x x x
x x x

+ + + + + +
+ + + + + +
+ + + + + +
+ + + +
(
(
+ + + +
(
(
(
+ + + + (

______________________________________________________Elkin Castao V.

83
Es decir,

1 1 2 01 1, 1 1 1, 2 2 1,
2 1 2 02 2, 1 1 2, 2 2 2,
1 2 0 , 1 1 , 2 2 ,
( / , , , , )
( / , , , , )
( / , , , , )
q q p q q q q p p
q q p q q q q p p
q q q p q q q q q q q q p p
E X X X X x x x
E X X X X x x x
E X X X X x x x

+ + + + + +
+ + + + + +
+ + + + + +
+ + + +
( (
( (
+ + + +
( (
=
( (
( (
+ + + + ( (

Esto implica que, cuando la distribucin conjunta de las
variables en una regresin (dependientes e independientes)
es normal multivariada, todas las curvas de regresin son
lineales.

ii) La matriz de covarianza condicional
1
1.2 11 12 22 21
=
es constante pues no depende de los valores de las variables
condicionantes. Por tanto, la curva de regresin es
homocedstica.

7. Si un vector aleatorio X ~ N( , ), entonces

1 -
(x-)' (x-) ~
2
p

______________________________________________________Elkin Castao V.

84
4. MUESTREO EN LA DISTRIBUCIN NORMAL MULTIVARIADA
Y ESTIMACIN DE MXIMA VEROSIMILITUD

Suponga que
1 2
, ,..., ,
n
X X X es una muestra aleatoria de una
poblacin N( , ).

Entonces, la funcin de densidad de probabilidad conjunta
de
1 2
, ,...,
n
X X X es

( ) ( )
1
j j
1
x ' x
2
1 2 n
/ 2 1/ 2
1
1
(x , x ,..., x )
(2 ) | |

=

=
`

)

n
p
j
f e

1
1
x ' x
j j
2
1
1
(x , x ,..., x )
n 1 2
/ 2 / 2
(2 ) | |
| | | |
| |
\ \
=
=

n
j
f e
np n

Cuando se observan los valores de la muestra y son sustituidos la
funcin anterior, la ecuacin es considerada como una funcin de
y dadas las observaciones x
1
, x
2
, , x
n
y es llamada la
funcin de verosimilitud. Se denotar como ( , ) L .

Una manera de obtener los estimadores para y es
seleccionarlos como aquellos que maximicen a ( , ) L . Este
procedimiento proporciona los estimadores mximo verosmiles
para y , dados por
______________________________________________________Elkin Castao V.

85
X =
1
1 1
( )( )'
n
j j
j
n
X X X X S
n n
=
= =

Los valores observados de y
son llamadas estimaciones

mximo verosmiles (EMV) de y .

Propiedades.

Los estimadores mximo verosmiles poseen la propiedad de
invarianza. Sea
el EMV para , y sea ( ) h una funcin

continua de . Entonces el EMV para ( ) h est dado por
( ) h .
Es decir

( ) ( ) h h = .

Por ejemplo, el EMV para la funcin ' es
' .
El EMV para
ii
es
ii
, donde

2
1
1
( )
n
ii ji i
j
X X
n
=
=

es el EMV para ( )
ii i
Var X =

______________________________________________________Elkin Castao V.

86
5. DISTRIBUCIONES MUESTRALES DE X y S

Suponga que
1 2
, ,..., ,
n
X X X es una muestra aleatoria de una
poblacin N
p
( , ). Entonces,

1. ~ X N
p
(
1
,
n
).

2. (n-1)S tiene una distribucin Wishart con n-1 grados de
libertad, la cual es una generalizacin de la distribucin chi-
cuadrado.

3. X y S son independientes estadsticamente.

6. COMPORTAMIENTO DE X y S EN MUESTRAS GRANDES

La ley de los grandes nmeros. Sean Y
1
, Y
2
, , Y
n

observaciones independientes de una poblacin univariada con
media E(Y
i
)= . Entonces,
1
1
n
j
Y Y
n
=
= converge en
probabilidad a la verdadera media , a medida que n crece sin
cota. Es decir, que para todo 0 > ,

lim | | 1
n
P Y
( < =

______________________________________________________Elkin Castao V.

87
Empleando este resultado fcilmente se puede probar que, en
el caso multivariado,

El vector X converge en probabilidad al vector

S o
convergen en probabilidad a .

La interpretacin prctica de estos resultados es que:

No se requiere de normalidad multivariada para que se de la
convergencia. Solamente se necesita que exista el vector de
medias poblacional.

Con alta probabilidad X estar cerca al vector y S
estar cerca a cuando el tamao muestral es grande.

Teorema Central del Lmite. Suponga que
1 2
, ,..., ,
n
X X X son
observaciones independientes de una poblacin con vector de
medias y matriz de covarianza . Entonces,

( ) n X tiene aproximadamente una distribucin N
p
( , 0 ).
o,
X tiene aproximadamente una distribucin N
p
(
1
,
n
)
______________________________________________________Elkin Castao V.

88
cuando n-p es grande.

Observe la diferencia con el caso en el cual la muestra es
tomada de una poblacin N
p
( , ) donde X tiene
exactamente una distribucin N
p
(
1
,
n
).

Suponga que
1 2
, ,..., ,
n
X X X son observaciones independientes
de una poblacin con vector de medias y matriz de
covarianza . Entonces,

1
( ) ' ( ) n X S X
tiene aproximadamente una distribucin

2
p

cuando n-p es grande.

7. VERIFICACIN DEL SUPUESTO DE NORMALIDAD
MULTIVARIADA

La mayora de las tcnicas del anlisis multivariado supone
que las observaciones proceden de una poblacin normal
multivariada.

Sin embargo, si la muestra es grande, y las tcnicas empleadas
solamente depende del comportamiento de X o de distancias
______________________________________________________Elkin Castao V.

89
relacionadas con X de la forma
1
( ) ' ( ) n X S X
, el
supuesto de normalidad es menos crucial, debido a los
resultados lmites antes vistos. Sin embargo, la calidad de la
inferencia obtenida por estos mtodos depende de qu tan
cercana est la verdadera poblacin de la distribucin normal
multivariada.

Por tanto es necesario desarrollar procedimientos que permitan
detectar desviaciones de la poblacin patrn con respecto a la

Basados en las propiedades de la distribucin normal
multivariada, sabemos que todas las combinaciones lineales de
las variables de vector son normales y que los contornos de la
distribucin normal multivariada son elipsoides. Por tanto, en
la verificacin de la normalidad multivariada se debera
responder a:

Las marginales de las variables en el vector X parecen ser
normales?
Algunas combinaciones lineales de las variables en X
parecen ser normales?
Los diagramas de dispersin de los pares de variables de X
presentan una apariencia elptica?
______________________________________________________Elkin Castao V.

90
Existen observaciones inusuales que deberan ser
confirmadas?

Evaluacin de la normalidad univariada

Las ayudas grficas siempre importantes en el anlisis. Por
ejemplo:

Para n pequeos se usan los diagramas de puntos.
Para moderados y grandes se usan el grfico de cajas y los
histogramas

Estos grficos permiten detectar asimetras, es decir
situaciones donde una cola es ms grande que la otra.

Si los grficos para X
i
parecen razonablemente simtricos, se
procede a chequear el nmero de observaciones en ciertos
intervalos. La distribucin normal asigna probabilidad de 0.683
al intervalo ( , )
i i i i
+ y de 0.954 al intervalo
( 2 , 2 )
i i i i
+ . Por tanto, para n grande se esperara que:

La proporcin
1
i
p de observaciones que caen en el intervalo
( , )
i ii i ii
x s x s + est alrededor de 0.683.

______________________________________________________Elkin Castao V.

91
Similarmente, la proporcin
2
i
p de observaciones que caen
en el intervalo ( 2 , 2 )
i ii i ii
x s x s + est alrededor de 0.954.

Usando la aproximacin normal para las proporciones
muestrales, es decir, que para n grande
(1 )
,
dist
ik ik
ik ik
p p
p N p
n
| |
|
\
, k=1,2. Entonces si,

1
(0.683)(0.317) 1.396
| 0.683| 3
i
p
n n
> =

o si,
2
(0.954)(0.046) 0.628
| 0.954| 3
i
p
n n
> =

Sera indicativo de alejamientos de la distribucin normal.

El grfico cuantil-cuantil o grfico Q-Q. Son grficos
especiales que pueden se usados para evaluar la normalidad de
cada variable.

En ellos se grafican los cuantiles muestrales contra los
cuantiles que se esperara observar si las observaciones
realmente provienen de una distribucin normal.

______________________________________________________Elkin Castao V.

92
Los pasos para construir un grfico Q-Q son:

i) Ordene las observaciones originales de menor a
mayor. Sean x
(1)
, x
(2)
, , x
(n)
. Las probabilidades
correspondientes a ellos son (1-
1
2
)/n, (2-
1
2
)/n, ,
(n-
1
2
)/n.
ii) Calcule los cuantiles de la normal estndar q
(1)
, q
(2)
,
, q
(n)
, correspondientes a dichas probabilidades.
iii) Grafique los pares de observaciones (q
(1)
, x
(1)
),
(q
(2)
,x
(2)
), , (q
(n)
, x
(n)
).

Si los datos proceden de una distribucin normal, estos pares
estarn aproximadamente relacionados por la relacin lineal
x
(j) +
q
(j)
. Por tanto, cuando los puntos caen muy prximos a
una lnea recta, la normalidad es sostenible.

Ejemplo.
Considere una muestra de n=10 observaciones, las cuales fueron
ordenadas de menor a mayor en la siguiente tabla.
______________________________________________________Elkin Castao V.

93

Por ejemplo, el clculo del cuantil de la N(0,1), para una
probabilidad de 0.65 busca el cuantil que satisface

(7)
[ ] 0.65 P Z q =

Para esta distribucin, el cuantil es q
(7)
=0.385, puesto que

2
0.385 / 2
1
[ 0.385] 0.65
2
z
P Z e dz
= =

La construccin del grfico Q-Q se basa en el diagrama de
dispersin de los puntos (q
(j)
, x
(j)
), j=1, 2, , 10.

______________________________________________________Elkin Castao V.

94

los cuales caen muy cerca de una recta, lo que conduce a no
rechazar que estos datos provengan de una distribucin normal.

Ejemplo.
El departamento de control de calidad de una empresa que
produce hornos micro-ondas requiere monitorear la cantidad de
radiacin emitida por ellos cuando tienen la puerta cerrada.
Aleatoriamente se eligieron n=42 hornos y se observ dicha
cantidad.

______________________________________________________Elkin Castao V.

95

El grfico Q-Q para estos datos es

La apariencia del grfico indica que los datos no parecen provenir
de una distribucin normal. Los puntos sealados con un crculo
______________________________________________________Elkin Castao V.

96
son observaciones atpicas, pues estn muy lejos del resto de los
datos.

Observacin.
Para esta muestra, varias observaciones son iguales
(observaciones empatadas). Cuando esto ocurre, a las
observaciones con valores iguales se les asigna un mismo cuantil,
el cual se obtiene usando el promedio de los cuantiles que ellas
hubieran tenido si hubieran sido ligeramente distintas.

La linealidad de un grfico Q-Q puede ser medida calculando
el coeficiente de correlacin para los puntos del grfico,

( ) ( )
1
2
2
( ) ( )
1 1
( )( )
( ) ( )
n
j j
j
Q
n n
j j
j j
x x q q
r
x x q q
=
= =

=

Basados en l, se puede construir una prueba potente de
normalidad (Filliben, 1975; Looney y Gulledge, 1985; Shapiro y
Wilk, 1965). Formalmente, se rechaza la hiptesis de
normalidad a un nivel de significancia si r
Q
< r
Q
( ,n) donde
los valores crticos r
Q
( ,n) se encuentran en la siguiente tabla.

______________________________________________________Elkin Castao V.

97
Valores crticos para el coeficiente de correlacin
del grfico Q-Q para probar normalidad

Ejemplo.
Para el primer ejemplo donde n=10, el clculo del coeficiente de
correlacin entre los puntos (q
(j)
, x
(j)
), j=1, 2, , 10, del grfico
Q-Q, es
8.584
0.994
8.472 8.795
Q
r = =

Para un nivel de significancia =0.10, el valor crtico es
(0.10, 10) 0.9351
Q
r = . Como (0.10, 10)
Q Q
r r > , no rechazamos la
hiptesis de normalidad.
______________________________________________________Elkin Castao V.

98
Observacin.
Para muestras grandes, las pruebas basadas en r
Q
y la de Shapiro
Wilk, una potente prueba de normalidad, son aproximadamente
las mismas.

Anlisis de combinaciones lineales de las variables en X

Considere los valores propios de S,
1 2

...
p
y sus
correspondientes vectores propios
1 2 p
e , e , ..., e . Se sugiere
verificar normalidad para las combinaciones lineales

'
1 j
e X y
'
p j
e X

donde
1 p
e y e son los vectores propios correspondientes al
mayor y menor valor propio de S, respectivamente.

Evaluacin de la Normalidad Bivariada
Si las observaciones fueran generadas por un distribucin normal
multivariada, todas las distribuciones bivariadas seran ser
normales y los contornos de densidad constante deberan se
elipses. Observe el siguiente diagrama de dispersin generado por
una muestra simulada de una normal bivariada.

______________________________________________________Elkin Castao V.

99

Adems, por resultado anterior, el conjunto de puntos bivariados
x tal que
-1
(x-)' (x-)
2
2
( )

tendr un probabilidad .

Por ejemplo, si =0.5, para muestras grandes se esperara que
alrededor del 50% de las observaciones caigan dentro de la elipse
dada por

{ }
1 2
2
x : (x x)' (x x) (0.5) S

Si no es as, la normalidad es sospechosa.
______________________________________________________Elkin Castao V.

100
Ejemplo.
Considere los pares de datos para las variables x
1
= ventas y
x
2
=ganancias para las 10 mayores corporaciones industriales de
E.U. Observe que este conjunto de datos no forman una muestra
aleatoria.

Para estos datos

63.309
2927
x
(
=
(

,
5
10005.20 255.76
x10
255.76 14.30
S
(
=
(

y

1 5
0.000184 0.003293
x10
.003293 0.128831
S

(
=
(

Para =0.5, de la distribucin chi-cuadrado en dos grados de
libertad,
2
2
(0.5) =1.39. Entonces, cualquier observacin x=(x
1
, x
2
)
______________________________________________________Elkin Castao V.

101
que satisface

'
1 1 5
2 2
62.309 62.309 0.000184 0.003293
x10 1.39
2927 .003293 0.128831 2927
x x
x x
| | ( ( (

|
( ( (

\

Debe estar sobre o dentro del contorno estimado del 50% de
probabilidad.

Para las 10 observaciones sus distancias generalizadas son 4.34,
1.20, 0.59, 0.83, 1.88, 1.01, 1.02, 5.33, 0.81 y 0.97. Si los datos
proceden de una distribucin normal, se esperara que
aproximadamente el 50% de las observaciones caiga dentro o
sobre el contorno estimado anterior, o dicho de otro modo, el 50%
de las distancias calculadas deberan ser menores o iguales que
1.39. Se observa que 7 de estas distancias son menores que 1.39,
lo que implica que la proporcin estimada es de 0.70. La gran
diferencia entre de esta proporcin con 0.50 proporciona
evidencia para rechazar normalidad bivariada en estos datos. Sin
embargo, la muestra es muy pequea para permitir obtener esta
conclusin.

______________________________________________________Elkin Castao V.

102
El procedimiento anterior es til, pero bastante burdo. Un
mtodo ms formal para evaluar la normalidad conjunta est
basado en las distancias cuadrticas generalizadas,

2
j
d =
1
j j
(x x) ' (x x) S
, j=1, 2, ,n

El siguiente procedimiento, el cual no est limitado al caso
divariado, y puede ser usado par p2. Para n-p grande, las
distancias
2
j
d , j=1, 2, , n, deberan comportarse como una
variable chi-cuadrado. Aunque estas distancia no son
independientes, o exactamente chi-cuadrado, es til graficarlas
como si lo fueran. El grfico resultante es llamado grfico chi-
cuadrado, y se construye de la siguiente manera:

i) Ordene las distancias de menor a mayor como
2 2 2
(1) (2) ( ) n
d d d .
ii) Grafique los pares (q
c,p
((j-1/2)/n),
2
j
d ), para j=1, 2, , n,
donde q
c,p
((j-1/2)/n) es el cuantil q
c,p
((j-1/2)/n) de la
distribucin chi-cuadrado con p grados de libertad.

Bajo normalidad, el grfico debera mostrar un patrn lineal a
travs del origen y con pendiente 1. Un patrn sistemticamente
curvo sugiere falta de normalidad.

______________________________________________________Elkin Castao V.

103
Ejemplo.
Grfico chi-cuadrado para el ejemplo anterior. Las distancias
ordenadas y los correspondientes percentiles chi-cuadrado
aparecen en la siguiente tabla.

A continuacin se presenta el grfico chi-cuadrado para esos
datos.

______________________________________________________Elkin Castao V.

104
Se observa que los puntos no caen en una lnea recta de pendiente
1. Las distancias pequeas parecen demasiado grandes y las
distancias del medio parecen ser demasiado pequeas con
respecto a las distancias esperadas en una normal bivariada.
Debido a que la muestra es pequea no se puede obtener una
conclusin definitiva.

8. DETECCIN DE OBSERVACIONES INUSUALES O ATPICAS

La mayora de los conjuntos de datos contienen unas pocas
observaciones inusuales que no parecen pertenecer al patrn de
variabilidad seguido por las otras observaciones.

Estas observaciones son denominadas observaciones atpicas y
antes de proceder a identificarlas se debe enfatizar que no todas
las observaciones atpicas son nmeros equivocados. Ellas
pueden formar parte del grupo y pueden conducir a
comprender mejor el fenmeno que se est estudiando.

La deteccin de observaciones atpicas puede ser mejor
realizada visualmente, es decir por medio de grficos.

______________________________________________________Elkin Castao V.

105
El caso de una variable: Se deben buscar observaciones que
estn lejos de las dems. Para visualizarlas podemos usar, por
ejemplo, diagramas de puntos (muestras pequeas) o grficos
de cajas esquemticas.

Ejemplo.
Considere el siguiente diagrama de puntos para una variable

El diagrama de puntos revela una sola observacin grande.

El caso de dos variables: En el caso bivariado la situacin es
ms complicada. Considere el siguiente diagrama de
dispersin con diagramas de puntos marginales, en el cal
parecen existir dos observaciones inusuales.

______________________________________________________Elkin Castao V.

106

El dato sealado con un crculo arriba a la derecha est lejos del
patrn de los datos. Su segunda coordenada es grande con
relacin al resto de mediciones para la variable x
2
, como lo
muestra el diagrama de puntos vertical.

El segundo dato atpico, tambin sealado con un crculo, est
lejos del patrn elptico del resto de puntos, pero separadamente
cada una de sus componentes tiene un valor tpico. Esta
observacin atpica no puede ser detectada por medio de
diagramas de puntos marginales.

______________________________________________________Elkin Castao V.

107
Para el caso bivariado el diagrama de dispersin proporciona la
informacin visual requerida para detectar datos atpicos. Sin
embargo, en altas dimensiones, los datos atpicos pueden no ser
detectados por grficos univariados o an diagramas de
dispersin. En estas situaciones se recomienda usar grficos
multivariados vistos anteriormente, tales como las curvas de
Andrews, las grficas de caras y de estrellas. Estos grficos son
muy potentes para detectar casos atpicos multivariados.

Adems, en altas dimensiones un valor grande de

2
j
d =
1
j j
(x x) ' (x x) S
, j=1, 2, ,n,

sugerir una observacin inusual, aunque no la hallamos
visualizado grficamente.

Pasos para la deteccin de observaciones atpicas

1) Haga un diagrama de puntos o un grfico de cajas para cada
variable.

2) Haga un diagrama de dispersin para cada par de variables.

______________________________________________________Elkin Castao V.

108
3) Calcule los valores estandarizados ( ) /
jk jk k kk
z x x s = , para
j=1, 2, , n y k=1, 2, , p. Examine estos nk valores
conjuntamente para detectar observaciones muy grandes o
muy pequeas.

4) Calcule las distancias estandarizadas
2
j
d =
1
j j
(x x) ' (x x) S
,
j=1, 2, ,n. Examine aquellas distancia inusualmente grandes.

Observaciones.
i) En el paso 3, grande debe ser interpretado con respecto
al tamao de la muestra y al nmero de variables. Por
ejemplo, cuando n=100 y p=5, hay 500 valores. Puesto que,
para una normal estndar P[|Z|>3]=0.0026, entonces
esperaramos que 1 o 2 excedan el valor de 3 o sean
menores que -3, puesto nx P[|Z|>3]=500x0.0026=1.3.
Como una gua se puede usar 3.5 como un valor grande en
muestras moderadas.

ii) En el paso 4., grande est medido por el percentil de la
distribucin chi-cuadrado con p grados de libertad. Por
ejemplo, si n=100, se debera esperar que 5 observaciones
excedan el percentil 0.05-superior de la distribucin chi-
cuadrado. Un percentil ms extremo debe servir para
______________________________________________________Elkin Castao V.

109
determinar las observaciones que no se ajustan al patrn del
resto de datos.

Ejemplo.
La siguiente tabla presenta los datos para 4 variables que indican
la rigidez de tablas de madera. Tambin se presentan los datos
estandarizados y sus distancias generalizadas cuadrticas.

______________________________________________________Elkin Castao V.

110
La ltima columna revela que la observacin 16 es una
observacin atpica multivariada, puesto que
2
4
(0.005) 14.86 = . La
observacin 9 tambin tiene una gran distancia
2
j
d .

Estas dos observaciones son claramente diferentes de las dems
observaciones y le dan apariencia de curvo al patrn que exhibe
el correspondiente grfico chi-cuadrado

Una vez han sido removidas, el patrn que queda se ajusta a una
recta.

El siguiente grfico presenta la matriz de diagramas de dispersin
para estos datos.

______________________________________________________Elkin Castao V.

111

Los puntos slidos corresponden a las observaciones 9 y 16.
Aunque la observacin 16 cae siempre lejos en todos los
grficos, la observacin 9 se esconde en el diagrama de
dispersin de x
3
contra x
4
, y casi se esconde en el de x
1
contra x
3
.

8. TRANSFORMACIONES PARA ACERCAR A LA NORMALIDAD

Si la normalidad no es un supuesto viable, cul es el siguiente
paso a seguir?

______________________________________________________Elkin Castao V.

112
Ignorar la no normalidad y proceder como si los datos fueron
normalmente distribuidos. Esta prctica no es recomendada,
puesto que, en muchos casos, conducira a conclusiones
incorrectas.

Hacer que los datos no normales parezcan ms normales
haciendo transformaciones sobre los datos originales. A
continuacin se pueden realizar los anlisis basados en la teora
normal sobre los datos transformados.

Las transformaciones son solamente reexpresiones de los datos
en diferentes unidades. Por ejemplo, cuando un histograma de
observaciones positivas muestra una gran cola derecha, una
transformacin de ellos tomando el logaritmo o la raz
cuadrada generalmente mejora la simetra con respecto a la
media y aproxima la distribucin a la normalidad.

Las transformaciones pueden ser sugeridas por
consideraciones tericas o por los datos mismos.

Consideraciones tericas: Por ejemplo, los datos de conteos
pueden ser ms normales si se les toma la raz cuadrada.
Similarmente, para datos de proporciones la transformacin
logit y la transformacin de Fisher para coeficientes de
______________________________________________________Elkin Castao V.

113
correlacin, proporcionan cantidades que estn
aproximadamente normalmente distribuidas.

Escala original Escala transformada
1. Conteos, y y
2. Proporciones, p logit( p )=
1
log( )
2 1
p
p

3. Correlaciones, r La transf. de Fisher z(r)=
1 1
log( )
2 1
r
r
+

Transformaciones sugeridas por los mismos datos: en algunos
casos la transformacin para mejorar la aproximacin a
normalidad no es obvia. En esta situacin es conveniente dejar
que los datos sugieran una transformacin.

Una familia de transformaciones til para este propsito es la
familia de transformaciones potenciales. Existe un mtodo
analtico conveniente para escoger una transformacin
potencial dentro de dicha familia.

Box y Cox (1964) consideran la familia de transformaciones
potenciales

______________________________________________________Elkin Castao V.

114
( )
1
, 0
ln( ), 0
x
x
x

La cual es continua en para x>0.

Dadas las observaciones x
1
, x
2
, , x
n
, la solucin de Box y
Cox para escoger la transformacin adecuada, es aquella
que maximiza la expresin

( )
2
( ) ( )
1 1
1
( ) ln ( 1) ln
2
n n
j j
j j
n
l x x x
n

= =
(
= + (
(

donde
( ) ( )
1
1
n
j
j
x x
n

=
= , es la media aritmtica de las
observaciones transformadas.

La expresin ( ) l es, aparte de una constante, el logaritmo de
la funcin de verosimilitud de una normal, despus de haberla
maximizado con respecto a los parmetros de media y
varianza.

El proceso de maximizacin es fcil de realizar por medio de
un computador, seleccionando muchos diferentes valores para
y calculando el respectivo valor de ( ) l . Es til hacer un
______________________________________________________Elkin Castao V.

115
grfico de ( ) l versus para estudiar el comportamiento en
el valor de mximo
.

Algunos autores, recomiendan un procedimiento equivalente
para encontrar , creando una nueva variable

( )
1
1/
1
1
j
j
n
n
j
j
x
y
x
=
(
| |
(
|
(
\

, j=1, 2, , n

y calculando su varianza muestral. El mnimo de la varianza
ocurre en el mismo valor que maximiza ( ) l .

Ejemplo.
Para los n=42 datos de la radiacin de hornos micro-ondas con la
puerta cerrada, el grfico Q-Q indica que las observaciones se
desvan de lo que esperaramos si fueran normalmente
distribuidas. Puesto que todas las observaciones son positivas, se
puede utilizar una transformacin potencial de los datos con la
esperanza de acercarlos a la normalidad.

Los pares ( , ( ) l ), en el proceso de bsqueda se encuentran en la
siguiente tabla.

______________________________________________________Elkin Castao V.

116

El grfico de ( ) l contra , nos permite determinar el mximo
con ms precisin, el cual se alcanza en
=0.28. Por
conveniencia elegimos
=0.28=1/4.

Los datos son transformados como

______________________________________________________Elkin Castao V.

117
1/ 4
(1/ 4)
1
(1/ 4)
j
j
x
x
= , j=1, 2, , 42.

Para verificar si los datos transformados son ms normales, a
continuacin se presenta su grfico cuantil-cuantil.

Los pares de cuantiles caen muy cerca de una recta, lo que
permite concluir que
(1/ 4)
j
x es aproximadamente normal.

Transformacin de las Observaciones Multivariadas

Para las observaciones multivariadas se debe seleccionar una
transformacin para cada una de las variables. Sean
1 2
, , ,
p
las transformaciones potenciales para las p
variables. Las transformaciones pueden ser obtenidas:
______________________________________________________Elkin Castao V.

118
Individualmente. Para cada una de las variables se escoge la
transformacin usando el procedimiento anterior. La j-
sima observacin transformada es

1
2
( )
1
1
( )
2
()
j
2
( )
1
x
1
p
j
j
jp
p
x
x
x
(
(
(
(
(
=
(
(
(
(
(
(

donde
1 2

, , ,
p
son los valores que individualmente
maximizan a ( )
k
l , k=1, 2, , p.

Este procedimiento es equivalente a hacer cada distribucin
aproximadamente normal. Aunque la normalidad marginal
de cada componente no es suficiente para garantizar que
todas la distribucin conjunta sea normal multivariada,
frecuentemente esta condicin es suficiente.

Si no lo es, se pueden usar estos valores
1 2

, , ,
p
como
valores iniciales para obtener un conjunto de valores
______________________________________________________Elkin Castao V.

119
' =
1 2
, , ,
p
(

los cuales conjuntamente maximizan la
funcin

( )
1 2 1 1
1
2 2
1 1
, , , ln | ( ) | ( 1) ln
2
( 1) ln ( 1) ln
n
p j
j
n n
j p jp
j j
n
l S x
x x

=
= =
= +
+ + +

Donde ( ) S es la matriz de covarianza muestral calculada
usando las observaciones multivariadas transformadas

1
2
( )
1
1
( )
2
()
j 2
( )
1
1
x
1
p
j
j
jp
p
x
x
x
(
(
(
(
(
=
(
(
(
(
(
(

, j=1, 2, , n

y
( )
1 2
, , ,
p
l es (parte de la constante) la funcin de
verosimilitud de la normal multivariada despus de
maximizarla con respecto a y a .

La maximizacin de la funcin anterior
( )
1 2
, , ,
p
l no es
solamente ms difcil que la maximizacin de las funciones
______________________________________________________Elkin Castao V.

120
individuales ( )
k
l , sino que puede no proporcionar mejores
resultados (Hernndez y Johnson (1980).

Ejemplo.
Las mediciones de la radiacin tambin fueron recogidas para los
mismos n=42 hornos del ejemplo anterior, pero con las puertas
abiertas. El siguiente es el grfico Q-Q para los nuevos datos,
cuyo patrn curvo, se aleja de la normalidad.

La seleccin de una transformacin para normalizar los datos
produce un
=0.30, la cual se aproxim a 0.25 por conveniencia.

El siguiente es el grfico Q-Q para los datos transformados.

______________________________________________________Elkin Castao V.

121

Se observa que los datos transformados estn ms cerca de la
normalidad que los datos sin transformar. Sin embargo, la
aproximacin no es tan buena como en el caso de los datos para
las puertas cerradas.

Consideremos ahora la distribucin conjunta de las dos variables
y determinemos simultneamente el par de potencias (
1 2
, ) que
aproximan la distribucin a una normal bivariada. La
maximizacin de l(
1 2
, ) produce el par de transformaciones
potenciales (
1 2

, )=(0.16, 0.16), las cuales no difieren
sustancialmente de las obtenidas en forma univariada.

______________________________________________________Elkin Castao V.

122

radiac<-read.table("c:/unal/datos/j-wdata/radiac_cerr_abier.dat", header = TRUE)
list(radiac)
attach(radiac)

# obtencin de los grficos Q-Q para evaluar normalidad univariada
par(mfrow=c(1,2))
qqnorm(cerrada); qqline(cerrada)
qqnorm(abierta); qqline(abierta)

#obtencin del grfico chi-cuadrado para evaluar normalidad bivariada
library(mvoutlier)
chisq.plot(radiac)

# obtencin de las transformaciones potenciales para cada variable individual
# llamar la librera car
library(car)
box.cox.powers(abierta)
box.cox.powers(cerrada)

# obtencin de las transformaciones potenciales simultneas
box.cox.powers(radiac)

# transformacin de los datos: se usan transformaciones de 0.25 para cada variable
cerr_t=cerrada^0.25
abie_t=abierta^0.25

# obtencin de los grficos Q-Q individuales para las dos variables transformadas
par(mfrow=c(1,2))
qqnorm(cerr_t); qqline(cerr_t)
qqnorm(abie_t); qqline(abie_t)

______________________________________________________Elkin Castao V.

123
CAPTULO 5.

ANLISIS DE COMPONENTES PRINCIPALES

1. INTRODUCCIN

El objetivo del anlisis de componentes principales es explicar la
estructura de la matriz de covarianza de un conjunto de variables
por medio de unas pocas combinaciones lineales de las variables
originales. Su propsito general es proporcionar una reduccin de
datos y facilitar la interpretacin.

Aunque se necesitan las p componentes principales para
reproducir toda la variabilidad del sistema, generalmente la
mayor parte de esa variabilidad es explicada por un nmero
pequeo k de componentes principales. En estos casos las k
primeras componentes principales reemplazan las p variables
originales, logrando una reduccin del sistema original.

Con frecuencia, el anlisis de componentes principales revela
relaciones de las que no se sospechaba inicialmente, y por
tanto este anlisis permite interpretaciones de los datos que no
podran ser derivadas directamente de las variables originales.

______________________________________________________Elkin Castao V.

124
2. COMPONENTES PRINCIPALES POBLACIONALES

Algebraicamente, las componentes principales son
combinaciones lineales especiales de las p variables aleatorias
X
1
, X
2
, , X
p
de un vector p-dimensional X.

Geomtricamente, estas combinaciones lineales representan la
seleccin de un nuevo sistema de coordenadas que se obtiene
al rotar el sistema original donde X
1
, X
2
, , X
p
son los ejes de
coordenadas.

Los nuevos ejes representan las direcciones ortogonales con
variabilidad mxima y proporciona una descripcin ms
simple y ms parsimoniosa de la estructura de covarianza.

El desarrollo del procedimiento de componentes principales no
requiere del supuesto de la normalidad multivariada. Sin
embargo, las componentes principales derivadas de
poblaciones normales multivariadas tienen interpretaciones
muy tiles en trminos de elipsoides de densidad constante.
Adems, en este caso se puede hacer inferencia basada en las
componentes principales muestrales.

______________________________________________________Elkin Castao V.

125
Suponga que
X=
1
2
p
X
X
X
(
(
(
(
(
(

es un vector aleatorio que tiene una matriz de covarianza con
valores propios
1 2
0
p
.

Considere las siguientes combinaciones lineales

1 1 11 1 12 2 1
2 2 21 1 22 2 2
1 1 2 2
'
'
'
p p
p p
p p p p pp p
Y a X a X a X a X
Y a X a X a X a X
Y a X a X a X a X
= = + + +
= = + + +
= = + + +

Entonces,
'
( )
i i i
Var Y a a = , para i=1, 2, , p
'
( , )
i k i k
Cov Y Y a a = , para i, k= i=1, 2, , p

Las componentes principales son aquellas combinaciones
lineales Y
1
, Y
2
, , Y
p
, que no estn correlacionadas y cuyas
varianzas son tan grandes como sea posible.
______________________________________________________Elkin Castao V.

126
La primera componente principal es la combinacin lineal con
varianza mayor. Es decir es aquella que maximiza
1 1 1
'
( ) Var Y a a = . Puesto que dicha varianza puede ser
incrementada multiplicando a a
1
por una constante, se debe
eliminar esta indeterminacin eligiendo el vector a
1
de forma
que tenga longitud 1.

Se define:

Primera componente principal=la combinacin lineal
1 1
'
Y a X = que maximiza
1 1 1
'
( ) Var Y a a = , sujeta a
1 1
'
1 a a =

Segunda componente principal=la combinacin lineal
2 2
'
Y a X = que maximiza
2 2 2
'
( ) Var Y a a = , sujeta a
2 2
'
1 a a = y
1 2
' '
( , ) 0 Cov a X a X =
.

i-sima componente principal=la combinacin lineal
'
i i
Y a X =
que maximiza
'
( )
i i i
Var Y a a = , sujeta a
'
1
i i
a a = y
' '
( , ) 0
i k
Cov a X a X = ,
para k<i

Determinacin de las componentes principales. Sea la
matriz de covarianza asociada al vector aleatorio p-
______________________________________________________Elkin Castao V.

127
dimensional X. Suponga que posee pares de valores-
vectores propios (
1 1
, e ), (
2 2
, e ), , ( ,
p p
e ) donde
1 2
0
p
. Entonces la i-sima componente principal
est dada por la combinacin lineal
1 1 2 2
'
i i i i ip p
Y e X e X e X e X = = + + + , i=1, 2, , p, donde

'
( )
i i i i
Var Y e e = = i=1, 2, , p
' ' '
( , ) 0
i k i k
Cov e X e X e e = = i k

Si algunos
i
son iguales, las elecciones de sus
correspondientes vectores propios, y por tanto las Y
i
, no son
nicas.

Suponga que es la matriz de covarianza asociada al vector
aleatorio p-dimensional X que posee pares de valores-vectores
propios (
1 1
, e ), (
2 2
, e ), , ( ,
p p
e ) donde
1 2
0
p
.
Sean
1 1 2 2
'
i i i i ip p
Y e X e X e X e X = = + + + , i=1, 2, , p, las
componentes principales. Entonces

11 22 1 2
1 1
( ) ( )
p p
i pp p i
i i
Var X Var Y
= =
= + + + = + + + =

______________________________________________________Elkin Castao V.

128
Observaciones:
1) Del resultado anterior

11 22 1 2
Varianza Total=
pp p
+ + + = + + +

2)
1 2
Prop. de la varianza
total debido a la
k-esima componente
principal
k
p

| |
|
|
=
| + + +
|
\

, k=1, 2, , p.

3) Si ms del 80% o 90% de la varianza total poblacional,
cunado p es grande, puede ser atribuido a la primera, a las dos
primeras o a las tres primeras componentes principales, entonces
estas componentes pueden reemplazar las variables originales sin
mucha prdida de informacin.

4) La k-sima componente del vector propio

i i1 ik ip
e e ,..., e ,..., e (

=

Mide la importancia de la k-sima variable sobre la i-sima
componente principal, independientemente de las dems
variables.

______________________________________________________Elkin Castao V.

129
5) Si
1 1 2 2
'
i i i i ip p
Y e X e X e X e X = = + + + , i=1, 2, , p son las
componentes principales obtenidas de la matriz de covarianza
, entonces
,
i k
ik i
Y X
kk
e
= , i,k=1, 2, , p

es el coeficiente de correlacin entre la i-sima componente
principal y la variable X
k
.

Ejemplo. Obtencin de las Componentes Principales
Poblacionales

Suponga que tres variables aleatorias X
1
, X
2
y X
3
tienen matriz de
covarianza
1 2 0
2 5 0
0 0 2
(
(
=
(
(

Los pares de valores-vectores propios de son:
1
=5.83
1
e =
0.383
0.924
0
(
(
(
(

2
=2.00
2
e =
0
0
1
(
(
(
(

______________________________________________________Elkin Castao V.

130
3
=0.17
3
e =
0.924
0.383
0
(
(
(
(

Por tanto las componentes principales son:

Y
1
=
'
1
e X = 0.383X
1
-0.924X
2

Y
2
=
'
2
e X = X
3
Y
3
=
'
3
e X = 0.924X
1
+0.383X
2

Debido a que X
3
no est correlacionada con X
1
ni X
2
,
entonces X
3
es una de las componentes principales, pues su
informacin no es llevada al nuevo sistema por ninguna de las
otras componentes.

La proporcin de la varianza total explicada por la primera
componente principal es

1
1 2 3
+ +
=5.83/8=0.73

Esto significa que el 73% de la varianza total es explicada por
la primera componente principal.

______________________________________________________Elkin Castao V.

131
La proporcin de la varianza total explicada por las dos
primeras componentes principales es

1 2
1 2 3

+
+ +
=(5.83+ 2)/8=0.98

Esto significa que el 98% de la varianza total es explicada por
la primera componente principal.

1 1
11 1
,
11
Y X
e
= =0.925

1 2
21 1
,
22
Y X
e
= =-0.998

En la primera componente principal, la variable X
2
tiene la
mayor ponderacin y ella tambin tiene la mayor correlacin
con Y
1
.

La correlacin de X
1
con Y
1
es casi tan grande, en magnitud,
como la de X
2
con Y
1
, lo que indica que las dos variables son
casi igualmente importantes para la primera componente
principal.

Los tamaos relativos de los coeficientes de X
1
y X
2
sugieren
que X
2
contribuye ms a la determinacin de Y
1
que X
1
.
______________________________________________________Elkin Castao V.

132

2 1 2 2
, ,
0
Y X Y X
= = y
2 3
2
,
33
2
1
2
Y X
= = =

Las dems correlaciones puede ser despreciadas puesto que la
tercera componente principal no es importante.

Componentes Principales Derivadas de una Normal
Multivariada

Suponga que X ~ N
p
( , ). Las componentes principales

Y
1
=
'
1
e X, Y
2
=
'
2
e X, , Y
p
=
'
p
e X

caen en la direccin de los ejes de la elipsoide de densidad
constante
1 2
(x )' (x ) c
= .

______________________________________________________Elkin Castao V.

133
Componentes principales usando variables estandarizadas

Las componentes principales tambin pueden ser obtenidas
usando las variables estandarizadas

1 1
1
11
2 2
2
22
p p
p
pp
X
Z
X
Z
X
Z

o, en notacin matricial,

( )
1
1/ 2
( ) Z V X
=

donde
1/ 2
V =diagonal (
11 22
, , ,
pp
definida antes.

En este caso, E(Z)=0 y Cov(Z)=
( ) ( )
1 1
1/ 2 1/ 2
V V

=

Las componentes principales se obtienen usando los
vectores propios de la matriz de correlacin .

______________________________________________________Elkin Castao V.

134
Todos los resultados anteriores son vlidos, con algunas
simplificaciones ya que Var(Z
i
)=1.

En general, los pares valores-vectores propios derivados
de no son iguales a los de .

Obtencin de las componentes principales usando variables
estandarizadas. La i-sima componente principal de las
variables estandarizadas

1
2
p
Z
Z
Z
Z
(
(
(
=
(
(
(

con Cov(Z)= , est dada por

( )
1
1/ 2 ' '
( )
i i i
Y e Z e V X
= = , i=1, 2, , p

Adems,
1 1
( ) ( )
p p
i i
i i
Var Y Var Z p
= =
= =
y,
,
i k
Y Z ik i
e = , i, k=1, 2, , p
______________________________________________________Elkin Castao V.

135
En este caso, (
1 1
, e ), (
2 2
, e ), , ( ,
p p
e ) son los pares
valores-vectores propio de , donde
1 2
0
p
.

Observacin:
Prop. de la varianza
total debido a la
k-esima componente
principal
k
p
| |
|
|
=
|
|
\
, k=1, 2, , p.

Ejemplo.
Considere un vector bivariado cuya matriz de covarianza es
=
1 4
4 100
(
(

. Entonces su matriz de correlacin es =
1 0.4
0.4 1
(
(

.

a) Las componentes principales derivadas de .
Valores y vectores propios de .

1
=100.16
1
e =
0.040
0.999
(
(

2
=0.840
2
e =
0.999
0.040
(
(

Entonces la componentes principales basadas en son

______________________________________________________Elkin Castao V.

136
Y
1
=
'
1
e X = 0.040X
1
+0.999X
2

Y
2
=
'
2
e X = 0.999X
1
-0.040X
2

Debido a que X
2
tiene una gran varianza, ella domina
completamente la primera componente principal. Esta
componente explica una proporcin de

1
1 2
+
=100.16/101=0.992

de la varianza total.

b) Las componentes principales derivadas de .
Valores y vectores propios de .
1
=1.4
1
e =
0.707
0.707
(
(

2
=0.6
2
e =
0.707
0.707
(
(

Entonces la componentes principales basadas en son

Y
1
=
'
1
e Z = 0.707Z
1
+0.707Z
2

Y
2
=
'
2
e Z = 0.707Z
1
-0.707Z
2

______________________________________________________Elkin Castao V.

137
Cuando las variables estn estandarizadas, las variables
contribuyen igualmente a la primera componente principal.

Adems, como
1 1
, 11 1 Y Z
e = =0.707 1.4 0.837 =

1 2
, 21 1 Y Z
e = =0.707 1.4 0.837 =

entonces las variables estandarizadas tienen la misma correlacin
con la primera componente principal.

La primera componente principal explica una proporcin de

1
p
=1.4/2=0.70

de la varianza total.

Conclusin: Comparando los resultados en los dos casos, se
observa que la estandarizacin afecta bastante los resultados, y
que las componentes principales derivadas de son diferentes
de las derivadas de .

Cuando usar la estandarizacin?
______________________________________________________Elkin Castao V.

138
Cuando las variables estn medidas en escalas con rangos
muy diferentes.

Cuando las unidades de medida no son conmensurables.

Por ejemplo, si X
1
es una variable aleatoria que representa las
ventas anuales en el rango $20000000 y $750000000, y X
2
es
el cociente dado por (ingreso neto anual)/(Total de activos) que
cae entre 0.01 y 0.60, entonces la variacin total ser debida
casi exclusivamente a X
1
y esta variable tendr una gran
ponderacin en la primera componente principal, que sera la
nica importante. Alternativamente si las variables son
estandarizadas, sus magnitudes sern del mismo orden y en
consecuencia X
2
o (Z
2
) jugar un papel ms importante en la
construccin de las componentes principales.

3. COMPONENTES PRINCIPALES MUESTRALES

Suponga que x
1
, x
2
, , x
n
, representan una muestra aleatoria
de una poblacin multivariada con vector de medias y
matriz de covarianza . Sean x, S y R el vector de media
muestral, y las matrices de covarianza y correlacin muestral,
respectivamente.

______________________________________________________Elkin Castao V.

139
Las componentes principales muestrales estn definidas como
aquellas combinaciones lineales no correlacionadas con
mxima varianza que explican la mayor parte de la variacin
muestral . Especficamnte,

Primera componente principal=la combinacin lineal
1 1
'
y a = x
j
que maximiza la varianza muestral, sujeta a
1 1
'
1 a a =

Segunda componente principal=la combinacin lineal
2 2
'
y a = x
j
2 2
'
1 a a = y la covarianza muestral entre
1
'
a x
j
y
2
'
a x
j
es cero.

.

i-sima componente principal=la combinacin lineal
'
i i
y a = x
j
'
1
i i
a a =
y la covarianza muestral entre
'
i
a x
j
y
'
k
a x
j
es cero, para k<i

Determinacin de las componentes principales muestrales.
Sea S la matriz de covarianza muestral de los datos de un
vector aleatorio p-dimensional X. Suponga que S posee pares
de valores-vectores propios (
1 1
, e ), (
2 2
, e ), , (
,
p p
e )
______________________________________________________Elkin Castao V.

140
donde
1 2

0
p
y x es una observacin de las
variables X
1
, X
2
, , X
p
. Entonces la i-sima componente
principal muestral est dada por la combinacin lineal
1 1 2 2
'
x
i i i i ip p
y e e x e x e x = = + + + , i=1, 2, , p, donde

'
( )
i i i i
Varianza muestral y e Se = = i=1, 2, , p
r ( , ) 0
i k
Cova ianza muestral y y = i k

Adems, la varianza total muestral

1 2
1

p
ii p
i
s
=
= + + +
y
',
i k
ik i
y x
kk
e
r
s
= , i,k=1 ,2, , p

Observaciones:
1) No se har diferencia en la notacin para las componentes
principales derivadas de S o de R.

2) Las componentes principales derivadas de S no son iguales
a las derivadas de R.

______________________________________________________Elkin Castao V.

141
3) A veces las observaciones x
j
son centradas restando el
vector x. Esto no afecta la matriz S y la isima
componente principal muestral es

'
i
e (x-x)
i
y = , i=1, 2, , p.

para cualquier observacin x.

4) Los valores de la i-sima componente principal son

'
i j
e (x -x)
ji
y = , j=1, 2, , n.

En este caso, la media muestral de la i-sima componente
principal es

' ' '
i j i j i
1 1 1
1 1 1 1
e (x -x) e (x -x) e
n n n
i ji
j j j
y y
n n n n
= = =
| |
= = = =
|
\
0=0

y su varianza muestral es
i
, es decir, no cambia.

Ejemplo.
Un censo proporcion informacin sobre las siguientes
variables socioeconmicas para 14 reas de una regin:
X
1
=Poblacin total (en miles)
______________________________________________________Elkin Castao V.

142
X
2
=Mediana de los aos de escolaridad
X
3
=Empleo total (en miles)
X
4
=Empleo en servicios de salud (en cientos)
X
5
=Mediana del valor de la casa (en diez miles)

Observe que los datos para reas censales adyacentes pueden
estar correlacionados y por lo tanto las observaciones pueden
no constituir una muestra aleatoria.

Estos datos producen

x=[4.32, 14.01, 1.95, 2.17, 2.45]

y
______________________________________________________Elkin Castao V.

143
S=
4.308 1.683 1.803 2.155 0.253
1.683 1.768 0.588 0.177 0.176
1.803 0.588 0.801 1.065 0.158
2.155 1.177 1.065 1.970 0.357
0.253 0.176 0.158 0.357 0.504
(
(
(
(
(
(
(

Se puede resumir la variacin muestral por medio de una o dos
componente principales?

Var

1
1 ,
( )
k
y x
e r
2
2 ,
( )
k
y x
e r
3
e
4
e
5
e
X
1
X
2
X
3
X
4
X
5

0.781(0.99) -0.071(-.04) 0.004 0.542 -0.302
0.306(0.61) -0.764(-.76) -0.162 -0.545 -0.010
0.334(0.98) 0.083(0.12) 0.015 0.050 0.937
0.426(0.80) 0.579(0.55) 0.220 -0.636 -0.173
-0.054(-0.20) -0.262(-0.49) 0.962 -0.051 0.024
Var
(
i
)
Prop
Acu

6.931 1.786 0.390 0.230 0.014

74.1 93.2 97.4 99.9 100.0

La primera componente principal explica el 74.1% de la
varianza total muestral.

Las dos primeras componentes principales juntas explican el
93.2% de la varianza total muestral.
______________________________________________________Elkin Castao V.

144
Por tanto, la variacin muestral puede ser resumida
adecuadamente por medio de las dos primeras componentes
principales.

Dados los coeficientes de las componentes, la primera
componente principal parece ser esencialmente un promedio
ponderado de las primeras cuatro variables. La segunda
componente principal parece contrastar los servicios de
empleo en salud con un promedio ponderado de la mediana
de los aos de escolaridad y la mediana del valor de la casa.

En la interpretacin de las componentes principales se deben
tener en cuenta los coeficientes
ik
e de las componentes y las
correlaciones
1
,
k
y x
r . Las correlaciones permiten analizar la
importancia de las variables aunque tengan diferentes
varianzas. Sin embargo, miden solamente la importancia de
una sola X
j
sin tener en cuentas las otras variables presentes
en la componente.

4. EL NMERO DE COMPONENTES PRINCIPALES

Siempre est presente la pregunta de cuntas componentes
principales debemos retener. No existe una respuesta definitiva
a esta pregunta.
______________________________________________________Elkin Castao V.

145
Para responderla debemos considerar la cantidad de la varianza
total muestral explicada, los tamaos relativos de los valores
propios, y las interpretaciones de las componentes. Adems,
como se discutir ms adelante, una componente asociada a un
valor propio cercano a cero, y por tanto claramente no
importante, puede indicar una dependencia lineal no
sospechada en los datos.

Una ayuda visual til para determinar el nmero de
componentes es el grfico scree, el cual presenta un grfico de
i
contra i, las magnitudes de los valores propios contra su
nmero. Para determinar el nmero apropiado de
componentes, buscamos un codo en el grfico. El nmero de
componentes que se toman es el determinado por aquel punto
para el cual es resto de los valores propios son relativamente
pequeos y aproximadamente del mismo tamao.

Ejemplo.
El grfico scree para el ejemplo anterior es

______________________________________________________Elkin Castao V.

146

El codo ocurre alrededor de i=3, es decir, los valores propios
despus de
2
son relativamente pequeos y aproximadamente

del mismo tamao. En este caso parece que dos (o quiz 3)
componentes principales resumen apropiadamente la varianza
total muestral.

Ejemplo.
En un estudio del tamao y la forma de las tortugas pintadas,
Jolicoeur y Mosimann (1963) midieron la longitud de la
caparazn (X
1
), su amplitud(X
2
) y su altura(X
3
). Los datos
sugirieron que el anlisis en trminos de los logaritmos de las
variables. (Jolicoeur, generalmente sugiere el empleo de los
logaritmos en los estudios de tamao y forma)

______________________________________________________Elkin Castao V.

147

El logaritmo natural de las dimensiones de las 24 tortugas machos
produce
x =[4.725, 4.478, 3.703]
y
S=
11.072 8.019 8.160
8.019 6.417 6.005
8160 6.005 6.773
(
(
(
(

El anlisis de componentes principales proporciona el siguiente
resumen.

______________________________________________________Elkin Castao V.

148
Var

1
1 ,
( )
k
y x
e r
2
e
3
e
ln(longitud)

ln(amplitud)

ln(altura)

0.683(0.99) -0.159 -0.713
0.510(0.97) -0.594 0.622
0.523(0.97) 0.788 0.324
Var (
i
)
Prop acum.
23.30 x 10
-3
0.60 x 10
-3
0.36 x 10
-3

96.1 98.5 100

El grfico scree es el siguiente

La primera componente principal explica el 96.1% de la
varianza total muestral.

La primera componente principal

1
y =0.683ln(longitud)+ 0.510ln(amplitud)+0.523ln(altura)
______________________________________________________Elkin Castao V.

149
1
y =ln[(longitud)
0.683
(amplitud)
0.510
(altura)
0.523
]

tiene una interpretacin interesante, pues puede ser
considerada como el volumen de una caja con dimensiones
ajustadas. Por ejemplo, la altura ajustada es (altura)
0.523
, la
cual influye en la forma redondeada de la caparazn.

5. INTERPRETACIN DE LAS COMPONENTES PRINCIPALES
MUESTRALES

Las componentes principales muestrales tienen varias
interpretaciones.

Suponga que X ~ N
p
( , ). Entonces, las componentes
principales muestrales
'
(x-x)
i i
y e = , son realizaciones de las
componentes principales
'
(x- )
i i
Y e = , las cuales tienen una
ditribucin N
p
(0, ), donde =diag(
1 2
, , ,
p
) y ( ,
i i
e )
son los pares valores-vectores propios de la matriz . Las
componentes principales muestrales son los ejes de las
hiper-elipsoides estimadas generadas por todos los puntos x
que satisfacen
1 2
( ) ' ( ) x x S x x c
=

______________________________________________________Elkin Castao V.

150
cuando S es definida positiva. En este caso, la hiptesis de
normalidad es til para hacer inferencias, como se ver ms
adelante.

An si la normalidad es sospechosa, y el patrn de
dispersin se aleja algo del patrn elptico, se pueden extraer
los valores propios de S y obtener las componentes
principales muestrales.

Las componentes principales pueden ser consideradas como el
resultado de trasladar el origen del sistema de coordenadas
original a x y luego rotar el sistema de ejes de coordenadas
hasta que los nuevos ejes pasen a travs de las direcciones de
mxima varianza del patrn de dispersin.

Interpretacin geomtrica: Suponga que p=2 y considere el
siguiente grfico que muestra una elipse de distancia
constante, centrada en x, con
1 2

> .

______________________________________________________Elkin Castao V.

151

Las componentes principales estn bien determinadas: caen a
lo largo de los ejes de la elipse en direcciones perpendiculares
en las direcciones de mxima varianza.

Ahora considere la elipse centrada en x y con
1 2

= .

En este caso, los ejes de la elipse (crculo) de distancia
constante no estn determinados de manera nica y caen en
______________________________________________________Elkin Castao V.

152
cualquier par de direcciones perpendiculares, incluyendo las
direcciones de los ejes del sistema original de coordenadas.

Cuando los contornos de la elipse de distancia constante son
aproximadamente circulares, o equivalentemente, los valores
propios de S son casi iguales, la variacin es homognea en
todas las direcciones. En este caso, no es posible representar
bien los datos en menos de p dimensiones.

Si los ltimos valores propios son muy pequeos, de forma tal
que la variacin en las direcciones de los correspondientes
vectores propios sea despreciable, las ltimas componentes
principales pueden ser ignoradas, y los datos pueden ser
adecuadamente aproximados en el espacio de las componentes
retenidas.

6. ESTANDARIZACIN DE LAS COMPONENTES PRINCIPALES
MUESTRALES

Las componentes principales muestrales no son, en general,
invariantes con respecto a cambios en escala.

______________________________________________________Elkin Castao V.

153
Si z
1
, z
2
, , z
n
, son las observaciones estandarizadas y su
matriz de covarianza es R, la i-sima componente principal
muestral est dada por la combinacin lineal

1 1 2 2
'
z
i i i i ip p
y e e z e z e z = = + + + , i=1, 2, , p

donde (
,
i i
e ) es el i-simo par valor-vector propio de la matriz
R con
1 2

0
p
. Adems,

( )
i i
Varianza muestral y = i=1, 2, , p
r ( , ) 0
i k
Cova ianza muestral y y = i k
1 2
1

r
p
ii p
i
va ianza total muestral s
=
= = + + +
',
i k
y x ik i
r e = , i,k=1 ,2, , p

prop. dela varianza
total muestral (estandarizada)
explicada por la i-esima

componente principal
muestral
i
p
| |
|
|
| =
|
|
|
\
, i=1, 2, , p

Como regla general, se sugiere retener solamente aquellas
componentes principales cuyas varianzas
i
sean mayores que
la unidad, o equivalentemente, aquellas componentes
______________________________________________________Elkin Castao V.

154
principales que, individualmente, expliquen al menos una
proporcin 1/p de la varianza total muestral.

Ejemplo.
Para el perodo de Enero de 1975 a Diciembre de 1976, se
determinaron los rendimientos semanales de las acciones de 5
compaas.

Las observaciones de estos 5 rendimientos parecen ser
independientes, pero entre ellos parecen estar correlacionados.

Estos datos producen

______________________________________________________Elkin Castao V.

155
x=[0.0054, 0.0048, 0.0057, 0.0063, 0.0037]

y
R=
1.000 0.577 0.509 0.387 0.462
0.577 1.000 0.599 0.389 0.322
0.509 0.599 1.000 0.436 0.426
0.387 0.389 0.436 1.000 0.523
0.462 0.322 0.426 0.523 1.000
(
(
(
(
(
(
(

Valores y vectores propios de R.

1
=2.857
1
e =
0.464
0.457
0.470
0.421
0.421
(
(
(
(
(
(
(

2
=0.802
2
e =
0.240
0.509
0.260
0.526
0.582
(
(
(
(
(
(
(
=0.540
3
e =
0.612
0.178
0.335
0.541
0.435
(
(
(
(
(
(
(
=0.452
4
e =
0.387
0.206
0.662
0.472
0.382
(
(
(
(
(
(
(
=0.343
5
e =
0.451
0.676
0.400
0.176
0.385
(
(
(
(
(
(
(

______________________________________________________Elkin Castao V.

156
Las dos primeras componentes principales muestrales
estandarizadas son

'
1 1 1 2 3 4 5
e z 0.464 0.457 0.470 0.421 0.421 y z z z z z = = + + + +

'
2 2 1 2 3 4 5
e z 0.240 0.509 0.260 0.526 0.582 y z z z z z = = + +

Estas dos componentes explican el

1 2

p

| |
+
|
\
x100%=
2.857 0.809
5
+ | |
|
\
x100%=73%

de la varianza total muestral estandarizada.

La primera componente principal es una suma
equiponderada o un ndice de las cinco acciones. Esta
componente podra llamarse componente de mercado.

La segunda componente representa un contraste entre
acciones qumicas (Allied Chemical, du Pont y Union
Carbide) y las de petrleo (Exxon y Texaco). Esta
componente podra ser llamada componente de industria.

______________________________________________________Elkin Castao V.

157
La mayora de la variacin muestral de los rendimientos de
estas acciones se debe a la actividad del mercado y a la no
correlacionada actividad industrial.

Las componentes restantes no son fciles de interpretar y,
conjuntamente, representan la variacin que probablemente
es especfica a cada accin. De todas formas, estas
componentes no explican mucho de la varianza total
muestral.

Este ejemplo presenta un caso donde parece ser razonable
retener una componente asociada con un valor propio menor
que la unidad.

7. GRFICOS DE LAS COMPONENTES PRINCIPALES
MUESTRALES

Los grficos de las componentes principales pueden ayudar a:

Verificar la hiptesis de normalidad: Dado que las
componentes principales son combinaciones lineales de las
variables originales, se puede esperar que sean
aproximadamente normales. Se recomienda verificar que
las primeras componentes principales estn distribuidas
______________________________________________________Elkin Castao V.

158
normalmente cuando vayan a ser empleadas como insumos
en otros anlisis.

Revelar observaciones sospechosas: Las ltimas
componentes principales pueden ayudar a detectar
observaciones sospechosas.

Cada observacin puede ser expresada como una
combinacin lineal de todos los vectores propios
1 2
, , ,
p
e e e como

' ' ' ' ' '
j j 1 1 j 2 2 j p p
x = (x e )e +(x e )e +...+(x e )e

' ' '
1 1 2 2 p
e e e
j j jp
y y y = + + +

Esto significa que las magnitudes de las componentes
principales determinan como de bien las primeras
componentes principales ajustan a las observaciones.

Es decir,
' ' '
1 1 2 2 , 1 q-1
e e e
j j j q
y y y
+ + + difiere de x
j
en la
cantidad
' ' '
q , 1 q+1 , p
e e e
jq j q j p
y y y
+
+ + + , cuya longitud al
cuadrado es
2 2 2
, , 1 ,

j q j q j p
y y y
+
+ + + . Frecuentemente
observaciones sospechosas son tales que al menos una de las
______________________________________________________Elkin Castao V.

159
coordenadas
, , 1 ,
, , ,
j q j q j p
y y y
+
que contribuye a esta
longitud cuadrtica es grande.

Ejemplo.
Para los datos de las tortugas pintadas, las tres componentes
principales son

1
y =0.683(x
1
-4.725)+ 0.510(x
2
-4.478)+0.523(x
3
-3.703)
2
y =-0.159(x
1
-4.725)- 0.594(x
2
-4.478)+0.788(x
3
-3.703)
3
y =-0.713(x
1
-4.725)+ 0.622(x
2
-4.478)+0.324(x
3
-3.703)

donde x
1
=ln(longitud), x
2
=ln(amplitud), x
3
=ln(altura).

El siguiente grfico muestra el grfico Q-Q para la segunda
componente principal.

______________________________________________________Elkin Castao V.

160
La observacin para la primera tortuga encerrada en un crculo,
cae lejos de las dems y parece sospechosa. Este punto debe ser
verificado si fue producido por error de registro, o la tortuga
puede tener anomalas estructurales. El siguiente es el diagrama
de dispersin para las dos primeras componentes principales, el
cual aparte del dato de la primera tortuga parece razonablemente
elptico. El anlisis de los grficos de las otras componentes
principales no indica desviaciones sustanciales de la normalidad.

El grfico biplot. Un biplot es un grfico de la informacin de
una matriz de n x p. En l estn representadas dos clases de
informacin contenidas en la matriz de datos. La informacin
de las filas, que corresponden a las unidades muestrales, y la de
las columnas que corresponden a las variables.

______________________________________________________Elkin Castao V.

161
Cuando solamente hay dos variables, el diagrama de
dispersin puede ser usado para representar
simultneamente la informacin sobre ambas, las unidades
muestrales y las variables.

Este grfico permite visualizar la posicin de una unidad
muestral con respecto a otra, y la importancia relativa de
cada una de las dos variables en la posicin de la unidad
muestral.

Cuando hay varias variables, se puede construir una matriz
de dispersin, pero no existe un solo grfico de las unidades
muestrales. Sin embargo, un grfico de dispersin de las
unidades muestrales se puede obtener graficando las dos
primeras componentes principales. La idea del biplot es
agregar informacin sobre las variables al grfico de las dos
componentes principales.

El siguiente es el biplot para las empresas de servicio
pblico

______________________________________________________Elkin Castao V.

162

Se puede observar cmo se agrupan las compaas y cules
variables contribuyen a su posicin dentro de la representacin.
Por ejemplo, X
4
=factor de carga y X
8
=costo total de combustible
son las responsables de la agrupacin de la mayora de compaas
costeras al lado inferior derecho. Las variables X
1
=cociente de
cargo fijo y X
2
=tasa de retorno de capital juntan las compaas de
la Florida y Louisiana.

______________________________________________________Elkin Castao V.

163
8. INFERENCIAS PARA MUESTRAS GRANDES

En la prctica, las decisiones sobre la calidad de la
aproximacin de las componentes principales debe ser
realizada sobre la base de los pares valores-vectores propios
de S o de R. Debido a la variacin muestral, estos pares
diferirn de sus contrapartes poblacionales.

Propiedades de
i
y
i
e en muestras grandes. Se pueden
obtener resultados para muestras grandes para
i
y
i
e cuando:

La muestra aleatoria procede de una poblacin normal
multivariada.

Los valores propios (desconocidos) de son distintos y
positivos, es decir
1 2
0
p
> > > > . La nica excepcin es
el caso donde el nmero de valores propios iguales es
conocido.

An cuando la hiptesis de normalidad sea violada, los
intervalos obtenidos bajo normalidad todava son capaces de
proporcionar alguna indicacin de la incertidumbre de
i
y
i
e .

______________________________________________________Elkin Castao V.

164
Anderson (1963) y Girshick(1939) establecieron las siguientes
propiedades para la distribucin en muestra grandes de los
valores propios
' =
1 2

[ , , , ]
p
y los vectores propios
i
e , i=1,
2, ,p.

1) Sea la matriz diagonal de los valores propios
1 2
, , ,
p

de . Entonces, n (
) es aproximadamente
N
p
(0,2
2
).

2) n (
i i
e -e ) es aproximadamente N
p
(0, E
i
), donde

E
i
=
'
k i
2
1
e e
( )
p
i
i
k
k i
k i
=

3) Cada
i
est independientemente distribuida de los
elementos de vector propio asociado
i
e .

Por el resultado 1), los
i
estn independientemente
distribuidas aproximadamente como N(
2
, 2 /
i i
n ). Por tanto,
un intervalo aproximado de (1- )% de confianza para
i

est dado por

______________________________________________________Elkin Castao V.

165

(1 ( / 2) 2/ ) (1 ( / 2) 2/ )
i i
i
z n z n

+

donde ( / 2) z es el percentil ( / 2 )-superior de la N(0,1).

El resultado 2 implica que para muestras grandes, los
i
e
estn normalmente distribuidos con respecto al verdadero
i
e . Los elementos de
i
e estn correlacionados, y sus
correlaciones dependen de que tan distantes estn los
valores propios
1 2
, , ,
p
, y del tamao muestral n. En la
prctica se reemplaza E
i
por
i
E la cual se obtiene
reemplazando los
i
por
i
y los
i
e por
i
e .

Ejemplo.
Considere el ejemplo de los rendimientos de las acciones.
Suponiendo que ellos proceden de una normal multivariada donde
es tal que sus valores propios
1 2 5
0 > > > > . Puesto que
n=100 es grande, y el primer valor propio
1
=0.0036, el intervalo
aproximado del 95% de confianza para
1
es

1
0.0036 0.0036
(1 1.96 2/100) (1 1.96 2/100)

+

o,
______________________________________________________Elkin Castao V.

166
1
0.0028 .0050

En general, los intervalos son amplios a la misma tasa que los
i

sean grandes. Por tanto, se debe tener cuidado en eliminar o
retener componentes principales basados solamente en el examen
de las
i
.


censo<-read.table("c:/unal/datos/j-wdata/censo.dat", header = TRUE)
list(censo)
attach(censo)

# obtencin de matriz de covarianza
covar=cov(censo)
covar

# obtencin de la componentes principales de la matriz de covarianza
summary(cp_censo <- princomp(censo, cor = FALSE))
loadings(cp_censo) # observe que las cantidades en blanco son pequeas pero no cero
plot(cp_censo) # presenta el grfico scree
biplot(cp_censo)
cp_censo$score # presenta los valores de las componentes principales

# obtencin de la componentes principales de la matriz de correlacin
summary(cp_censo_cor <- princomp(censo, cor = TRUE))
loadings(cp_censo_cor) #observe que las cantidades en blanco son pequeas pero no cero
plot(cp_censo_cor) # presenta el grfico scree
biplot(cp_censo_cor)
cp_censo_cor$scores # presenta los valores de las componentes principales

______________________________________________________Elkin Castao V.

167
CAPTULO 6.

ANLISIS DE FACTOR

1. INTRODUCCIN

El anlisis de factor ha provocado bastante controversia a
travs de su historia. Sus inicios modernos datan de comienzos
del siglo 20 con los intentos de Karl Pearson, Charles
Spearman y otros por definir y medir la inteligencia. Debido a
su temprana asociacin con construcciones tales como la
inteligencia, el anlisis de factor fue nutrido y desarrollado
principalmente por cientficos interesados en la sicometra.
Las controversias sobre las interpretaciones sicolgicas en
varios estudios iniciales, y la falta de facilidades
computacionales potentes, impidieron su desarrollo como un
mtodo estadstico.
La llegada de computadores de alta velocidad ha generado un
inters renovado en los aspectos tanto tericos como
computacionales del anlisis de factor. Como consecuencia de
los desarrollos recientes, la mayora de las tcnicas originales
han sido abandonadas y se han resuelto las controversias
iniciales. Sin embargo, todava es cierto que cada aplicacin de
la tcnica debe ser examinada sobre sus propios mritos para
determinar su xito.
______________________________________________________Elkin Castao V.

168
El propsito del Anlisis de Factor es describir, si es posible,
las relaciones de covarianza que existen en un grupo grande
variables en trminos de unas pocas, pero no observables,
variables aleatorias llamadas factores.

El Anlisis de Factor es motivado por el siguiente argumento.
Suponga que las variables pueden ser agrupadas por medio de
sus correlaciones. Es decir, suponga que las variables dentro de
un grupo estn altamente correlacionadas entre ellas mismas,
pero que tienen correlaciones pequeas con las variables de
otros grupos. Entonces es concebible pensar que cada grupo de
variables representa un solo trmino subyacente, o factor, que
es responsable de las correlaciones observadas dentro del
grupo.

Por ejemplo, las correlaciones dentro de un grupo de notas
sobre pruebas en historia, Francs, Ingls, matemticas y
msica recogidas por Spearman, sugieren un factor subyacente
de inteligencia que las explica.

______________________________________________________Elkin Castao V.

169
2. EL MODELO DE FACTOR ORTOGONAL

Sea X vector aleatorio observable de p componentes que tiene
media y matriz de covarianza . El modelo de factor
ortogonal considera que X es linealmente dependiente de:

Un grupo pequeo de variables aleatorias no observables F
1
,
F
2
, , F
m
, llamadas factores comunes

De p fuentes adicionales de variacin
1 2
, ,...,
p
, llamadas
errores, o factores especficos.

En particular el modelo de factor es:

1 1 11 1 12 2 1 1
2 2 21 1 22 2 2 2
1 1 2 2
...
...
...
m m
m m
p p p p pm m p
X l F l F l F
X l F l F l F
X l F l F l F

= + + + +
= + + + +
= + + + +

o, en notacin matricial,

X LF = +

donde
ij
l es la ponderacin de la i-sima variable sobre el j-
simo factor.
______________________________________________________Elkin Castao V.

170
La matriz L es llamada la matriz de las ponderaciones de los
factores.

El i-simo factor especfico est asociado nicamente con la
i-sima respuesta X
i
.

Las p desviaciones ,
i i
X para i=1,2,..,p, son expresadas en
trminos de m+p variables aleatorias no observables.

Esta es la diferencia del modelo de factor con el modelo de
regresin multivariado, en el cual las variables explicativas o
independientes (las F) son observadas.

Supuestos
E(F)=0, Cov(F)=E(FF)=I

E( )=0, Cov( )=E( )=
1
2
0 ... 0
0 ... 0
0 0 ...
p
(
(
(
=
(
(
(

F y son independientes, por lo que

Cov(F, )=E( F)=0

______________________________________________________Elkin Castao V.

171
El modelo ortogonal de factores implica que

' = + LL

donde Cov(X, F)=E(X- )F=L

La estructura de covarianza para el modelo de factor
ortogonal

1) Cov(X)=LL+

Por lo que
Var(X
i
)=
2 2 2
1 2
...
i i im i
l l l + + + +
Cov(X
i
, X
k
)=
1 1 2 2
... + + +
i k i k im km
l l l l l l

2) Cov(X, F)=L

Por lo que
Cov(X
i
, F
j
)=
ij
l

La porcin de la varianza de la i-sima variable explicada
por los m factores comunes es llamada conmunalidad, y
se denota por
2
i
h .

______________________________________________________Elkin Castao V.

172
La porcin de la varianza de la i-sima variable debida al
factor especfico es llamada unicidad o varianza
especfica.

De los resultados anteriores,

Var(X
i
)=
2 2 2
1 2
...
i i im i
l l l + + + +
o,
2 2 2
1 2
...
ii i i im i
l l l = + + + +

o,
2
= +
ii i i
h

donde,
2 2 2 2
1 2
...
i i i im
h l l l = + + +

Ejemplo. Verificacin de la relacin ' = + LL para dos factores
Considere la matriz de covarianza
19 30 2 12
30 57 5 23
2 5 38 47
12 23 47 68
(
(
(
=
(
(

Entonces puede ser reproducida como

______________________________________________________Elkin Castao V.

173
19 30 2 12
30 57 5 23
2 5 38 47
12 23 47 68
(
(
(
=
(
(

=
4 1 2 0 0 0
7 2 4 7 1 1 0 4 0 0
1 6 1 2 6 8 0 0 1 0
1 8 0 0 0 3
( (
( (
(
( (
+
(
( (

( (

donde,
11 12
21 22
31 32
41 42
4 1
7 2
1 6
1 8
l l
l l
L
l l
l l
( (
( (
( (
= =
( (
( (
(

1
2
3
4
0 0 0 2 0 0 0
0 0 0 0 4 0 0
0 0 0 0 0 1 0
0 0 0 3 0 0 0
( (
( (
( (
= =
( (
( (
(

Por tanto, tiene una estructura producida por un modelo de
m=2 factores ortogonales.

La conmunalidad de X
1
es

2 2 2 2 2
1 11 12
4 1 17 h l l = + = + =

y la varianza de X
1
puede ser descompuesta como

______________________________________________________Elkin Castao V.

174
2 2 2
11 11 12 1 1 1
( ) 19 l l h = + + = + =

De manera similar se puede encontrar la descomposicin para las
otras variables.

El modelo de factor asume que los p+p(p-1)/2=p(p+1)/2
elementos de pueden ser reproducidos usando las mp
ponderaciones
ij
l de los factores, y las p varianzas
especficas
i
.

Cuando m=p, se puede probar que cualquier matriz de
covarianza puede ser reproducida exactamente como LL,
de forma que la matriz =0.

Sin embargo, cuando m es pequeo con respecto a p, el
anlisis de factor es muy til. En este caso, el modelo de
factor proporciona una explicacin simple de la covariacin
en X con menos parmetros que los p(p+1)/2 parmetros de
.

Por ejemplo, si X contiene p=12 variables y un modelo de
factor con m=2 factores ortogonales es apropiado, entonces
los p(p+1)/2=78 elementos de pueden ser descritos en
______________________________________________________Elkin Castao V.

175
trminos de mp+p =36 parmetros
ij
l y
i
del modelo de
factor.

Desafortunadamente, la mayora de las matrices d
covarianza no pueden ser factorizadas como ' = + LL ,
cuando el nmero de factores m es mucho ms pequeo que
p.

Ejemplo. No unicidad de una solucin propia

Suponga que p=3 y m=1 y que

1 0.9 0.7
0.9 1 0.4
0.7 0.4 1
(
(
=
(
(

Usando el modelo de factor ortogonal

1 1 11 1 1
2 2 21 1 2
3 3 31 1 3
X l F
X l F
X l F

= +
= +
= +

La estructura de covarianza implica que ' = + LL

De donde se obtiene
______________________________________________________Elkin Castao V.

176
2
11 1 11 21 11 31
2
21 2 21 31
2
31 3
1 0.9 0.7
1 0.4
1
l l l l l
l l l
l
= + = =
= + =
= +

El par de ecuaciones

11 31
21 31
0.7
0.4
l l
l l
=
=

Implican que
21 11
0.4
0.7
l l
| |
=
|
\

Sustituyendo este resultado en la ecuacin

11 21
0.9 l l =

Se obtiene que
2
11
1.575 l = o
11
1.255 l =

Puesto que Var(F
1
)=1 por hiptesis del modelo, y Var(X
1
)=1,
entonces

11 1 1 1 1
( , ) ( , ) l Cov X F Corr X F = =

______________________________________________________Elkin Castao V.

177
cuya magnitud no puede ser mayor que 1. Sin embargo, la
solucin no satisface esta restriccin.

Adems de la ecuacin

2
11 1
1 l = + o
2
1 11
1 l = ,

se obtiene que
1
1 1.575 0.575 = =

la cual no es adecuada puesto que
1 1
( ) Var = .

Conclusin: Para este ejemplo con m=1, es posible obtener una
solucin numrica nica a la ecuacin ' = + LL . Sin embargo la
solucin no es consistente con la interpretacin estadstica de los
coeficientes, y por tanto no es una solucin propia.
Cuando m>1 siempre hay una ambigedad asociada al modelo
de factor.

Considere una matriz ortogonal T de m x m. Entonces,

TT=TT=I.

______________________________________________________Elkin Castao V.

178
Con esta matriz, el modelo de factor ortogonal puede ser escrito
como

' * * X LF LTT F L F = + = + = +

donde,
* L LT = y * ' F T F =

y puesto que

E(F*)=0 y Cov(F*)=TCov(F)T=TT=I

es imposible distinguir entre las ponderaciones L y las
ponderaciones L* basados en las observaciones del vector X. Es
decir, los factores L y L* tienen las mismas propiedades
estadsticas, y aunque en general, L es diferente de L* ellas
generan la misma matriz de covarianza , puesto que

' ' ' * *' LL LTT L L L = + = + = +

Esta ambigedad es la base de la rotacin de factores, puesto
que las matrices ortogonales equivalen a la rotacin del sistema
de coordenadas para X.

______________________________________________________Elkin Castao V.

179
En conclusin, las ponderaciones L y L*=LT proporcionan la
misma representacin. Las conmunalidades, dadas por los
elementos de la diagonal de LL=( L*)(L*), no se afectan por
la eleccin de T.

El anlisis de factor:

Se inicia imponiendo condiciones que permitan estimar de
manera nica a L y a .

A continuacin se rota la matriz de ponderaciones (se
multiplica por una matriz ortogonal), donde la rotacin est
determinada por algn criterio de fcil interpretacin.

Una vez se hayan obtenido las ponderaciones y las varianzas
especficas, se identifican los factores y los valores estimados
para los factores mismos (llamados scores de los factores).

3. MTODOS DE ESTIMACIN

Sea X
1
, X
2
, ,X
n
una muestra aleatoria de una distribucin
multivariada con vector de medias y matriz de covarianza .
La matriz de covarianza muestral S es un estimador de . Si
los elementos fuera de la diagonal de S son pequeos, o los
______________________________________________________Elkin Castao V.

180
elementos de la matriz de correlaciones R son prcticamente
cero, las variables no estarn relacionadas linealmente y el
anlisis de factor no es til.

Si S parece desviarse significativamente de una matriz
diagonal, entonces, el modelo de factor puede ser probado y el
problema inicial es estimar las ponderaciones
ij
l de los factores
y las varianzas especficas
i
.

El Mtodo de la Componente Principal. La descomposicin
espectral proporciona una factorizacin de la matriz de
covarianza . Suponga el par ( ,
i i
e ) es el par valor-vector
propio de , donde
1 2

p
.

Entonces

=
'
1
1
'
2 2
1 2
'
0 0 0
0 0 0
...
0 0 0 0
(
(
(
(
(
(
( =
(
(
(
(
( (

p
p
e
e
P P e e e
e

=
' ' '
1 1 1 2 2 2
+ + +
p p p
e e e e e e

______________________________________________________Elkin Castao V.

181
=
'
1 1
'
2 2
1 1 2 2
'
(
(
(
(
(

(
(
(

p p
p p
e
e
e e e
e

Este ajuste supone que la estructura de covarianza para el
modelo de anlisis de factor tiene tantos factores como
variables (m=p) y las varianzas especficas
i
=0.

El vector
j j
e es la j-sima columna de la matriz de
ponderaciones. Es decir,

=LL +0=LL

Fuera del factor de escala
j
, el vector de ponderaciones del
j-simo factor son los coeficientes de la j-sima componente
principal de la poblacin.

Aunque la representacin de por el anlisis de factor es
exacta, no es til, pues emplea tantos factores comunes
como variables y no permite variaciones en los factores
especficos .

Se prefieren modelos que expliquen la estructura de la
covarianza en trminos de unos pocos factores comunes.
______________________________________________________Elkin Castao V.

182

Cuando los ltimos p-m valores propios son pequeos, una
aproximacin es eliminar la contribucin de
' '
1 1 1 2 2 2
'
m m m m m m p p p
e e e e e e
+ + + + + +
+ + + en .

Eliminando esta contribucin,

'
1 1
'
2 2
1 1 2 2
'
(
(
(
(
(

(
(
(

m m
m m
e
e
e e e
e
=LL

Esta representacin asume que los factores especficos son
de menor importancia y pueden eliminados en la
representacin de .

Si se incluyen los factores especficos en el modelo, sus
varianzas pueden ser asignadas como los elementos de la
diagonal de la matriz -LL.

En este caso, la aproximacin es

LL+

Donde el i-simo elemento en la diagonal de es
______________________________________________________Elkin Castao V.

183
2
1
m
i ii ij
j
l
=
= , para i=1, 2,.., p.

Solucin de la Componente Principal para el Modelo de
Factor. El anlisis de factor de la componente principal para
la matriz de covarianza muestral S est especificada en
trminos de los pares valor-vector propio (
,
i i
e ), i=1, 2,.., p,
donde
1 2

p
.

Sea m<p el nmero de factores comunes. Entonces, la matriz
estimada de ponderaciones de los factores est dada por

1 1 2 2

L
m m
e e e
(
=
(

Las varianzas especficas estimadas estn dadas por los
elementos de la diagonal de la matriz S- L
, es decir,

1
2
0 ... 0
0 ... 0
0 0 ...
p
(
(
(
=
(
(
(

donde
2
1
m
i ii ij
j
s l
=
=

, para i=1, 2,.., p

Las conmunalidades son estimadas como

______________________________________________________Elkin Castao V.

184
2 2 2 2
1 2
...
i i i im
h l l l = + + +

Observaciones.
1) En la aplicacin del modelo de factor al conjunto de datos
multivariados x
1
, x
2
, , x
n
, se acostumbra centrar las
observaciones con respecto al vector de medias muestral x .

Las observaciones centradas,

x
j
- x =
1 1
2 2
j
j
jp p
x x
x x
x x
(
(
(
(
(
(

, j=1, 2, , n

tienen la misma matriz de covarianzas S que las
observaciones originales.

2) Cuando las unidades de las variables no son
conmensurables, generalmente se trabaja con las
observaciones estandarizadas

______________________________________________________Elkin Castao V.

185
z
j
=
1 1
11
2 2
22
j
j
jp p
pp
x x
s
x x
s
x x
s
(
(
(
(
(
(
(
(
(
(
(

, j=1, 2, , n

cuya matriz de covarianza es la matriz de correlacin
muestral R. Esto evita que variables con grandes varianzas
afecten indebidamente las ponderaciones de los factores.

3) En la solucin de componente principal, las ponderaciones
estimadas para un factor no cambian a medida que se
incrementa el nmero de factores.

4) Seleccin del nmero de factores. El nmero de factores
puede ser determinado por consideraciones a priori, tales
como la teora o el trabajo de los investigadores.

Si no existen consideraciones a priori, la escogencia de m
puede estar basada en los valores propios estimados, en
forma similar a la de las componentes principales.

Considere la matriz residual
______________________________________________________Elkin Castao V.

186
' S LL

resultante de la aproximacin de S por medio de la solucin
de la componente principal. Los elementos de la diagonal
son cero, y si los dems elementos tambin son pequeos, se
puede considerar subjetivamente que el modelo de m
factores es apropiado.

Se puede probar que que si SC es Suma de cuadrados los
elementos ( ' S LL

), entonces

SC( ' S LL

)
2 2 2
1 2

m m p

+ +
+ + +

Esto significa que un valor pequeo para la suma de
cuadrados de los valores propios eliminados implica un
valor pequeo para la suma de cuadrados de los errores de
aproximacin.

Idealmente, las contribuciones de los primeros pocos
factores a las varianzas muestrales deberan ser grandes. La
contribucin del primer factor comn a la varianza muestral
s
ii
es
2
1 i
l
. La contribucin a la varianza total s

11
+ s
22
++
s
pp
=traza(S) es

______________________________________________________Elkin Castao V.

187
2 2 2
11 21 1
...
p
l l l + + +

=
( ) ( ) 1 1 1 1
'

e e =
1

En general,

11 22
Prop. de la
si se usa S
varianza total
muestral debida
si se usa R
al factor j
j
pp
j
s s s
p
| |

|
+ + +
|
=
|

|

\

Este criterio se usa generalmente como una herramienta
heurstica para determinar el nmero apropiado de factores.
El nmero de factores es incrementado hasta que
unproporcin adecuada de la varianza total muestral es
apropiada.

Una convencin frecuentemente empleada por los paquetes
de cmputo, es hacer m igual al nmero de valores propios
de R mayores que 1, si se usa la matriz R en el anlisis, o
igual al nmero de valores propios positivos, si se usa la
matriz S. El uso indiscriminado de estas reglas generales
podran no ser apropiado. Por ejemplo, si se usa la regla
para S, entonces m=p, puesto que se espera que todos los
valores propios de S sean positivos para grandes tamaos
muestrales. La mejor regla es la de retener pocos en lugar de
______________________________________________________Elkin Castao V.

188
muchos factores, suponiendo que esos factores proporcionen
una interpretacin adecuada de los datos y proporcionen una
ajuste satisfactorio para S o R.

Ejemplo. Datos de preferencia para los consumidores
En un estudio sobre la preferencia de los consumidores, a una
muestra aleatoria de consumidores se les pidi que evaluaran
varios atributos de un nuevo producto. Los atributos sleccionados
fueron:
X
1
=Gusto
X
2
= Buena compra por el dinero pagado
X
3
=Sabor
X
4
=Adecuado como pasaboca
X
5
=Proporciona gran energa

Sus respuestas, dadas sobre una escala semntica de 7 puntos,
fueron tabuladas y se construy la matriz de correlacin de los
atributos, la cual produjo.

R=
1.00 0.02 0.96 0.42 0.01
0.02 1.00 0.13 0.71 0.85
0.96 0.13 1.00 0.50 0.11
0.42 0.71 0.50 1.00 0.79
0.01 0.85 0.11 0.79 1.00
(
(
(
(
(
(
(

______________________________________________________Elkin Castao V.

189
De la matriz anterior es claro que las variables 1 y 3 y las
variables 2 y 5 forman grupos. La variable 4 est ms
cerca al grupo (2,5) que al grupo (1,3).

Dados estos resultados y el pequeo nmero de variables, se
esperara que las relaciones aparentes anteriores entre las
variables, sean explicadas en trminos de, a lo ms, dos o a
tres factores.

Los dos primeros valores propios de R,
1
=2.85 y
2
=1.81,
son los nicos valores propios de R mayores que 1.

Para m=2 factores, se acumula una proporcin de

1 2

p
+
=
2.85 1.81
0.93
5
+
=

de la varianza total muestral estandarizada.

La siguiente tabla contiene las estimaciones de las
ponderaciones de los factores, las conmunalidades y
varianzas especficas.

______________________________________________________Elkin Castao V.

190
Ponderac. estimadas
Variable F
1
F
2

Conmunalidades
Varianzas
Especficas
X
1
0.56 0.82 0.98 0.02
X
2
0.78 -0.53 0.88 0.12
X
3
0.65 0.75 0.98 0.02
X
4
0.94 -0.11 0.89 0.11
X
5
0.80 0.93 0.93 0.07
Valores
propios

2.85

1.81

Prop.
Acum

0.571

0.932

Chequeo. Observe que la matriz

0.56 0.82
0.78 0.53
0.56 0.78 0.65 0.94 0.80
LL' + = 0.65 0.75
0.82 0.53 0.75 0.10 .054
0.94 0.10
0.80 0.54
0.02 0 0 0 0
0 0.12 0 0 0
0 0 0.02 0 0
0 0 0 0.11 0
0 0 0 0 0.07
(
(
(
(
(
(

(
(
(

(
(
(
( +
(
(
(

______________________________________________________Elkin Castao V.

191
=
1.00 0.10 0.97 0.44 0.00
0.10 1.00 0.11 0.79 0.91
0.97 0.11 1.00 0.53 0.11
0.44 0.79 0.53 1.00 0.81
0.00 0.91 0.11 0.81 1.00
(
(
(
(
(
(
(

reproduce aproximadamente la matriz de correlacin R.

Por tanto, desde una base puramente descriptiva, el modelo
de dos factores anteriores ajusta bien los datos. Las
conmunalidades de 0.98, 0.88, 0.98, 0.89 y 0.93 indican que
los dos factores explican un gran porcentaje de la varianza
muestral de cada variable.

La interpretacin de los factores est sujeta a buscar una
rotacin que simplifique la estructura.

Ejemplo. Datos de los rendimientos de las acciones
Considere los n=100 datos de los rendimientos semanales de p=5
acciones, dados anteriormente.

En ese ejemplo se encontraron las dos primeras
componentes principales de la matriz R. Tomando m=1 o
m=2, se puede obtener fcilmente soluciones al modelo de
factor ortogonal.
______________________________________________________Elkin Castao V.

192
Para m=1, m=2, las siguiente tablas presentan las
estimaciones de las ponderaciones, varianzas especficas y
proporcin de la varianza total muestral explicada por cada
solucin.
Solucin para m=1
Ponderac. Estimadas
Variable F
1

Varianzas
Especficas
X
1
0.783 0.39
X
2
0.773 0.40
X
3
0.794 0.37
X
4
0.713 0.49
X
5
0.712 0.49
Prop.
Acum

0.571

Solucin para m=2
Ponderac. Estimadas
Variable F
1
F
2

Varianzas
Especficas
X
1
0.783 -0.217 0.34
X
2
0.773 -0.458 0.19
X
3
0.794 -0.234 0.31
X
4
0.713 0.472 0.27
X
4
0.712 0.524 0.22
Prop.
Acum

0.571

0.733

______________________________________________________Elkin Castao V.

193
Conmunalidades: por ejemplo, para m=2,

2 2 2 2 2
1 11 12
(0.783) ( 0.217) 0.66 h l l = + = + =

Chequeo. La matriz residual correspondiente a la solucin
m=2 es

0 0.127 0.164 0.069 0.017
0.127 0 0.122 0.055 0.012
R LL' = 0.164 0.122 0 0.019 0.017
0.069 0.055 0.019 0 0.232
0.017 0.012 0.017 0.232 0
(
(

(
(
(

(
(

La proporcin de la varianza total explicada por la solucin
m=2 es mucho mayor que la explicada por la solucin m=1.
Sin embargo, para m=2, LL'

produce nmeros que, son en
general, mayores que las correlaciones muestrales (observe
r
45
).

El primer factor representa las condiciones econmicas
generales del mercado y puede ser llamado como el factor
del mercado. Todas las acciones tienen ponderaciones altas
sobre este factor y son aproximadamente iguales.

______________________________________________________Elkin Castao V.

194
El segundo factor, contrasta las acciones qumicas (con
ponderaciones grandes y negativas) con las del petrleo (con
ponderaciones grandes y positivas). Como este factor parece
diferenciar las acciones de las diferentes industrias, el
segundo factor puede ser llamado el factor industria.

Una Aproximacin Modificada La Solucin del Factor
Principal. El procedimiento ser descrito en trminos de R,
pero tambin es apropiado para S.

Si el modelo de factor
' LL = +

est correctamente especificado, los m factores comunes deberan
explicar los elementos fuera de la diagonal de , as como
tambin las porciones de conmunalidad de los elementos de la
diagonal,
2
1
ii i i
h = = +

Si la contribucin del factor especfico
i
se remueve de la
diagonal, o equivalentemente

2
ii i
h =
la matriz resultante es
______________________________________________________Elkin Castao V.

195
' LL =

Suponga que se encuentran disponibles valores iniciales
*
i
para
los factores especficos. Entonces, reemplazando el i-simo
elemento de la diagonal de R por

*2 *
1
i i
h =

se obtiene una matriz de correlacin muestral reducida

R
r
=
*2
1 12 1
*2
12 2 2
*2
1 2
p
p
p p p
h r r
r h r
r r h
(
(
(
(
(
(
(

Ahora, aparte de la variacin muestral, todos los elementos de R
r
,
deberan ser explicados por los m factores comunes. En particular,
R
r
es factorizada como
R
r

* *
r r
L L '

donde
* *
[ ]
r ij
L l = son las ponderaciones estimadas.

El mtodo del factor principal del anlisis de factor usa las
estimaciones
______________________________________________________Elkin Castao V.

196
* * * * * * *
r 1 1 1 2

L
m m
e e e
(
=
(

* *2
1
1
m
i ij
j
l
=
=
donde (
* *
,
i i
e ), i=1, 2, , m, son los pares mayores de valores-
vectores propios de R
r
.

La re- estimacin de las conmunalidades estn dadas por

*2 *2 *2 *2
1 2
...
i i i im
h l l l = + + +

La solucin del factor principal puede ser obtenida iterativamente,
usando las estimaciones anteriores como valores iniciales para la
prxima etapa.

En la solucin del factor principal, los valores propios estimados
* * *
1 2

, , ,
p
ayudan a terminar el nmero de factores a ser
retenidos.

Aparece una nueva complicacin y es que ahora algunos de los
valores propios pueden ser negativos debido al uso inicial de las
conmunalidades estimadas. Idealmente, el nmero de factores
comunes debera ser tomado igual al rango de la matriz
poblacional reducida. Desafortunadamente, este rango no
______________________________________________________Elkin Castao V.

197
siempre est bien determinado usando R
r
, y se necesitan juicios
adicionales.

Aunque hay muchas elecciones para los valores iniciales de las
varianzas especficas, la ms popular es
*
1/
ii
i
r = , donde
ii
r es el
i-simo elemento de la diagonal de R
-1
. Con este valor, la
conmunalidad estimada es
*2 *
1
1 1
i i
ii
h
r
= =

Este valor es igual al cuadrado del coeficiente de correlacin
mltiple entre X
i
y las dems p-1 variables. Esto significa que
*2
i
h puede ser calculada aunque R no sea de rango completo.

En la factorizacin de S, para los valores iniciales de las varianzas
especficas se usa s
ii
, los elementos de la diagonal de S
-1
. Para
otros valores iniciales ver Harmon (1967).

Aunque el mtodo de la componente principal para R puede ser
considerado como un mtodo de factor principal con estimaciones
iniciales de conmunalidad de la unidad, o varianzas especficas
iguales a cero, los dos mtodos son diferentes filosficamente y
geomtricamente. En la prctica, si el nmero de variables es
grande y el nmero de factores es pequeo, los dos mtodos
producen ponderaciones comparables para los factores.
______________________________________________________Elkin Castao V.

198
El Mtodo de la Mxima Verosimilitud. Si los factores
comunes F y los factores especficos siguen una distribucin
normal multivariada, entonces se pueden obtener los
estimadores de mxima verosimilitud para las ponderaciones
de los factores comunes y para las varianzas especficas.

Cuando F y son conjuntamente normales, las observaciones
j j j
X LF = + tambin tienen una distribucin normal y la
funcin de verosimilitud es

( )
1
j j
1
1
(x -x)(x -x) ' (x- )(x- )'
/ 2 / 2 2
( , ) (2 ) | |
n
j
tr n
np n
L e

=
| | (
+
|
(
\
=

( )
1
j j
1
1
( 1) ( 1)
(x -x)(x -x) '
2
2 2
( , ) (2 ) | |
n
j
n p n
tr
L e
=
| | (

|
(
\
=

x
-1 1
(x- ) (x- ) '
2
2 2
(2 ) | |
n
p
e

| |

|
\

La cual depende de L y a travs de ' = + LL . Este
modelo tampoco est bien definido debido a las mltiples
elecciones para L por medio de transformaciones
ortogonales. Para que L est bien definida, se impone la
restriccin de unicidad

______________________________________________________Elkin Castao V.

199
L
-1
L=

donde es una matriz diagonal.

Los estimadores mximo verosmiles

L y deben ser
obtenidos por medio de maximizacin numrica de la
funcin de verosimilitud.

Solucin de Mxima Verosimilitud al Modelo de Factor. Sea
X
1
, X
2
, ,

X
n
, es una muestra aleatoria de una ( , )
p
N , donde
' = + LL es la matriz de covarianza para el modelo de m
factores comunes. Los estimadores mximo verosmiles

L, y X = maximizan la funcin de verosimilitud anterior
sujeta a que
-1

L' L sea una matriz diagonal.

Los estimadores mximo verosmiles de las conmunalidades
son

2 2 2 2
1 2

...
i i i im
h l l l = + + + , para i=1, 2, , p
y

______________________________________________________Elkin Castao V.

200
2 2 2
1 2
11 22
Prop. de la

varianza total
muestral debida
al factor j
j j pj
pp
l l l
s s s
| |
|
+ + +
|
=
| + + +
|
\

Solucin de Mxima Verosimilitud al Modelo de Factor con
variables estandarizadas.

Si las variables estn estandarizadas como Z=
1/ 2
( ) V X
,
entonces a matriz de covarianza de Z se puede representar por

=
1/ 2 1/ 2 1/ 2 1/ 2 1/ 2 1/ 2
( )( )' V V V L V L V V

= +

Por tanto, tiene una representacin anloga al caso anterior,
donde la matriz de las ponderaciones es

L
Z
= V
-1/2
L

y la matriz de varianzas especficas es

1/ 2 1/ 2
V V

=

Por la propiedad de invarianza de los estimadores mximo
verosmiles, el estimador mximo verosmil de es
______________________________________________________Elkin Castao V.

201
=
1/ 2 1/ 2 1/ 2 1/ 2

( )( ) ' V L V L V V

+

=
'

Z Z Z
L L +

donde
1/ 2
L son los estimadores mximo verosmiles de

V
-1/2
y L, respectivamente.

Como consecuencia de la descomposicin
'

Z Z Z
L L + , si el
anlisis de mxima verosimilitud pertenece a la matriz de
correlacin,

2 2 2 2
1 2

i i i im
h l l l = + + + , i=1, 2, ,p

Son los estimadores mximo verosmiles de las
conmunalidades, donde los elementos
ij
l son los elementos de
Z
L .

La importancia de los factores se evalan de acuerdo a

2 2 2
1 2
Prop. de la

varianza total
muestral debida
al factor j
j j pj
l l l
p
| |
|
+ + +
|
=
|
|
\

______________________________________________________Elkin Castao V.

202
Ejemplo.
Anlisis de los rendimientos de las acciones usando el mtodo de
mxima verosimilitud, suponiendo m=2.

La siguiente tabla contiene las estimaciones de las ponderaciones,
conmunalidades, varianzas especficas y proporciones de la
varianza total muestral explicada porcada factor, y los resultados
vistos antes para estas mismas cantidades, usando el mtodo de la
componente principal.

La matriz residual es

______________________________________________________Elkin Castao V.

203
Los elementos de la matriz residual anterior son mucho
menores que los de la matriz residual del mtodo de la
componente principal. Sobre esta base, se prefiere la solucin
de mxima verosimilitud.

La proporcin de la varianza total muestral explicada por el
mtodo de la componente principal es mayor que la obtenida
por la solucin de mxima verosimilitud. Esto no es
sorprendente puesto que las ponderaciones obtenidas por ese
mtodo estn relacionadas con las componentes principales, las
cuales tienen, por construccin, una propiedad de varianza
ptima.

Para la solucin de mxima verosimilitud, todas las variables
tienen grandes ponderaciones positivas sobre el primer factor
F
1
. Como en el caso del mtodo de la componente principal,
este factor es llamado el factor de mercado. Sin embargo, la
interpretacin del segundo factor no es clara como en el caso
de la solucin de la componente principal. Los signos de las
ponderaciones son consistentes con un contraste, o factor
industria, pero sus magnitudes son pequeas en algunos casos,
este factor podra ser identificado como una comparacin entre
Du Pont y Texaco.

______________________________________________________Elkin Castao V.

204
Los patrones de las ponderaciones iniciales para la solucin de
mxima verosimilitud estn restringidas por la condicin de
unicidad de que L
-1
L=, donde es una matriz diagonal.
Por tanto, los patrones tiles de los factores no son revelados
hasta que los factores sean rotados.

Prueba para el Nmero de Factores. Si la poblacin es
normal, se puede construir una prueba sobre la especificacin
correcta del modelo.

Suponga que el modelo de m factores es correcto. En este caso
' = + LL y probar si el modelo de m factores es adecuado es
equivalente a probar

0 pxp pxm mxp pxp
H : =L L' +
contra
1
H : es cualquier otra matriz definida positiva

Cuando no tiene una forma especial, es decir bajo H
1
, el
estimador de mxima verosimilitud de es
1
n
S
n
= .
La funcin de verosimilitud maximizada es, aparte de la
constante)

/ 2 / 2
| |
n np
n
S e

______________________________________________________Elkin Castao V.

205
Cuando Ho es cierto, es decir bajo Ho: ' = + LL , el
estimador restringido tiene la forma

' LL = + y el
mximo de la funcin de verosimilitud es

1
j j
1
1
1
(x -x)(x -x) '

/ 2 2
1

( ' )
/ 2 2
| |

| ' |
n
j
n
tr
n
n tr LL S
n
e
LL e
| |
(

|
(

\
| |
(
+
|

= +

El estadstico del cociente de verosimilitud para la prueba
es

0
1
max.Func. verosimilitud bajo H
2ln 2ln
max.Func.verosimilitud bajo H
| |
ln
| |
n
n
S
=
| |
=
|
\

Bajo H
0
, el estadstico 2ln tiene una distribucin
aproximadamente
2
r
, donde los grados de libertad

r =
2
1
( )
2
p m p m
(

______________________________________________________Elkin Castao V.

206
Bartlett (1954) mostr que la aproximacin a la
distribucin chi-cuadrado del estadstico 2ln puede ser
mejorada reemplazando n por (n-1-(2p+4m+5)/6).

Usando estos resultados el estadstico del cociente de
verosimilitud para probar Ho es

| ' |
( 1 (2 4 5) / 6)ln
| |
n
LL
NF n p m
S
+
= + +

Bajo Ho, y cuando n es grande, NF tiene una distribucin
aproximadamente 2
2
[( ) ] / 2 p m p m

Regla de decisin: Para n grande y para un nivel de
significancia aproximado de tamao , rechace Ho si el
valor observado de NF es tal que

NF> 2
2
[( ) ] / 2
( )
p m p m

donde 2
2
[( ) ] / 2
( )
p m p m

es el percentil -superior de la
distribucin 2
2
[( ) ] / 2 p m p m

.

______________________________________________________Elkin Castao V.

207
Ejemplo.
La solucin de mxima verosimilitud de los datos sobre los
rendimientos de las acciones, sugiere, al observar la matriz
residual, que una solucin de dos factores puede ser adecuada. Se
quiere probar la hiptesis H
0
: ' = + LL con m=2 y un nivel de
significancia =0.05.
El estadstico de la prueba est basado en

'

| | | | | ' |
| | | | | |
Z Z Z
n n
L L LL
S S R
+ +
= =

Empleando los resultados obtenidos antes,

Usando la aproximacin de Bartlett,

| ' |
( 1 (2 4 5) / 6) ln
| |
n
LL
NF n p m
S
+
= + +
______________________________________________________Elkin Castao V.

208
=[100-1-(10+8+5)/6]ln(1.0065)=0.62

Puesto que los grados de libertad de la chi-cuadrado son

r =
2
1
( )
2
p m p m
(

= (1/2)[(5-2)
2
-5-2] = 1

el percentil 0.05-superior de una chi-cuadrado con 1 grado de
libertad es
2
1
(0.05) =3.84.

Como NF=0.62 < 3.84=
2
1
(0.05) , no podemos rechazar H
0
, y se
concluye que los datos no contradicen modelo de dos factores.

4. ROTACIN DE FACTORES

Como se mencion antes, todas la ponderaciones obtenidas a
partir de la solucin inicial de las ponderaciones por medio de
una transformacin ortogonal tienen la misma habilidad para
reproducir la matriz de covarianza (o de correlacin).

Del algebra, se sabe que toda transformacin ortogonal
corresponde a una rotacin rgida de los ejes de coordenadas.
Por esta razn, toda transformacin ortogonal de las
ponderaciones de los factores, que igualmente implica una
______________________________________________________Elkin Castao V.

209
rotacin ortogonal de los factores, es llamada una rotacin de
los factores.

Si
L es la estimacin de matriz de ponderaciones de los

factores obtenida por cualquier mtodo, entonces

*

L =LT, donde TT'=T'T=I

es una matriz de p x m de las ponderaciones rotadas.

Adems, la matriz estimada de covarianza (correlacin)
permanece inalterada, puesto que,

* *

' ' ' ' LL LTT L L L + = + = +

Esto implica que la matriz residual,
* *
n n

S -LL'-=S -L L '- no
cambia.

Adems, las varianzas especficas
i
y
2
i
h las conmunalidades,
tambin permanecen iguales.

Puesto que la ponderaciones iniciales pueden no ser fcilmente
interpretables, es una prctica usual rotarlas hasta que se logre
una estructura ms simple.
______________________________________________________Elkin Castao V.

210
Idealmente, se pretende obtener un patrn de ponderaciones
tales que cada una de las variables tenga una alta ponderacin
en un solo factor y tenga ponderaciones pequenas o moderadas
sobre los dems factores. Sin embargo, esto no siempre es
posible obtener.

Ejemplo.
Lawley y Maxwell (1971) presentan la matriz de correlacin de
las notas en p=6 materias para n=220 estudiantes hombres.

La siguiente tabla presenta la solucin mximo verosmil para
m=2 de factores.

______________________________________________________Elkin Castao V.

211

Todas las variables tienen ponderaciones positivas en el
primer factor. Lawley y Maxwell que este factor refleja la
respuesta global de los estudiantes a la instruccin, y podra
ser llamado el factor de inteligencia general.

Para el segundo factor, la mitad de las ponderaciones son
positivas y la otra mitad negativas. Un factor con este patrn
de ponderaciones es llamado un factor bipolar (la
asignacin de polo positivo y negativo es arbitraria puesto
que los signos de las ponderaciones sobre el factor pueden
ser reversados sin que se afecte el anlisis.

La identificacin de este factor no es fcil, pero es tal que
los individuos que obtienen promedio altos en pruebas
verbales tambin obtiene promedio altos en los scores de
______________________________________________________Elkin Castao V.

212
este factor. Individuos con promedios altos en pruebas
matemticas obtiene promedios bajos sobre este factor.

Este factor podr ser clasificado como un factor
matemtica-no matemtica.

El siguiente grfico presenta los pares de ponderaciones
(
1 2

,
i i
l l ) sobre los dos factores.

Los puntos tienen los nmeros de las respectivas variables.
El grfico tambin presenta una rotacin en el sentido de las
agujas del reloj de los ejes de coordenadas usando un ngulo
20
o
.

______________________________________________________Elkin Castao V.

213
El ngulo fue escogido de forma tal que pasara por el punto
(
41 42

, l l ). Cuando se hace esta rotacin, observe todos los
puntos caen en el primer cuadrante (todas las ponderaciones
de los factores son positivas), y se revelan ms claramente
dos diferentes grupos de variables.

Las variables matemticas tienen altas ponderaciones
sobre
*
1
F , pero sus ponderaciones sobre
*
2
F son
despreciables. Este factor podra ser llamado factor de
habilidad matemtica.
Las variables verbales tienen altas ponderaciones en
*
2
F y ponderaciones moderadas en el factor
*
1
F . El
segundo factor podra ser llamado factor de habilidad
verbal.

El factor de inteligencia general identificado
inicialmente, queda sumergido en los factores
*
1
F y
*
2
F .

La siguiente tabla presenta las estimaciones de
ponderaciones y las conmunalidades para los factores
rotados con 20
o
.

______________________________________________________Elkin Castao V.

214

Las magnitudes de las ponderaciones rotadas refuerza las
interpretaciones sugeridas anteriormente.

Las estimaciones de las conmunalidades no cambian con la
rotacin, puesto que
* *

' ' ' ' LL LT T L L L = = . Las
conmunalidades son los elementos en la diagonal de estas
matrices.

Johnson y Wichern (1998) sugieren una rotacin oblicua de
las coordenadas.

Un nuevo eje pasara a travs del grupo (1, 2, 3) y el
otro eje a travs del grupo (4, 5, 6).

______________________________________________________Elkin Castao V.

215
Para este ejemplo, la interpretacin de los factores
oblicuos sera muy parecida a la dada para los factores
ortogonales.

Kaiser (1958) sugiere una medida analtica de estructura
simple conocida como el criterio varimax. Sean
* *

/
ij ij i
l l h =
los
coeficientes rotados y escalados usando las races cuadradas de
las conmunalidades. Entonces, el procedimiento de rotacin
varimax selecciona una transformacin T maximiza a

2
*4 *2
1 1 1
1
/
p p m
ij ij
j i i
V l l p
p
= = =
(
| |
= (
|
\ (

Despus de que se determina la transformacin T, las
ponderaciones
*
ij
l
son multiplicadas por
i
h , lo que preserva las
conmunalidades originales.

Aunque V parece bastante complicado, tiene una
interpretacin simple. En palabras V se puede describir como

1
var
m
i
ianzadeloscuadrados delas
V es proporcional
ponderacionesescaladas del factor j
=
| |
|
\

______________________________________________________Elkin Castao V.

216
Maximizar a V equivale a dispersar los cuadrados de las
ponderaciones sobre cada factor tanto como sea posible. Por
tanto, se espera encontrar grupos con ponderaciones grandes y
otros con ponderaciones insignificantes, en cualquier columna
de la matriz de ponderaciones rotadas
*
L .

Ejemplo.
Considere los datos de mercadeo sobre las preferencias del
consumidor. La siguiente tabla presenta las estimaciones de las
ponderaciones, conmunalidades y proporcin explicada,
usando el mtodo de la componente principal. Tambin se
presentan las ponderaciones rotadas usando el procedimiento
varimax.

Es claro que las variables 2, 4 y 5 definen un factor
(ponderaciones altas sobre el factor 1 y pequeas o
______________________________________________________Elkin Castao V.

217
despreciables en el factor 2). Este factor podra llamarse el
factor nutricional.

Las variables 1 y 3 definen el factor 2 (ponderaciones altas
sobre el factor 2 y pequeas o despreciables en el factor 1).
Este factor podra llamarse el factor del gusto.

El siguiente grfico presenta las ponderaciones de los
factores con respecto a los ejes de coordenadas originales y
a los ejes rotados.

La rotacin de las ponderaciones es recomendada para el
caso de estimacin de mxima verosimilitud, puesto que las
ponderaciones originales estn sujetas a la restriccin de
______________________________________________________Elkin Castao V.

218
unicidad de que
1

' L L
sea una matriz diagonal. Esta

condicin es conveniente computacionalmente, pero puede
producir ponderaciones que no sean fciles de interpretar.

Ejemplo.
Considere los datos sobre los rendimientos de las acciones de 5
compaas. Suponga un modelo con m=2 factores. La siguiente
tabla presenta las estimaciones de ponderaciones iniciales y
rotadas, as como las estimaciones de las varianzas especficas
y las proporciones de varianza total muestral explicada por los
factores.

______________________________________________________Elkin Castao V.

219
Anteriormente, usando las ponderaciones no rotadas se
identificaron los dos factores como el factor de mercado y
el factor de industria.

Las ponderaciones rotadas indican que las acciones
qumicas tienen ponderaciones altas sobre el primer factor,
mientras que las acciones petroleras tienen ponderaciones
altas sobre el segundo factor.

Los dos factores rotados, diferencian las industrias. El factor
1 representa aquellas fuerzas nicas de la economa que
causan que las acciones qumicas se muevan juntas. El
factor 2 parece representar las condiciones econmicas que
afectan las acciones petroleras.

Rotaciones Oblicuas. Las rotaciones ortogonales son
apropiadas para un modelo de factor en el cual se asume
independencia entre los factores comunes. Muchos
investigadores en ciencias sociales consideran tanto rotaciones
oblicuas (no ortogonales) como ortogonales. Las primeras son
sugeridas despus de que se observan las ponderaciones y no
siguen un modelo postulado. Sin embargo, frecuentemente una
rotacin oblicua es una ayuda til en el anlisis de factor.

______________________________________________________Elkin Castao V.

220
Si consideramos los m factores como los ejes de coordenadas,
el punto con las m coordenadas
( ) 1 2

, , ,
i i im
l l l representa la
posicin de la i-sima variable en el espacio de los factores.
Suponiendo que las variables estn agrupadas en clusters que
no se traslapan, una rotacin ortogonal hacia una estructura
simple, corresponde a una rotacin rgida de los ejes de
coordenadas, tales que dichos ejes, despus de la rotacin,
pasan tan cerca como sea posible a los clusters.

Una rotacin oblicua hacia una estructura simple corresponde a
una rotacin no rgida del sistema de coordenadas tal que los
ejes rotados (ya no perpendiculares) pasan (cercanamente) a
travs de los clusters. Una rotacin oblicua busca expresar cada
variable en trminos de un nmero mnimo de factores,
preferiblemente un solo factor. Ver Lawley y Maxwell (1971),
Harmon (1967).

5. SCORES DE LOS FACTORES

En el anlisis de factor, el inters generalmente se centra en los
parmetros del modelo. Sin embargo, los valores estimados de
los factores comunes, llamados scores de los factores, tambin
pueden ser de utilidad. Estas cantidades son usadas
______________________________________________________Elkin Castao V.

221
frecuentemente para propsitos de diagnstico del modelo y
como insumos para anlisis posteriores.

Los scores de los factores no son estimaciones de parmetros
desconocidos en el sentido usual. En realidad, son
estimaciones de los valores para los vectores aleatorios no
observables de los factores F
j
, j=1, 2, , m. Es decir,

j
f =estimaciones de los valores f

j
tomados por F
j

A continuacin se presentarn dos aproximaciones, que tienen
dos elementos en comn:
1) Tratan las ponderaciones estimadas
j
l y las varianzas
especficas estimadas
i
, como si fueran las verdaderas.

2) Usan transformaciones lineales de los datos originales, ya
sea centrados o estandarizados. Generalmente, se usan las
ponderaciones estimadas rotadas en lugar de las
ponderaciones estimadas originales. Las frmulas dadas a
continuacin no cambian cuando las ponderaciones no
rotadas son sustituidas por las no rotadas.

______________________________________________________Elkin Castao V.

222
Mtodo de los Mnimos Cuadrados Ponderados. Suponga
que el vector , las ponderaciones de los factores L y las
varianzas especficas son conocidas en el modelo de factor

1 1 1 1 px px pxm mx px
X L F = +

El modelo anterior puede ser considerado como un modelo de
regresin donde los factores especficos son considerados
como los errores. Como la Var(
i
)=
i
, i=1, 2, , p, Bartlett
(1937), sugiri usar mnimos cuadrados ponderados para
estimar los valores de los factores comunes.

La solucin es

-1 -1 -1
f = (L' L) L' (X- )

Usando las estimaciones
L,
y x = , como los verdaderos

valores, los scores para el j-simo factor son

-1 -1 -1
j j

f = (L' L) L' (x -x)

Cuando
L,
son determinados por mxima verosimilitud,

satisfacen la condicin de unicidad
-1

L' L=

______________________________________________________Elkin Castao V.

223
Scores de los factores obtenidos por Mnimos Cuadrados
Ponderados usando estimaciones de Mxima Verosimilitud.

De lo anterior:

-1 -1 -1
j j

f = (L' L) L' (x -x)

-1 -1
j j

f = L' (x -x) , j=1, 2, , m

Si se usa la matriz de correlacin

-1 -1 -1
j z z z j
' '

f = (L L ) L z
z z

-1 -1
j z z j
'

f = L z
z
, , j=1, 2, , m

donde
-1/2
j j
z D (x -x) = y
z z z
'

L L + =

Los scores de los factores as generados, tienen media muestral
cero y covarianzas muestrales cero.

Observacin.
Si las ponderaciones de los factores son calculadas por medio del
mtodo de componente principal, se acostumbra generar los
______________________________________________________Elkin Castao V.

224
scores de los factores usando el procedimiento de mnimos
cuadrados ordinarios (no ponderados). Implcitamente se supone
que los
i
son iguales o aproximadamente iguales. Los scores de
los factores son

-1
j j

f = (L'L) L'(x -x)
o,
-1
j z z z j
' '

f = (L L ) L z

Los scores de los factores as generados, tienen media muestral
cero y matriz de covarianza I.

Comparando con el anlisis de Componentes Principales, los
scores no son ms que las m componentes principales evaluadas
en x
j
.

El mtodo de la regresin. Considerando el modelo de factor
original X- =LF+ , inicialmente tratamos a la matriz de
ponderaciones L y a la matriz de varianza especfica como
se fueran conocidas.

Cuando los factores comunes F y los factores especficos (o
errores) tienen una distribucin conjunta normal multivariada
con vectores de media y matrices de covarianza dadas por
______________________________________________________Elkin Castao V.

225
E(F)=0, Cov(F)=E(FF)=I

E( )=0, Cov( )=E( )=
1
2
0 ... 0
0 ... 0
0 0 ...
p
(
(
(
=
(
(
(

Las combinaciones lineales X- =LF+ tienen una distribucin
N
p
(0, LL+).

Adems la distribucin conjunta de X- y F es N
p+m
(0, * ),
donde
* =
=LL'+ L
L' I
(
(

y 0 es un vector de (m+p) x 1 ceros.

Usando estos resultados, la distribucin condicional de F|x es
normal multivariada con

E(F|x)=L
1
( x- )=L(LL+)( x- )


Cov((F|x)= I- L
1
L= I- L(LL+)
-1
L

______________________________________________________Elkin Castao V.

226
Las cantidades L(LL+)
-1
son los coeficientes de una
regresin multivariada de los factores sobre las variables. La
estimacin de estos coeficientes producen scores para los factores
que son anlogos a las estimaciones de las medias condicionales
en el anlisis de regresin multivariada.

Por tanto, dado cualquier vector de observaciones x
j
, tomando las
estimaciones mximo verosmiles
L y
como los verdaderos

valores de L y , el j-simo valor del vector de factores est dado
por

j
f =
L'
1
( x
j
- x) =
L' (
L' +
)( x
j
- x), j=1, 2, , n

Observaciones.
1) El clculo de
j
f se puede simplificar usando la siguiente

identidad matricial

L' (
L' +
) = (I+
L'
-1
L)
-1
L'
-1

Esta identidad nos permite comparar los scores anteriores con los
generados por mnimos cuadrados ponderados.
Sea
R
j
f los scores generados por el mtodo de la regresin y

LS
j
f
los generados por mnimos cuadrados ponderados. Entonces,
usando la identidad anterior,
______________________________________________________Elkin Castao V.

227

LS
j
f =(
L'
-1
L)
-1
(I+
L'
-1
L)
-1
R
j
f = (I+(
L'
-1
L)
-1
)
R
j
f

Para los estimadores mximo verosmiles, (
L'
-1
L)
-1
=
1
. Por
tanto, si los elementos de esta matriz diagonal son cercanos a
cero, el mtodo de la regresin y el de mnimos cuadrados
generalizados sern iguales.

2) En un intento por tratar de reducir los efectos de una (posible)
determinacin incorrecta del nmero de factores, algunos calculan
los scores de los factores reemplazando

= LL' + por S (la
matriz de covarianza muestral original).

3) Si se usan los factores rotados
*

L =LT en lugar de las
ponderaciones originales, los scores de los factores
*
j
f estn
relacionados con
j
f por medio de

*
j
f = T
j
f

4) Una medida de conciliacin entre los dos diferentes
procedimientos para calcular los scores est dada por el
coeficiente de correlacin muestral entre los scores de un mismo
______________________________________________________Elkin Castao V.

228
factor. De los mtodos presentados, ninguno es uniformemente
superior.

Ejemplo.
Considere los datos sobre los rendimientos de las acciones de 5
compaas. Anteriormente, el mtodo de la componente principal
produjo las siguientes ponderaciones estimadas.

0.784 0.216
0.773 0.458
0.795 0.234
0.712 0.473
0.712 0.524
L
(
(
(
( =
(
(
(

y
*
0.746 0.323
0.889 0.128
0.766 0.316
0.258 0.815
0.226 0.854
L LT
(
(
(
( = =
(
(
(

Para cada factor, tomando las mayores ponderaciones en L

y eliminando las ponderaciones ms pequeas, se crean las
siguientes combinaciones lineales

1 1 2 3 4 5
f x x x x x = + + + +

2 4 5 2
f x x x = +

Como un resumen de los factores. En la prctica estas
variables se estandarizan.

Si en lugar de usar L
, se usan las ponderaciones rotadas con

el criterio varimax, los scores de los factores seran
______________________________________________________Elkin Castao V.

229

1 1 2 3
f x x x = + +

2 4 5
f x x = +

La identificacin de ponderaciones grandes y pequeas es
en realidad bastante subjetiva. Se prefieren las
combinaciones lineales que tengan sentido en el rea de
investigacin

Observaciones.
1) Aunque con frecuenta se supone normalidad multivariada
para las variables en un anlisis de factor, en realidad es
muy difcil justificar este supuesto cuando el nmero de
variables es muy grande. Algunas veces, las
transformaciones sobre las variables vistas anteriormente
pueden ayudar a aproximar a la normalidad.

2) Se deben examinar los grficos de los scores de los factores
antes de usarlos en otros anlisis. Los scores de los factores
pueden producir toda clase de formas no elpticas, que
pueden revelar valores atpicos y la desviacin de la no
normalidad.

______________________________________________________Elkin Castao V.

230
6. PERSPECTIVAS Y ESTRATEGIAS PARA EL ANLISIS DE
FACTOR

Hay muchas decisiones que hay que tomar en cualquier estudio de
anlisis de factor.

Probablemente la ms importante tiene que ver con el
nmero de factores, m.

Aunque una prueba para muestras grandes de la adecuacin
del modelo est disponible para un valor m dado, esta es
adecuada solamente cuando los datos tienen distribucin

Adems la prueba casi seguramente rechazar el modelo
para m pequeo si el nmero de observaciones es grande.
Sin embargo, esta es la situacin en la que el anlisis de
factor proporciona una aproximacin til.

Frecuentemente, la eleccin final de m est basada en la
combinacin de:

La proporcin de la varianza total muestral explicada.

Conocimiento de la disciplina.
______________________________________________________Elkin Castao V.

231
La racionalidad de los resultados.

La eleccin del mtodo de solucin y el tipo de rotacin es
una decisin menos crucial. En efecto, los anlisis de factor
ms satisfactorios son aquellos en los cuales se realizan
rotaciones con ms de un mtodo y todos los resultados
confirman sustancialmente la misma estructura de factores.
Aunque hasta el presente no existe una estrategia sencilla para
la solucin del anlisis de factor, Jonson y Wichern (1998)
sugieren la siguiente:

Realice un anlisis de factor usando el mtodo de la
componente principal. Este mtodo es particularmente
adecuado para un primer anlisis de los datos y no requiere que
R o S sean no singulares.

Busque observaciones sospechosas inspeccionando los
grficos de los scores de los factores. Calcule tambin los
scores estandarizados para cada observacin, y calcule las
distancias cuadrticas generalizadas para evaluar
normalidad y detectar observaciones sospechosas.

Use la rotacin varimax.

______________________________________________________Elkin Castao V.

232
Realice un anlisis de factor usando el mtodo de la mxima
verosimilitud, incluyendo la rotacin varimax.

Compare las soluciones obtenidas por los dos anlisis.

Las ponderaciones se agrupan de la misma manera?

Grafique los scores obtenidos por medio del mtodo de la
componente principal con los scores obtenidos por medio
del mtodo de mxima verosimilitud.

Repita los tres pasos anteriores para otros nmeros de
factores comunes m.

Los factores extra contribuyen al entendimiento e
interpretacin de los datos?

Para grandes conjuntos de datos, divdalos a la mitad y
realice un anlisis de factor sobre cada parte. Compare los
resultados de los dos anlisis y con el resultado obtenido
con los datos completos para verificar la estabilidad de la
solucin (los datos podran ser divididos aleatoriamente, o
colocando la primera mitad en un grupo, y la segunda mitad
en el otro).
______________________________________________________Elkin Castao V.

233
Ejemplo.
Considere las siguientes variables que indican las dimensiones de
algunos de los huesos de los pollos. Los n=276 datos fueron las
mediciones realizadas sobre:

Cabeza: X
1
= longitud del crneo
X
2
= amplitud del crneo

Pierna: X
3
= longitud del fmur
X
4
= longitud de la tibia

Ala: X
5
= longitud del hmero
X
6
= longitud del cbito

La matriz de correlacin es

Se emplearon m=3 factores y se usaron los mtodos de la
componente principal y el mtodo de mxima verosimilitud en el
anlisis. En la siguiente tabla se presentan los resultados.

______________________________________________________Elkin Castao V.

234

Despus de realizar la rotacin, los dos mtodos parecen dar
resultados algo diferentes.

En el mtodo de la componente principal, la
proporcin de varianza de la varianza total muestral
explicada indica que el tercer factor parece
significante. El primer factor parece ser el tamao del
cuerpo, dominando por las dimensiones de las alas y
______________________________________________________Elkin Castao V.

235
las piernas. El segundo y tercer factor, conjuntamente,
representan la dimensin del crneo, y podran ser
denominados, como las variables, longitud del crneo
y amplitud del crneo.

Las ponderaciones rotadas producidas por el mtodo
de mxima verosimilitud para el primer factor, son
consistentes con las generadas por el mtodo de la
componente principal, pero no para los factores 2 y 3.

Para el mtodo de mxima verosimilitud, el segundo
factor parece representar el tamao de la cabeza. L
significado del tercer factor no est claro, parece que
no se necesita.

Otro soporte para retener tres o menos factores est dado por
la matriz residual obtenida por los estimaciones mximo
verosmiles:

______________________________________________________Elkin Castao V.

236
Todos los elementos en la matriz son muy pequeos. Para
el ejemplo, continuamos con este modelo con m=3.

El siguiente grfico presenta los scores para los factores 1 y
2 producidas por el mtodo de la regresin con las
estimaciones mximo verosmiles: ste grafico nos permite
detectar las observaciones que, por diferentes razones, no
son consistentes con las dems. Las observaciones atpicas
potenciales aparecen encerradas en crculos.

Tambin es importante graficar los pares de los scores
factores usando los mtodos de la componente principal y
de mxima verosimilitud.

______________________________________________________Elkin Castao V.

237
Si las ponderaciones sobre un factor concuerdan, los
scores deberan agruparse estrechamente alrededor de
una recta de 45
o
que pasa por el origen.

Si no concuerdan, los scores de los factores producirn
patrones que se desvan de este patrn. En este caso,
generalmente ocurre que el nmero de factores es muy
grande, es decir, los ltimos factores no son significantes.

Los siguientes grficos de dispersin presentan los pares de
scores para los tres factores usando los mtodos de la
componente principal y de mxima verosimilitud.

______________________________________________________Elkin Castao V.

238

Observe que el grfico (c) se desva del patrn lineal,
sugiriendo que el ltimo factor no parece ser significante.

______________________________________________________Elkin Castao V.

239
Los grficos de los pares de scores usando los dos mtodos
tambin es til para detectar observaciones atpicas.

Si los conjuntos de ponderaciones para un factor tienden
a concordar, las observaciones atpicas aparecern como
puntos en las vecindades de la recta de 45
o
, pero lejos del
origen y del grupo de las otras observaciones. El grfico
(b) anterior muestra que una de las 276 observaciones no
es consistente con las otras. Es un score inusualmente
grande para F
2
. Cuando esta observacin es removida, el
anlisis con los datos restantes muestra que las
ponderaciones no se alteran apreciablemente.

Cuando el conjunto de datos es grande, se puede dividir
en dos grupos con el mismo nmero (aproximado) de
observaciones y realizar el anlisis en cada uno de ellos.
Para el ejemplo, los datos fueron divididos en dos
conjuntos con n
1
=137 y n
2
=139 observaciones. Las
matrices de correlacin resultantes son,

______________________________________________________Elkin Castao V.

240

La siguiente tabla presenta la solucin de la componente
principal para cada subconjunto y m=3.

Los resultados para los dos grupos son muy similares.

Los factores
*
2
F y
*
3
F se intercambian con respecto a
sus nombres, longitud del crneo y amplitud del crneo,
pero colectivamente parecen representar el tamao de la
cabeza.

______________________________________________________Elkin Castao V.

241
El primer factor
*
1
F , de nuevo parece ser el tamao del
cuerpo, dominado por las dimensiones de las piernas y de
las alas. Estas son las mismas interpretaciones obtenidas
antes por el mtodo de la componente principal para los
datos completos.

La solucin es notablemente estable, y podemos tener
bastante confianza de que las ponderaciones grandes
sean reales.

Para estos datos, seguramente es mejor un modelo de un
factor o de dos factores.

El anlisis de factor tiene un gran atractivo para las ciencias del
comportamiento y sociales. En estas reas, es natural considerar
las observaciones multivariadas sobre los procesos animales y
humanos como manifestaciones de atributos subyacentes no
observables. El anlisis de factor proporciona una manera de
explicar la variabilidad observada en el comportamiento, en
trminos de estos atributos.

______________________________________________________Elkin Castao V.

242

stock<-read.table("c:/unal/datos/j-wdata/t8_3.txt", header = TRUE)
list(stock)
attach(stock )

# obtencin de matriz de correlacin
cormat=cor(stock)
cormat

# obtencin del anlisis de factores por el mtodo de la componente principal
# usando la matriz de correlacin

pcfactor<-function (xmat, factors=NULL, cor=TRUE) {

prc <- princomp ( covmat = xmat ,cor = cor )
eig <- prc$sdev^2

if (is.null(factors)) factors <- sum ( eig >= 1 )

loadings <- prc$loadings [ , 1:factors ]

coefficients <- loadings [ , 1:factors ] %*% diag ( prc$sdev[1:factors] )

rotated <- varimax ( coefficients ) $ loadings

fct.ss <- apply( rotated, 2 , function (x) sum (x^2) )
pct.ss <- fct.ss / sum (eig)
cum.ss <- cumsum ( pct.ss )
ss <- t ( cbind ( fct.ss , pct.ss, cum.ss ) )

return ( coefficients , rotated , ss )

}

factor_out <- pcfactor(cormat, 2, TRUE); factor_out

# obtencin del anlisis de factores por el mtodo de mxima verosimilitud
# usando la matriz de correlacin

mvfactor<-factanal(cormat, factors=2, rotation="none",
scores = c("regression"))
print(mvfactor, digits=2, cutoff=.3, sort=TRUE)

mvfactor<-factanal(stock, factors=2, rotation="varimax",
scores = c("regression"),)
print(mvfactor, digits=2, cutoff=.3, sort=TRUE)
load <- mvfactor$loadings
______________________________________________________Elkin Castao V.

243
plot(load,type="n") # plot factor 1 by 2
text(load,labels=names(stock),cex=.7) # add variable names

4 Castaño - Análisis de Datos Multivariados

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

4 Castaño - Análisis de Datos Multivariados

Uploaded by

Copyright:

Available Formats

______________________________________________________Elkin Castao V.

es un vector aleatorio de px1.

son llamadas estimaciones

el EMV para , y sea ( ) h una funcin

tiene aproximadamente una distribucin

=0.30, la cual se aproxim a 0.25 por conveniencia.

son relativamente pequeos y aproximadamente

explicada por la i-esima

. La contribucin a la varianza total s

L son los estimadores mximo verosmiles de

(x -x)(x -x) '

L es la estimacin de matriz de ponderaciones de los

son multiplicadas por

sea una matriz diagonal. Esta

f =estimaciones de los valores f

f = (L' L) L' (X- )

y x = , como los verdaderos

son determinados por mxima verosimilitud,

como los verdaderos

f se puede simplificar usando la siguiente

f los scores generados por el mtodo de la regresin y

, se usan las ponderaciones rotadas con

You might also like