Professional Documents
Culture Documents
MULTIVARIANTE
Carles M. Cuadras
November 6, 2008
2
Es propiedad del autor.
c
C.
M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice
1 DATOS MULTIVARIANTES
1.1 Introduccin . . . . . . . . . . . . . . . . . . . .
1.2 Matrices de datos . . . . . . . . . . . . . . . . .
1.3 La matriz de centrado . . . . . . . . . . . . . .
1.4 Medias, covarianzas y correlaciones . . . . . . .
1.5 Variables compuestas . . . . . . . . . . . . . . .
1.6 Transformaciones lineales . . . . . . . . . . . . .
1.7 Teorema de la dimensin . . . . . . . . . . . . .
1.8 Medidas globales de variabilidad y dependencia
1.9 Distancias . . . . . . . . . . . . . . . . . . . . .
1.10 Un ejemplo . . . . . . . . . . . . . . . . . . . .
2 NORMALIDAD MULTIVARIANTE
2.1 Introduccin . . . . . . . . . . . . . .
2.2 Distribucin normal multivariante . .
2.2.1 Definicin . . . . . . . . . . .
2.2.2 Propiedades . . . . . . . . . .
2.2.3 Caso bivariante . . . . . . . .
2.3 Distribucin de Wishart . . . . . . .
2.4 Distribucin de Hotelling . . . . . . .
2.5 Distribucin de Wilks . . . . . . . . .
2.6 Relaciones entre Wilks, Hotelling y F
2.7 Distribuciones con marginales dadas .
2.8 Complementos . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
12
13
14
14
15
16
17
19
.
.
.
.
.
.
.
.
.
.
.
23
23
24
24
25
26
27
28
29
31
31
33
3 INFERENCIA MULTIVARIANTE
35
3.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Estimacin de medias y covarianzas . . . . . . . . . . . . . . . 36
3
NDICE
3.3 Tests multivariantes . . . . . . . . . . . . . .
3.3.1 Test sobre la media: una poblacin .
3.3.2 Test sobre la media: dos poblaciones
3.3.3 Comparacin de medias . . . . . . .
3.4 Teorema de Cochran . . . . . . . . . . . . .
3.5 Construccin de tests multivariantes . . . .
3.5.1 Razn de verosimilitud . . . . . . . .
3.5.2 Principio de unin-interseccin . . . .
3.6 Ejemplos . . . . . . . . . . . . . . . . . . . .
3.7 Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
38
39
42
42
44
45
49
.
.
.
.
.
.
.
.
.
.
51
51
51
53
56
57
57
58
58
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
65
66
68
69
70
72
72
73
73
73
74
76
NDICE
6 ANLISIS FACTORIAL
6.1 Introduccin . . . . . . . . . . . . . . . . . .
6.2 El modelo unifactorial . . . . . . . . . . . .
6.3 El modelo multifactorial . . . . . . . . . . .
6.3.1 El modelo . . . . . . . . . . . . . . .
6.3.2 La matriz factorial . . . . . . . . . .
6.3.3 Las comunalidades . . . . . . . . . .
6.3.4 Nmero mximo de factores comunes
6.3.5 El caso de Heywood . . . . . . . . .
6.3.6 Un ejemplo . . . . . . . . . . . . . .
6.4 Teoremas fundamentales . . . . . . . . . . .
6.5 Mtodo del factor principal . . . . . . . . .
6.6 Mtodo de la mxima verosimilitud . . . . .
6.6.1 Estimacin de la matriz factorial . .
6.6.2 Hiptesis sobre el nmero de factores
6.7 Rotaciones de factores . . . . . . . . . . . .
6.7.1 Rotaciones ortogonales . . . . . . . .
6.7.2 Factores oblicuos . . . . . . . . . . .
6.7.3 Rotacin oblicua . . . . . . . . . . .
6.7.4 Factores de segundo orden . . . . . .
6.8 Medicin de factores . . . . . . . . . . . . .
6.9 Anlisis factorial confirmatorio . . . . . . . .
6.10 Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
78
80
80
81
81
82
83
83
85
87
88
88
89
90
90
91
92
94
95
96
98
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
104
105
107
107
107
108
109
113
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
8 ESCALADO MULTIDIMENSIONAL (MDS)
8.1 Introduccin . . . . . . . . . . . . . . . . . . . .
8.2 Cuando una distancia es eucldea? . . . . . . . .
8.3 El anlisis de coordenadas principales . . . . . .
8.4 Similaridades . . . . . . . . . . . . . . . . . . .
8.5 Nociones de MDS no mtrico . . . . . . . . . .
8.6 Distancias estadsticas . . . . . . . . . . . . . .
8.6.1 Variables cuantitativas . . . . . . . . . .
8.6.2 Variables binarias . . . . . . . . . . . . .
8.6.3 Variables categricas . . . . . . . . . . .
8.6.4 Variables mixtas . . . . . . . . . . . . .
8.6.5 Otras distancias . . . . . . . . . . . . . .
8.7 Dos ejemplos . . . . . . . . . . . . . . . . . . .
8.8 Complementos . . . . . . . . . . . . . . . . . . .
NDICE
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 ANALISIS DE CORRESPONDENCIAS
9.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Cuantificacin de las variables categricas . . . . . . . .
9.3 Representacin de filas y columnas . . . . . . . . . . . .
9.4 Relacin entre filas y columnas y representacin conjunta
9.5 Soluciones simtrica y asimtrica . . . . . . . . . . . . .
9.6 Variabilitadad geomtrica (inercia) . . . . . . . . . . . .
9.7 Analisis de Correspondencias Mltiples . . . . . . . . . .
9.8 MDS ponderado . . . . . . . . . . . . . . . . . . . . . . .
9.9 Complementos . . . . . . . . . . . . . . . . . . . . . . . .
10 CLASIFICACIN
10.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . .
10.2 Jerarqua indexada . . . . . . . . . . . . . . . . . . .
10.3 Geometra ultramtrica . . . . . . . . . . . . . . . . .
10.4 Algoritmo fundamental de clasificacin . . . . . . . .
10.5 Equivalencia entre jerarqua indexada y ultramtrica
10.6 Algoritmos de clasificacin jerrquica . . . . . . . . .
10.6.1 Mtodo del mnimo . . . . . . . . . . . . . . .
10.6.2 Mtodo del mximo . . . . . . . . . . . . . . .
10.7 Otras propiedades del mtodo del mnimo . . . . . .
10.8 Un ejemplo . . . . . . . . . . . . . . . . . . . . . . .
10.9 Clasificacin no jerrquica . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
. 115
. 116
. 117
. 121
. 122
. 125
. 126
. 127
. 127
. 128
. 129
. 130
. 132
.
.
.
.
.
.
.
.
.
137
. 137
. 139
. 140
. 142
. 144
. 146
. 149
. 153
. 157
.
.
.
.
.
.
.
.
.
.
.
161
. 161
. 162
. 164
. 168
. 168
. 169
. 171
. 172
. 174
. 175
. 176
NDICE
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
181
181
182
182
183
183
184
184
185
185
185
186
186
189
189
190
190
191
192
192
193
194
194
196
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
. 197
. 198
. 199
. 199
. 200
. 201
. 201
. 202
. 202
NDICE
12.5 Hiptesis lineales . . . . . . . . . . . . . . . . . . . . . . . . . 203
12.6 Inferencia en regresin mltiple . . . . . . . . . . . . . . . . . 206
12.7 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
209
. 209
. 211
. 213
. 215
. 216
. 219
.
.
.
.
.
.
.
.
.
221
. 221
. 222
. 223
. 225
. 226
. 227
. 227
. 230
. 231
.
.
.
.
.
.
.
.
.
233
. 233
. 234
. 235
. 236
. 236
. 237
. 238
. 238
. 241
NDICE
P ROLOGO
El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemticos, destinados a describir e interpretar los datos que provienen de la observacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justifican su aplicabilidad. Para examinar los datos y ver ms ejemplos consltese la pgina web
www.ub.edu/stat/cuadras/cuad.html
Esta obra tiene como precedentes la monografia Mtodos de Anlisis
Factorial (Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona,
1974), y el libro Mtodos de Anlisis Multivariante (EUNIBAR, 1981;
PPU, 1991; EUB, 1996, Barcelona).
10
NDICE
Captulo 1
DATOS MULTIVARIANTES
1.1
Introduccin
1.2
Matrices de datos
12
datos multivariantes es
x11
..
..
.
.
X = i1
.
..
..
.
xn1
x1p
..
xip
..
.
xnp
x1j
..
..
.
.
xij
..
..
.
.
xnj
Las filas de X se identifican con los individuos y las columnas de X con las
variables. Indicaremos:
1. xi la fila i-sima de X.
2. Xj la columna j-sima de X.
3. x = (x1 , . . . , xj , . . . , xp ) el vector (fila) de las medias de las variables,
siendo
n
1
xj =
xij .
n i=1
4. La matriz simtrica p p de covarianzas
s11 s12
s21 s22
S =
... ...
sp1 sp2
siendo
muestrales
s1p
s2p
,
spp
sjj =
1
(xij xj )(xij xj )
n i=1
1.3
La matriz de centrado
13
Propiedades:
H = H.
H2 = H.
H1 = 1 H = 0.
rang(H) =n 1.
Los valores propios de H son 0 1.
X = HX es la matriz de datos centrados (las columnnas de X suman
0).
1.4
1 r12 r1p
r21 1 r2p
,
R =
... ...
rp1 rp2 1
S = DRD,
(1.1)
14
1.5
Variables compuestas
1.6
Transformaciones lineales
1.7
15
Teorema de la dimensin
s11 s1r
.. . .
.
.
. ..
sr1
srr
sj1 sjr
r
i=1
ai sji ,
sji =
r
ai sii .
i =1
Entonces
var(Xj
r
i=1
ai Xi ) = sjj + ri,i =1 ai ai sii 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai ( ri =1
ai sii ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0.
Por lo tanto
Xj
r
i=1
ai Xi = c = Xj = c +
r
i=1
ai Xi
16
Corollary 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rang(R) p, hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
Demost.: De (1.1) deducimos que r = rang(R) = rang(S).
1.8
1.9. DISTANCIAS
17
1.9
Distancias
x1
X = ...
xn
dE (i, j) = (xih xjh )2 .
(1.2)
h=1
2. Distancia de K. Pearson
dP (i, j) = (xih xjh )2 /shh ,
(1.3)
h=1
(xi xj ) S1 (xi xj ).
(1.4)
18
Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ,
donde es una constante. La distancia dM es muy adecuada en AM debido
a que verifica:
a) dE supone implcitamente que las variables son incorrelacionadas y no es
invariante por cambios de escala.
b) dP tambin supone que las variables son incorrelacionades pero es invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es invariante por
transformaciones lineales no singulares de las variables, en particular
cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz de
covarianzas es la identidad Ip y diag(S), respectivamente. En efecto:
dE (i, j)2 = (xi xj ) (xi xj ),
1.10. UN EJEMPLO
N
72
60
56
41
32
30
39
42
37
33
32
63
54
47
19
E
66
53
57
29
32
35
39
43
40
29
30
45
46
51
S
76
66
64
36
35
34
31
31
31
27
34
74
60
52
W
77
63
58
38
36
26
27
25
25
36
28
63
52
43
N
91
56
79
81
78
46
39
32
60
35
39
50
43
48
E
S W
79 100 75
68 47 50
65 70 61
80 68 58
55 67 60
38 37 38
35 34 37
30 30 32
50 67 54
37 48 39
36 39 31
34 37 40
37 39 50
54 57 43
1.10
Un ejemplo
Example 1.10.1
La Tabla 1.1 contiene los datos de n = 28 alcornoques y p = 4 variables,
que miden los depsitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.
Medias, covarianzas y correlaciones
Vector de medias:
x =(50.536, 46.179, 49.679, 45.179)
Matriz de covarianzas:
337.50 250.27
217.93
20
1
0.826 0.769
R=
1
0.923
1
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la variabilidad de los datos:
Contraste eje N-S con eje E-W: Y1 = N + S E W
Contraste N-S:
Y2 = N S
Contraste E-W:
Y3 = E W
Media
8.857
0.857
1.000
Variancia:
124.1
61.27
99.5
Variables normalizadas
Una variable compuesta est normalizada si la suma de cuadrados de sus
coeficientes es 1. La normalizacin evita que la varianza tome un valor arbitrario. La normalizacin de Y1 , Y2 , Y3 dar:
Z1 = (N + S
E W )/2
Z2 = (N S)/ 2
Z3 = (E W )/ 2
Media Variancia:
4.428
31.03
0.606
30.63
0.707
49.75
Interpretacin
La normalizacin de las variables consigue que estas tengan varianzas ms
homogneas. La principal direccin de variabilidad aparece al hacer la comparacin del eje N-S con el eje E-W.
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualitzacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grfico
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
1.10. UN EJEMPLO
21
22
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1
Introduccin
24
En este captulo introducimos y estudiamos la distribucin normal multivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2
2.2.1
f (x; , 2 ) = e 2 (x) / =
e
2
2
(2.1)
Evidentemente se verifica:
X = + Y
(2.2)
(2.3)
(2.5)
25
1 p
2
fX (x1 , . . . , xp ) = (1/ 2)p e 2 i=1 yi |A1 |.
(2.6)
(2.7)
2.2.2
Propiedades
i = 1, . . . , p.
26
2.2.3
Caso bivariante
Cuando p = 2, la funcin de densidad se puede expresar en funcin de las medias y varianzas 1 , 21 , 2 , 22 y del coeficiente de correlacin =cor(X1 , X2 ) :
f(x1 , x2 ) =
2
(x1 1 )2
1
1
1 ) (x2 2 )
2)
2 (x1
+ (x2
,
exp [ 21 1
2{
2
2
2
2
1
21 2
1
[(x2 2 ( 2 / 1 )(x1 1 )]2
],
exp[
2 22 (1 2 )
2 2(1 2 )
27
2.3
Distribucin de Wishart
p
1
( (n + 1 i).
2
i=1
28
2.4
es 2n .
Distribucin de Hotelling
np
p
(x) S1 (x) Fnp
.
p
29
entonces
T2 =
y por lo tanto
2.5
n1 n2
1 (x y) T 2 (p, n1 + n2 2)
(xy) S
n1 + n2
n1 + n2 1 p 2
T Fnp1 +n2 1p .
(n1 + n2 2)p
Distribucin de Wilks
A/m
,
B/n
|A|
|A + B|
30
0.15
0.1
0.05
0
0
0.25
0.5
0.75
1
x
(2.8)
1
m1 F 2n
(p
=
2)
2(m1)
n
2.6
31
(2.9)
2.7
32
y demostrado la desigualdad
+ ,
donde , y + son las correlaciones entre X, Y cuando la distribucin
bivariante es H , H y H + , respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales F, G, que en algunos casos contienen a
H , H 0 y H + . Escribiendo F, G, H para indicar F (x), G(y), H(x, y), algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H = F G[1 + (1 F )(1 G)],
1 1.
2.8. COMPLEMENTOS
33
2. Clayton-Oakes:
H = [F + G 1]1/ ,
1 < .
3. Ali-Mikhail-Haq:
H = F G/[1 (1 F )(1 G)]
1 1.
4. Cuadras-Aug:
H = (min{F, G}) (F G)1 ,
0 1.
5. Familia de correlacin:
H (x, y) = F (min{x, y}) + (1 )F (x)J(y),
1 1,
2.8
Complementos
34
(Cuadras, 2002).
Captulo 3
INFERENCIA
MULTIVARIANTE
3.1
Conceptos bsicos
log f (x, ).
Una muestra multivariante est formada por las n filas x1 , . . . , xp independientes de una matriz de datos Xnp . La funcin de verosimilitud es
z(x, ) =
L(X, ) =
n
f (xi , ).
i=1
z(X, ) =
log f(xi , ).
i=1
36
log f (xi , ) = 0.
i=1
3.2
Se verifica
n
n
1
1
1
i x) (xi x) + n(x ) (x )
i=1 (xi ) (xi ) =
i=1 (x
n
1
= tr{
i=1 (xi x)(xi x) }
+n(x ) 1 (x )
y por lo tanto el logaritmo de L se puede expresar como
n
n
n
log L(X,, ) = log det(2) tr(1 S) (x ) 1 (x ).
2
2
2
Derivando matricialmente respecto de y de 1 tenemos
log L
= n1 (x ) = 0,
log L =
n
2
[ S (x )(x ) ] = 0.
37
= x,
= S.
3.3
Tests multivariantes
Un primer mtodo para construir tests sobre los parmetros de una poblacin
normal, se basa en las propiedades anteriores, que dan lugar a estadsticos
con distribucin conocida (ji-cuadrado, F).
3.3.1
38
3.3.2
3.3.3
n1 + n2 1 p n1 n2
1 (x y) Fnp +n 1p .
(xy) S
1
2
(n1 + n2 2)p n1 + n2
Comparacin de medias
(3.1)
1
x=
ni xi ,
n i=1
g
1
S=
ni Si ,
n g i=1
g
siendo Si = n1
i Xi HXi , n =
i=1 ni .
Deseamos construir un test para decidir si podemos aceptar la hiptesis
de igualdad de medias
H0 : 1 = 2 = . . . = g .
39
B = gi=1 n
(dispersion entre grupos)
i x)(xi x)
i (x
g
ni
T = B + W.
Si la hiptesis nula es cierta, se verifica adems
B Wp (, g 1), W Wp (, n g), T Wp (, n 1),
B, W son estocasticamente independientes,
por lo tanto, si H0 es cierta
=
|W|
(p, n g, g 1).
|W + B|
3.4
Teorema de Cochran
40
E(yz ) =
n
ui vj E(xi xj )
i=1
n
ui vi E(xi xi ) = u v = 0,
i=1
n
i ui ui
i=1
u1 X
y1
Y = ... = ... ,
yn
un X
41
C1 = ni=1 i (1)ui ui , X C1 X = i (1)yi yi ,
C2 = nj=1 j (2)vj vj , X C2 X = j (2)zj zj ,
C1 C2 = 0 i (1)j (2)ui vj = 0,
i, j.
W Wp (, n g).
42
X1
X = ... .
Xg
Sean
11 =
(1, . . . , 1, 0, . . . , 0), . . . , 1g = (0, . . . 0, 1, . . . 1),
1 = gi=1 1i = (1, . . . , 1, . . . , 1, . . . , 1),
Hi = I
i ni 1i 1i
g
1
C1 = i=1 Hi , C2 = gi=1 n1
i 1i 1i n 11 .
Entonces
C21 = C1 ,
C22 = C2 ,
C1 C2 = 0,
rang(C1 ) = n k,
rang(C2 ) = g 1,
W = X C1 X,
B = X C2 X.
El resultado es consecuencia de los Teoremas 3.4.4 y 3.4.5.
3.5
3.5.1
vs H1 : 0 .
n
i=1
f(x, )
43
0 )
L(x1 , . . . , xn ;
,
L(x1 , . . . , xn ; )
es asintticamente 2rs ,
44
3.5.2
Principio de unin-interseccin
x(a) 0 (a)
n1
tn1
s(a)
H1 = H1 (a).
a
3.6. EJEMPLOS
45
a (x 0 )(x 0 ) a
a Sa
3.6
Ejemplos
Example 3.6.1
Se desean comparar dos especies de moscas de agua: Amerohelea fascinata, Amerohelea pseudofascinata. En relacin a las variables X1 = long.
antena, X2 = long. ala (en mm), para dos muestras de tamaos n1 = 9 y
n2 = 6, se han obtenido las matrices de datos de la Tabla 3.1.
y = (122.67, 192.67).
46
A. pseudofascinata
n2 = 6
X1 X2
1.14 1.78
1.20 1.86
1.18 1.96
1.30 1.96
1.26 2.00
1.28 2.00
Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras
de tamao n1 = 9 y n2 = 6,.
Matrices de covarianzas:
98.00 80.83
S1 =
80.83 167.78
S2 =
39.47 43.47
43.47 77.87
Estadstico T 2 :
1 (x y) = 15.52.
D2 = (x y)S
T2 =
Estadstico F :
69 2
D = 55.87
6+9
9+612 2
2
T = 25.78 F12
2(9 + 6 2)
Decisin: rechazamos la hiptesis de que las dos especies son iguales (Nivel
de significacin=0.001).
Example 3.6.2
3.6. EJEMPLOS
47
11.345
57.23 22.932
B =
436.73 186.69
80.413
W =
27.322 6.284
6.156
Lambda de Wilks:
=
|W|
= 0.02344(4, 147, 2)
|W + B|
Transformacin a una F :
8
F = 198.95 F288
Decisin: las diferencias entre las tres especies son muy significativas.
48
X1
5.1
4.9
4.7
4.6
5.0
5.4
4.6
5.0
4.4
4.9
5.4
4.8
4.8
4.3
5.8
5.7
5.4
5.1
5.7
5.1
5.4
5.1
4.6
5.1
4.8
5.0
5.0
5.2
5.2
4.7
4.8
5.4
5.2
5.5
4.9
5.0
5.5
4.9
4.4
5.1
5.0
4.5
4.4
5.0
5.1
4.8
5.1
4.6
5.3
5.0
X2
3.5
3.0
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
3.7
3.4
3.0
3.0
4.0
4.4
3.9
3.5
3.8
3.8
3.4
3.7
3.6
3.3
3.4
3.0
3.4
3.5
3.4
3.2
3.1
3.4
4.1
4.2
3.1
3.2
3.5
3.6
3.0
3.4
3.5
2.3
3.2
3.5
3.8
3.0
3.8
3.2
3.7
3.3
X3
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
1.5
1.6
1.4
1.1
1.2
1.5
1.3
1.4
1.7
1.5
1.7
1.5
1.0
1.7
1.9
1.6
1.6
1.5
1.4
1.6
1.6
1.5
1.5
1.4
1.5
1.2
1.3
1.4
1.3
1.5
1.3
1.3
1.3
1.6
1.9
1.4
1.6
1.4
1.5
1.4
X4
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
0.2
0.2
0.1
0.1
0.2
0.4
0.4
0.3
0.3
0.3
0.2
0.4
0.2
0.5
0.2
0.2
0.4
0.2
0.2
0.2
0.2
0.4
0.1
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.3
0.3
0.2
0.6
0.4
0.3
0.2
0.2
0.2
0.2
X1
7.0
6.4
6.9
5.5
6.5
5.7
6.3
4.9
6.6
5.2
5.0
5.9
6.0
6.1
5.6
6.7
5.6
5.8
6.2
5.6
5.9
6.1
6.3
6.1
6.4
6.6
6.8
6.7
6.0
5.7
5.5
5.5
5.8
6.0
5.4
6.0
6.7
6.3
5.6
5.5
5.5
6.1
5.8
5.0
5.6
5.7
5.7
6.2
5.1
5.7
X2
3.2
3.2
3.1
2.3
2.8
2.8
3.3
2.4
2.9
2.7
2.0
3.0
2.2
2.9
2.9
3.1
3.0
2.7
2.2
2.5
3.2
2.8
2.5
2.8
2.9
3.0
2.8
3.0
2.9
2.6
2.4
2.4
2.7
2.7
3.0
3.4
3.1
2.3
3.0
2.5
2.6
3.0
2.6
2.3
2.7
3.0
2.9
2.9
2.5
2.8
X3
4.7
4.5
4.9
4.0
4.6
4.5
4.7
3.3
4.6
3.9
3.5
4.2
4.0
4.7
3.6
4.4
4.5
4.1
4.5
3.9
4.8
4.0
4.9
4.7
4.3
4.4
4.8
5.0
4.5
3.5
3.8
3.7
3.9
5.1
4.5
4.5
4.7
4.4
4.1
4.0
4.4
4.6
4.0
3.3
4.2
4.2
4.2
4.3
3.0
4.1
X4
1.4
1.5
1.5
1.3
1.5
1.3
1.6
1.0
1.3
1.4
1.0
1.5
1.0
1.4
1.3
1.4
1.5
1.0
1.5
1.1
1.8
1.3
1.5
1.2
1.3
1.4
1.4
1.7
1.5
1.0
1.1
1.0
1.2
1.6
1.5
1.6
1.5
1.3
1.3
1.3
1.2
1.4
1.2
1.0
1.3
1.2
1.3
1.3
1.1
1.3
X1
6.3
5.8
7.1
6.3
6.5
7.6
4.9
7.3
6.7
7.2
6.5
6.4
6.8
5.7
5.8
6.4
6.5
7.7
7.7
6.0
6.9
5.6
7.7
6.3
6.7
7.2
6.2
6.1
6.4
7.2
7.4
7.9
6.4
6.3
6.1
7.7
6.3
6.4
6.0
6.9
6.7
6.9
5.8
6.8
6.7
6.7
6.3
6.5
6.2
5.9
X2
3.3
2.7
3.0
2.9
3.0
3.0
2.5
2.9
2.5
3.6
3.2
2.7
3.0
2.5
2.8
3.2
3.0
3.8
2.6
2.2
3.2
2.8
2.8
2.7
3.3
3.2
2.8
3.0
2.8
3.0
2.8
3.8
2.8
2.8
2.6
3.0
3.4
3.1
3.0
3.1
3.1
3.1
2.7
3.2
3.3
3.0
2.5
3.0
3.4
3.0
X3
6.0
5.1
5.9
5.6
5.8
6.6
4.5
6.3
5.8
6.1
5.1
5.3
5.5
5.0
5.1
5.3
5.5
6.7
6.9
5.0
5.7
4.9
6.7
4.9
5.7
6.0
4.8
4.9
5.6
5.8
6.1
6.4
5.6
5.1
5.6
6.1
5.6
5.5
4.8
5.4
5.6
5.1
5.1
5.9
5.7
5.2
5.0
5.2
5.4
5.1
X4
2.5
1.9
2.1
1.8
2.2
2.1
1.7
1.8
1.8
2.5
2.0
1.9
2.1
2.0
2.4
2.3
1.8
2.2
2.3
1.5
2.3
2.0
2.0
1.8
2.1
1.8
1.8
1.8
2.1
1.6
1.9
2.0
2.2
1.5
1.4
2.3
2.4
1.8
1.8
2.1
2.4
2.3
1.9
2.3
2.5
2.3
1.9
2.0
2.3
1.8
3.7. COMPLEMENTOS
3.7
49
Complementos
50
Captulo 4
ANALISIS DE
CORRELACION CANONICA
4.1
Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleatorios. Introducimos y estudiamos las correlaciones cannicas, que son generalizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si X, Y son dos v.a.
La correlacin mltiple si Y es una v.a. y X = (X1 , . . . , Xp ) es un
vector aleatorio.
La correlacin cannica si X = (X1 , . . . , Xp ) e Y = (Y1 , . . . , Yq ) son dos
vectores aleatorios.
4.2
Correlacin mltiple
52
= 1 .
(4.1)
() = E(Y Y )2
= E(Y )2 + E(Y )2 2E(Y Y )
= var(Y ) + 2
() = 2 2 = 0.
=
1 X1 + . . . +
p Xp . Si ponemos
La variable prediccin es Y = X
Y = Y + Y ,
R = cor(Y, Y ).
1. 0 R 1.
2. R = 1 si Y es combinacin lineal de X1 , . . . , Xp .
3. R = 0 si Y est incorrelacionada con cada una de las variables Xi .
Theorem 4.2.2 La variable prediccin Y , residual Y y la correlacin mltiple R cumplen:
1. Y e Y son variables incorrelacionadas.
53
= . En efecto,
Demost.: 1) es consecuencia de
X (Y
X))
cov(Y , Y ) = E(Y Y ) = E(
= 0.
=
i Xi ) = p
cov(Y, Y ) = cov(Y, pi=1
i=1 i i = = = var(Y ),
obtenemos
R2 =
4.3
cov2 (Y, Y )
var(Y )
.
=
var(Y )
var(Y )var(Y )
(4.2)
Correlacin cannica
Sean X = (X1 , . . . , Xp ), Y = (Y1 , . . . , Yq ) dos vectores aleatorios de dimensiones p y q. Planteemos el problema de encontrar dos variables compuestas
U = Xa = a1 X1 + . . . + ap Xp , V = Yb = b1 Y1 + . . . + bp Yq ,
siendo a = (a1 , . . . , ap ) , b = (b1 , . . . , bp ) tales que la correlacin entre ambas
cor(U, V )
sea mxima. Indicamos por S11 , S22 las matrices de covarianzas (muestrales)
de las variables X, Y, respectivamente, y sea S12 la matriz p q con las
covarianzas de las variables X con las variables Y. Es decir:
X
Y
X
S11
S21
Y
S12
S22
54
As el problema se reduce a:
maximizar a S12 b restringido a a S11 a = b S22 b =1.
Los vectores de coeficientes a, b que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre U, V es la primera correlacin cannica r1 .
Theorem 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S12 S1
22 S21 a = S11 a,
S21 S1
11 S12 b = S22 b.
(4.3)
S21 aS22 b = 0.
(4.4)
b S21 a =b S22 b,
55
= a S11 a
=1
La correlacin es r1 = a S12 b y como 1 = 1/2 a S12 b deducimos que r12 = 1 .
De hecho, las ecuaciones en valores y vectores propios tienen otras soluciones. Concretamente hay m = min{p, q} parejas de vectores cannicos
a1 , b1 , . . . , am , bm , que proporcionan las variables y correlaciones cannicas
U1 = Xa1 , V1 = Yb1 , r1 = cor(U1 , V1 ),
U2 = Xa2 , , V2 = Yb2 , r2 = cor(U2 , V2 ),
..
..
..
.
.
.
Um = Xam , Vm = Ybm , rm = cor(Um , Vm ).
Theorem 4.3.3 Supongamos r1 > r2 > . . . > rm . Entonces:
1. Tanto las variables cannicas U1 , . . . , Um como las variables cannicas
V1 , . . . , Vm estn incorrelacionadas.
2. La primera correlacin cannica r1 = cor(U1 , V1 ) es la mxima correlacin entre una combinacin lineal de X y una combinacin lineal
de Y.
3. La segunda correlacin cannica r2 = cor(U2 , V2 ) es la mxima correlacin entre las combinaciones lineales de X incorrelacionadas con
U1 y las combinaciones lineales de Y incorrelacionadas con V1 .
4. cor(Ui , Vj ) = 0 si i
= j.
Demost.: Sea i
= j. Expresando (4.3) para ak , k , k = i, j, y multiplicando
por aj y por ai tenemos que
aj S12 S1
22 S21 ai = i aj S11 ai ,
1
56
1
S1
22 S21 S11 S12 bj = j bj ,
bj S21 S1
11 S12 S22 S21 ai = i bj S21 ai ,
1
1
4.4
Podemos formular una expresin conjunta para los vectores cannicos utilizando la descomposicin singular de una matriz. Supongamos p q, consideremos la matriz p q
1/2
1/2
ai = S11 ui ,
Demost.:
1/2
1/2
bi = S22 vi ,
1/2 1/2
1/2
1/2
ri = i .
= U2 U
1/2
2
S11 S12 S1
22 S21 S11 ui = i ui
1/2
1/2
1/2
2
1
S1
11 S12 S22 S21 (S11 ui ) = i (S11 ui )
4.5
57
Hemos encontrado las variables y correlaciones cannicas a partir de las matrices de covarianzas y correlaciones muestrales, es decir, a partir de muestras de tamao n. Naturalmente, todo lo que hemos dicho vale si sustituimos
S11 , S12 , S22 por las versiones poblacionales 11 , 12 , 22 . Sean
1 2 m
las m = min{p, q} correlaciones cannicas obtenidas a partir de 11 , 12 , 22 ,
soluciones de:
2
|12 1
22 21 11 | = 0.
Si queremos decidir cules son significativas, supongamos normalidad multivariante, indiquemos 0 = 1 y planteemos el test
H0k : k > k+1 = = m = 0,
(k = 0, 1, . . . , m),
4.6
Test de independencia
58
4.6.1
Razn de verosimilitud
|S|
|R|
=
,
|S11 ||S22 |
|R11 ||R22 |
4.6.2
1
S1
22 S21 S11 S12 |
m
i=1
(1 ri2 ).
(U, V ) =
a11 a b 22 b
H0 equivale a (U, V ) = 0 para todo U, V. La correlacin muestral es
a S12 b
r(U, V ) =
.
a S11 a b S22 b
Aplicando el principio de unin interseccin (Seccin 3.5.2), aceptaremos H0
si r(U, V ) no es significativa para todo U, V, y aceptaremos H1 si r(U, V ) es
significativa para algn par U, V. Este criterio nos lleva a estudiar la significacin de
r1 = max r(U, V )
U,V
H1 : 1 > 0.
4.7. UN EJEMPLO
4.7
59
Un ejemplo
1.0000
0.7346
R =
0.7108
0.7040
0.7346
1.0000
0.6932
0.8086
0.7108
0.6932
1.0000
0.8392
Entonces:
R11 =
R22 =
1.0000 0.7346
0.7346 1.0000
1.0000 0.8392
0.8392 1.0000
, R12 =
0.7040
0.8086
0.8392
1.0000
0.7108 0.7040
0.6932 0.8086
r2 = 0.0539.
60
|R|
= 0.3771 (2, 22, 2)
|R11 ||R22 |
que, segn (2.8), transformamos con una F obteniendo 6.60 con 4 y 42 g.l.
Rechazamos la hiptesis de independencia.
La prueba de significacin de las correlaciones cannicas d:
H00 : 0 = 1 > 1 = 2 = 0,
H01 : 1 > 2 = 0,
L0 = 22.1 (4 g.l.),
L1 = 1.22 (2 g.l.).
X1
X2
X3
X4
1 .8520 .6536 .5478
1
.5127 .7101
1 .6265
1
Y1
Y2
.6404 .5907
.7555
.6393
.5912
.5146
.7528 .7448
1
.8027
1
4.8. COMPLEMENTOS
61
4.8
Complementos
62
Captulo 5
ANALISIS DE
COMPONENTES
PRINCIPALES
5.1
Sea X =[X1 , . . . , Xp ] una matriz de datos multivariantes. Lo que sigue tambin vale si X es un vector formado por p variables observables.
Las componentes principales son unas variables compuestas incorrelacionadas tales que unas pocas explican la mayor parte de la variabilidad
de X.
Definition 5.1.1 Las componentes principales son las variables compuestas
Y1 = Xt1 , Y2 = Xt2 , . . . , Yp = Xtp
tales que:
1. var(Y1 ) es mxima condicionado a t1 t1 = 1.
2. Entre todas las variables compuestas Y tales que cov(Y1 , Y ) = 0, la
variable Y2 es tal que var(Y2 ) es mxima condicionado a t2 t2 = 1.
3. Y3 es una variable incorrelacionada con Y1 , Y2 con varianza mxima.
Anlogamente definimos las dems componentes principales.
63
64
ti ti = 1,
i = 1, . . . , p.
Entonces:
1. Las variables compuestas Yi = Xti , i = 1, . . . , p, son las componentes
principales.
2. Las varianzas son los valores propios de S
var(Yi ) = i ,
i = 1, . . . , p.
i = j = 1, . . . , p.
i=1
i=1
i=1
p
i=1
bi Xi =
p
i Yi condicionado a
i=2
p
2i = 1.
i=2
Entonces:
p
p
p
p
2
2
var(Y ) = var(
i Yi ) =
i var(Yi ) =
i i (
2i )2 = var(Y2 ),
i=2
i=2
i=2
i=2
5.2
66
5.3
xj = (xj1 , . . . , xjp ),
p
= (xi xj ) (xi xj ) =
(xih xjh )2 .
h=1
q
= (yi yj ) (yi yj ) =
(yih yjh )2
h=1
67
p
h .
h=1
(5.3)
En efecto, si x es la media
1
n2
n
i,j=1 (xi
n
(xi x (xj x))2
i,j=1
n
(xi x)2 + n12 ni,j=1 (xj x)2
i,j=1
+ n22 ni,j=1 (xi x)(xj x))2
= n1 ns2 + n1 ns2 + 0 = 2s2 .
xj )2 =
=
1
n2
1
n2
p
sjj = tr(S).
j=1
j=1
68
p
j .
j=1
V (Y)q
1 + + q
= 100
.
V (X)p
1 + + p
y11 y12
..
..
.
.
Y = yi1 yi2 .
.
..
..
.
yn1 yn2
5.4
Inferencia
5.4. INFERENCIA
69
= [1 , . . . , p ],
= diag(1 , . . . , p ),
los vectores propios y valores propios de . Por otra parte, sea S = GLG la
diagonalizacin de S. Indiquemos:
G = [g1 , . . . , gp ],
L = diag(l1 , . . . , lp )
l = [l1 , . . . , lp ],
5.4.1
i = gi
, i = 1, . . . , p.
70
es N (i , 22i /n),
cov(li , lj ) = 0,
i = j,
j=i
i
(i j )2 i i
3. l es independiente de G.
Demost.: Anderson (1959), Mardia, Kent y Bibby (1979).
Como consecuencia de que li es N (i , 22i /n), obtenemos el intervalo de
confianza asinttico con coeficiente de confianza 1
li
li
< i <
1/2
(1 + az/2 )
(1 az/2 )1/2
5.4.2
Tests de hiptesis
5.4. INFERENCIA
71
(5.4)
g = (L1 . . . Lp )1/p ,
(5.5)
entonces, asintticamente
2 log R = np(a log g 1) 2q ,
(5.6)
siendo q = p(p + 1)/2 p = p(p 1)/2. Si el estadstico n log |R| no es significativo, entonces podemos aceptar que las variables son incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes.
C. Test de igualdad de valores propios.
Este es un test importante en ACP. La hiptesis nula es
H0 : 1 > . . . > pk = pk+1 = . . . = p = .
S0 (l1 , . . . , lk , a0 , . . . , a0 ),
72
50
37.5
25
12.5
5
k
p
i=k+1
y aplicando (5.6)
log li ) 2q , (5.7)
5.5
5.5.1
El nmero m de componentes principales se toma de modo que Pm sea prximo a un valor especificado por el usuario, por ejemplo el 80%. Por otra
parte, si la representacin de P1 , P2 , . . . , Pk , . . . con respecto de k prcticamente se estabiliza a partir de un cierto m, entonces aumentar la dimensin
apenas aporta ms variabilidad explicada.
5.5.2
73
Criterio de Kaiser
5.5.3
Test de esfericidad
Supongamos que la matriz de datos proviene de una poblacin normal multivariante Np (, ). Si la hiptesis
(m)
H0
5.5.4
74
1 1
E(Lj ) = 100
.
p i=1 j + i
Las m primeras componentes son significativas si el porcentaje de varianza
explicada supera claramente el valor de E(L1 ) + . . . + E(Lm ). Por ejemplo,
si p = 4, los valores son:
Porcentaje E(L1 ) E(L2 ) E(L3 ) E(L4 )
Esperado
52.08 27.08 14.58 6.25
Acumulado 52.08 79.16 93.74 100
Si V2 = 93.92 pero V3 = 97.15, entonces tomaremos slo dos componentes.
5.5.5
Un ejemplo
Example 5.5.1
Sobre una muestra de n = 100 estudiantes de Bioestadstica, se midieron
las variables
X1 = peso (kg), X2 =talla (cm.), X3 =ancho hombros (cm.), X4 = ancho
caderas (cm.),
con los siguientes resultados:
1. medias: x1 = 54.25, x2 = 161.73, x3 = 36.53, x4 = 30.1.
2. matriz de covarianzas:
44.7
17.79
S =
5.99
9.19
17.79
26.15
4.52
4.44
5.99
4.52
3.33
1.34
9.19
4.44
1.34
4.56
75
m
2 g.l.
0 333.9 9
1 123.8 5
2 0.39 2
Rechazamos m = 0, m = 1 y aceptamos m = 2.
c. Test del bastn roto: Puesto que P2 = 93.92 supera claramente el
valor esperado 79.16 y que no ocurre lo mismo con P3 , aceptamos
m = 2.
5. Componentes principales:
Y1 = . 8328X1 + . 5029X2 + . 1362X3 + . 1867X4 ,
Y2 = . 5095X1 . 8552X2 .05 88X3 + .0738X4 .
6. Interpretacin: la primera componente es la variable con mxima varianza y tiene todos sus coeficientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coeficientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera componente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en contraste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
76
5.6
Complementos
Captulo 6
ANLISIS FACTORIAL
6.1
Introduccin
78
1 r12
r21 1
R =
...
rp1 rp2
6.2
r1p
r2p
.
...
1
El modelo unifactorial
i = 1, . . . , p.
(6.1)
De acuerdo con este modelo, cada variable Xi depende del factor comn
F y de un factor nico Ui . El modelo supone que:
a) las variables y los factores estn estandarizados (media 0 y varianza
1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems influida por un factor nico Ui , que aporta
la parte de la variabilidad que no podemos explicar a partir del factor comn.
El coeficiente ai es la saturacin de la variable Xi en el factor F.
De (6.1) deducimos inmediatamente que
a2i + d2i
= 1,
cor(Xi , F ) = ai ,
cor(Xi , Xj ) = ai aj ,
i = j.
(6.2)
79
F
0.83
1.00
0.67
0.67
0.65
0.57
I
0.78
0.67
1.00
0.64
0.54
0.51
M
0.70
0.67
0.64
1.00
0.45
0.51
D
0.66
0.65
0.54
0.45
1.00
0.40
Mu
0.63
0.57
0.51
0.51
0.40
1.00
relaciona las calificaciones en C (clsicas), F (francs), I (ingls), M (matemticas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verifica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera fila, tenemos que:
0.83 0.70 0.66 0.63
=
=
=
= 1.2 .
0.67
0.64
0.54
0.51
De acuerdo con el modelo unifactorial, estas calificaciones dependen esencialmente de un factor comn.
80
6.3
6.3.1
El modelo multifactorial
El modelo
Xp = ap1 F1 + + a1p Fm
+dp Up .
(6.5)
i = j = 1, . . . , p.
i = 1, . . . , m, j = 1, . . . , p.
3. Tanto los factores comunes como los factores nicos sn variables reducidas.
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especfico. Los factores comunes representan dimensiones independentes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1.
6.3.2
81
La matriz factorial
Los coeficientes aij son las saturaciones entre cada variable Xi y el factor Fj .
La matriz p m que contiene estos coeficientes es la matriz factorial
a11 a1m
a21 a2m
.
A =
ap1 apm
6.3.3
Las comunalidades
82
h1 r12 r1p
r21 h22 r2p
.
R =
... ...
rp1 rp2 h2p
Evidentmente se verifica
R = R + D2 .
6.3.4
(6.9)
(6.10)
Un modelo factorial es sobredeterminado si m > ma , pues hay ms saturaciones libres que correlaciones. Si m = ma el modelo es determinado y
podemos encontrar A algebraicamente a partir de R.
Desde un punto de vista estadstico, el caso ms interesante es m < ma ,
ya que entonces podemos plantear la estimacin estadstica de A, donde
d > 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo m de factores comunes en funcin de p es:
p 2 3 4 5 6 7 8 9 10 20 30 40
m 0 1 1 2 3 3 4 5 6 14 22 31
Asignamos a m el valor entero por defecto cuando ma tiene parte fraccionaria.
6.3.5
83
El caso de Heywood
Una limitacin del model factorial es que alguna comunalidad puede alcanzar
(algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuando esto
ocurre, la soluci se ha de interpretar con precaucin. En algunos mtodos,
como el de la mxima verosimilitud, se resuelve este inconveniente (primeramente observado por H.B. Heywood) imponiendo la condicin h2i 1 en la
estimacin de las comunalidades.
6.3.6
Un ejemplo
Las asignaturas clsicas de la enseanza media, se dividen, en lneas generales, en asignaturas de Ciencias o de Letras, las primeras con contenido ms
racional y emprico, las segundas con contenido ms humanstico y artstico.
Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemticas (Mat), Francs (Fra), Latn (Lat),
Literatura (Lit). Supongamos que estn influidas por dos factores comunes o
variables latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos
que C y L son dos variables no observables, que de manera latente influyen
sobre las cinco asignaturas. Las calificaciones de n = 20 alumnos en las
asignaturas y en los factores se encuentran en la Tabla 6.1.
L
.2
.1
.9
.8
.8
84
Asignaturas
Factors
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
7
5
5
6
7
4
5
5
6
6
6
5
6
8
6
4
6
6
6
7
7
5
6
8
6
4
5
6
5
5
7
5
6
7
7
3
4
6
5
7
5
6
5
5
6
6
5
5
7
6
5
4
6
8
5
4
7
7
4
6
5
6
7
6
7
7
5
5
6
6
6
5
6
8
6
4
8
7
4
7
Cincies Lletres
6
5
5
6
6
6
6
5
6
6
5
4
5
8
6
4
7
7
4
6
7
5
6
7
6
4
5
6
5
5
7
6
6
7
6
3
5
6
5
7
5
6
5
5
6
6
6
5
6
6
5
4
6
8
5
4
7
7
4
6
CNa Mat
CNa 1
0.656
Mat
1
Fra
Lat
Lit
Fra
0.497
0.099
1
Lat
0.420
0.230
0.813
1
Lit
0.584
0.317
0.841
0.766
1
85
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 punts por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0.68, h22 = 0.82, h23 = 0.82, h24 = 0.73, h25 = 0.68.
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales
64
4
68
Matemticas
81
1
82
Francs
1
81
82
Latn
9
64
73
Literatura
4
64
68
6.4
Teoremas fundamentales
R = AA + D2 .
(6.11)
86
(6.12)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.12). As pues, si m > 1, existen infinitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.11) o (6.12) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
Theorem 6.4.2 Se verifica:
1. El modelo factorial existe si R es la suma de una matriz semidefinida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero m de factores comunes es el rango de la matriz R . Por
lo tanto m es el orden del ms grande menor de R que no contiene
elementos de la diagonal.
3. Les comunalidades son aquellos valores 0 h2i 1 tales que R es
matriz semi-definida positiva (tiene m valores propios positivos).
Prueba: Es una consecuencia de la relacin (6.12) entre R y A. El mayor
menor de R quiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de R podemos encontrar m, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo m de factores comunes. Fijado m,
las comunalidads se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones R. En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
Finalmente, podemos probar de manera anloga, que si el anlisis factorial
lo planteamos a partir de la matriz de covarianzas , sin suponer las variables
reducidas, aunque s los factores, entonces obtenemos la estructura
= AA + D2 .
(6.13)
6.5
87
p
j,j =1
q (r
jj
jj
m
ajk aj k ),
k=1
88
La matriz Ai converge a la matriz factorial A. Como criterio de convergencia podemos considerar la estabilidad de las comunalidades. Pararemos
si pasando de i a i + 1 los valores de las comunalidads, es decir, los valores
en diag(Ai Ai ), prcticamente no varan. Esta refactorizacin podria fallar si
se presenta el caso de Heywood o R no satisface el model factorial (6.11).
Ejemplo: Volviendo al ejemplo de las asignaturas, la solucin por el
mtodo del factor principal encuentra dos factores que explican el 74.6% de
la varianza:
F1
F2
C. Naturales .621 -.543
Matemticas .596 -.682
Francs .796 .432
Latn .828 .210
Literatura .771 .292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52
6.6
6.6.1
89
(6.14)
(6.15)
6.6.2
90
=A
A
+V,
siendo A
yV
las estimaciones, los mximos del logaritmo
Si
de la razn de verosimilitud son (Seccin 5.4.2)
+ tr(
1 S)),
H0 : n2 (log ||
n
H1 : 2 (log |S| + p).
1
k = p(p 1)/2 (p m + p m(m 1)/2) = ((p m)2 p m)
2
grados de libertad. Podemos observar que Ck es n veces el valor mnimo de
la funcin (6.14) y que k coincide con (6.10).
6.7
Rotaciones de factores
6.7.1
Rotaciones ortogonales
(6.16)
91
6.7.2
Factores oblicuos
i = 1, . . . , p.
(6.17)
92
6.7.3
= Im .
Rotacin oblicua
p
p
p
m
2 2
2
qij
qik ]
[
qij2 qik
p
i=1
i=1
k=1 k=j=1 i=1
donde es un parmetro tal que 0 1. Hay tres criterios especialmente interesantes, que tienen una interpretacin parecida al caso ortogonal
y que tambin se pueden formular, ms adecuadamente, dividiendo por las
comunalidades.
Quartimin: Si = 0 hay mxima oblicuidad entre los factores comunes.
Bi-quartimin: Si = 1/2 el criterio es intermedio entre quartimin y
covarimin.
Covarimin: Si = 1 hay mnima oblicuidad entre los factores comunes.
Conviene tener en cuenta que las rotaciones ortogonales y oblcuas intentan simplificar la estructura factorial A y la estructura de referencia Q,
respectivamente.
Un criterio directo de rotacin oblicua es el promax. Sea A la matriz factorial obtenida por el mtodo varimax. Queremos destacar unas saturaciones
sobre otras, por tanto definimos P = (pij ) tal que
pij = |ak+1
ij |/aij ,
k > 1,
93
= T T,
Q = AT.
CNa
Mat
Fra
Lat
Lit
Mxim veros.
F1
F2
.659 .432
.999 .005
.104 .974
.234 .809
.327 .831
Varimax
C
L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
Comun.
.62
.99
.96
.71
.79
CNa
Mat
Fra
Lla
Lit
Modelo
C
.570
1.04
-.150
.028
.114
La Figura 6.1 representa los factores ortogonales iniciales F1 y F2 , dibujados como vectores unitarios, y los factores oblcuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.
94
Figura 6.1: Proyeccin de las variables sobre los factors comunes ortogonals,
y factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
6.7.4
6.8
95
Medicin de factores
Sea x = (x1 , . . . , xp ) los valores de las p variables observables obtenidas sobre un individuo . Nos planteamos ahora medir los factores, es decir,
encontrar los valores f = (f1 , . . . , fm ) de los factores comunes sobre . Se
verifica
x = Af + Du,
(6.18)
siendo u = (u1 . . . , up ) los valores de las unicidades.
Si interpretamos (6.18) como un modelo lineal, donde x es el vector de
observaciones, A es la matriz de diseo, f es el vector de parmetros y e = Du
es el trmino de errror, el criterio de los mnimos cuadrado (vase (12.4)) nos
da
f = (A A)1 A x.
Un mtodo ms elaborado (propuesto por M. S. Bartlett) considera que
f es funcin lineal de x y que los valores de los factores nicos
u = D1 (x Af )
u u = u21 + . . . + u2p ,
expresando (6.18) como D1 x = D1 Af + u, es fcil ver que
f = (A D2 A)1 A D2 x.
Una modificacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = B1 A D2 x,
siendo B2 = A D2 RD2 A.
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, las calificaciones en las asignatures de los 4 primeros alumnos (Tabla 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L, obtenidos con la rotacin
varimax, son:
Alumno CNa Mat Fra Lat Lit
C
L
1
7
7
5
5
6
1.06 -.559
2
5
5
6
6
5 -.568 .242
3
5
6
5
7
5
.259 -.505
4
6
8
5
6
6
1.85 -.614
96
6.9
Los mtodos del factor principal y de la mxima verosimilitud son exploratorios, en el sentido de que exploran las dimensiones latentes de las variables.
El AF tambin se puede plantear en sentido confirmatorio, estableciendo una
estructura factorial de acuerdo con el problema objeto de estudio, y seguidamente aceptando o rechazando esta estructura mediante un test de hiptesis.
Por ejemplo, podemos considerar que la matriz factorial en el ejemplo de las
5 asignaturas es
C L
CNa 1 0
Mat 1 0
Fra
0 1
Lla
0 1
Lit
0 1
interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A, postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mnimos
cuadrados
tr(B AT)2 = mnimo,
entonces la solucin es T = UV , siendo A B = UV la descomposicin
singular de A B. Si T no es ortogonal y por lo tanto se admite una estructura
oblicua, entonces T se obtiene siguiendo un procedimiento parecido a la
rotacin promax
T = (A A)1 A B,
per normalizando a mdulo 1 los vectores columna de T.
Ms generalmente, en AF confirmatorio se especifica el nmero de factores
comunes, el tipo ortogonal u oblicuo de la solucin, y los valores libres o fijos
de las saturaciones.
97
.71
.54
.67
.00
-.03
.01
.00
.42
.56
P
.00 .00
-.03 -.08
.04 -.09
.87 .00
.81 .13
.82 -.01
.00 .78
-.30 .73
-.06 .41
Comun.
.50
.26
.46
1
.76
.54 1
.70
.24 .28 1
.68
.61
.68
.54
212 = 9.77
p = 0.64
98
.68
.52
.69
.00
.00
.00
.00
.00
.00
P
.00
.00
.00
.87
.83
.83
.00
.00
.00
Comun.
.46
.27
.48
1
.77
.54 1
.69
.52 .34 1
.69
.43
.63
.49
.00
.00
.00
.00
.00
.00
.66
.80
.70
224 = 51.19
p = 0.001
.38
.24
.38
.87
.83
.83
.24
.15
.36
6.10
.58
.41
.53
.00
.01
.01
.02
.43
.59
P
.00 .00
.35 .00
.30 -.03
.03 .00
-.13 .06
.04 -.02
.00 .95
-.13 .57
-.22 .34
Comun.
.48
.37
.52
1
.75
.00
1
.72
.00 .00 1
.68
.95
.56
.64
1
.00
.00
.00
26 = 2.75
p = 0.84
Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de factor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo, publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
6.10. COMPLEMENTOS
99
que ordenaba la inteligencia de los individuos a lo largo de una sola dimensin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientfica para financiar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, introduca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias dimensiones latentes, quedando sin sentido una ordenacin de los individuos,
que si en una dimensin era posible hacerlo, en varias dimensiones no. Haba
una polmica similar sobre la personalidad. La teoria psicoanaltica defenda
una continuidad entre la personalidad neurtica y la psictica, mientras que
el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Caffrey) y el mtodo de la mxima verosimilitud
(D.N. Lawley, K.G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A.E.
Hendrickson y P.O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y estadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de k combinaciones lineales de p variables independientes, siendo
k(k 1)/2 < p k(k + 1)/2, entonces la distribucin de cada una de las p
variables queda determinada (salvo la media o parmetro de localizacin). Si
tenemos p = 210 variables independientes bastara conocer la distribucin de
k = 20 combinaciones lineales adecuadas para determinar la distribucin de
las 210 variables. Este resultado proporciona una cierta justificacin terica
acerca del hecho que la informacin multivariante posee una dimensionalidad
latente mucha ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una herramienta para explorar la dimensionalidad latente de las variables. Ms
tarde, el anlisis factorial se ha entendido en sentido confirmatorio (Joreskog,
Lawley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo
con el problema, y seguidamente aceptando o rechazando esta estructura
100
Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1
Introduccin
Con el Anlisis de Componentes Principales podemos representar los individuos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 , . . . , Xp
sobre g poblaciones obtenemos g matrices de datos
X1
n1 p
X2 n2 p
X = ..
..
.
.
Xg
ng p
donde Xi es la matriz ni p de la poblacin i. Sean x1 ,x2 , . . . ,xg los vectores
(fila)
g de las medias de cada poblacin. X es de orden n p, siendo n =
i=1 ni . Indiquemos
x1 x
x x
2
X= ..
xg x
101
102
A =X X =
g
(xi x)(xi x) .
i=1
g
i=1
ni (xi x)(xi x) .
Entonces A =X X juega el papel de matriz de covarianzas entre las poblaciones, S juega el papel de matriz de covarianzas dentro de las poblaciones.
7.2
Variables cannicas
103
varS (Yi ) = vi Si vi = 1.
si i = j.
varA (Y ) = varA (
i=1
i Yi ) =
p
i=1
2i varA (Yi )
p
i=1
2i i
p
i=1
2i )1 = varA (Y1 ),
104
p
i=1
bi Xi =
p
i Yi
condicionado a
i=2
p
2i = 1.
i=2
Entonces:
p
p
p
p
varA (Y ) = varA (
i Yi ) =
2i varA (Yi ) =
2i i (
2i )2 = varA (Y2 ),
i=2
i=2
i=2
i=2
7.3
105
(7.1)
yi yj = xi S1 xj XS1 X = YY .
V SV = Ip ,
AS1/2 C =S
C con C C = CC = Ip .
7.4
Representacin cannica
106
(7.2)
q
= (yi yj )(yi yj ) =
(yih yjh )2
h=1
g
donde s2j = (
de Y. Adems
i=1
1
1
1
1
Y Y = V X XV = V AV =
g
g
g
g
y por lo tanto s2j = j /g, lo que prueba (7.2).
Sea ahora Y=XT
una transformacin cualquiera tal que T ST = I. Es
decir, si
X= [X 1 , . . . , X p ] Y=XT
= [Y1 , . . . , Yp ]
que
donde X j , Yj son las columnas de X, Y,
t11
..
T = [t1 , . . . , tp ] = .
tp1
t1p
. . . ..
. ,
tpp
107
g
k=1
s2 (Yk ) =
1
1
varA (Yk )
k .
g k=1
g k=1
7.5
1 + + q
V (Y)q
= 100
.
1 + + p
VM (X)
Aspectos inferenciales
7.5.1
Comparacin de medias
El test
H0 : 1 = 2 = . . . = g
(7.3)
7.5.2
Comparacin de covarianzas
El test
H0 : 1 = 2 = . . . = g
108
g
2p2 + 3p 1 1
1
)(
)].
c = [1 (
6(p + 1)(g 1) k=1 ng 1 n g
7.5.3
Test de dimensionalidad
109
donde 1 > . . . > m son los valores propios de MM (la versin poblacional
de A) respecto de . Si
l1 > . . . > lk
son los valores propios de B respecto de W (ver Seccin 3.3.3), es decir,
soluciones de
|BlW| = 0,
(m)
k
1
bm = [n 1 (p + g)]
log(1 + li ) 2q ,
2
i=m+1
7.5.4
Regiones confidenciales
110
Entonces las proyecciones cannicas i de los vectores de medias poblacionales pertenecen a regiones confidenciales que son hiperesferas (esferas
en dimensin 3, crculos en dimensin 2) de centros y radios
(yi , R / ni ),
donde ni es el tamao muestral de la poblacin i.
Demost.: xi i es Np (0, /ni ) independiente de W que sigue la distribucin Wp (, n g). Por lo tanto
(n g)ni (xi i ) W1 (xi i )
= ni (xi i )S1 (xi i )
T 2 (p, n g),
y como la distribucin de Hotelling equivale a una F , tenemos que
(xi i ) S1 (xi i )
(n g)p
Fp
.
ni (n g p + 1) ngp+1
As pues
R2
] = 1 ,
ni
que define una regin confidencial hiperelptica para i con coeficiente de
confianza 1 . Pero la transformacin cannica yi = xi V convierte (xi
i ) S1 (xi i ) en (yi i ) (yi i ) y por lo tanto
P [(xi i ) S1 (xi i )
P [(yi i ) (yi i )
R2
] = 1 .
ni
111
6.210
8.282
6.685
S=
20.30 13.34
13.27
112
Test de Bartlett para homogeneidad de la matriz de covarianzas. Jicuadrado = 229.284, con 105 g.l. Significativo al 5%.
Matriz de dispersin entre grupos:
21249 15370
11528
B=
22924
42795
31009
86629
W=
1658
2211
5419
17419
32502
23475
65626
49890
1142
1970
1784
3562
3541
W4 (7, )
W5 (267, )
92049 69189
53432
Test de comparacin de medias:
7.6. COMPLEMENTOS
113
7.6
Complementos
ni (xi x)(xi x) +
(xih xi )(xih xi ) .
(xih x)(xih x) =
i=1 h=1
i=1
i=1 h=1
114
g
i=1
pi (i )(i ) +
g
pi i .
i=1
Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1
Introduccin
11 12 1n
21 22 2n
= ..
ij = ji = (i, j) ii = 0.
.. . .
..
.
. .
.
n1 n2 n
Definition 8.1.1 Diremos que = ( ij ) es una matriz de distancias Eucldeas si existen n puntos x1 , . . . , xn Rp , siendo
xi = (xi1 , . . . , xip ),
115
i = 1, . . . , n,
116
tales que
2ij
p
=
(xi xj )2 = (xi xj ) (xi xj )
(8.1)
=1
X =
8.2
117
y por lo tanto
2ij = bii + bjj 2bij = aii + ajj 2aij .
(8.3)
8.3
118
xn2
Propiedades:
1. Las variables Xk (columnas de X) tienen media 0.
X1 = = Xp = 0
Prueba: 1 es vector propio de B ortogonal a cada Xk , por lo tanto
X k = n1 (1 Xk ) = 0.
2. Las varianzas son proporcionales a los valores propios
s2k =
1
k ,
n
k = 1, . . . , p
Prueba: la varianza es n1 Xk Xk = n1 k .
119
k = k = 1, . . . , p.
1
X Xk = 0,
n k
120
es mximo.
Prueba: Sea x1 , ..., xn una muestra con media x = 0 y varianza s2 . Se
verifica
n
1
2
= 2n1 2 ( ni,j=1 x2i + ni,j=1 x2j 2 ni,j=1 xi xj )
i,j=1 (xi xj )
2n2
= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ,
por lo tanto
V (X) =
p
s2k .
k=1
Example 8.3.1
8.4. SIMILARIDADES
121
8.4
Similaridades
S = ..
.. . .
..
.
. .
.
sn1 sn2 ... snn
122
a+d
p
a
=
a+b+c
(Sokal-Michener)
(8.6)
(Jaccard)
(8.7)
8.5
123
i1 j1 i2 j2 im jm .
(ik , jk ) ,
donde
(i, j) (i , j ) si ij i j .
Se trata de representar en un espacio que conserve la preordenacin. Por
ejemplo, si consideramos las tres matrices de distancias sobre {A,B,C,D}:
A
B
C
D
A B C
0 1 2
0 1
0
D A B
3 0 1
2
0
1
0
C
1
1
0
D A B
1 0 1
1
0
0
0
C
1
1
0
D
1
1
1
0
124
Si transformamos la distancia ij en
ij = ( ij ), donde es una funcin
positiva creciente, es evidente que
ij tiene la misma preordenacin (8.8), y
por lo tanto, individuos prximos (alejados) segn ij estarn tambin prximos (alejados) con respecto a ij . Si adems ij es eucldea, tendremos la
posibilidad de representar , aplicando, por ejemplo, un anlisis de coordenadas principales sobre la distancia transformada, pero conservando (aproximadamente) la preordenacin. En general, la funcin no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Definition 8.5.2 La transformacin q-aditiva de ij se define como
2
2
ij 2a si i
= j
ij =
0
si i = j
125
es semidefinida positiva.
que son no negativos si a p , en cuyo caso B
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = p .
Las transformaciones aditiva y no lineal son ms complicadas y las dejamos para otro dia. De hecho, los programas de MDS operan con transformaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin Eucldea p.
2. Transformar la distancia ij en la disparidad
ij = ( ij ), donde
es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea dij a las disparidades
ij de manera que
minimice
(dij
ij )2 .
i<j
2
i<j (dij ij )
S=
,
2
i<j dij
8.6
Distancias estadsticas
126
8.6.1
Variables cuantitativas
p
i=1
|xi yi |q )1/q ,
p
i=1
|xi yi |
2. Distancia Eucldea:
d2 (x, y) = (xi yi )2
i=1
3. Distancia dominante:
d (x, y) = max {|xi yi |}
1ip
1 |xi yi |
dG (x, y) =
,
p i=1
Ri
y, cuando los valores de las variables son positivos, la mtrica de Canberra
p
1 |xi yi |
dC (x, y) =
.
p i=1 xi + yi
dG y dC son invariantes por cambios de escala.
127
8.6.2
Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0 y
1), entonces conviene definir un coeficiente de similaridad (Seccin 8.4) y
aplicar (8.7) para obtener una distancia. Existen muchas maneras de definir
una similaridad sij en funcin del peso que se quiera dar a los a, b, c, d. Por
ejemplo:
sij =
a
a + 2(b + c)
(Sokal-Sneath)
2a
sij =
(Dice)
(a + b)(a + c)
(8.9)
8.6.3
Variables categricas
128
8.6.4
Variables mixtas
si p1 = p3 = 0,
/p3
si p1 = p2 = 0.
8.6.5
129
Otras distancias
130
(p, q) = arccos(
pi qi ).
i=1
8.7
Dos ejemplos
Example 8.7.1
131
D
0
0
1/2
1
E
0
1/2
0
0
1
132
8.8
Complementos
8.8. COMPLEMENTOS
133
D ro D a l G ro Fo n V ie Z u r H u e B a r Fo r Fo r E tn Fru T h e S il Tra C h a O ra A g a L a s
D RO BA
DA LK E
.30 7
G RO N I
.1 5 2 .27 6
F O N TA
.2 7 1 .2 2 5 .15 0
V IE N A
.2 6 0 .37 0 .1 8 7 .1 9 5
Z U R IC
.23 5 .3 0 0 .1 1 2 .12 0 .1 2 8
H U E LV
.78 2 .6 5 7 .6 9 5 .58 0 .5 4 0 .6 2 3
BARCE
.6 1 5 .4 6 5 .52 9 .4 1 2 .4 6 9 .44 5 .2 5 9
FO R N I
.7 8 0 .6 5 7 .69 3 .6 0 7 .6 0 6 .60 9 .3 7 3 .3 0 9
0
0
0
0
0
0
0
0
FO R E S
.87 9 .7 9 0 .8 0 1 .76 4 .7 6 0 .7 6 1 .3 9 6 .4 9 0 .4 5 2
ETNA
.9 4 1 .84 6 .8 7 3 .8 1 3 .81 8 .8 1 7 .4 1 4 .5 2 4 .4 5 1 .1 7 7
FRUSK
.5 6 0 .5 0 5 .47 0 .4 4 2 .3 4 2 .39 1 .5 7 7 .4 6 0 .5 0 1 .6 8 1 .6 9 6
THESS
S IL IF
0
0
0
0
TRABZ
CH A LU
ORANG
0
0
AG A DI
LASM E
0
0
134
Figura 8.3: Representacin MDS de 19 poblaciones de D. Subobscura respecto a las distancias genticas entre ordenaciones cromosmicas.
8.8. COMPLEMENTOS
135
136
Captulo 9
ANALISIS DE
CORRESPONDENCIAS
9.1
Introduccin
El Anlisis de Correspondencias (AC) es una tcnica multivariante que permite representar las categoras de las filas y columnas de una tabla de contingencia.
Supongamos que tenemos dos variables categricas A y B con I y J categoras respectivamente, y que han sido observadas
cruzando las I categoras
A con las J categoras B, obteniendo n = ij fij observaciones, donde fij
es el nmero de veces en que aparece la interseccn Ai Bj , dando lugar a la
tabla de contingencia I J :
A1
A2
..
.
AI
B1
f11
f21
B2
f12
f22
...
BJ
f1J
f2J
fI1
f1
fI2
f2
fIJ
fJ
f1
f2
..
.
(9.1)
fI
n
donde fi = j fij son las frecuencias de Ai , fj = i fij son las frecuencias
de Bj . Hemos de tener en cuenta que la tabla (9.1) resume la matriz de datos
137
138
A1
1
..
.
A2
0
..
.
...
AI
0
..
.
B1
1
..
.
B2
0
..
.
...
BJ
0
..
.
i
..
.
0
..
.
0
..
.
...
1
..
.
0
..
.
1
..
.
...
0
..
.
c = P 1.
1
1 X,
n
c=
1
1 Y,
n
Dc = diag(c),
las matrices diagonales que contienen los valores marginales de filas y columnas de P. Se verifica
X X = nDr ,
Y Y = nDc ,
X Y = nP = N.
139
Por lo tanto, las matrice de covarianzas entre filas, entre columnas y entre
filas y columnas, son
S11 = Dr rr ,
S22 = Dc cc ,
S12 = P rc .
Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.
9.2
V = Yb.
(Dr rr )D1
r (Dr rr ) = (Dr rr )(I 1r )
= Dr Dr 1r rr +rr 1r
= Dr rr rr +rr
= Dr rr .
140
1
Anlogamente S
22 = Dc . Aplicando la teoria de la correlacin cannica
(Seccin 4.3), podemos considerar la descomposicin singular
Dr1/2 (P rc )D1/2
= UD V ,
c
(9.2)
donde D es la matriz diagonal con los valores singulares en orden decreciente. Si u1 , v1 son los primeros vectores cannicos, tendremos entonces
1/2
a = S11 u1 ,
1/2
b = S22 v1 ,
r = 1 ,
bi = D1/2
vi ,
c
ri = i ,
i = 1, . . . , min{I, J}.
En notacin matricial, los vectores que cuantificn las categoras de las filas y
de las columnas de N, son las columnas de las matrices
A0 = D1/2
U,
r
B0 = Dc1/2 V.
B = Dc1/2 VD ,
(9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3
pi1 pi2
piJ
, , ,
),
ri ri
ri
141
J
(pij /ri pi j /ri )2
j=1
cj
G = QD1
c Q,
1/2
D1/2
= UD2 U
r (I 1r )G(I r1 )Dr
(9.4)
Las distancias eucldeas entre las filas de A coinciden con la distancia jicuadrado.
Relacionemos ahora estas coordenadas con las cuantificaciones anteriores.
De (9.2) tenemos
1/2
D1/2
(P rc )D1
= UD2 U ,
r
c (P cr )Dr
y de
1
1
1/2
1/2
1/2
Dr1/2 (D1
r P 1c )Dc (P Dr c1 )Dr = Dr (Q 1r Q)Dc (Q Q r1 )Dr ,
deducimos que
1/2
2
D1/2
r (I 1r )QDc Q (I r1 )Dr = UD U .
142
I
(pij /cj pij /cj )2
ri
i=1
y probar que las distancias eucldeas entre las filas de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado.
As pues, si consideramos las dos primeras coordenadas principales:
Filas
(a11 , a12 )
(a21 , a22 )
..
.
B1
B2
..
.
Columnas
(b11 , b12 )
(b21 , b22 )
..
.
AI (aI1 , aI2 )
BJ
(bJ1 , bJ2 )
A1
A2
..
.
9.4
Las coordenadas A y las coordenadas B, que representan las filas y las colum1/2
nas, estn relacionadas. Premultiplicando (9.2) por Dr
y postmultiplicando por V obtenemos
1/2
D1
V = D1/2
U,
r (P rc )Dc
r
luego
1
D1
r (P rc )BD = A.
D1
c (P cr )AD = B.
1 (P rc )BD1
= r A.
(c c )BD1
= r A = 0.
B = D1
c P AD .
(9.5)
1
Conviene notar que D1
r P son los perfiles de las filas, y Dc P son los perfiles
de las columnas. As pues tenemos que, salvo el factor dilatador D1
, (pues
los elementos diagonales de D son menores que 1), se verifica:
1. Las coordenadas de las filas son medias, ponderadas por los perfiles de
las filas, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son medias, ponderadas por los perfiles de las columnas, de las coordenadas de las filas.
Por ejemplo, la primera coordenada principal de las filas verifica:
ai1 =
1
pi1
pi2
piJ
(b11
+ b21
+ + bJ1 ),
1
ri
ri
ri
i = 1, . . . , I,
1
p1j
p2j
pIj
(a11
+ a21
+ + aI1 ),
1
cj
cj
cj
j = 1, . . . , J.
Ejemplo 1. La Tabla 9.1 contiene unos datos artificiales, que clasifican 400 clientes segn la edad (joven, mediana, mayor) y los productos que
compran en un supermercado.
Tenemos:
.175
0
0
.175
.112 5 .1125 0
.225
.45
.40 .
P=
.075 .075 .075 , r = .225 , c =
0
.2
.05
.250
.15
.0875 .0125 .025
.125
La matriz de perfiles de las filas es:
1.00 0
0
0.50 0.50 0
0 0.80 0.20
0.70 0.10 0.20
144
Producto
A
B
C
D
E
Total
Edad
Joven Mediana Mayor Total
70
0
0
70
45
45
0
90
30
30
30
90
0
80
20
100
35
5
10
50
180
160
60
400
A=
Filas
1.0990 0.1199
0.0551 0.4213
0.1834
0.4815
0.9231 0.1208
0.5384
0.3012
Columnas
0.7525 0.0397
B = 0.6770 0.2393
0.4522
0.7571
Los valores singulares son: 1 = 0.6847, 2 = 0.3311. La primera coordenada principal de las filas A1 , . . . ,A5 verifica:
1.0990
0.0551
0.1834
0.9231
0.5384
= 0.68471 (.7525 1 + 0 + 0)
= 0.68471 (.7525 .5 .677 .5 + 0)
= 0.68471 (.7525 .33 .677 .33 .4522 .33)
= 0.68471 (0 .677 .8 .4522 .2)
= 0.68471 (.7525 .7 .677 .1 .4522 .2)
9.5
B0 = D1/2
V,
c
145
Color ojos
CLARO
AZUL
CASTAO
OSCURO
Total
Color
cabellos
Rubio Rojo Castao Oscuro Negro Total
688
116
584
188
4
1,580
326
38
241
110
3
718
343
84
909
412
26
1,774
98
48
403
681
81
1,311
1,455 286
2,137
1,391
114
5,383
Tabla 9.2: Classificacin de 5383 individuos segn el color de los ojos y del
cabello.
es decir, coordenadas principales para las filas y coordenadas estndard para
las columnas, es la llamada solucin asimtrica. Esta solucin verifica
P rc = Dr AB0 Dc ,
y por lo tanto reproduce mejor la dependencia entre filas y columnas.
Ejemplo 2. La Tabla 9.2 relaciona los colores de los cabellos y de los
ojos de 5,383 individuos.
146
0.4400 0.0872
0.3996 0.1647
B=
A=
0.0361
0.2437
0.7002 0.1345
Columnas
0.5437 0.1722
0.2324 0.0477
0.0402
0.2079
0.5891 0.1070
1.0784 0.2743
9.6
=n
m
k=1
2k ,
=n
147
I
J
(fij fi fj /n)2
fi fj
i=1 j=1
I
J
(pij ri cj )2
ri cj
i=1 j=1
2
= ,
n
I
J
p2ij
1.
r
c
i
j
i=1 j=1
J
(pij /ri pi j /ri )2
cj
j=1
Por lo tanto
J
pij
pi j 2
=
(
) cj
ri cj ri cj
j=1
1
pij
pi j 2
V =
ri (
) cj ri
2 i=1 i=1 j=1 ri cj ri cj
i=1
I
i =1
J
p2ij
j=1 ri ri2 c2j cj ri
=
=
I
i=1
I
i=1
I
i =1
J
J
p2ij
j=1 ri cj ri
p2ij
j=1 ri cj ,
148
i=1
I
i =1
pij = cj ,
pij pi j
j=1 ri ri c2j ri cj ri
=
=
I
i=1
I
i=1
I
J pij pi j
i =1
j=1 cj
J pij cj
j=1 cj = 1,
I
k=1
2k .
p2ij
i,j ri cj .
W = Dr1/2 (P rc )D1/2
= UD V .
c
Entonces
2 = tr(WW ) = tr(UD2 U ) = tr(D2 ).
Proposition 9.6.3 La variabilidad geomtrica utilizando slo las primeras
m coordenadas principales es
V (m) =
m
2k .
k=1
9.7
149
Bu = Z Z =
Z1 Z1 Z1 Z2
Z2 Z1 Z2 Z2
=n
Dr P
P Dc
b) [Z1 , Z2 ].
c) Bu .
150
Dimensin
J1 J2
n (J1 + J2 )
(J1 + J2 ) (J1 + J2 )
Coordenadas
A (filas)
B (columnas)
!
A
B !
A
B
Valor propio
1+
2
( 1+2 )2
Consideremos a continuacin Q variables categricas con J1 , . . . , JQ estados, respectivamente, sobre n individuos. Sea J = J1 + . . . + JQ. La tabla de
datos, de orden n J es la super-matriz de indicadores
Z = [Z1 , . . . , Zj , . . . , Zq ],
donde Zj es n Jj y contiene los datos binarios de la variable j. La tabla de
contingencia que tabula la combinacin de las variables i, j es Nij = Zi Zj .
La matriz de Burt, de orden J J es
Z1 Z1 Z1 Z2 Z1 Zq
Z Z1 Z Z2 Z Zq
2
2
2
Bu = Z Z = ..
..
.. ,
.
.
.
.
.
.
Zq Z1 Zq Z2 Zq Zq
b) Bu .
E en caso a) representampos las J columnas y ignoramos las n filas (individuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las filas (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
Z 2
B
k = (k )
151
Z
entre los valores propios B
i obtenidos a partir de la matriz de Burt y los i
que surgen del anlisis sobre Z. Las inercias correspondientes son:
2 (Bu ) =
2 (Z)
B
=
k k
Zk =
1 2
[
(Nij ) + (J Q)],
Q2 i=j
J
1,
Q
siemdo 2 (Nij ) la inercia para la tabla Nij , vase Secci ??. As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categriques.
Exemple 9.7.1 La Tabla 9.3 contiene las frecuencias con la clasifcacin
cruzada de 1257 individuos segun Edad (E), Sexo (S), intencin de Voto (V)
y Clase social (C). Tenemos Q = 4, J = 12, J1 = 4, J2 = 2, J3 = 3, J4 = 2.
Los datos (matriz Z, solo mostramos 5 individuos) son de la forma:
Edad
>73 51-73 41-50
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
..
..
..
.
.
.
Votacin
26-40 <26 Lib Con
0
0
1
0
0
0
0
1
0
1
1
0
0
0
0
1
0
0
1
0
..
..
..
..
.
.
.
.
Clase
Alt Mit Obr
0
1
0
1
0
0
0
0
1
1
0
0
0
1
0
..
..
..
.
.
.
Sexo
H D
1 0
0 1
1 0
0 1
1 0
.. ..
. .
152
Hombres
Derecha Izquierda
Clase
4
0
27
8
27
4
17
12
7
6
Clase
8
4
21
13
27
12
14
15
9
9
Clase
8
15
35
62
29
75
32
66
14
34
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
Mujeres
Derecha Izquierda
alta
10
0
26
9
25
9
28
9
7
3
media
9
1
33
8
29
4
17
13
13
7
obrera
17
4
52
53
32
70
36
67
18
33
0
347
0
0
0
194
153
70
75
202
166
181
0
0
343
0
0
169
174
65
72
206
174
169
0
0
0
326
0
144
182
66
59
201
156
170
0
0
0
0
160
68
92
23
38
99
79
81
56
194
169
144
68
631
0
178
180
273
279
352
25
153
174
182
92
0
626
60
87
479
335
291
14
70
65
66
23
178
60
238
0
0
112
126
23
75
72
59
38
180
87
0
267
0
132
135
44
202
206
201
99
273
479
0
0
752
370
382
39
166
174
156
79
279
335
112
132
370
614
0
42
181
169
170
81
352
291
126
135
382
0
643
Tabla 9.4: Tabla de Burt con la clasificacin de 1257 individuos segn edad,
sexo, clase social y tendencia de voto.
153
9.8
MDS ponderado
w1=
g
i=1
wi = 1,
wi 0,
1 (2)
1/2
2
D1/2
(9.7)
w (Ig 1w )( g )(Ig w1 )Dw = U U ,
2
una descomposicin espectral, donde = diag(21 , . . . , 2p ) contiene los val2
ores propios y (2)
g = ( ij ).
154
1/2
s2k = D1/2
w Xk Xk Dw = (Uk k )(k Uk ) = k ,
donde 2k es el valor propio de vector propio Uk .
3. Las variables (columnas de X) estn incorrelacionadas
cor(Xk , Xk ) = 0,
k = k = 1, . . . , p.
1/2
cov(Xk , Xk ) = D1/2
w Xk Xk Dw = k Uk Uk = 0,
155
p
2k .
k=1
(2)
g = 1d +d1 2XX ,
q
2k .
k=1
n=
g
ni ,
i=1
1 0 0
1 0 0
0 1 0
M=
0 1 0 .
0 1 0
0 0 1
1
156
(9.9)
2
(In 11 )( (2)
(9.10)
n )(In 11 ) = UD U = YY ,
n
2
n
la matriz n p de los vectores propios. La solucin no ponderada
siendo U
es
.
Y = UD
Theorem 9.8.1 La solucin no ponderada Y sobre n coincide con la solucin ponderada X sobre g , en el sentido de que obtenemos Y repitiendo
n1 , . . . , ng veces las filas de X.
Prueba: De (9.9) podemos expresar la solucin no ponderada (9.10) como
(In
1
1
1
11 )M( (2)
g )M (In 11 ) = YY .
n
2
n
Se verifica
1
11 )M = M(Ig 1g w ).
n
Por lo tanto, de (9.8) tenemos
(In
1
)(Ig w1 )M = MXX M ,
M(Ig 1w )( (2)
2 g
que demuestra que Y = MX. En otras palabras, las coordenadas principales
no ponderadas Y son el resultado de repetir n1 , . . . , ng veces las coordenadas
X. La relacin entre los valores singulares es
k = gk ,
k = 1. . . . , p.
x11 x12
x11 x12
x11 x12
x21 x22
x21 x22 , Y =
X=
x
x
21
22
x31 x32
x21 x22
x31 x32
9.9. COMPLEMENTOS
9.9
157
Complementos
K
k a0ik b0jk ).
k=1
0 0
Si el trmino entre parntesis = K
k=1 k aik bjk , es suficientemente pequeo
para que log(1 + ) , entonces
log pij = log pi + log pj +
K
k a0ik b0jk ,
k=1
i = 1, . . . , I,
pij
pi j 2
pij
pi j 2
pij + pij
pi j + pi j 2
)(
)] cj +[(
)(
)] cj = [(
)(
)] (cj +cj ),
ri cj
ri cj
ri cj
ri cj
ri (cj + cj )
ri (cj + cj )
158
entre dos filas de N, que tiene la ventaja de no depender de los perfiles de las
columnas. Sin embargo los resultados pueden ser muy similares (Cuadras et
al, 2004), y el mtodo basado en esta distancia resulta ms apropiado cuando
las filas se ajustan a poblaciones multinomiales distintas.
Una forma alternativa de presentar el AC es el reciprocal averaging
(RA). Supongamos que queremos encontrar las coordenadas de las filas (a1 , . . . , aI )
como medias ponderadas de las coordenadas de las columnas y recprocamente, las coordenadas de las columnas (b1 , . . . , bJ ) como medias ponderadas
de las coordenadas de las filas
J
pij
ai =
bj ,
ri
j=1
bj =
I
i=1
ai
pij
.
cj
9.9. COMPLEMENTOS
159
f (x)
h(x, y)g(y)
1/2
k uk (x)vk (y),
(9.12)
k=1
160
Captulo 10
CLASIFICACIN
10.1
Introduccin
Clasificar los elementos de un conjunto finito consiste en realizar una particin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasificacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasificamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agricultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = { 1 , 2 , . . . , n } un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
= {1, 2, ..., n}.
162
10.2
Jerarqua indexada
Definition 10.2.1 Una jerarqua indexada (C, ) sobre est formada por
una coleccin de clusters C () y un ndice tal que:
Axioma de la interseccin: Si c, c C entonces c c {c, c , }.
Axioma de la reunin: Si c C entonces c = {c | c C, c c}.
La reunin de todos los clusters es el conjunto total: = {c | c C}.
El ndice es una aplicacin de C sobre el conjunto de nmeros reales positivos tal que:
(i) = 0, i ,
(c) (c ) si c c .
{i} C.
C.
Comentarios:
1. El primer axioma significa que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c , c c, c c = .
Se trata de evitar que un elemento de pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasificado.
2. El segundo axioma significa que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms amplios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
163
(cij ) x,
cij cjk =
jRx k j, k cjk,
(cjk ) x,
164
10.3
Geometra ultramtrica
Para presentar una clasificacin utilizamos llaves. Por ejemplo, la clasificacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin
Autonomas Provincias
Huesca
Teruel
Aragon
Zaragoza
Barcelona
Gerona
Catalunya
Lerida
Tarragona
Madrid
Madrid
Espa
na
u11 u12
u21 u22
U = ..
..
...
.
.
un1 un2
de orden n n
u1n
u2n
uii = 0.
165
Proposition 10.3.1 Una distancia ultramtrica verifica la desigualdad triangular y por lo tanto es mtrica.
Demost.:
u(i, j) sup{u(i, k), u(j, k)} u(i, k) + u(j, k).
Definition 10.3.2 Un tringulo {i, j, k} formado por tres elementos de
es ultramtrico si es issceles y su base es el lado ms pequeo. Es decir, si
u(i, j) es la base, entonces
u(i, j) u(i, k) = u(j, k).
Theorem 10.3.2 En un espacio ultramtrico todo tringulo es ultramtrico.
Demost.: Sea {i, j, k} un tringulo. Sea u(i, j) es el lado ms pequeo,
entonces:
u(i, k) sup{u(i, j), u(j, k)} = u(j, k)
= u(i, k) = u(j, k).
u(j, k) sup{u(i, j), u(i, k)} = u(i, k)
Definition 10.3.3 Un rbol ultramtrico (tambin llamado dendograma) es
un grafo conexo, sin ciclos con un punto llamado raiz y n puntos extremos
equidistantes de la raiz.
Una propiedad importante es que todo espacio ultramtrico (, u) se
puede dibujar mediante un dendograma, como en la Figura 10.2.
Theorem 10.3.3 Sea (, u) un espacio ultramtrico. Entonces podemos
representarlo mediante un rbol ultramtrico con extremos los elementos de
.
Demost.: Supongamos el rbol en posicin vertical. Sea u(i, j) la distancia
entre los extremos i, j medida como la mitad de la mnima longitud de las
aristas verticales que unen i con j, es decir, la distancia vertical hasta el
nudo que liga i con j. Consideremos un tringulo {i, j, k} y supongamos
que {i, j} es el lado ms pequeo. Entonces k se relaciona con i, j en un
nudo por encima de . As u(k, i) = u(k, j) = u(i, j) + , donde 0
es la distancia vertical entre y . Esto demuestra que {i, j, k} es un arbol
ultramtrico.
Hay una versin del Teorema 10.2.1 para distancias ultramtricas.
166
si u(i, j) x,
(10.2)
167
(10.3)
= u(ca , cb )
sup{u(ca , ci ), u(cb , ci )} = sup{u (ca , ci cj ), u (cb , ci cj )},
u (ca , ci cj ) = u(ca , ci )
sup{u(ca , cb ), u(cb , ci )} = sup{u (ca , cb ), u (cb , ci cj )}.
168
10.4
A partir de un espacio ultramtrico podemos construir una jerarquia indexada. Nos lo permite el siguiente
Algoritmo fundamental de clasificacin
Sea (, u) un espacio ultramtrico. El fundamento de este algoritmo
consiste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos
o clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= {1} + ... + {n}.
2. Sean i, j los dos elementos ms prximos: u(i, j) = mnimo. Los unimos
{i} {j} = {i, j}
y definimos la nueva distancia ultramtrica u
u (k, {i, j}) = u(i, k) = u(j, k),
k = i, j,
(10.4)
10.5
Una jerarqua indexada es una estructura conjuntista. Un espacio ultramtrico es una estructura geomtrica. Ambas estructuras son equivalentes.
169
Theorem 10.5.1 Sea (C, ) una jerarqua indexada total sobre un conjunto
. Entonces podemos definir una distancia ultramtrica u sobre . Recprocamente, todo espacio ultramtrico (, u) define una jerarqua indexada (C, ).
Demost.: A partir de (C, ) definimos la siguiente distancia
u(i, j) = (cij ),
donde cij es el mnimo cluster (respecto a la relacin de inclusin) que contiene i, j. Sea {i, j, k} un tringulo y sean tambin cik , cjk los mnimos clusters
que contienen {i, k}, {j, k} respectivamente. Tenemos que
cik cjk
=
10.6
11 12 1n
21 22 2n
ij = ji = (i, j), ii = 0.
= ..
.. . .
..
.
.
.
.
n1 n2 nn
170
k = i, j,
(10.5)
(10.6)
10.6.1
171
k = i, j.
(10.7)
(1, 2)
3
4
5
(1, 2) 3 4
0
3 4
0 2
0
5
(1, 2) (3, 4)
7
(1, 2)
0
3
8
(3, 4)
0
7
5
0
5
7
7
0
5
7 C = {{1}0 , . . . , {5}0 , {1, 2}1 , {3, 4}2 , {1, 2, 3, 4}3 , 7 }
0
1 2 3 4 5
1 0 1 3 3 7
2
0 3 3 7
(C, ) U =
3
0 2 7
4
0 7
5
0
172
10.6.2
k = i, j.
(10.8)
173
174
10.7
10.8. UN EJEMPLO
175
Por otra parte, dadas las cadenas [i, j], [j, k] podemos construir
[i, k, j] = [i, j] [j, k]
de modo que
sup[i, k, j] = sup{sup[i, j], sup[j, k]}
Teniendo en cuenta (10.9) deducimos que
u(i, j) sup{u(i, k), u(j, k)}
Sea ahora u . Aplicando la Proposicin 10.7.2
u(i, j) sup u(i , i+1 ) sup[i, j]m
1m
Por lo tanto
u(i, j) inf sup[i, j]m = u(i, j).
m
10.8
Un ejemplo
Un grupo de n = 11 profesores de probabilidades y estadstica de la Universidad de Barcelona han publicado, entre 1994 y 2000, unos 150 artculos
176
internacionales, algunos en colaboracin. Con la finalidad de agrupar los profesores segn los artculos que publicaron juntos, consideramos el coeficiente
de similaridad
s(i, j) = nmero de artculos que i, j han publicado juntos.
Definimos entonces la distancia
d(i, j) = 1 s(i, j)/ min{s(i, i), s(j, j)}.
Obtenemos la matriz de distancias:
Arenas
Corcuera
Cuadras
Fortiana
Marquez
Nualart
Oliva
Oller
Rovira
Sanz
Sarra
Are
0
1
0.50
0.83
1
1
1
1
1
1
1
Cor
Cua For
0
1
1
1
1
1
0.75
1
1
1
0
0.06
1
1
0.33
1
1
1
1
0
1
1
1
1
0.33
0.75
0
1
1
0.33
1
1
1
1
0
1
1
1
0.93
1
0
1
1
1
1
0
1
1
1
San
Sar
0
0.11 0
1
0.25 0
Aplicando un anlisis cluster, mtodo del mnimo, a esta matriz, obtenemos el dendograma de la Figura 10.2. Este dendograma pone de manifiesto
que hay tres grupos principales con 4, 2 y 5 profesores, que trabajan en anlisis multivariante (AM), estadstica matemtica (EM) y anlisis estocstico
(AE), respectivamente.
10.9
Clasificacin no jerrquica
177
178
d2 (xki , xk )
k=1 i=1
10.10
Nmero de clusters
Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han propuesto mtodos para estimar el nmero de clusters de una clasificacin. Es
ste un tema abordado desde muchas perspectivas (vase Gordon, 1999).
Normalmente el usuario determina el nmero k de clusters. Un primer
criterio consiste en tomar el valor k tal que maximice la cantidad
cl1 (k) =
tr(B(k)) tr(W(k))
/
,
g1
ng
10.11. COMPLEMENTOS
179
10.11
Complementos
180
dimensin utilizando una mtrica adecuada. Un estudio de los vectores propios y las dimensiones principales de una matriz de distancias ultramtricas
es debido a Cuadras y Oller (1987). Ver Cuadras et al. (1996).
N. Jardine y R. Simpson propusieron el mtodo de clasificacin denominado flexible, que consiste en definir la distancia de un cluster a la unin de
dos clusters en funcin de unos parmetros, por ejemplo, inicialmente
(k, {i, j}) = i (i, k) + j (j, k) + (i, j) + |(i, k) (j, k)|,
y anlogamente en los siguientes pasos. Dando valores a los parmetros se
obtienen los mtodos siguientes (se incluye denominacin estndar):
Criterio de agrupacin
i
Mnimo (single linkage)
1/2
Mximo (complete linkage)
1/2
Media (weighted average link)
1/2
UPGMA (group average link) ni /(ni + nj )
j
1/2
1/2
1/2
nj /(ni + nj )
0
0
0
0
1/2
+1/2
0
0
Captulo 11
ANALISIS DISCRIMINANTE
11.1
Introduccin
(11.1)
182
11.2
11.2.1
Discriminador lineal
i = 1, 2.
(11.3)
11.2.2
183
11.2.3
Regla de Bayes
q2 = P (2 ) ,
q1 + q2 = 1.
Una vez que se dispone de las observaciones x =(x1 , . . . , xp ), las probabilidades a posteriori de que pertenezca a las poblaciones (teorema de Bayes)
son
qi fi (x)
P (i /x) =
, i = 1, 2.
q1 f1 (x) + q2 f2 (x)
La regla de clasificacin de Bayes es
Si P (1 /x) >P (2 /x) asignamos a 1 ,
en caso contrario asignamos a 2 .
El discriminador de Bayes es
B (x) = log f1 (x) log f2 (x) + log (q1 /q2 ) .
Cuando q1 = q2 = 1/2, entonces B (x) = V (x) . Este discriminador es ptimo.
Theorem 11.2.1 La regla de Bayes minimiza la probabilidad de clasificacin
errnea.
184
Esta ltima integral es mnima si R2 incluye todas las x tal que q1 f1 (x)q2 f 2 (x) <
y excluye toda las x tal que q1 f1 (x)q2 f 2 (x) >0. Por tanto pce es mnima
si R2 = R2 , donde R2 = {x|B(x) <0}.
11.3
11.3.1
1/2
exp{ 1 (x i ) 1 (x i )}.
fi (x) = (2)p/2 1
i
i
2
Clasificador lineal
Si suponemos 1
= 2 , 1 = 2 = , entonces
V (x) = 12 (x1 ) 1 (x1 ) + 12 (x2 ) 1 (x2 )
= L(x)
y por tanto los discriminadores mximo verosmil y lineal, el segundo basado
en el criterio de la mnima distancia, coinciden.
Sea la distancia de Mahalanobis entre las dos poblaciones
= (1 2 ) 1 (1 2 ).
Si suponemos que x proviene de Np (2 , ), de x1 = x2 + 2 1 , y de
E(x2 )(x2 ) = , (x2 ) 1 (x2 ) 2p , tenemos que la esperanza
de U = (x1 ) 1 (x1 ) es
E(U) =E[(x2 ) 1 (x2 ) + + 2(x2 ) 1 (2 1 )] = p + ,
185
11.3.2
Regla de Bayes
11.3.3
1
1
),
P (L(x) <0|1 ) = P ((L(x) )/ ) = (
2
2
donde (z) es la funcin de distribucin N (0, 1). La probabilidad de clasificacin errnea es
1
pce = q1 P (L(x) <0|1 ) + q2 P (L(x) >0|2 ) = (
).
2
Por tanto pce es una funcin decreciente de la distancia de Mahalanobis
entre las dos poblaciones.
11.3.4
Discriminador cuadrtico
Q (x) = 12 x 1
x
+
x
1
2
2
1
1
2
1 1
1
1
+ 21 2 1
2 2 2 1 1 1 + 2 log |2 | 2 log |1 |
186
11.3.5
L(x)
es N ( 21 , 12 ) si x proviene de Np (2 , ),
11.3.6
Un ejemplo
Example 11.3.1
Mytilicola intestinalis es un coppodo parsito del mejilln, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difciles de distinguir.
Sobre una muestra de n1 = 76 y n2 = 91 coppodos que se pudieron identificar al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
l = longitud, a = anchura,
187
Figura 11.1: Discriminadores lineal y cuadrtico en la clasificacin de coppodos. La lnea recta es el conjunto de puntos tales que L = 0. La parbola es
el conjunto de puntos tales que Q = 0.
y se obtuvieron las siguientes medias y matrices de covarianzas:
Estadio-1
Estadio-2
x1 = ( 219.5 138.1 ) x2 = ( 241.6 147.8
)
409.9 1.316
210.9 57.97
S1 =
S2 =
1.316 306.2
57.97 152.8
Discriminador lineal
La estimacin de la matriz de covarianzas comn es
301.4 31.02
S = (n1 S1 + n2 S2 )/(n1 + n2 ) =
31.02 22.6
El discriminador lineal es:
L(l, a) = ((l, a) (461.1, 285.9) /2)
= 0.069l 0.038a + 20.94
301.4 31.02
31.02 222.6
1
22.1
9.7
188
1
4.461) = 0.145.
2
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2 = [1
13 1
1
1
( +
con 3 g.l. Las diferencias entre las matrices de covarianzas son significativas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(l, a) = 0.0014l2 + 0.002a2 0.002al 0.445l 0.141a + 72.36
189
11.4
11.4.1
Discriminadores lineales
i = 1, , k,
asignamos a i . (11.5)
asignamos a i .
190
11.4.2
asignamos a i .
11.4.3
Regla de Bayes
asignamos a i ,
k
i=1
k
qi (
P (j/i)),
j=i
11.4.4
191
Un ejemplo clsico
.18519 .0426
.0418
192
Poblacin 1
original
2
3
Poblacin asignada
1
2
3
50
0
0
0
48
2
0
1
49
11.5
Los mtodos que hemos descripto funcionan bien con variables cuantitativas
o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aplicando el principio de que siempre es posible definir
una distancia entre observaciones, es posible dar una versin del anlisis
discriminante utilizando solamente distancias.
11.5.1
La funcin de proximidad
2 (x) es la media de las distancias de x, que es fija, a t, que vara aleatoriamente, menos la variabilidad geomtrica.
193
con un producto escalar < ., . > y una norma z2 =< z, z >, tal que
2 (x, y) = (x) (y)2 ,
11.5.2
La regla discriminante DB
i = 1, 2,
lo nico que cambia es la matriz . Debe quedar claro que depende del
vector aleatorio X, que en general tendr diferente distribucin en 1 y 2 .
Seguidamente, mediante (11.6), encontraremos las funciones de proximidad 21 , 22 , correspondientes a 1 , 2 . Sea un individuo que queremos
clasificar, con valores x = X ().
La regla de clasificacin DB (distance-based) es:
Si 21 (x) 22 (x) asignamos a 1 ,
en caso contrario asignamos a 2 .
Teniendo en cuenta el Teorema 11.5.1, se cumple
2i (x) = (x) Ei ( (X))2 ,
i = 1, 2,
194
11.5.3
)
1( 2
2 (x) 21 (x) .
2
x
= y,
x = y,
)
1( 2
2 (x) 21 (x) .
2
1
(1 + 2 )] (1 2 ) ,
2
11.5.4
195
muestra de 1 ,
muestra de 2 ,
(11.7)
n2
1
V2 = 2
2 (2).
2n2 i,j=1 ij
1
n1 i=1 i
n2
2 (y) = 1
2 (2) V2 .
2
n2 i=1 i
2 (x)
2 (y) asignamos a 1 ,
Si
1
2
en caso contrario asignamos a 2 .
y, y1 , y2 , ..., yn2 Rq ,
1
E
2 (y) = d2 (y,y) ,
2
E
196
Por otro
1
2n2
Restando
11.6
n
d2 (xi , x) =
i=1
n
d2 (xi , xj ) =
i,j=1
1
n
1
n
n
1
n
i=1
(xi x) (xi x)
i=1
n
i=1
1
2n2
n
xi xi + x x2x x.
n
i,j=1
n
i=1
(xi xj ) (xi xj )
xi xi x x.
Complementos
1
1+
e x
Captulo 12
EL MODELO LINEAL
12.1
El modelo lineal
Supongamos que una variable observable Y depende de varias variables explicativas (caso de la regresin mltiple), o que ha sido observada en diferentes situaciones experimentales (caso del anlisis de la varianza). Entonces
tendremos n observaciones de Y , que en muchas situaciones aplicadas, se
ajustan a un modelo lineal
yi = xi1 1 + xi2 2 + . . . + xim m + ei ,
que en notacin matricial es
y1
x11 x12 x1m
y2 x21 x22 x2m
.. = ..
..
..
...
. .
.
.
yn
xn1 xn2 xnm
1
2
..
.
m
1. El vector de observaciones de Y
y = (y1 , y2 , . . . , yn ) .
2. El vector de parmetros
= ( 1 , 2 , . . . , m ) .
197
(12.1)
i = 1, . . . , n,
e1
e2
..
.
en
198
3. La matriz de diseo
x11 x12
x21 x22
X =
xn1 xn2
x1m
x2m
...
xnm
e = (e1 , e2 , . . . , en )
La notacin matricial compacta del modelo es:
y = X + e.
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de m variables explicativas. En los modelos de anlisis
de la varianza, X contiene los valores 0, 1 1, segn el tipo de diseo
experimental.
12.2
i = 1, . . . , n.
2. E(ei ej ) = 0,
i = j = 1, . . . , n.
3. var(ei ) = 2 ,
i = 1, . . . , n.
199
12.3
Estimacin de parmetros
12.3.1
Parmetros de regresin
La estimacin de los parmetros = ( 1 , . . . , m ) en funcin de las observaciones y = (y1 , . . . , yn ) , se plantea mediante el criterio de los mnimos
= (
1 , . . . ,
m ) tal
cuadrados (LS, least squares). Se desea encontrar
que
n
e e = (y X) (y X) =
(yi xi1 1 . . . xim m )2
(12.2)
i=1
sea mnimo.
(12.3)
obtenemos (12.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m. Entonces la estimacin de es nica:
= (X X)1 X y.
(12.4)
2
R0 = (y X) (y X) =
(yi yi )2 ,
i=1
siendo
1 + . . . + xim
m.
yi = xi1
200
12.3.2
Varianza
= X y X X
= 0.
X
e= X (y X)
Theorem 12.3.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones bsicas del modelo (Seccin 12.2). Entonces el estadstico
T
e= z T X, donde las r primeras componentes de T
e son cero (por el
son tambin cero. Por tanto
lema anterior) y las n r componentes de T X
T
e es
T
e = (0, . . . , 0, zr+1 , . . . , zn )
y en consecuencia
R02
=
e
e=
e TT
e=
n
i=r+1
zi2 .
201
E(zi ) = 0,
y por tanto
E(Ro2 )
n
i=r+1
i > r,
E(zi2 ) = (n r) 2 .
2. N
m (, (X X) ).
) X X(
)/ 2 2 .
3. U = (
m
es estocsticamente independiente de R2 .
4.
0
5. R02 / 2 2nr .
12.4
12.4.1
Regresin mltiple
i = 1, . . . , n,
(12.5)
donde yi es la i-sima observacin de Y, y xi1 , . . . , xim son las i-simas observaciones de las variables explicativas. La matriz de diseo es
1 x11 x1m
1 x21 x2m
X = .. ..
.. .
.
.
. .
.
.
1 xn1 xnm
202
12.4.2
Diseo de un factor
Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes, y que disponemos de ni rplicas (observaciones independentes de Y ) yi1 , . . . , yini bajo la condicin experimental i. El
modelo es
yih = + i + eih , i = 1, . . . ,k; h = 1, . . . ,ni ,
(12.6)
donde es la media general y i es el efecto aditivo de la condicin i. Las
desviaciones aleatorias eih se suponen normales independientes. En el modelo
(12.6), se supone la restriccin lineal
1 + . . . +k = 0,
y por tanto cabe considerar solamente los parmetros , 1 , . . . ,k1 . Por
ejemplo, si k = 3, n1 = n2 = 2, n3 = 3, la matriz de diseo es
12.4.3
1 2
1
1
0
1
1
0
1
0
1
1
0
1
X=
1 1 1
1 1 1
1 1 1
(12.7)
i =
b
j=1
j = 0.
(12.8)
203
1
1
X=
1
1
1
1
12.5
1
1
0
1
1
0
1
1
0
1
2
0
1
1
0
1
1
0
1
1
1
1
1
1
0
0
0
1
1
1
2
0
0
0
1
1
1
1
1
1
Hiptesis lineales
h11
H=
ht1
i = 1, . . . , t.
h1m
htm
(12.9)
204
Observaciones:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hiptesis lineal si esta hiptesis es demostrable.
c) Es evidente que si el modelo es de rango mximo, r = rang(X) = m,
cualquier hiptesis lineal es demostrable.
Cuando una hiptesis (12.9) es cierta, los parmetros se convierten en
As el modelo lineal, bajo H0 , es
y la matriz de diseo X en X.
+ e.
y =X
(12.10)
La estimacin LS de es
= XC.
X
(X
X)
1 Xy
=
(yX
)
).
R12 = (yX
H = (X
X) H (H(X X) H )1 H
H ) (y X
H )
R12 = (y X
205
Se verifica:
1. R02 / 2 2nr .
2. Si H0 es cierta
R12
2nr ,
2
R12 R02
2t ,
2
siendo r = r t.
3. Si H0 es cierta, los estadsticos (R12 R20 ) y R02 son estocsticamente
independientes.
Demost.: Observemos primero que bajo el modelo lineal normal, y1 , . . . , yn
son normales independientes, y z1 , . . . , zn (vase Teorema 12.3.3) son tambin
normales independientes.
1. Cada zi es N(0, 2 ) para i > r. Luego R02 / 2 es suma de (n r) cuadrados de N(0, 1) independientes.
2. Si la hiptesis lineal es cierta, la matriz de diseo X se transforma en
XC, es decir, las columnas de XC son combinacin lineal de las
X=
columnas de X. Podemos encontrar una matriz ortogonal
T = [t1 , . . . , tr , tr +1 , . . . , tr , tr+1 , . . . , tn ]
tal que
Cr (XC) = [t1 , . . . , tr ] Cr (X) = [t1 , . . . , tr ].
n
zi2
i=r +1
r
zi2
i=r +1
206
(12.11)
12.6
0 1 0
0
0 0 1
0
, rang(H) = m.
H=
0 0 0
1
0H = y
Si H0 es cierta, solamente interviene el parmetro 0 , evidentemente
(media muestral) y las sumas de cuadrados residuales son
R02
n
=
(yi yi )2 ,
i=1
R12
n
=
(yi y)2 ,
i=1
0 ,
1 , . . . ,
m son los estimadores LS bajo el modelo no restringido y
donde
m . Aplicando (12.11), bajo H0 tenemos que
yi = 0 + xi1 1 + . . . + xim
F =
(R12 R02 ) n m 1
m
Fnm1
.
2
R0
m
12.7. COMPLEMENTOS
207
i=1
R2 n m 1
m
Fnm1
.
1 R2
m
Rechazaremos H0 si F es significativa.
12.7
Complementos
208
Captulo 13
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas que
permiten analizar como operan diversos factores, estudiados simultneamente
en un diseo factorial, sobre una variable respuesta.
13.1
Diseo de un factor
Nivel k yk1
y12 y1n1
y22 y2n2
yk2 yknk
i = 1, . . . ,k; h = 1, . . . ,ni ,
= (1/ni ) h
yih
= (1/n) i h yih
= n1 + . . . + nk
210
Tambin indiquemos:
Suma de cuadrados entre grupos:
QE
Suma de cuadrados dentro de grupos: QD
Suma de cuadrados total:
QT
Se verifica la relacin fundamental:
= i
ni (yi y)2
= i h(yih yi )2
= i h(yih y)2
QT = QE + QD .
Las estimaciones LS de las medias i son
i = yi ,
i = 1, . . . , k,
QE
2k1 .
2
QE /(k 1)
k1
Fnk
.
QD /(n k)
13.2
211
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores fila y columna, con a y b niveles A1 , . . . ,Aa
y B1 , . . . ,Bb , y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
A1
A2
..
.
Aa
B1
y11
y21
..
.
B2
y12
y22
..
.
...
Bb
y1b
y2b
..
.
y1
y2
..
.
ya1
y1
ya2
y2
yab
yb
ya
y
siendo
b
yi =
1
yij ,
b j=1
yj =
1
yij ,
a i=1
y = y =
1
yij ,
ab i=1 j=1
las medias por filas, por columnas y general. Supongamos que los datos se
ajustan al modelo (12.7) con las restricciones (12.8), donde es la media
general, i es el efecto del nivel Ai del factor fila, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a 1) + (b 1) = a + b 1, n r = ab (a + b 1) = (a 1)(b 1).
Las estimaciones de los parmetros son
= y,
i = yi y,
= yj y,
j = (yij yi yj + y).
eij = yij
i
a
b
(yij yi yj + y)2 .
i=1 j=1
212
de
de
de
de
cuadrados
cuadrados
cuadrados
cuadrados
entre filas:
entre columnas:
residual:
total:
QA
QB
QR
QT
= b i (yi y)2
= a j (yj y)2
= i,j (yij yi yj + y)2
= i,j (yij y)2
QT = QA + QB + QR .
En el modelo de dos factores, las hiptesis de inters son:
H0A : 1 = = a = 0 (no hay efecto fila)
H0B : 1 = = b = 0 (no hay efecto columna)
Supongamos H0B cierta. Entonces el modelo se transforma en yij = + i +
eij , es decir, acta solamente un factor, y por tanto
R12
b
a
(yij yi )2 .
=
i=1 j=1
213
QA (a 1)(b 1)
a1
F(a1)(b1)
,
QR
(a 1)
13.3
QB (a 1)(b 1)
b1
F(a1)(b1)
.
QR
(b 1)
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores fila y columna, con a y b niveles A1 , . . . .Aa
y B1 , . . . ,Bb , y que disponemos de c observaciones (rplicas) para cada combinacin de los niveles de los factores:
A1
A2
..
.
Aa
siendo
B1
y111 , . . . , y11c
y211 , . . . , y21c
..
.
B2
y121 , . . . , y12c
y221 , . . . , y22c
..
.
...
Bb
y1b1 , . . . , y1bc
y2b1 , . . . , y2bc
..
.
y1
y2
..
.
ya11 , . . . , ya1c
y1
ya22 , . . . , ya2c
y2
yab1 , . . . , yabc
yb
ya
y
b,c
1
yi =
yijh,
bc j,h=1
c
yij
1
=
yijh ,
c h=1
yj
a,c
1
=
yijh ,
ac i,h=1
a,b,c
1
y = y =
yij .
abc i,j,h=1
214
i =
i=1
b
j =
j=1
a
b
ij =
i=1
ij = 0.
j=1
= y,
i = yi y,
j = yj y,
ij = yij yi yj + y,
j
eijh = yijh
i
ij = (yij y).
a,b,c
(yijh yi )2 .
i,j,h=1
de
de
de
de
de
cuadrados
cuadrados
cuadrados
cuadrados
cuadrados
entre filas:
entre columnas:
de la interaccin:
residual:
total:
QA
QB
QAB
QR
QT
= bc i (yi y)2
= ac j (yj y)2
= c i,j (yij yi yj + y)2
= i,jh (yijh yi )2
= i,j (yijh y)2
QT = QA + QB + QAB + QR .
Las hiptesis de inters son:
H0A : 1 = = a = 0 (no hay efecto fila)
H0B : 1 = = b = 0 (no hay efecto columna)
H0AB : 11 = = ab = 0 (no hay interaccin)
215
13.4
QA ab(c 1)
a1
Fab(c1)
QR a 1
QB ab(c 1)
b1
=
Fab(c1)
QR b 1
QAB ab(c 1)
(a1)(b1)
Fab(c1)
=
QR (a 1)(b 1)
Diseos multifactoriales
siendo:
=
=
=
=
eijkh =
B
C
A
i , j , k
AC
BC
AB
ij , ik , jk
ABC
ijk
media general,
efectos principales de A,B,C,
interacciones entre A y B, A y C, B y C,
interaccin entre A,B y C,
desviacin aleatoria N(0, 2 ).
216
A/(a 1)
,
R/q
F =
AB/(a 1)(b 1)
,
R/q
13.5
A/(a 1)
,
R /q
F =
AB/(a 1)(b 1)
.
R /q
Modelos log-lineales
217
B1
f11
f21
B2
f12
f22
..
.
Bb
f1b
f2b
fa1
f1
fa2
f2
fab
fb
f1
f2
fa
n
donde fi = j fij , fj = i fij son las frecuencias de Ai ,Bj respectivamente.
Indiquemos las probabilidades
pij = P (Ai Bj ),
pi = P (Ai ),
pj = P (Bj ).
Fi = npi ,
Fj = npj ,
la condicin de independencia es
ln Fij = ln Fi + ln Fj ln n,
que podemos escribir como
B
ln Fij = + A
i + j ,
siendo
= ( ai=1 bj=1 ln Fij )/ab,
A
= ( bj=1 ln Fij )/b ,
i
B
= ( ai=1 ln Fij )/a .
j
(13.1)
218
B
donde AB
= ln Fij A
ij
i j es la desviacin del modelo lineal. La
similitud con el modelo anova de dos factores es clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij , sino las
frecuencias observadas fij . Entonces la estimacin de los parmetros es muy
semejante al modelo anova, pero los tests de hiptesis se resuelven mediante
ji-cuadrados.
La hiptesis de inters es la independencia entre A,B
H0 : AB
ij = 0,
que equivale a decir que los datos se ajustan al modelo (13.1). Sean
Fij = nfi fj
13.6. COMPLEMENTOS
219
Interpretacin
GSC
GSGCSC
dependencia
SGC
Smbolo
2
g.l.
[G][S][C]
540.7
7
[GS][GC][SC] 61.5
2
[GSC]
0
[S][GC]
511.1
5
13.6
Complementos
220
Captulo 14
ANLISIS DE LA VARIANZA
(MANOVA)
14.1
Modelo
y1 ,
y2 , . . . ,
yp ],
Y = ..
.. . .
.. = [
.
. .
.
yn1 yn2 ynp
Y = XB + E
siendo
X =
222
la matriz de diseo,
B =
..
.
1p
2p
..
.
m1 m2
mp
11
21
..
.
12
22
..
.
E = ..
.. . .
.
.
. ..
.
en1 en2 enp
14.2
Estimacin
E)
= tr((Y XB)
(Y XB)).
tr(E
cuando r < m.
= (X X) X Y
B
223
(Y XB),
R0 = (Y XB)
14.3
E
=E
TT E
= Znr Znr Wp (, n r).
R20 = E
224
H = B(X
B
X) H (H(X X) H )1 HB
y la matriz residual es
H ) (Y XB
H ).
R1 = (Y XB
R1 R0 Wp (, t),
siendo t = ran(H), r = r t.
3. Si H0 es cierta, las matrices R0 y R1 R0 son estocsticamente independientes.
Demost.: Si la hiptesis H0 es cierta, la matriz de diseo X se transforma
en XC, donde las columnas de XC son combinacin lineal de las columnas
de X. Podemos encontrar una matriz ortogonal
T = [t1 , . . . , tr , tr +1 , . . . , tr , tr+1 , . . . , tn ]
tal que
Cr (XC) = [t1 , . . . , tr ] Cr (X) = [t1 , . . . , tr ].
225
donde las n r filas de Znr son Np (0,) independientes. Por tanto R21 =
Znr Znr es Wishart Wp (, n r ). Por otro lado podemos escribir
!
Zt
Znr =
Znr
donde las t = r r filas de Zt son independientes de las n r filas de Znr .
Entonces es fcil ver que
R1 R0 = Zt Zt ,
14.4
Manova de un factor
i = 1, . . . ,k; h = 1, . . . ,ni ,
donde es un vector de medias general, i es el efecto del nivel y del factor, yih es la observacin multivariante h en la situacin (o poblacin) i,
correspondiendo a la misma situacin experimental del anlisis cannico de
poblaciones (Captulo 7), con n = n1 + . . . + nk . Por tanto
W = R0 ,
B = R1 R0 ,
T = R1 = B + W,
226
MANOVA de un factor
g. l.
matriz Wishart lambda de Wilks
Entre grupos
k1
B
= |W|/|W + B|
Dentro grupos n k
W
(p, n k, k 1)
Total
n1
T
14.5
i = 1, . . . , a; j = 1, . . . , b,
donde es la media general, i es el efecto aditivo del nivel i del factor fila,
j es el efecto aditivo del nivel j del factor columna. Como generalizacin del
caso univariante, intervienen las matrices A = (auv ), B =(buv ), T = (tuv ), R0 =
(ruv ) con elementos
auv = a j (yju y u )(yjv y v )
buv = b i (yiu y u )(yiv y v )
ruv = ij (yiju yiu yju + y u )(yijv yiv yjv + y v )
tuv = ij (yiju y u )(yijv y v ),
u, v = 1, . . . , p,
siendo, para cada variable Yu , y u la media, yju la media fijando el nivel j del
factor columna, etc. Se verifica
T = A + B + R0 .
Indicando q = (a 1)(b 1), obtenemos la tabla
MANOVA de dos factores
matriz
lambda
g. l. Wishart
de Wilks
Filas
a1
A
|A|/|T| (p, q, a 1)
Columnas b 1
B
|B|/|T| (p, q, b 1)
Residuo
q
R0
Total
ab 1
T
14.6
227
i = 1, . . . , a; j = 1, . . . , b; h = 1, . . . , c,
donde es la media general, i es el efecto aditivo del nivel y del factor fila,
j es el efecto aditivo del nivel j del factor columna, ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 , . . . , yijhp ) es la rplica multivariante h de las variables observables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ), B = (buv ), AB = (cuv ), R0 = (ruv ), T = (tuv ), donde
auv = bc i (yiu y u )(yiv y v )
buv = ac j (yju y u )(yjv y v )
cuv = c i,j (yiju yiu yjv + y u )(yijv yiv yjv + y v )
ruv = i,jh (yijhu yiu )(yijhv yiv )
tuv = i,j (yiju y u )(yiju y u ),
u, v = 1, . . . , p,
que verifican
T = A + B + AB + R0 .
Obtenemos la tabla:
MANOVA de dos factores con interaccin
matriz
lambda
g. l.
Wishart
de Wilks
Filas
a1
A
|A|/|T| (p, r, a 1)
Columnas
b1
B
|B|/|T| (p, r, b 1)
Interaccin (a 1)(b 1) = q
AB
|AB|/|T| (p, r, q)
Residuo
ab(c 1) = r
R0
Total
abc 1
T
14.7
Ejemplos
228
Hembras
Y1 Y2 Y3
19.15 19.49 0.16
18.35 19.81 0.17
20.58 19.44 0.22
18.87 22.00 0.25
20.66 21.08 0.20
21.56 20.34 0.20
20.22 19.00 0.18
18.38 17.92 0.30
20.85 19.90 0.17
32.5 .376
T
2
.019
2.51 .38
S
1
.006
32.5 .088
TS
2
.006
lambda
g.l.
.261
3.18 6,20
.337
6.55 3,10
.772
0.46 6,20
14.7. EJEMPLOS
229
= .0068
23610 61519 46405
E=
F35,2353 = 152.8
169920 126980
95395
= .1944
4001.0 10997. 7957.2
S=
F5,559 = 463.2
30225. 21871.
15825.
= .7692
428.97 236.53
282.30
230
3082.9 3888.2
R0 =
9178.6
14.8
1924.0
3415.6
3159.4
6038.0
5950.3
Otros criterios
p
1 i
i=1
2. Traza de Pillai:
tr((R1 R0 )R1
1 )
p
i=1
1 i .
0.007
28.02
2.090
24.90
F
152.8
446.2
57.78
2002
g.l.
35
35
35
7
g.l.
2354
2787
2815
563
14.9. COMPLEMENTOS
14.9
231
Complementos
El Anlisis Multivariante de la Variancia es muy similar al Anlisis de la Variancia, slo que interviene ms de una variable cuantitativa observable. Esta
extensin multivariante se inicia en 1930 con los trabajos de H. Hotelling, J.
Wishart y S.S. Wilks. Posteriormente S.N. Roy propuso un planteo basado
en el principio de unin-interseccin.
Los cuatro criterios que hemos visto son equivalentes para p = 1, y diferentes para p > 1. No est claro cual es el mejor criterio, depende de la
hiptesis alternativa. Por ejemplo, en el diseo de un factor, si los vectores
de medias estn prcticamente alineados, entonces el criterio de Roy es el
ms potente. Ver Rencher (1998).
232
Captulo 15
FUNCIONES ESTIMABLES
MULTIVARIANTES
15.1
Funciones estimables
= .
E()
234
15.2
Teorema de Gauss-Markov
es estimador LS de , entonces
= p
es nico.
1. Si
= p
es estimador lineal insesgado de y, dentro de los estimadores
2.
lineales insesgados de , tiene varianza mnima.
= a y de = p . Sea Cr (X) el
Demost.: Existe un estimador insesgado
subespacio generado por las columnas de X. Entonces a =
a+b, donde
a
Cr (X) y b es ortogonal a Cr (X). Consideremos al estimador
a y. Tenemos
= E(a y) =E(
E()
a y + b y) =E(
a y) + b X =E(
a y) =,
= p .
As
=
es nico y centrado.
a y =
a X
a y = p
Finalmente, indicando
a2 = a21 + . . . + a2n ,
tenemos que
var(a y) = a2 2 = (
a2 + b2 ) 2
a2 2 = var(
a y),
= p
tiene varianza mnima.
que prueba que
Un criterio para saber si p es funcin paramtrica estimable es
p (X X) X X = p .
15.3
235
y1
1
Y = ... , B = ... .
yn
m
Definition 15.3.1 Una funcin paramtrica multivariante es una combinacin lineal de las filas de B,
= p1 1 + + pm m = p B,
donde p = (p1 , . . . , pm ) . Una funcin paramtrica multivariante es es de las filas de Y
timable (fpem) si existe una combinacin lineal
= a1 y1 + + an yn = a Y,
= .
E()
Slo hay que sustituir B por sus estimaciones LS B.
236
= (
,...,
) = p B
es estimador LS de B, entonces
es nico.
1. Si B
1
p
Observemos que este teorema vale sin necesidad de una hiptesis de normalidad. El estimador LS de es
= p B
= p (X X) X Y =g1 y1 + + gn yn
= p B
es la estiTheorem 15.3.3 En el modelo MANOVA normal, si
macin LS de , entonces:
es la de una combinacin lineal de variables nor1. La distribucin de
males independientes.
2. La distribucin de R0 es Wp (, n r).
15.4
15.4.1
Distancia de Mahalanobis
1 , . . . ,
s las estimaciones LS de los fpem,
= R0 /(nr) la estimacin
Sean
de la matriz de covarianzas. Podemos definir la distancia de Mahalanobis
(estimada) entre las funciones i , j como
i
j )
i
j ).
1 (
M (i, j)2 = (
237
= g Y es independiente de
= g Y y se verifica
Observemos que si
i
i
j
j
1
la hiptesis H0 : i = j , entonces ij ( i j ) es Np (0, ), donde ij =
es Wp (, n r), por lo tanto 1 M (i, j) es Hotelling
gi gj , y (n r)
ij
T 2 (p, n r) y
n r p + 1 1
p
ij M (i, j)2 Fnrp+1
.
(n r)p
nrp+1 1
1
2 ( i i ) ( i i )
(n r)p
p
es tambin Fnrp+1
, donde 2 es la dispersin mnima (15.1).
15.4.2
Coordenadas cannicas
i = (
i1 , . . . ,
ip ) , i = 1, . . . , s, consideremos las medias
Si
s
y la matriz
1
j =
,
s i=1 ij
j = 1, . . . , s,
11 1
1p p
..
..
...
U =
.
.
.
sp p
1
s1
con
Sea V = [v1 , . . . , vp ] la matriz de vectores propios de U U respecto de ,
j = 1, es decir,
la normalizacin vj v
U UV =VD
,
= I,
V V
238
15.4.3
V (Y)q
1 + + q
= 100
.
V
1 + + p
Regiones confidenciales
(n r)p
.
(n r p + 1)
Luego las proyecciones cannicas i de las fpem pertenecen a regiones confidenciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(wi , i R )
donde i es la dispersin mnima (15.1) de la estimacin LS de i .
15.5
Ejemplos
15.5. EJEMPLOS
239
para poder pasar por el medio. Los datos sobre 8 individuos (media de varias
pruebas) eran:
Ind.
1
2
3
4
5
6
7
8
Placebo
Y1
Y2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
Clobazan
Y1
Y2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
Diazepan
Y1
Y2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
2 = + 2 ,
3 = + 3 .
Individuos
Residuo
14
matriz
dispersin
F
g.l.
lambda
.0275 1.97
.482
2.86 4,26
309
.258 1.23
.025
9.84 14,26
8474
.037 1.96
2221
2 = (.672, 175.3) ,
3 = (.737, 184.0) ,
con dispersin (15.1): 1 = 2 = 3 = 1/8 = 0.354. Los dos valores propios
son 1. 684, 0.108 y explican el 100% de la variabilidad
de U U respecto de
240
Y1
Y2
W1
W2
.869 -.494
.296 .955
Y1
Y2
Y3
W1
W2
.395 .278
.961 -.276
.405 .653
Ejemplo 3. Continuando con el ejemplo 14.7.2, podemos hacer la representacin cannica de las ocho especies, eliminando el efecto del sexo y
15.6. COMPLEMENTOS
241
W1
-4.567
-3.760
-1.944
-2.613
-2.299
-1.705
6.828
10.06
W2
-1.164
-.5129
-1.031
1.536
1.731
.6381
-3.671
2.475
radio
.342
.342
.418
.342
.342
.342
.503
.342
Y1
Y2
Y3
Y4
Y5
W1
.600
.661
.453
.804
.748
W2
.115
.450
.698
.522
.522
Esta representacin permite visualizar las diferencias entre las especies, sin
la influencia del dimorfismo sexual y de la interaccin especiesexo.
15.6
Complementos
242
Figura 15.3: Representacin canonica de 8 especies de colepteros, eliminando el efecto del dimorfismo sexual y de la interaccin.
Bibliografia
[1] Anderson, T.W. (1958) An introduction to multivariate analysis. J. Wiley, N. York.
[2] Anderson, T.W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., vol. 5, 111-150.
[3] Arenas, C. and Cuadras, C. M. (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[4] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estructurales. La Muralla, Madrid.
[5] Benzecri, J.P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[6] Cailliez, F. (1983) The analytical solution of the additive constant problem. Psychometrika, 48, 305-308.
[7] Cooley, W.W. and P.R. Lohnes (1971) Multivariate data analysis. J.
Wiley, N. York.
[8] Cox, T.F. and M.A.A. Cox (1964) Multidimensional Scaling. Chapman
and Hall, London.
[9] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled perfectly in one dimension. J. of Classification, 5, 5-20.
[10] Cuadras, C.M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
243
244
BIBLIOGRAFIA
BIBLIOGRAFIA
245
[23] Cuadras, C. M. (2006) The importance of being the upper bound in the
bivariate family. SORT, 30, 55-84.
[24] Cuadras, C.M. and C. Arenas (1990) A distance based regression model
for prediction with mixed data. Comm. Stat.-Theor. Meth., 19, 22612279.
[25] Cuadras, C.M., Atkinson, R.A. and J. Fortiana (1997) Probability densities from distances and discriminant analysis. Statistics and Probability
Letters, 33, 405-411.
[26] Cuadras, C.M. and J. Aug (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339353.
[27] Cuadras. C. M., Cuadras, D. (2006) A parametric approach to correspondence analysis. Linear Algebra and its Applications, 417, 64-74.
[28] Cuadras, C.M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[29] Cuadras, C.M. and J. Fortiana (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras and C.R. Rao (Eds.), Multivariate Analysis, Future Directions 2, pp. 4766. Elsevier Science Publishers B. V.
(NorthHolland), Amsterdam.
[30] Cuadras, C. M. and J. Fortiana (1993b) Aplicacin de las distancias en
estadstica. Questi, 17, 39-74.
[31] Cuadras, C. M. and J. Fortiana (1994) Ascertaining the underlying distribution of a data set. In: R. Gutierrez and M.J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scientific,
Singapore.
[32] Cuadras, C. M. and J. Fortiana (1995) A continuous metric scaling
solution for a random variable. J. of Multivariate Analysis, 52, 114.
[33] Cuadras, C. M. and J. Fortiana (1996) Weighted continuous metric scaling. In: Gupta, A. K. and V. L. Girko (Eds.), Multidimensional Statistical Analysis and Theory of Random Matrices, pp. 2740. VSP, Zeist,
The Netherlands.
246
BIBLIOGRAFIA
[34] Cuadras, C.M. and J. Fortiana (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius and M. Greenacre, (Eds.), Visualization of Categorical Data, pp. 365-376. Academic Press, N. York.
[35] Cuadras, C.M. and J. Fortiana (2000) The Importance of Geometry
in Multivariate Analysis and some Applications. In: C.R. Rao and
G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel
Dekker, N. York.
[36] Cuadras, C. M., Fortiana, J. and M.J. Greenacre (2000) Continuous
extensions of matrix formulations in correspondence analysis, with applications to the FGM family of distributions. In: R.D.H. Heijmans,
D.S.G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[37] Cuadras, C. M., Cuadras, D., Greenacre, M. A. (2006) Comparison of
different methods for representing categorical data. Communications in
Statistics-Simul. and Comp., 35 (2), 447-459.
[38] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of statistical structures, classification and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[39] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis. J.
of Classification, 14, 117-136.
[40] Cuadras, C.M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[41] Cuadras, C.M. and J. M. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. Questio, 11, 37-57.
[42] Cuadras, C.M. and M. Snchez-Turet (1975) Aplicaciones del anlisis
multivariante cannico en la investigacin psicolgica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
[43] Chatterjee, S. and B. Price (1991) Regression analysis by example. Wiley,
N. York.
BIBLIOGRAFIA
247
248
BIBLIOGRAFIA
[58] Joreskog, K. (1969) A general approach to confirmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202.
[59] Joreskog, K. (1970) A general method for analysis of covarianvce structures. Biometrika, 57, 239-251.
[60] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scientific Sotware International, Inc., Chicago.
[61] Krzanowski, W.J. and D. Radley (1989) Nonparametric confidence and
tolerance regions in canonical variate analysis. Biometrics, 45, 11631173.
[62] Lancaster, H.O. (1969) The Chi-Squared Distribution. J. Wiley, N. York.
[63] Lebart, L., Morineau, A. and Tabard, N. (1977) Techniques de la description statistique. Dunod, Paris.
[64] Lawley, D.N. and A.E. Maxwell. (1971) Factor analysis as a statistical
method. Butterworth, London.
[65] Leujene, M. and Calinski, T. (2000) Canonical analysis applied to multivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119.
[66] Mardia, K.V., Kent, J.T. and J.M. Bibby (1979) Multivariate Analysis.
Academic Press, London.
[67] Muirhead, R.J. (1982) Aspects of multivariate statistical theory. Wiley,
N. York.
[68] McLachlan, G.J. (1992) Discriminant analysis and pattern recognition.
Wiley, N. York.
[69] Oller, J.M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
[70] Oller, J.M. and C.M. Cuadras (1985) Raos distance for negative
multinomial distributions. Sankhya, 47 A, 75-83.
[71] Pea, D. (1989) Estadstica Modelos y Mtodos 2. Modelos lineales y
series temporales. Alianza Universidad Textos, 2a Ed., Madrid.
BIBLIOGRAFIA
249
[72] Pea, D. (2002) Anlisis de Datos Multivariantes. McGraw Hill Interamericana, Madrid.
[73] Rao, C.R. (1952) Advanced statistical methods in biometric research.
Wiley, N. York.
[74] Rao, C.R. (1973) Linear statistical inference and their applications. Wiley, N. York.
[75] Rao, C. R. (1995) A review of canonical coordinates and an alternative
to correspondence analysis using Hellinger distance. Qestii, 19, 23-63.
[76] Rencher, A.C. (1998) Multivariate statistical inference and applications.
Wiley, N. York,.
[77] Rummel, R. J. (1963) The dimensions of conflict behavior within and
between nations. General Systems Yearbook, 8, 1-50.
[78] Snchez.-Turet, M. and Cuadras, C. M. (1972) Adaptacin espaola del
cuestionario E.P.I. de Eysenck. Anuario de Psicologa, 6, 31-59.
[79] Satorra, A. (1989) Alternative test criteria in covariance structure analysis: A unified approach. Psychometrika, 54, 131-151.
[80] Seal, H.L. (1964) Multivariate Statistical Analysis for Biologists.
Methuen and Co. Ltd., London.
[81] Seber, G.A.F. (1977) Linear Regression Analysis. J. Wiley, N. York.
[82] Spearman, Ch. (1904) General intelligence objetively determined and
measured. American Journal of Psychology, 15, 201-293.
[83] Tibshirani, R., Walther, G. and Hastie, T. (2001) Estimating the number
of clusters in a data set via the gap statistic. J. R. Stat. Soc. B, 63, 411423.
[84] Torrens-Ibern, J. (1972) Modles et mthodes de lanalyse factorielle.
Dunod, Paris.
[85] van der Heijden, PG.M. and J. de Leuw (1985) Correspondence analysis
used complementary to loglinear analysis. Psychometrika, 50, 429-447.