CuadrasCM MetodosAMultivariante PDF

NUEVOS MTODOS DE ANLISIS
MULTIVARIANTE
Carles M. Cuadras
November 6, 2008
2
Es propiedad del autor.
c
C.
M. Cuadras
CMC Editions
Manacor 30
08023 Barcelona, Spain
ndice
1 DATOS MULTIVARIANTES
1.1 Introduccin . . . . . . . . . . . . . . . . . . . .
1.2 Matrices de datos . . . . . . . . . . . . . . . . .
1.3 La matriz de centrado . . . . . . . . . . . . . .
1.4 Medias, covarianzas y correlaciones . . . . . . .
1.5 Variables compuestas . . . . . . . . . . . . . . .
1.6 Transformaciones lineales . . . . . . . . . . . . .
1.7 Teorema de la dimensin . . . . . . . . . . . . .
1.8 Medidas globales de variabilidad y dependencia
1.9 Distancias . . . . . . . . . . . . . . . . . . . . .
1.10 Un ejemplo . . . . . . . . . . . . . . . . . . . .
2 NORMALIDAD MULTIVARIANTE
2.1 Introduccin . . . . . . . . . . . . . .
2.2 Distribucin normal multivariante . .
2.2.1 Definicin . . . . . . . . . . .
2.2.2 Propiedades . . . . . . . . . .
2.2.3 Caso bivariante . . . . . . . .
2.3 Distribucin de Wishart . . . . . . .
2.4 Distribucin de Hotelling . . . . . . .
2.5 Distribucin de Wilks . . . . . . . . .
2.6 Relaciones entre Wilks, Hotelling y F
2.7 Distribuciones con marginales dadas .
2.8 Complementos . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
12
13
14
14
15
16
17
19
.
.
.
.
.
.
.
.
.
.
.
23
23
24
24
25
26
27
28
29
31
31
33
3 INFERENCIA MULTIVARIANTE
35
3.1 Conceptos bsicos . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Estimacin de medias y covarianzas . . . . . . . . . . . . . . . 36
3
NDICE
3.3 Tests multivariantes . . . . . . . . . . . . . .
3.3.1 Test sobre la media: una poblacin .
3.3.2 Test sobre la media: dos poblaciones
3.3.3 Comparacin de medias . . . . . . .
3.4 Teorema de Cochran . . . . . . . . . . . . .
3.5 Construccin de tests multivariantes . . . .
3.5.1 Razn de verosimilitud . . . . . . . .
3.5.2 Principio de unin-interseccin . . . .
3.6 Ejemplos . . . . . . . . . . . . . . . . . . . .
3.7 Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 ANALISIS DE CORRELACION CANONICA

4.1 Introduccin . . . . . . . . . . . . . . . . . . . .
4.2 Correlacin mltiple . . . . . . . . . . . . . . .
4.3 Correlacin cannica . . . . . . . . . . . . . . .
4.4 Correlacin cannica y descomposicin singular
4.5 Significacin de las correlaciones cannicas . . .
4.6 Test de independencia . . . . . . . . . . . . . .
4.6.1 Razn de verosimilitud . . . . . . . . . .
4.6.2 Principio de unin interseccin . . . . . .
4.7 Un ejemplo . . . . . . . . . . . . . . . . . . . .
4.8 Complementos . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 ANALISIS DE COMPONENTES PRINCIPALES

5.1 Definicin y obtencin de las componentes principales .
5.2 Variabilidad explicada por las componentes principales
5.3 Representacin de una matriz de datos . . . . . . . . .
5.4 Inferencia . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Estimacin y distribucin asinttica . . . . . . .
5.4.2 Tests de hiptesis . . . . . . . . . . . . . . . . .
5.5 Nmero de componentes principales . . . . . . . . . . .
5.5.1 Criterio del porcentaje . . . . . . . . . . . . . .
5.5.2 Criterio de Kaiser . . . . . . . . . . . . . . . . .
5.5.3 Test de esfericidad . . . . . . . . . . . . . . . .
5.5.4 Criterio del bastn roto . . . . . . . . . . . . . .
5.5.5 Un ejemplo . . . . . . . . . . . . . . . . . . . .
5.6 Complementos . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
38
39
42
42
44
45
49
.
.
.
.
.
.
.
.
.
.
51
51
51
53
56
57
57
58
58
59
61
.
.
.
.
.
.
.
.
.
.
.
.
.
63
63
65
66
68
69
70
72
72
73
73
73
74
76
NDICE
6 ANLISIS FACTORIAL
6.1 Introduccin . . . . . . . . . . . . . . . . . .
6.2 El modelo unifactorial . . . . . . . . . . . .
6.3 El modelo multifactorial . . . . . . . . . . .
6.3.1 El modelo . . . . . . . . . . . . . . .
6.3.2 La matriz factorial . . . . . . . . . .
6.3.3 Las comunalidades . . . . . . . . . .
6.3.4 Nmero mximo de factores comunes
6.3.5 El caso de Heywood . . . . . . . . .
6.3.6 Un ejemplo . . . . . . . . . . . . . .
6.4 Teoremas fundamentales . . . . . . . . . . .
6.5 Mtodo del factor principal . . . . . . . . .
6.6 Mtodo de la mxima verosimilitud . . . . .
6.6.1 Estimacin de la matriz factorial . .
6.6.2 Hiptesis sobre el nmero de factores
6.7 Rotaciones de factores . . . . . . . . . . . .
6.7.1 Rotaciones ortogonales . . . . . . . .
6.7.2 Factores oblicuos . . . . . . . . . . .
6.7.3 Rotacin oblicua . . . . . . . . . . .
6.7.4 Factores de segundo orden . . . . . .
6.8 Medicin de factores . . . . . . . . . . . . .
6.9 Anlisis factorial confirmatorio . . . . . . . .
6.10 Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
77
77
78
80
80
81
81
82
83
83
85
87
88
88
89
90
90
91
92
94
95
96
98
7 ANLISIS CANNICO DE POBLACIONES

7.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . .
7.2 Variables cannicas . . . . . . . . . . . . . . . . . . .
7.3 Distancia de Mahalanobis y transformacin cannica
7.4 Representacin cannica . . . . . . . . . . . . . . . .
7.5 Aspectos inferenciales . . . . . . . . . . . . . . . . . .
7.5.1 Comparacin de medias . . . . . . . . . . . .
7.5.2 Comparacin de covarianzas . . . . . . . . . .
7.5.3 Test de dimensionalidad . . . . . . . . . . . .
7.5.4 Regiones confidenciales . . . . . . . . . . . . .
7.6 Complementos . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
101
101
102
104
105
107
107
107
108
109
113
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
8 ESCALADO MULTIDIMENSIONAL (MDS)
8.1 Introduccin . . . . . . . . . . . . . . . . . . . .
8.2 Cuando una distancia es eucldea? . . . . . . . .
8.3 El anlisis de coordenadas principales . . . . . .
8.4 Similaridades . . . . . . . . . . . . . . . . . . .
8.5 Nociones de MDS no mtrico . . . . . . . . . .
8.6 Distancias estadsticas . . . . . . . . . . . . . .
8.6.1 Variables cuantitativas . . . . . . . . . .
8.6.2 Variables binarias . . . . . . . . . . . . .
8.6.3 Variables categricas . . . . . . . . . . .
8.6.4 Variables mixtas . . . . . . . . . . . . .
8.6.5 Otras distancias . . . . . . . . . . . . . .
8.7 Dos ejemplos . . . . . . . . . . . . . . . . . . .
8.8 Complementos . . . . . . . . . . . . . . . . . . .
NDICE
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9 ANALISIS DE CORRESPONDENCIAS
9.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . .
9.2 Cuantificacin de las variables categricas . . . . . . . .
9.3 Representacin de filas y columnas . . . . . . . . . . . .
9.4 Relacin entre filas y columnas y representacin conjunta
9.5 Soluciones simtrica y asimtrica . . . . . . . . . . . . .
9.6 Variabilitadad geomtrica (inercia) . . . . . . . . . . . .
9.7 Analisis de Correspondencias Mltiples . . . . . . . . . .
9.8 MDS ponderado . . . . . . . . . . . . . . . . . . . . . . .
9.9 Complementos . . . . . . . . . . . . . . . . . . . . . . . .
10 CLASIFICACIN
10.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . .
10.2 Jerarqua indexada . . . . . . . . . . . . . . . . . . .
10.3 Geometra ultramtrica . . . . . . . . . . . . . . . . .
10.4 Algoritmo fundamental de clasificacin . . . . . . . .
10.5 Equivalencia entre jerarqua indexada y ultramtrica
10.6 Algoritmos de clasificacin jerrquica . . . . . . . . .
10.6.1 Mtodo del mnimo . . . . . . . . . . . . . . .
10.6.2 Mtodo del mximo . . . . . . . . . . . . . . .
10.7 Otras propiedades del mtodo del mnimo . . . . . .
10.8 Un ejemplo . . . . . . . . . . . . . . . . . . . . . . .
10.9 Clasificacin no jerrquica . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
. 115
. 116
. 117
. 121
. 122
. 125
. 126
. 127
. 127
. 128
. 129
. 130
. 132
.
.
.
.
.
.
.
.
.
137
. 137
. 139
. 140
. 142
. 144
. 146
. 149
. 153
. 157
.
.
.
.
.
.
.
.
.
.
.
161
. 161
. 162
. 164
. 168
. 168
. 169
. 171
. 172
. 174
. 175
. 176
NDICE
10.10Nmero de clusters . . . . . . . . . . . . . . . . . . . . . . . . 178

10.11Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
11 ANALISIS DISCRIMINANTE
11.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . .
11.2 Clasificacin en dos poblaciones . . . . . . . . . . . . . .
11.2.1 Discriminador lineal . . . . . . . . . . . . . . . .
11.2.2 Regla de la mxima verosimilitud . . . . . . . . .
11.2.3 Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.3 Clasificacin en poblaciones normales . . . . . . . . . . .
11.3.1 Clasificador lineal . . . . . . . . . . . . . . . . . .
11.3.2 Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.3.3 Probabilidad de clasificacin errnea . . . . . . .
11.3.4 Discriminador cuadrtico . . . . . . . . . . . . . .
11.3.5 Clasificacin cuando los parmetros son estimados
11.3.6 Un ejemplo . . . . . . . . . . . . . . . . . . . . .
11.4 Discriminacin en el caso de k poblaciones . . . . . . . .
11.4.1 Discriminadores lineales . . . . . . . . . . . . . .
11.4.2 Regla de la mxima verosimilitud . . . . . . . . .
11.4.3 Regla de Bayes . . . . . . . . . . . . . . . . . . .
11.4.4 Un ejemplo clsico . . . . . . . . . . . . . . . . .
11.5 Anlisis discriminante basado en distancias . . . . . . . .
11.5.1 La funcin de proximidad . . . . . . . . . . . . .
11.5.2 La regla discriminante DB . . . . . . . . . . . . .
11.5.3 La regla DB comparada con otras . . . . . . . . .
11.5.4 La regla DB en el caso de muestras . . . . . . . .
11.6 Complementos . . . . . . . . . . . . . . . . . . . . . . . .
12 EL MODELO LINEAL
12.1 El modelo lineal . . . . . . . . .
12.2 Suposiciones bsicas del modelo
12.3 Estimacin de parmetros . . .
12.3.1 Parmetros de regresin
12.3.2 Varianza . . . . . . . . .
12.4 Algunos modelos lineales . . . .
12.4.1 Regresin mltiple . . .
12.4.2 Diseo de un factor . . .
12.4.3 Diseo de dos factores .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
181
181
182
182
183
183
184
184
185
185
185
186
186
189
189
190
190
191
192
192
193
194
194
196
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
. 197
. 198
. 199
. 199
. 200
. 201
. 201
. 202
. 202
NDICE
12.5 Hiptesis lineales . . . . . . . . . . . . . . . . . . . . . . . . . 203
12.6 Inferencia en regresin mltiple . . . . . . . . . . . . . . . . . 206
12.7 Complementos . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
13 ANLISIS DE LA VARIANZA (ANOVA)

13.1 Diseo de un factor . . . . . . . . . . . . . .
13.2 Diseo de dos factores . . . . . . . . . . . .
13.3 Diseo de dos factores con interaccin . . . .
13.4 Diseos multifactoriales . . . . . . . . . . . .
13.5 Modelos log-lineales . . . . . . . . . . . . . .
13.6 Complementos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
14 ANLISIS DE LA VARIANZA (MANOVA)

14.1 Modelo . . . . . . . . . . . . . . . . . . . . . .
14.2 Estimacin . . . . . . . . . . . . . . . . . . . .
14.3 Tests de hiptesis lineales . . . . . . . . . . .
14.4 Manova de un factor . . . . . . . . . . . . . .
14.5 Manova de dos factores . . . . . . . . . . . . .
14.6 Manova de dos factores con interaccin . . . .
14.7 Ejemplos . . . . . . . . . . . . . . . . . . . . .
14.8 Otros criterios . . . . . . . . . . . . . . . . . .
14.9 Complementos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
15 FUNCIONES ESTIMABLES MULTIVARIANTES

15.1 Funciones estimables . . . . . . . . . . . . . . . . . .
15.2 Teorema de Gauss-Markov . . . . . . . . . . . . . . .
15.3 Funciones estimables multivariantes . . . . . . . . . .
15.4 Anlisis cannico de fpem . . . . . . . . . . . . . . .
15.4.1 Distancia de Mahalanobis . . . . . . . . . . .
15.4.2 Coordenadas cannicas . . . . . . . . . . . . .
15.4.3 Regiones confidenciales . . . . . . . . . . . . .
15.5 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . .
15.6 Complementos . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
209
. 209
. 211
. 213
. 215
. 216
. 219
.
.
.
.
.
.
.
.
.
221
. 221
. 222
. 223
. 225
. 226
. 227
. 227
. 230
. 231
.
.
.
.
.
.
.
.
.
233
. 233
. 234
. 235
. 236
. 236
. 237
. 238
. 238
. 241
NDICE
P ROLOGO
El Anlisis Multivariante es un conjunto de mtodos estadsticos y matemticos, destinados a describir e interpretar los datos que provienen de la observacin de varias variables estadsticas, estudiadas conjuntamente.
Este libro es una presentacin convencional de los principales modelos y
mtodos del Anlisis Multivariante, con referencias a algunas contribuciones
recientes.
La exposicin mantiene un cierto rigor matemtico, compensado con una
clara orientacin aplicada. Todos los mtodos se ilustran con ejemplos, que
justifican su aplicabilidad. Para examinar los datos y ver ms ejemplos consltese la pgina web
www.ub.edu/stat/cuadras/cuad.html
Esta obra tiene como precedentes la monografia Mtodos de Anlisis
Factorial (Pub. no. 7, Laboratorio de Clculo, Universidad de Barcelona,
1974), y el libro Mtodos de Anlisis Multivariante (EUNIBAR, 1981;
PPU, 1991; EUB, 1996, Barcelona).
Cmo citar este libro:

C. M. Cuadras
Nuevos Mtodos de Anlisis Multivariante
CMC Editions
Barcelona, 2007
10
NDICE
Captulo 1
DATOS MULTIVARIANTES
1.1
Introduccin
El anlisis multivariante (AM) es la parte de la estadstica y del anlisis de

datos que estudia, analiza, representa e interpreta los datos que resulten de
observar un nmero p > 1 de variables estadsticas sobre una muestra de n
individuos. Las variables observables son homogneas y correlacionadas, sin
que alguna predomine sobre las dems. La informacin estadstica en AM es
de carcter multidimensional, por lo tanto la geometra, el clculo matricial
y las distribuciones multivariantes juegan un papel fundamental.
La informacin multivariante es una matriz de datos, pero a menudo, en
AM la informacin de entrada consiste en matrices de distancias o similaridades, que miden el grado de discrepancia entre los individuos. Comenzaremos con las tcnicas que se basan en matrices de datos.
1.2
Matrices de datos
Supongamos n individuos 1 , . . . , n y p variables X1 , . . . , Xp . Sea xij =

Xj (i ) la observacin de la variable Xj sobre el individuo i . La matriz de
11
12
CAPTULO 1. DATOS MULTIVARIANTES
datos multivariantes es
x11
..
..
.
.
X = i1
.
..
..
.
xn1
x1p
..
xip
..
.
xnp
x1j
..
..
.
.
xij
..
..
.
.
xnj
Las filas de X se identifican con los individuos y las columnas de X con las
variables. Indicaremos:
1. xi la fila i-sima de X.
2. Xj la columna j-sima de X.
3. x = (x1 , . . . , xj , . . . , xp ) el vector (fila) de las medias de las variables,
siendo
n
1
xj =
xij .
n i=1
4. La matriz simtrica p p de covarianzas
s11 s12
s21 s22
S =
... ...
sp1 sp2
siendo
muestrales
s1p
s2p
,
spp
sjj =
1
(xij xj )(xij xj )
n i=1
la covarianza entre las variables j, j . Naturalmente, x y S son medidas

multivariantes de tendencia central y dispersin.
1.3
La matriz de centrado
Si 1 =(1, . . . , 1) es el vector columna de unos de orden n 1, y J = 11 es la

matriz n n de unos, ciertas caractersticas multivariantes se expresan mejor
a partir de la matriz de centrado H, definida como
1
H = I J
n
1.4. MEDIAS, COVARIANZAS Y CORRELACIONES
13
Propiedades:
H = H.
H2 = H.
H1 = 1 H = 0.
rang(H) =n 1.
Los valores propios de H son 0 1.
X = HX es la matriz de datos centrados (las columnnas de X suman
0).
1.4
Medias, covarianzas y correlaciones
El vector de medias, la matriz de covarianzas, etc., tienen expresiones matriciales simples.

1. x = n1 1 X.
2. Matriz de datos centrados:
X= X 1x = HX.
3. Matriz de covarianzas:
1
1
S = X X = X HX.
n
n
Adems de la matriz de covarianzas interesa tambin la matriz de correlaciones
1 r12 r1p
r21 1 r2p
,
R =
... ...
rp1 rp2 1
donde rij =cor(Xi , Xj ) es el coeficiente de correlacin (muestral) entre las

variables Xi , Xj , que verifica:
R = D1 SD1 ,
S = DRD,
(1.1)
siendo D la matriz diagonal con las desviaciones tpicas de las variables.
14
1.5
Variables compuestas
Algunos mtodos de AM consisten en obtener e interpretar combinaciones

lineales adecuadas de las variables observables. Una variable compuesta
Y es una combinacin lineal de las variables observables con coeficientes
a = (a1 , . . . , ap )
Y = a1 X1 + . . . + ap Xp .
Si X =[X1 , . . . , Xp ] es la matriz de datos, tambin podemos escribir
Y = Xa.
Si Z = b1 X1 + . . . + bp Xp = Xb es otra variable compuesta, se verifica:
1. Y = x a, Z=x b.
2. var(Y ) = a Sa, var(Z) = b Sb.
3. cov(Y, Z) = a Sb.
Ciertas variables compuestas reciben diferentes nombres segn la tcnica
multivariante: componentes principales, variables cannicas, funciones discriminantes, etc. Uno de los objetivos del Anlisis Multivariante es encontrar variables compuestas adecuadas que expliquen aspectos relevantes de los
datos.
1.6
Transformaciones lineales
Sea T una matriz p q. Una transformacin lineal de la matriz de datos es

Y = XT
Las columnas Y1 , . . . , Yq de Y son las variables transformadas.
Propiedades:
1. y =x T, donde y es el vector de medias de Y.
2. SY = T ST, donde SY es la matriz de covarianzas de Y.
Demost.:
y = n1 1 Y = n1 1 XT =x T. SY = n1 Y HY = n1 T X HXT = T ST.
1.7. TEOREMA DE LA DIMENSIN
1.7
15
Teorema de la dimensin
La matriz de covarianzas S es (semi)definida positiva, puesto que:

1
1
a Sa = a X HXa = a X HHXa = b b 0,
n
n
siendo b =n1/2 HXa.
El rango r = rang(S) determina la dimensin del espacio vectorial generado por las variables observables, es decir, el nmero de variables linealmente
independientes es igual al rango de S.
Theorem 1.7.1 Si r = rang(S) p hay r variables linealmente independientes y las otras p r son combinacin lineal de estas r variables.
Demost.: Podemos ordenar las p variables de manera que la matriz de
covarianzas de X1 , . . . , Xr sea no singular
s11 s1r
.. . .
.
.
. ..
sr1
srr
sj1 sjr
Sea Xj , j > r. Las covarianzas entre Xj y X1 , . . . , Xr verifican:

sjj =
r

i=1
ai sji ,
sji =
r

ai sii .
i =1
Entonces
var(Xj
r
i=1

ai Xi ) = sjj + ri,i =1 ai ai sii 2 ri=1 ai sji

= ri=1 ai sji + ri=1 ai ( ri =1
ai sii ) 2 ri=1 ai sji
= ri=1 ai sji + ri=1 ai sji 2 ri=1 ai sji
= 0.
Por lo tanto
Xj
r

i=1
donde c es una constante.
ai Xi = c = Xj = c +
r

i=1
ai Xi
16
Corollary 1.7.2 Si todas las variables tienen varianza positiva (es decir,
ninguna se reduce a una constante) y r = rang(R) p, hay r variables
linealmente independientes y las otras p r son combinacin lineal de estas
r variables.
Demost.: De (1.1) deducimos que r = rang(R) = rang(S).
1.8
Medidas globales de variabilidad y dependencia
Una medida de la variabilidad global de las p variables debe ser funcin de

la matriz de covarianzas S. Sean 1 , . . . , p los valores propios de S. Las
siguientes medidas tienen especial inters en AM.
a) Varianza generalizada:
|S| =1 p .
b) Variacin total:
tr(S) =1 + + p
Una medida de dependencia global debe ser funcin de la matriz de correlaciones R. Un coeficiente de dependencia es
2 = 1 |R|,
que verifica:
1. 0 2 1.
2. 2 = 0 si y slo si las p variables estan incorrelacionadas.
3. 2 = 1 si y slo si hay relaciones lineales entre las variables.
Demost.:
1. Sean 1 , . . . , p los valores propios de R. Si g y a son las medias
geomtrica y aritmtica de p nmeros positivos, se verifica g a. Entonces,
de tr(R) =p
(|R|)1/p = (1 p )1/p (1 + + p )/p = 1
1.9. DISTANCIAS
17
y por lo tanto 0 det(R) 1.

2. R = I (matriz identidad) si y slo si las p variables estn incorrelacionadas y entonces 1 |I| =0.
3. Si 2 = 1, es decir, |R| =0, entonces rang(R) <p y por lo tanto hay
combinaciones lineales entre las variables (Teorema 1.7.1).
1.9
Distancias
Algunos mtodos de AM estn basados en criterios geomtricos y en la nocin

de distancia entre individuos y entre poblaciones. Si
x1
X = ...
xn
es una matriz de datos, con matriz de covarianzas S, las tres definiciones ms

importantes de distancia entre las filas xi = (xi1 , . . . , xip ), xj = (xj1 , . . . , xjp )
de X son:
1. Distancia Eucldea:

dE (i, j) = (xih xjh )2 .
(1.2)
h=1
2. Distancia de K. Pearson

dP (i, j) = (xih xjh )2 /shh ,
(1.3)
h=1
donde shh es la covarianza de la variable Xh .

3. Distancia de Mahalanobis:
dM (i, j) =

(xi xj ) S1 (xi xj ).
(1.4)
18
Observaciones
Un cambio de escala de una variable Xj es una transformacin Yj = Xj ,
donde es una constante. La distancia dM es muy adecuada en AM debido
a que verifica:
a) dE supone implcitamente que las variables son incorrelacionadas y no es
invariante por cambios de escala.
b) dP tambin supone que las variables son incorrelacionades pero es invariante por cambios de escala.
c) dM tiene en cuenta las correlaciones entre las variables y es invariante por
transformaciones lineales no singulares de las variables, en particular
cambios de escala.
Las distancias dE y dP son casos particulares de dM cuando la matriz de
covarianzas es la identidad Ip y diag(S), respectivamente. En efecto:
dE (i, j)2 = (xi xj ) (xi xj ),
dP (i, j)2 = (xi xj ) [diag(S)]1 (xi xj ).
La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:

1. Distancia de una observacin xi al vector de medias x de X :
(xi x) S1 (xi x)
2. Distancia entre dos poblaciones representadas por dos matrices de datos
Xn1 p , Yn2 p :
(x y) S1 (x y),
donde x, y son los vectores de medias y
S = (n1 S1 + n2 S2 )/(n1 + n2 )
es la media ponderada de las correspondientes matrices de covarianzas.
1.10. UN EJEMPLO
N
72
60
56
41
32
30
39
42
37
33
32
63
54
47
19
E
66
53
57
29
32
35
39
43
40
29
30
45
46
51
S
76
66
64
36
35
34
31
31
31
27
34
74
60
52
W
77
63
58
38
36
26
27
25
25
36
28
63
52
43
N
91
56
79
81
78
46
39
32
60
35
39
50
43
48
E
S W
79 100 75
68 47 50
65 70 61
80 68 58
55 67 60
38 37 38
35 34 37
30 30 32
50 67 54
37 48 39
36 39 31
34 37 40
37 39 50
54 57 43
Tabla 1.1: Depsitos de corcho (centigramos) de 28 alcornoques en las cuatro

direcciones cardinales.
1.10
Un ejemplo
Example 1.10.1
La Tabla 1.1 contiene los datos de n = 28 alcornoques y p = 4 variables,
que miden los depsitos de corcho (en centigramos) en cada uno de los cuatro
puntos cardinales: N, E, S, W.
Medias, covarianzas y correlaciones
Vector de medias:
x =(50.536, 46.179, 49.679, 45.179)
Matriz de covarianzas:
280.03 215.76 278.13 218.19
212.07 220.88 165.25

S=
337.50 250.27
217.93
20

Matriz de correlaciones:
1 0.885 0.905 0.883
1
0.826 0.769
R=
1
0.923
1
Variables compuestas
Las siguientes variables compuestas explican diferentes aspectos de la variabilidad de los datos:
Contraste eje N-S con eje E-W: Y1 = N + S E W
Contraste N-S:
Y2 = N S
Contraste E-W:
Y3 = E W
Media
8.857
0.857
1.000
Variancia:
124.1
61.27
99.5
Variables normalizadas
Una variable compuesta est normalizada si la suma de cuadrados de sus
coeficientes es 1. La normalizacin evita que la varianza tome un valor arbitrario. La normalizacin de Y1 , Y2 , Y3 dar:
Z1 = (N + S
E W )/2
Z2 = (N S)/ 2
Z3 = (E W )/ 2
Media Variancia:
4.428
31.03
0.606
30.63
0.707
49.75
Interpretacin
La normalizacin de las variables consigue que estas tengan varianzas ms
homogneas. La principal direccin de variabilidad aparece al hacer la comparacin del eje N-S con el eje E-W.
Visualizacin de datos
En los captulos siguientes veremos mtodos y tcnicas de visualitzacin de
datos multivariantes. Como norma general es conveniente, antes de realizar
el anlisis, examinar y revisar los datos. La Figura 1.1 contiene un grfico
que permite visualizar la distribucin de las 4 variables de la Tabla 1.1 y las
relaciones lineales, o regresin lineal, entre cada par de variables.
1.10. UN EJEMPLO
21
Figura 1.1: Distribucin de las variables N, E, S, W y relaciones entre cada

par de variables de la Tabla 1.1.
22
Captulo 2
NORMALIDAD
MULTIVARIANTE
2.1
Introduccin
Los datos en AM suelen provenir de una poblacin caracterizada por una

distribucin multivariante. Sea X =(X1 , . . . , Xp ) un vector aleatorio con distribucin absolutamente continua y funcin de densidad f (x1 , . . . , xp ). Es
decir, f verifica:
p
1) f(x
1 , . . . , xp ) 0, para todo (x1 , . . . , xp ) R .
2) Rp f (x1 , . . . , xp )dx1 dxp = 1.
Conocida f (x1 , . . . , xp ) podemos encontrar la funcin de densitad de cada
variable marginal Xj mediante la integral

fj (xj ) = f(x1 , . . . , xj , . . . , xp )dx1 dxj1 dxj+1 dxp .
Como en el caso de una matriz de datos, es importante el vector de medias

= (E(X1 ), . . . , E(Xp )) ,
donde E(Xj ) es la esperanza de la variable marginal Xj , y la matriz de

covarianzas = ( ij ), siendo ij =cov(Xi , Xj ), ii =var(Xi ). Teniendo en
cuenta que los elementos de la matriz (X)(X) , de orden p p, son
(Xi i )(Xj j ) y que cov(Xi , Xj ) = E(Xi i )(Xj j ), la matriz de
covarianzas = ( ij ) es
= E((X)(X) ).
23
24
CAPTULO 2. NORMALIDAD MULTIVARIANTE
En este captulo introducimos y estudiamos la distribucin normal multivariante y tres distribuciones relacionadas con las muestras multivariantes:
Wishart, Hotelling y Wilks.
2.2
2.2.1
Distribucin normal multivariante

Definicin
Sea X una variable aleatoria con distribucin N (, 2 ), es decir, con media

y varianza 2 . La funcin de densidad de X es:
1
1
( 2 )1/2 12 (x) 12 (x)
2
2
f (x; , 2 ) = e 2 (x) / =
e
2
2
(2.1)
Evidentemente se verifica:
X = + Y
donde Y N(0, 1).
(2.2)
Vamos a introducir la distribucin normal mutivariante Np (, ) como

una generalizacin de la normal univariante. Por una parte, (2.1) sugiere
definir la densidad de X = (X1 , . . . , Xp ) Np (, ) segn:
||1/2 1 (x) 1 (x)
e 2
f (x; , ) =
,
( 2)p
(2.3)
siendo x = (x1 , . . . , xp ) , = (1 , . . . , n) y = ( ij ) una matriz definida

positiva, que como veremos, es la matriz de covarianzas. Por otra parte,
(2.2) sugiere definir la distribucin X = (X1 , . . . , Xp ) Np (, ) como una
combinacin lineal de p variables Y1 , . . . , Yp independientes con distribucin
N(0, 1).
X1 = 1 + a11 Y1 + . . . + a1p Yp
..
..
(2.4)
.
.
Xp = p + ap1 Y1 + . . . + app Yp
que podemos escribir como
X =+AY
(2.5)
donde A = (aij ) es una matriz p q que verifica AA = .

Proposition 2.2.1 Las dos definiciones (2.3) y (2.4) son equivalentes.
2.2. DISTRIBUCIN NORMAL MULTIVARIANTE
25
Demost.: Segn la frmula del cambio de variable

y
fX (x1 , . . . , xp ) = fY (y1 (x), . . . , yp (x))
x
y
el jacobiano del
siendo yi = yi (x1 , . . . , xp ), i = 1, . . . , p, el cambio y J = x
cambio. De (2.5) tenemos

y
1
y = A (x ) = |A1 |
x
y como las variables Yi son N (0, 1) independientes:
1 p
2
fX (x1 , . . . , xp ) = (1/ 2)p e 2 i=1 yi |A1 |.
(2.6)
Pero 1 = (A1 ) (A1 ) y por lo tanto

y y = (x ) (A1 ) (A1 )(x ) = (x ) 1 (x ).
(2.7)
Substituyendo (2.7) en (2.6) y de |A1 |2 = ||1 obtenemos (2.3).
2.2.2
Propiedades
1. De (2.5) es inmediato que E(X) = y que la matriz de covarianzas es

E((X)(X) ) =E(AYY A ) = AIp A = .
2. La distribucin de cada variable marginal Xi es normal univariante:
Xi N (i , ii ),
i = 1, . . . , p.
Es consecuencia de la definicin (2.4).

3. Toda combinacin lineal de las variables X1 , . . . , Xp
Z = b0 + b1 X1 + + bp Xp
es tambin normal univariante. En efecto, de (2.4) resulta que Z es
combinacin lineal de N(0, 1) independientes.
26

4. Si =diag( 11 , . . . , pp ) es matriz diagonal, es decir, ij = 0, i = j, entonces las variables (X1 , . . . , Xp ) son estocsticamente independientes.
En efecto, la funcin de densidad conjunta resulta igual al producto de
las funciones de densidad marginales:
f (x1 , . . . , xp ; , ) = f (x1 ; 1 , 11 ) f (xp ; p , pp )
5. La distribucin de la forma cuadrtica
U = (x )1 (x )
es
con p grados de libertad. En efecto, de (2.5) U = YY =
pji-cuadrado
2
i=1 Yi es suma de los cuadrados de p variables N(0, 1) independientes.
2.2.3
Caso bivariante
Cuando p = 2, la funcin de densidad se puede expresar en funcin de las medias y varianzas 1 , 21 , 2 , 22 y del coeficiente de correlacin =cor(X1 , X2 ) :
f(x1 , x2 ) =
2
(x1 1 )2
1
1
1 ) (x2 2 )
2)
2 (x1
+ (x2
,
exp [ 21 1
2{
2
2
2
2
1
21 2
siendo 1 < < +1. (Figura 2.1). Se verifica:

1. Hay independencia estocstica si y slo si = 0.
2. La distribucin de la variable marginal Xi es N (i , 2i ).
3. La funcin de densidad de X2 condicionada a X1 = x es
f (x2 /x1 ) =
1
[(x2 2 ( 2 / 1 )(x1 1 )]2

],
exp[
2 22 (1 2 )
2 2(1 2 )
densidad de la distribucin normal N (2 +( 2 / 1 )(x1 1 ), 22 (12 )).

4. La regresin es de tipo lineal, es decir, las curvas de regresin de la
media
x2 = E(X2 /X1 = x1 ),
x1 = E(X1 /X2 = x2 ),
son las rectas de regresin.
2.3. DISTRIBUCIN DE WISHART
27
Figura 2.1: Funcin de densidad de una distribucin normal bivariante de

medias 1 y 1, desviaciones tpicas 2 y 2, coeficiente de correlacin 0.8.
2.3
Distribucin de Wishart
La distribucin de Wishart es la que sigue una matriz aleatoria simtrica

definida positiva, generaliza la distribucin ji-cuadrado y juega un papel importante en inferencia multivariante. Un ejemplo destacado lo constituye la
distribucin de la matriz de covarianzas S, calculada a partir de una matriz
de datos donde las filas son observaciones normales multivariantes.
Definicin
Si las filas de la matriz Znp son independientes Np (0, ) entonces diremos
que la matriz Q = Z Z es Wishart Wp (, n), con parmetros y n grados
de libertad.
Textos avanzados prueban que cuando es definida positiva y n p, la
densidad de Q es
1
f (Q) =c|Q|(np1) exp( tr(1 Q)),
2
siendo
c1 = 2np/2 p(p1)/4 ||n/2
Propiedades:
p

1
( (n + 1 i).
2
i=1
1. Si Q1 , Q2 son independientes Wishart Wp (, m), Wp (, n), entonces la

suma Q1 + Q2 es tambin Wishart Wp (, m + n).
28

2. Si Q es Wishart Wp (, n), y separamos las variables en dos conjuntos
y consideramos las particiones correspondientes de las matrices y Q

11 12
Q11 Q12
=
,
Q=
,
21 22
Q21 Q22
Entonces Q11 es Wp (11 , n) y Q22 es Wp (22 , n).
3. Si Q es Wishart Wp (, n) y T es una matriz p q de constantes, entonces T QT es Wq (T T, n). En particular, si t es un vector, entonces

t Qt
tt
2.4
es 2n .
Distribucin de Hotelling
Es una generalizacin multivariante de la distribucin t de Student.

Definicin
Si y es Np (0, I), Q es Wishart Wp (I, m) y adems y, Q son independientes,
entonces
T 2 = my Q1 y
sigue la distribucin T 2 de Hotelling, que se indica por T 2 (p, m).
Propiedades:
1. Si x es Np (,) independiente de M que es Wp (, m), entonces
T 2 = m(x) M1 (x) T 2 (p, m).
2. T 2 est directamente relacionada con la distribucin de Fisher-Snedecor
mp
p
T 2 (p, m)
Fmp+1
.
mp+1
3. Si x, S son el vector de medias y la matriz de covarianzas de la matriz
Xnp con filas independientes Np (, ), entonces
(n 1)(x) S1 (x) T 2 (p, n 1),
y por lo tanto
np
p
(x) S1 (x) Fnp
.
p
2.5. DISTRIBUCIN DE WILKS
29
4. Si x, S1 ,y, S2 son el vector de medias y la matriz de covarianzas de

las matrices Xn1 p , Yn2 p , respectivamente, con filas independientes
Np (, ), y consideramos la estimacin conjunta centrada de
(n1 S1 + n2 S2 )/(n1 + n2 2),
S=
entonces
T2 =
y por lo tanto
2.5
n1 n2
1 (x y) T 2 (p, n1 + n2 2)
(xy) S
n1 + n2
n1 + n2 1 p 2
T Fnp1 +n2 1p .
(n1 + n2 2)p
Distribucin de Wilks
La distribucin F surge considerando el cociente

F =
A/m
,
B/n
donde A, B sn ji-cuadrados independients con m, n grados de libertad. Si

consideramos la distribucin
A
=
,
A+B
la relacin entre i F es
m
F =
.
n 1
La distribucin de Wilks generaliza esta relacin.
Definicin
Si las matrices A, B de orden pp son independientes Wishart Wp (, m), Wp (, n),
respectivamente, la distribucin del cociente de determinantes
=
|A|
|A + B|
es, por definicin, la distribucin lambda de Wilks, que indicaremos por

(p, m, n).
Propiedades:
30

y
0.2
0.15
0.1
0.05
0
0
0.25
0.5
0.75
1
x
Figura 2.2: Un ejemplo de funcin de densidad lambda de Wilks.

1. 0 1 y adems no depende de . Por lo tanto, podemos
estudiarla suponiendo = I.
2. Su distribucin es equivalente a la del producto de n variables beta
independientes:
n

(p, m, n)
Ui ,
i=1
donde Ui es beta B( 21 (m + i p), 12 p).
3. Los parmetros se pueden permutar manteniendo la misma distribucin. Concretamente:

(p, m, n) (n, m + n p, p).
4. Para valores 1 2 de p, la distribucin de equivale a la F, segn las
frmulas
1 m
Fmn
(p = 1)
n
(2.8)
1
m1 F 2n
(p
=
2)
2(m1)
n
5. En general, una transformacin de equivale, exacta o asintticamente, a la distribucin F.
2.6. RELACIONES ENTRE WILKS, HOTELLING Y F
2.6
31
Relaciones entre Wilks, Hotelling y F
A. Probemos la relacin entre y F cuando p = 1. Sean A 2m , B 2n

independientes. Entonces = A/(A + B) (1, m, n) y F = (n/m)A/B =
(n/m)F Fnm . Tenemos que = (A/B)/(A/B + 1) = F /(1 + F ), luego
F = /(1) (n/m)/(1) Fnm . Mas si F Fnm entonces 1/F Fmn .
Hemos demostrado que:
1 (1, m, n) m
Fmn .
(1, m, n) n
(2.9)
B. Recordemos que y es un vector columna y por lo tanto yy es una matriz

p p. Probemos la relacin entre las distribuciones T 2 y F. Tenemos T 2 =
my Q1 y, donde Q es Wp (I,m), y yy es Wp (I,1). Se cumple
|Q + yy | = |Q||1+y Q1 y|,
que implica
1+y Q1 y = |Q + yy |/|Q| = 1/,
donde = |Q|/|Q + yy | (p, m, 1) (1, m+1p, p). Adems y Q1 y =

p
1/ 1 = (1 )/. De (2.9) tenemos que y Q1 y(m + 1 p)/p Fm+1p
y por lo tanto
mp
p
Fm+1p
.
T 2 = my Q1y
m+1p
2.7
Distribuciones con marginales dadas
Sea F (x, y) la funcin de distribucin de dos variables aleatorias (X, Y ).

Tenemos
H(x, y) = P (X x, Y y).
Consideremos las distribuciones marginales, es decir las distribuciones univariantes de X y de Y :

F (x) = P (X x) = H(x, ),
G(y) = P (Y y) = H(, y).
Un procedimiento para la obtencin de modelos de distribuciones bivariantes
consiste en encontrar H a partir de F, G y posiblemente algn parmetro.
32

Si suponemos X, Y independientes, una primera distribucin es
H 0 (x, y) = F (x)G(y).
M. Frchet introdujo las distribuciones bivariantes

H (x, y) = max{F (x) + G(y) 1, 0},
H + (x, y) = min{F (x), G(y)}
y demostr la desigualdad
H (x, y) H(x, y) H + (x, y).
Cuando la distribucin es H , entonces se cumple la relacin funcional entre
X, Y
F (X) + G(Y ) = 1.
y la correlacin es mnima. Cuando la distribucin es H + , entonces se
cumple la relacin funcional entre X, Y
F (X) = G(Y )
y la correlacin + es mxima. Previamente W. Hoeffding haba probado la
siguiente frmula para la covarianza

cov(X, Y ) =
(H(x, y) F (x)G(y))dxdy
R2
y demostrado la desigualdad
+ ,
donde , y + son las correlaciones entre X, Y cuando la distribucin
bivariante es H , H y H + , respectivamente.
Posteriormente, diversos autores han propuesto distribuciones bivariantes
paramtricas a partir de las marginales F, G, que en algunos casos contienen a
H , H 0 y H + . Escribiendo F, G, H para indicar F (x), G(y), H(x, y), algunas
familias son:
1. Farlie-Gumbel-Morgenstern:
H = F G[1 + (1 F )(1 G)],
1 1.
2.8. COMPLEMENTOS
33
2. Clayton-Oakes:
H = [F + G 1]1/ ,
1 < .
3. Ali-Mikhail-Haq:
H = F G/[1 (1 F )(1 G)]
1 1.
4. Cuadras-Aug:
H = (min{F, G}) (F G)1 ,
0 1.
5. Familia de correlacin:
H (x, y) = F (min{x, y}) + (1 )F (x)J(y),
1 1,
siendo J(y) = [G(y) F (y))/(1 ) una funcin de distribucin univariante.
2.8
Complementos
La distribucin normal multivariante es, con diferencia, la ms utilizada en

anlisis multivariante. Textos como Anderson (1956), Rao (1973), se basan,
casi exclusivamente, en la suposicin de normalidad. Ms recientemente
se han estudiado generalizaciones, como las distribuciones elpticas, cuya
densidad es de la forma
f (x) = ||1/2 g((x) 1 (x)),
donde g es una funcin positiva creciente. Otras distribuciones importantes
son la multinomial y la Dirichlet.
Cuando se estudiaron muestras normales multivariantes, pronto se plante
la necesidad de encontrar la distribucin de la matriz de covarianzas, y de
algunos estadsticos apropiados para realizar tests multivariantes. As fue
como J. Wishart, H. Hotelling y S. S. Wilks propusieron las distribuciones
que llevan sus nombres, en los aos 1928, 1931 y 1932, respectivamente.
El estudio de las distribuciones con marginales dadas proporciona un
mtodo de construccin de distribuciones univariantes y multivariantes. Algunas referencias son: Hutchinson y Lai (1990), Cuadras y Aug (1981),
34
Cuadras (1992, 2006). La frmula de Hoeffding admite la siguiente generalizacin

cov((X), (Y )) =
(H(x, y) F (x)G(y))d(x)d(y)
R2
(Cuadras, 2002).
Captulo 3
INFERENCIA
MULTIVARIANTE
3.1
Conceptos bsicos
Sea f (x, ) un modelo estadstico. La funcin score se define como
log f (x, ).
Una muestra multivariante est formada por las n filas x1 , . . . , xp independientes de una matriz de datos Xnp . La funcin de verosimilitud es
z(x, ) =
L(X, ) =
n

f (xi , ).
i=1
La funcin score de la muestra es

n

z(X, ) =
log f(xi , ).
i=1
La matriz de informacin de Fisher F () es la matriz de covarianzas de

z(X, ). Cuando un modelo estadstico es regular se verifica:
a) E(z(X, )) = 0.
b) F () =E(z(X, )z(X, ) ).
Un estimador t(X) de es insesgado si E(t(X)) = . La desigualdad
de Cramr-Rao dice que si cov(t(X)) es la matriz de covarianzas de t(X),
entonces
cov(t(X)) F ()1 ,
35
36
CAPTULO 3. INFERENCIA MULTIVARIANTE
en el sentido de que la diferencia cov(t(X))F ()1 es una matriz semidefinida positiva.

del parmetro desconocido es mximo verosmil si maxUn estimador

imiza la funcin L(X, ). En condiciones de regularidad, podemos obtener
resolviendo la ecuacin
n

log f (xi , ) = 0.
i=1
n obtenido a partir de una muestra

Entonces el estimador mximo verosmil
de tamao n satisface:
a) Es asintticamente normal con vector de medias y matriz de covarianzas (nF1 ())1 , donde F1 () es la matriz de informacin de Fisher para
una sola observacin.
b) Si t(X) es estimador insesgado de tal que cov(t(X)) = (nF1 ())1 ,
n = t(X).
entonces
n converge en probabilidad a .
c)
3.2
Estimacin de medias y covarianzas
Si las n filas x1 , . . . , xn de Xnp son independientes Np (, ) la funcin de

verosimilitud es

n

1
L(X,, ) = det(2)n/2 exp
(xi )1 (xi )
2 i=1
Se verifica
n
n
1
1
1
i x) (xi x) + n(x ) (x )
i=1 (xi ) (xi ) =
i=1 (x
n
1
= tr{
i=1 (xi x)(xi x) }
+n(x ) 1 (x )
y por lo tanto el logaritmo de L se puede expresar como
n
n
n
log L(X,, ) = log det(2) tr(1 S) (x ) 1 (x ).
2
2
2
Derivando matricialmente respecto de y de 1 tenemos
log L
= n1 (x ) = 0,
log L =
n
2
[ S (x )(x ) ] = 0.
3.3. TESTS MULTIVARIANTES
37
Las estimaciones mximo-verosmiles de , son pues
= x,
= S.
Si slo es desconocido, la matriz de informacin de Fisher es

F () = E(n1 (x )n1 (x ) ) = n1
y como cov(x) = /n, tenemos x que alcanza laa cota de Cramr-Rao.
Probaremos ms adelante que:
1. x es Np (, /n).
2. x y S son estocsticamente independientes.
3. nS sigue la distribucin de Wishart.
3.3
Tests multivariantes
Un primer mtodo para construir tests sobre los parmetros de una poblacin
normal, se basa en las propiedades anteriores, que dan lugar a estadsticos
con distribucin conocida (ji-cuadrado, F).
3.3.1
Test sobre la media: una poblacin
Supongamos que las filas de Xnp son independientes Np (, ). Sea 0 un

vector de medias conocido. Queremos realizar un test sobre la hiptesis
H0 : = 0
1. Si es conocida, como x es Np (, /n), el estadstico de contraste es
n(x0 ) 1 (x0 ) 2p .
2. Si es desconocida, como (n 1)(x)S1 (x) T 2 (p, n 1), el
estadstico de contraste es
np
p
(x0 ) S1 (x0 ) Fnp
.
p
En ambos casos se rechaza H0 para valores grandes significativos del estadstico.
38
3.3.2
Test sobre la media: dos poblaciones
Supongamos ahora que tenemos dos matrices de datos independientes Xn1 p ,

Yn2 p que provienen de distribuciones Np (1 , ), Np (2 , ). Queremos construir un test sobre la hiptesis
H0 : 1 = 2 .
1. Si es conocida, como (xy) es Np (1 2 , (1/n1 + 1/n2 )) el estadstico de contraste es
n1 n2
(xy) 1 (x y) 2p .
n1 + n2
2. Si es desconocida, el estadstico de contraste es
3.3.3
n1 + n2 1 p n1 n2
1 (x y) Fnp +n 1p .
(xy) S
1
2
(n1 + n2 2)p n1 + n2
Comparacin de medias
Supongamos que las filas de g matrices de datos son independientes, y que

provienen de la observacin de g poblaciones normales multivariantes:
matriz orden medias covarianzas distribucion
X1
n1 p
x1
S1
Np (1 , )
X2
n2 p
x2
S2
Np (2 , )
..
..
..
..
..
.
.
.
.
.
Xg
ng p
xg
Sg
Np (g , )
(3.1)
El vector de medias generales y la estimacin centrada de la matriz de

covarianzas comn son
g
1
x=
ni xi ,
n i=1
g
1
S=
ni Si ,
n g i=1
g
siendo Si = n1
i Xi HXi , n =
i=1 ni .
Deseamos construir un test para decidir si podemos aceptar la hiptesis
de igualdad de medias
H0 : 1 = 2 = . . . = g .
3.4. TEOREMA DE COCHRAN
39
Introducimos las siguientes matrices:

B = gi=1 n
(dispersion entre grupos)
i x)(xi x)
i (x
g
ni
W = i=1 =1 (xi xi )(xi xi ) (dispersion dentro grupos)

i
T = gi=1 n=1
(xi x)(xi x) (dispersion total)
Se verifica que W = (n g)S y la relacin:
T = B + W.
Si la hiptesis nula es cierta, se verifica adems
B Wp (, g 1), W Wp (, n g), T Wp (, n 1),
B, W son estocasticamente independientes,
por lo tanto, si H0 es cierta
=
|W|
(p, n g, g 1).
|W + B|
Rechazaremos H0 si es pequea y significativa, o si la transformacin a

una F es grande y significativa.
3.4
Teorema de Cochran
Algunos resultados de la seccin anterior son una consecuencia del teorema

de Cochran.
Lemma 3.4.1 Sea X(np) una matriz de datos Np (, ) y u, v dos vectores
n 1 tales que u u = v v =1, u v =0.
1. Si = 0 entonces y = u X es Np (0, ).
2. y = u X es independiente de z = v X.
Demost.: Sean x1
, . . . , xn las filas (independientes) de X. Si u = (u1 , . . . , un )
entonces y = u X = ni=1 ui xi es normal multivariante con = 0 y matriz

de covarianzas

E(yy ) = E( ni=1 ui xi )( ni=1 ui xi ) = E( ni,j=1 ui uj xi xj )

= ni,j=1 ui uj E(xi xj ) = ni=1 u2i E(xi xi )

= ni=1 u2i = .
40
Anlogamente, si v = (v1 , . . . , vn ) , z = v X es tambin normal y suponiendo

= 0,
E(yz ) =
n

ui vj E(xi xj )
i=1
n

ui vi E(xi xi ) = u v = 0,
i=1
que prueba la independencia entre y, z. Este resultado no depende de .

Theorem 3.4.2 Sea X(n p) una matriz de datos Np (0, ) y sea C(n n)
una matriz simtrica.
1. X CX tiene la misma distribucin que una suma ponderada de matrices
Wp (, 1), donde los pesos son valores propios de C.
2. X CX es Wishart Wp (, r) si y slo si C es idempotente y r(C) = r.
Demost.: Sea
C=
n

i ui ui
i=1
la descomposicin espectral de C, es decir, Cui = i ui . Entonces

X CX =
i yi yi
Por el Lema 3.4.1 anterior, las filas yi de la matriz
u1 X
y1

Y = ... = ... ,
yn
un X
son tambin independientes Np (0, ) y cada yi yi es Wp (, 1).

Si C2 = C entonces Cui = i ui siendo i = 0 1. Por lo tanto r =tr(C)
y
r

X CX =
yi yi Wp (, r).
i=1
El siguiente resultado se conoce como teorema de Craig, y junto con el

teorema de Cochran, permite construir tests sobre vectores de medias.
3.4. TEOREMA DE COCHRAN
41
Theorem 3.4.3 Sea X(np) una matriz de datos Np (, ) y sean C1 (nn),

C2 (nn) matrices simtricas. Entonces X C1 X es independiente de X C2 X
si C1 C2 = 0.
Demost.:

C1 = ni=1 i (1)ui ui , X C1 X = i (1)yi yi ,
C2 = nj=1 j (2)vj vj , X C2 X = j (2)zj zj ,
siendo yi = ui X, zj = vj X. Por otra parte

C1 C2 =
i (1)j (2)ui ui vj vj ,
C1 C2 = 0 i (1)j (2)ui vj = 0,
i, j.
Si suponemos i (1)j (2) = 0, entonces por el Lema 3.4.1 yi (1 p) = ui X es

independiente de zj (1 p) = vj X. As X C1 X es independiente de X C2 X.
Una primera consecuencia del Teorema anterior es la independencia entre
vectores de medias y matrices de covarianzas muestrales.
Theorem 3.4.4 Sea X(n p) una matriz de datos Np (, ). Entonces :
1. La media x es Np (, /n).
2. La matriz de covarianzas S = X HX/n verifica nS Wp (, n 1).
Demost.: Consideremos C1 = n1 11 . Tenemos rang(C1 ) = 1, X C1 X =xx .
Consideremos tambin C2 = H. Como C1 C2 = 0 deducimos que x es independiente de S.
Por otra parte, como H2 = H, H1 = 0, rang(H) =n 1, H tiene el valor
propio 1 con multiplicidad n 1. As ui , vector propio de valor
n propio 1,
es ortogonal a 1, resultando que yi = ui X verifica E(yi ) = ( =1 ui ) =

(ui 1)=0 = 0. Si uj es otro
vector propio, yi , yj son independientes (Lema
n1
3.4.1). Tenemos que nS = i=1 yi yi , donde los yi yi son Wp (, 1) independientes.
Theorem 3.4.5 Sean Xi , matrices de datosindependientes de orden ni p
con distribucin Np (i , ), i = 1, . . . g, n = gi=1 ni . Si la hiptesis nula
H0 : 1 = 2 = . . . = g
es cierta, entonces B, W son independientes con distribuciones Wishart:

B Wp (, g 1),
W Wp (, n g).
42

Demost.: Escribimos las matrices de datos como una nica matriz
X1
X = ... .
Xg
Sean
11 =
(1, . . . , 1, 0, . . . , 0), . . . , 1g = (0, . . . 0, 1, . . . 1),
1 = gi=1 1i = (1, . . . , 1, . . . , 1, . . . , 1),
donde 11 tiene n1 unos y el resto ceros, etc. Sean tambin

Ii = diag(1i ), I = gi=1 Ii ,
1
Hi = I
i ni 1i 1i

g
1
C1 = i=1 Hi , C2 = gi=1 n1
i 1i 1i n 11 .
Entonces
C21 = C1 ,
C22 = C2 ,
C1 C2 = 0,
rang(C1 ) = n k,
rang(C2 ) = g 1,
W = X C1 X,
B = X C2 X.
El resultado es consecuencia de los Teoremas 3.4.4 y 3.4.5.
3.5
3.5.1
Construccin de tests multivariantes

Razn de verosimilitud
Supongamos que la funcin de densidad de (X1 , . . . , Xp ) es f (x, ), donde

x Rp y , siendo una regin paramtrica de dimensin geomtrica
r. Sea 0 una subregin paramtrica de dimensin s, y planteamos el
test de hiptesis
H0 : 0
vs H1 : 0 .
Sea x1 , . . . , xn una muestra de valores independientes de X , consideremos

la funcin de verosimilitud
L(x1 , . . . , xn ; ) =
n

i=1
f(x, )
3.5. CONSTRUCCIN DE TESTS MULTIVARIANTES
43
el estimador mximo verosmil de . Consideremos anlogay sea

0 , el estimador de mxima verosimilitud de 0 . Tenemos que

mente
0 maximiza L cuando se impone la condicin
maximiza L sin restricciones y
de que pertenezca a 0 . La razn de verosimilitud es el estadstico
R =
0 )
L(x1 , . . . , xn ;
,

L(x1 , . . . , xn ; )
que satisface 0 R 1. Aceptamos la hiptesis H0 si R es prxima a 1 y

aceptamos la alternativa H1 si R es significativamente prximo a 0.
El test basado en R tiene muchas aplicaciones en AM, pero en la mayora
de los casos su distribucin es desconocida. Existe un importante resultado
(atribuido a Wilks), que dice que la distribucin de -2 veces el logaritmo de
R es ji-cuadrado con r s g.l. cuando el tamao de la muestra n es grande.
Theorem 3.5.1 Bajo ciertas condiciones de regularidad, se verifica:
2 log R
es asintticamente 2rs ,
donde s = dim(0 ) < r = dim().

Entonces rechazamos la hiptesis H0 cuando 2 log R sea grande y significativo. Veamos dos ejemplos.
Test de independencia
Si (X1 , . . . , Xp ) es N (, ), y queremos hacer un test sobre la independencia
estocstica de las variables, entonces
0 = {(, 0 )}, s = 2p,
= {(, )}, r = p + p(p + 1)/2,
donde 0 es diagonal. 0 contiene las p medias de las variables y las p

varianzas. es cualquier matriz definida positiva. Se demuestra (Seccin
5.4.2) que
2 log R = n log |R|,
donde R es la matriz de correlaciones. El estadstico n log |R| es asintticamente ji-cuadrado con
q = p + p(p + 1)/2 2p = p(p 1)/2 g.l.
Si las variables son independientes, tendremos que R I, n log |R| 0, y

es probable que 2q = n log |R| no sea significativo.
44
Test de comparacin de medias

Consideremos el test de comparacin de medias planteado en la Seccin 3.3.3.
Ahora
0 = {(, )},
s = p + p(p + 1)/2,
= {(1 , . . . , g ), )}, r = gp + p(p + 1)/2,
donde es matriz definida positiva y (vector) es la media comn cuando
H0 es cierta. Hay gp + p(p + 1)/2 parmetros bajo H1 , y p + p(p + 1)/2 bajo
H0 . Se demuestra la relacin
R = n/2 ,
donde = |W|/|T| es la lambda de Wilks y n = n1 + . . . + ng . Por lo tanto
n log es asintticamente ji-cuadrado con r s = (g 1)p g.l. cuando la
hiptesis H0 es cierta.
3.5.2
Principio de unin-interseccin
Es un principio general que permite construir tests multivariantes a partir

de tests univariantes y se aplica a muchos tests. Como ejemplo, planteemos
la hiptesis nula multivariante H0 : =0 como un test univariante. Sea
Xa = Xa una variable compuesta con media (a) =a. El test univariante
H0 (a) : (a) =0 (a) contra la alternativa H1 (a) : (a) =0 (a) se resuelve
mediante la t de Student
t(a) =
x(a) 0 (a)
n1
tn1
s(a)
donde x(a) = x a es la media muestral de Xa y s2 (a) = a Sa es la varianza.

Aceptaremos H0 : =0 si aceptamos todas las hiptesis univariantes H0 (a),
y nos decidiremos por la alternativa H1 : = 0 si aceptamos una sola de las
alternativas H1 (a), es decir, formalmente (principio de unin-interseccin):
H0 = H0 (a),
a
H1 = H1 (a).
a
As rechazaremos H0 si la mxima t(a) resulta significativa. Pues bien, la T 2

de Hotelling (Seccin 3.3.1) es precisamente el cuadrado de esta mxima t
de Student.
3.6. EJEMPLOS
45
Theorem 3.5.2 En el test sobre el vector de medias, la T 2 de Hotelling y

la t de Student estn relacionadas por
T 2 = maxt2 (a).
a
Demost.: (x 0 ) es un vector columna y podemos escribir t2 (a) como

t2 (a) = (n 1)
a (x 0 )(x 0 ) a
a Sa
Sea A = (x 0 )(x 0 ) matriz de orden p p y rango 1. Si v1 satisface

Av1 = 1 Sv1 entonces
v Av
1 = max .
v v Sv
De (x 0 )(x 0 ) v1 = 1 Sv1 resulta que S1 (x 0 )(x 0 ) v1 = 1 v1
y de la identidad
S1 (x 0 )(x 0 ) (S1 (x 0 )) = (x 0 ) S1 (x 0 )(S1 (x 0 ))
vemos que 1 = (x 0 ) S1 (x 0 ), v1 = S1 (x 0 ). Por lo tanto
T 2 = maxt2 (a) = (n 1)(x 0 ) S1 (x 0 ).
a
3.6
Ejemplos
Example 3.6.1
Se desean comparar dos especies de moscas de agua: Amerohelea fascinata, Amerohelea pseudofascinata. En relacin a las variables X1 = long.
antena, X2 = long. ala (en mm), para dos muestras de tamaos n1 = 9 y
n2 = 6, se han obtenido las matrices de datos de la Tabla 3.1.
Vectores de medias (valores multiplicados por 100):

x= (141.33, 180.44),
y = (122.67, 192.67).
46

Amerohelea fascinata
n1 = 9
X1 X2
1.38 1.64
1.40 1.70
1.24 1.72
1.36 1.74
1.38 1.82
1.48 1.82
1.54 1.82
1.38 1.90
1.56 2.08
A. pseudofascinata
n2 = 6
X1 X2
1.14 1.78
1.20 1.86
1.18 1.96
1.30 1.96
1.26 2.00
1.28 2.00
Tabla 3.1: X1 = long. antena, X2 = long. ala (en mm), para dos muestras
de tamao n1 = 9 y n2 = 6,.
Matrices de covarianzas:

98.00 80.83
S1 =
80.83 167.78
S2 =
39.47 43.47
43.47 77.87
Estimacin centrada de la matriz de covarianzas comn:

1
75.49 66.46

S= (8S1 + 5S2 ) =
.
66.46 133.81
13
Distancia de Mahalanobis entre las dos muestras:
Estadstico T 2 :
1 (x y) = 15.52.
D2 = (x y)S
T2 =
Estadstico F :
69 2
D = 55.87
6+9
9+612 2
2
T = 25.78 F12
2(9 + 6 2)
Decisin: rechazamos la hiptesis de que las dos especies son iguales (Nivel
de significacin=0.001).
Example 3.6.2
3.6. EJEMPLOS
47
Comparacin de las especies virginica, versicolor, setosa de flores del

gnero Iris (datos de R. A. Fisher, Tabla 3.2), respecto a las variables que
miden longitud y ancho de spalos y ptalos:
X1 , X2 = long., anch.(sepalos), X3 , X4 = long., anch.(petalos).
Vectores de medias y tamaos mustrales:

I. setosa
I. versicolor
I. virginica
(5.006, 3.428, 1.462, 0.246) n1 = 50

(5.936, 2.770, 4.260, 1.326) n2 = 50
(6.588, 2.974, 5.550, 2.026) n3 = 50
Matriz dispersin entre grupos:
63.212 19.953 165.17 71.278
11.345
57.23 22.932
B =
436.73 186.69
80.413
Matriz dispersin dentro grupos:
38.956 12.630 24.703 5.645
16.962 8.148 4.808
W =
27.322 6.284
6.156
Lambda de Wilks:
=
|W|
= 0.02344(4, 147, 2)
|W + B|
Transformacin a una F :
8
F = 198.95 F288
Decisin: las diferencias entre las tres especies son muy significativas.
48
X1
5.1
4.9
4.7
4.6
5.0
5.4
4.6
5.0
4.4
4.9
5.4
4.8
4.8
4.3
5.8
5.7
5.4
5.1
5.7
5.1
5.4
5.1
4.6
5.1
4.8
5.0
5.0
5.2
5.2
4.7
4.8
5.4
5.2
5.5
4.9
5.0
5.5
4.9
4.4
5.1
5.0
4.5
4.4
5.0
5.1
4.8
5.1
4.6
5.3
5.0
X2
3.5
3.0
3.2
3.1
3.6
3.9
3.4
3.4
2.9
3.1
3.7
3.4
3.0
3.0
4.0
4.4
3.9
3.5
3.8
3.8
3.4
3.7
3.6
3.3
3.4
3.0
3.4
3.5
3.4
3.2
3.1
3.4
4.1
4.2
3.1
3.2
3.5
3.6
3.0
3.4
3.5
2.3
3.2
3.5
3.8
3.0
3.8
3.2
3.7
3.3
X3
1.4
1.4
1.3
1.5
1.4
1.7
1.4
1.5
1.4
1.5
1.5
1.6
1.4
1.1
1.2
1.5
1.3
1.4
1.7
1.5
1.7
1.5
1.0
1.7
1.9
1.6
1.6
1.5
1.4
1.6
1.6
1.5
1.5
1.4
1.5
1.2
1.3
1.4
1.3
1.5
1.3
1.3
1.3
1.6
1.9
1.4
1.6
1.4
1.5
1.4
X4
0.2
0.2
0.2
0.2
0.2
0.4
0.3
0.2
0.2
0.1
0.2
0.2
0.1
0.1
0.2
0.4
0.4
0.3
0.3
0.3
0.2
0.4
0.2
0.5
0.2
0.2
0.4
0.2
0.2
0.2
0.2
0.4
0.1
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.3
0.3
0.2
0.6
0.4
0.3
0.2
0.2
0.2
0.2
X1
7.0
6.4
6.9
5.5
6.5
5.7
6.3
4.9
6.6
5.2
5.0
5.9
6.0
6.1
5.6
6.7
5.6
5.8
6.2
5.6
5.9
6.1
6.3
6.1
6.4
6.6
6.8
6.7
6.0
5.7
5.5
5.5
5.8
6.0
5.4
6.0
6.7
6.3
5.6
5.5
5.5
6.1
5.8
5.0
5.6
5.7
5.7
6.2
5.1
5.7
X2
3.2
3.2
3.1
2.3
2.8
2.8
3.3
2.4
2.9
2.7
2.0
3.0
2.2
2.9
2.9
3.1
3.0
2.7
2.2
2.5
3.2
2.8
2.5
2.8
2.9
3.0
2.8
3.0
2.9
2.6
2.4
2.4
2.7
2.7
3.0
3.4
3.1
2.3
3.0
2.5
2.6
3.0
2.6
2.3
2.7
3.0
2.9
2.9
2.5
2.8
X3
4.7
4.5
4.9
4.0
4.6
4.5
4.7
3.3
4.6
3.9
3.5
4.2
4.0
4.7
3.6
4.4
4.5
4.1
4.5
3.9
4.8
4.0
4.9
4.7
4.3
4.4
4.8
5.0
4.5
3.5
3.8
3.7
3.9
5.1
4.5
4.5
4.7
4.4
4.1
4.0
4.4
4.6
4.0
3.3
4.2
4.2
4.2
4.3
3.0
4.1
X4
1.4
1.5
1.5
1.3
1.5
1.3
1.6
1.0
1.3
1.4
1.0
1.5
1.0
1.4
1.3
1.4
1.5
1.0
1.5
1.1
1.8
1.3
1.5
1.2
1.3
1.4
1.4
1.7
1.5
1.0
1.1
1.0
1.2
1.6
1.5
1.6
1.5
1.3
1.3
1.3
1.2
1.4
1.2
1.0
1.3
1.2
1.3
1.3
1.1
1.3
X1
6.3
5.8
7.1
6.3
6.5
7.6
4.9
7.3
6.7
7.2
6.5
6.4
6.8
5.7
5.8
6.4
6.5
7.7
7.7
6.0
6.9
5.6
7.7
6.3
6.7
7.2
6.2
6.1
6.4
7.2
7.4
7.9
6.4
6.3
6.1
7.7
6.3
6.4
6.0
6.9
6.7
6.9
5.8
6.8
6.7
6.7
6.3
6.5
6.2
5.9
X2
3.3
2.7
3.0
2.9
3.0
3.0
2.5
2.9
2.5
3.6
3.2
2.7
3.0
2.5
2.8
3.2
3.0
3.8
2.6
2.2
3.2
2.8
2.8
2.7
3.3
3.2
2.8
3.0
2.8
3.0
2.8
3.8
2.8
2.8
2.6
3.0
3.4
3.1
3.0
3.1
3.1
3.1
2.7
3.2
3.3
3.0
2.5
3.0
3.4
3.0
X3
6.0
5.1
5.9
5.6
5.8
6.6
4.5
6.3
5.8
6.1
5.1
5.3
5.5
5.0
5.1
5.3
5.5
6.7
6.9
5.0
5.7
4.9
6.7
4.9
5.7
6.0
4.8
4.9
5.6
5.8
6.1
6.4
5.6
5.1
5.6
6.1
5.6
5.5
4.8
5.4
5.6
5.1
5.1
5.9
5.7
5.2
5.0
5.2
5.4
5.1
X4
2.5
1.9
2.1
1.8
2.2
2.1
1.7
1.8
1.8
2.5
2.0
1.9
2.1
2.0
2.4
2.3
1.8
2.2
2.3
1.5
2.3
2.0
2.0
1.8
2.1
1.8
1.8
1.8
2.1
1.6
1.9
2.0
2.2
1.5
1.4
2.3
2.4
1.8
1.8
2.1
2.4
2.3
1.9
2.3
2.5
2.3
1.9
2.0
2.3
1.8
Tabla 3.2: Longitud y anchura de spalos y ptalos de 3 especies del gnero

Iris: Setosa, Versicolor, Virginica.
3.7. COMPLEMENTOS
3.7
49
Complementos
C. Stein prob que la estimacin

= x de de la distribucin Np (, )
puede ser inadmisible si p 3, en el sentido de que no minimiza
p

(
i i )2 ,
i=1
y propuso una mejora de aquel estimador. B. Efron y C. Morris explicaron

esa peculiaridad desde una perspectiva bayesiana. S. M. Stigler di una
interesante explicacin en trminos de regresin, justificando porqu p 3
(consultar Cuadras, 1991).
El principio de unin interseccin es debido a S. N. Roy, pero no siempre
es aplicable. El test de mxima-verosimilitud es atribuido a S. Wilks y es
ms general. Es interesante notar que 2 log se puede interpretar como
una distancia de Mahalanobis. Otros tests semejantes fueron propuestos por
C. R. Rao y A. Wald. Consultar Cuadras y Fortiana (1993b), Rao (1973).
En general, es necesario corregir los tests multiplicando por una constante
a fin de conseguir tests insesgados (la potencia del test ser siempre ms
grande que el nivel de significacin). Por ejemplo, es necesario hacer la
modificacin de G. E. P. Box sobre el test de Bartlett para comparar matrices
de covarianzas (Seccin 7.5.2).
50
Captulo 4
ANALISIS DE
CORRELACION CANONICA
4.1
Introduccin
En este captulo estudiamos la relacin multivariante entre vectores aleatorios. Introducimos y estudiamos las correlaciones cannicas, que son generalizaciones de las correlaciones simple y mltiple.
Tenemos tres posibilidades para relacionar dos variables:
La correlacin simple si X, Y son dos v.a.
La correlacin mltiple si Y es una v.a. y X = (X1 , . . . , Xp ) es un
vector aleatorio.
La correlacin cannica si X = (X1 , . . . , Xp ) e Y = (Y1 , . . . , Yq ) son dos
vectores aleatorios.
4.2
Correlacin mltiple
Queremos relacionar una variable respuesta Y con p variables cuantitativas

explicativas X1 , . . . , Xp , que suponemos centradas. El modelo de regresin
mltiple consiste en encontrar la combinacin lineal
Y = 1 X1 + . . . + p Xp
51
52
CAPTULO 4. ANALISIS DE CORRELACION CANONICA
que mejor se ajuste a la variable Y. Sea la matriz de covarianzas de X y

= ( 1 , . . . , p ) el vector columna con las covarianzas j = cov(Y, Xj ), j =
1, . . . , p. El criterio de ajuste es el de los mnimos cuadrados.
= (
,...,
) que minimizan la cantiTheorem 4.2.1 Los coeficientes
1
p
2

dad E(Y Y ) verifican la ecuacin
Demost.:
= 1 .
(4.1)
() = E(Y Y )2
= E(Y )2 + E(Y )2 2E(Y Y )
= var(Y ) + 2
Derivando vectorialmente respecto de e igualando a 0
() = 2 2 = 0.
=
1 X1 + . . . +
p Xp . Si ponemos
La variable prediccin es Y = X
Y = Y + Y ,
entonces Y es la variable residual.

La correlacin mltiple entre Y y X1 , . . . , Xp es, por definicin, la cor Se indica por
relacin simple entre Y y la mejor prediccin Y = X.
Se verifica:
R = cor(Y, Y ).
1. 0 R 1.
2. R = 1 si Y es combinacin lineal de X1 , . . . , Xp .
3. R = 0 si Y est incorrelacionada con cada una de las variables Xi .
Theorem 4.2.2 La variable prediccin Y , residual Y y la correlacin mltiple R cumplen:
1. Y e Y son variables incorrelacionadas.
4.3. CORRELACIN CANNICA
53
2. var(Y ) =var(Y )+var(Y ).

3. R2 =var(Y )/var(Y ).
= . En efecto,
Demost.: 1) es consecuencia de
X (Y
X))
cov(Y , Y ) = E(Y Y ) = E(

= 0.
=
2) es consecuencia inmediata de 1). Finalmente, de
i Xi ) = p

cov(Y, Y ) = cov(Y, pi=1
i=1 i i = = = var(Y ),
obtenemos
R2 =
4.3
cov2 (Y, Y )
var(Y )
.
=
var(Y )
var(Y )var(Y )
(4.2)
Correlacin cannica
Sean X = (X1 , . . . , Xp ), Y = (Y1 , . . . , Yq ) dos vectores aleatorios de dimensiones p y q. Planteemos el problema de encontrar dos variables compuestas
U = Xa = a1 X1 + . . . + ap Xp , V = Yb = b1 Y1 + . . . + bp Yq ,
siendo a = (a1 , . . . , ap ) , b = (b1 , . . . , bp ) tales que la correlacin entre ambas
cor(U, V )
sea mxima. Indicamos por S11 , S22 las matrices de covarianzas (muestrales)
de las variables X, Y, respectivamente, y sea S12 la matriz p q con las
covarianzas de las variables X con las variables Y. Es decir:
X
Y
X
S11
S21
Y
S12
S22
donde S21 = S12 .

Podemos suponer
var(U) = a S11 a =1,
var(V ) = b S22 b =1.
54
As el problema se reduce a:
maximizar a S12 b restringido a a S11 a = b S22 b =1.
Los vectores de coeficientes a, b que cumplen esta condicin son los primeros
vectores cannicos. La mxima correlacin entre U, V es la primera correlacin cannica r1 .
Theorem 4.3.1 Los primeros vectores cannicos satisfacen las ecuaciones
S12 S1
22 S21 a = S11 a,
S21 S1
11 S12 b = S22 b.
(4.3)
Demost.: Consideremos la funcin
(a, b) = a S12 b (a S11 a1) (b S22 b1),

2
2
donde , son multiplicadores de Lagrange. Entonces de /a =/b = 0
obtenemos las dos ecuaciones
S12 bS11 a = 0,
S21 aS22 b = 0.
(4.4)
Multiplicando la primera por a y la segunda por b , tenemos

a S12 b =a S11 a,
b S21 a =b S22 b,
que implican = . As pues, de la segunda ecuacin en (4.4), b =1 S1

22 S21 a,
1
1
y substituyendo en la primera obtenemos S12 S22 S21 aS11 a = 0. Prescindiendo de 1 , pues es un factor multiplicativo arbitrario, y operando
anlogamente con la otra ecuacin, obtenemos (4.3).
Theorem 4.3.2 Los vectores cannicos normalizados por a S11 a = b S22 b =
1, estn relacionados por
a = 1/2 S1
11 S12 b,
b = 1/2 S1
22 S21 a,
y la primera correlacin cannica es r1 =
1
propio de S1
11 S12 S22 S21 .
1 , donde 1 es el primer valor
4.3. CORRELACIN CANNICA
55
Demost.: Tenemos de (4.4) que a =S1

11 S12 b, donde es una constante a
determinar. Partimos de que a S11 a =1 y para = 1/2 resulta que:

a S11 a = 1/2 a S11 S1
11 S12 b
1/2
=
a S12 b
= 1/2 1/2 a S12 S1
22 S21 a
1
= a S11 a
=1
La correlacin es r1 = a S12 b y como 1 = 1/2 a S12 b deducimos que r12 = 1 .
De hecho, las ecuaciones en valores y vectores propios tienen otras soluciones. Concretamente hay m = min{p, q} parejas de vectores cannicos
a1 , b1 , . . . , am , bm , que proporcionan las variables y correlaciones cannicas
U1 = Xa1 , V1 = Yb1 , r1 = cor(U1 , V1 ),
U2 = Xa2 , , V2 = Yb2 , r2 = cor(U2 , V2 ),
..
..
..
.
.
.
Um = Xam , Vm = Ybm , rm = cor(Um , Vm ).
Theorem 4.3.3 Supongamos r1 > r2 > . . . > rm . Entonces:
1. Tanto las variables cannicas U1 , . . . , Um como las variables cannicas
V1 , . . . , Vm estn incorrelacionadas.
2. La primera correlacin cannica r1 = cor(U1 , V1 ) es la mxima correlacin entre una combinacin lineal de X y una combinacin lineal
de Y.
3. La segunda correlacin cannica r2 = cor(U2 , V2 ) es la mxima correlacin entre las combinaciones lineales de X incorrelacionadas con
U1 y las combinaciones lineales de Y incorrelacionadas con V1 .
4. cor(Ui , Vj ) = 0 si i = j.
Demost.: Sea i = j. Expresando (4.3) para ak , k , k = i, j, y multiplicando
por aj y por ai tenemos que
aj S12 S1
22 S21 ai = i aj S11 ai ,
1
ai S12 S22 S21 aj = j ai S11 aj .
56
Restando: (i j )ai S11 aj = 0 ai S11 aj = 0 cor(Ui , Uj ) = 0.

Por otra parte, expresando (4.3) como
1
S1
11 S12 S22 S21 a = i ai ,
1
S1
22 S21 S11 S12 bj = j bj ,
y multiplicando por bj S21 y por ai S12 llegamos a

1
bj S21 S1
11 S12 S22 S21 ai = i bj S21 ai ,
1
1
ai S12 S22 S21 S11 S12 bj = j ai S12 bj .
Restando: (i j )ai S12 bj = 0 ai S12 bj = 0 cor(Ui , Vj ) = 0.
4.4
Correlacin cannica y descomposicin singular
Podemos formular una expresin conjunta para los vectores cannicos utilizando la descomposicin singular de una matriz. Supongamos p q, consideremos la matriz p q
1/2
1/2
Q = S11 S12 S22

y hallemos
Q = UV ,
la descomposicin singular de Q, donde U es una matriz p q con columnas

ortonormales, V es una matriz q q ortogonal, y es una matriz diagonal con los valores singulares de Q. Es decir, U U = Ip , V V = V V = Iq ,
=diag(1 , . . . , p ).
Theorem 4.4.1 Los vectores cannicos y correlaciones cannicas son
1/2
ai = S11 ui ,
Demost.:
1/2
1/2
bi = S22 vi ,
1/2 1/2
1/2
QQ = S11 S12 S22 S22 S21 S11

y por lo tanto
1/2
ri = i .
= U2 U
1/2
2
S11 S12 S1
22 S21 S11 ui = i ui
1/2
Multiplicando por S11
1/2
1/2
2
1
S1
11 S12 S22 S21 (S11 ui ) = i (S11 ui )
y comparando con resultados anteriores, queda probado el teorema.
4.5. SIGNIFICACIN DE LAS CORRELACIONES CANNICAS
4.5
57
Significacin de las correlaciones cannicas
Hemos encontrado las variables y correlaciones cannicas a partir de las matrices de covarianzas y correlaciones muestrales, es decir, a partir de muestras de tamao n. Naturalmente, todo lo que hemos dicho vale si sustituimos
S11 , S12 , S22 por las versiones poblacionales 11 , 12 , 22 . Sean
1 2 m
las m = min{p, q} correlaciones cannicas obtenidas a partir de 11 , 12 , 22 ,
soluciones de:
2
|12 1
22 21 11 | = 0.
Si queremos decidir cules son significativas, supongamos normalidad multivariante, indiquemos 0 = 1 y planteemos el test
H0k : k > k+1 = = m = 0,
(k = 0, 1, . . . , m),
que equivale a rang(1

22 21 ) = k. El test de Bartlett-Lawley demuestra que
si H0k es cierta, entonces
k
m

1
2
(1 ri2 )
Lk = [n 1 k (p + q + 1) +
ri ] log[
2
i=1
i=k+1
es asintticamente ji-cuadrado con (m k)(p k) g.l. Este test se aplica

secuencialmente: si Li es significativo para i = 0, 1, . . . , k 1, pero Lk no es
significativo, entonces se acepta H0k .
4.6
Test de independencia
Suponiendo normalidad, afirmar que X es independiente de Y consiste en

plantear
H0 : 12 = 0, H1 : 12 = 0.
Podemos resolver este test de hiptesis de dos maneras.
58
4.6.1
Razn de verosimilitud
Si la hiptesis es cierta, entonces el test de razn de verosimilitud (Seccin

3.5.1) se reduce al estadstico
=
|S|
|R|
=
,
|S11 ||S22 |
|R11 ||R22 |
que sigue la distribucin lambda de Wilks (p, n 1 q, q), equivalente a

(q, n 1 p, q). Rechazaremos H0 si es pequea y significativa (Mardia
et al. 1979, Rencher, 1998).
Es fcil probar que es funcin de las correlaciones cannicas
= |I
4.6.2
1
S1
22 S21 S11 S12 |
m

i=1
(1 ri2 ).
Principio de unin interseccin
Consideremos las variables U = a1 X1 + . . . + ap Xp ,V = b1 Y1 + . . . + bp Yq . La

correlacin entre U, V es
a12 12 b
(U, V ) =
a11 a b 22 b
H0 equivale a (U, V ) = 0 para todo U, V. La correlacin muestral es
a S12 b
r(U, V ) =
.
a S11 a b S22 b
Aplicando el principio de unin interseccin (Seccin 3.5.2), aceptaremos H0
si r(U, V ) no es significativa para todo U, V, y aceptaremos H1 si r(U, V ) es
significativa para algn par U, V. Este criterio nos lleva a estudiar la significacin de
r1 = max r(U, V )
U,V
es decir, de la primera correlacin cannica. Por tanto, el test es:

H0 : 1 = 0,
H1 : 1 > 0.
Existen tablas especiales para decidir si r1 es significativa (Morrison, 1976),

pero tambin se puede aplicar el estadstico L0 de Bartlett-Lawley.
4.7. UN EJEMPLO
4.7
59
Un ejemplo
Ejemplo 1. Se consideran n = 25 familias y las variables:

X1 = long. cabeza primer hijo, X2 = ancho cabeza primer hijo,
Y1 = long. cabeza segundo hijo, Y2 = ancho cabeza segundo hijo,
La matriz de correlaciones es:
1.0000
0.7346
R =
0.7108
0.7040
0.7346
1.0000
0.6932
0.8086
0.7108
0.6932
1.0000
0.8392
Entonces:
R11 =
R22 =
1.0000 0.7346
0.7346 1.0000
1.0000 0.8392
0.8392 1.0000
, R12 =
0.7040
0.8086
0.8392
1.0000
0.7108 0.7040
0.6932 0.8086
Las races de la ecuacin:

2
|R12 R1
22 R21 R11 | = 0.460363 0.287596 + 0.000830 = 0
son: 1 = 0.6218, 2 = 0.0029, y por tanto las correlaciones cannicas son:

r1 = 0.7885,
r2 = 0.0539.
Los vectores cannicos normalizados son:

a1 = (0.0566, 0.0707) , a2 = (0.1400, 0.1870) ,
b1 = (0.0502, 0.0802) , b2 = (0.1760, 0.2619) .
Las variables cannicas con variaza 1 son:
U1 = 0.0566X1 + 0.0707X2 , V1 = 0.0502Y1 + 0.0802Y2 , (r1 = 0.7885),
U2 = 0.1400X1 0.1870X2 , V2 = 0.1760Y1 0.2619Y2 , (r2 = 0.0539).
La dependencia entre (X1 , X2 ) y (Y1 , Y2 ) viene dada principalmente por la
relacin entre (U1 , V1 ) con correlacin 0.7885, ms alta que cualquier correlacin entre una variable Xi y una variable Yj . Podemos interpretar las
60
primeras variables cannicas como un factor de tamao de la cabeza y las

segundas como un factor de forma. Habra entonces una notable relacin
en el tamao y una escasa relacin en la forma de la cabeza.
El test de independencia entre (X1 , X2 ) y (Y1 , Y2 ) da
=
|R|
= 0.3771 (2, 22, 2)
|R11 ||R22 |
que, segn (2.8), transformamos con una F obteniendo 6.60 con 4 y 42 g.l.
Rechazamos la hiptesis de independencia.
La prueba de significacin de las correlaciones cannicas d:
H00 : 0 = 1 > 1 = 2 = 0,
H01 : 1 > 2 = 0,
L0 = 22.1 (4 g.l.),
L1 = 1.22 (2 g.l.).
Podemos rechazar H00 y aceptar H01 . Solamente la primera correlacin cannica

es significativa.
Ejemplo 2. Se consideran los resultados de unas elecciones celebradas en
las 41 comarcas catalanas y para cada comarca se tabulan los valores de las
siguientes variables:
X1 = log(porcentaje de votos a CU), X2 = log(porcentaje de votos a PSC),
X3 = log(porcentaje de votos a PP), X4 = log(porcentaje de votos a ERC),
Y1 = log(cociente Juan/Joan),
Y2 = log(cociente Juana/Joana),
donde cociente Juan/Joan significa el resultado de dividir el nmero de
hombres que se llaman Juan por el nmero de hombres que se llaman Joan.
Valores positivos de las variables Y1 , Y2 en una comarca indican predominio
de los nombres en castellano sobre los nombres en cataln.
La matriz de correlaciones es:
X1
X2
X3
X4
Y1
Y2
X1
X2
X3
X4
1 .8520 .6536 .5478
1
.5127 .7101
1 .6265
1
Y1
Y2
.6404 .5907
.7555
.6393
.5912
.5146
.7528 .7448
1
.8027
1
Slo hay 2 correlaciones cannicas:

r1 = 0.8377, r2 = 0.4125.
4.8. COMPLEMENTOS
61
Las variables cannicas son:

U1 =
V1 =
U2 =
V2 =
+0.083X1 0.372X2 0.1130X3 + 0.555X4 ,

(r1 = 0.8377),
+0.706Y1 + 0.339Y2 ,
+1.928X1 + 2.4031.546X2 + 1.127X3 + 1.546X4 , (r2 = 0.4125).
+1.521Y1 1.642Y2 ,
Las primeras variables cannicas U1 , V1 , que podemos escribir convencionalmente como

U1 = +0.083CU 0.372PSC 0.1130PP + 0.555ERC,
V1 = +0.706(Juan/Joan) + 0.339(Juana/Joanna),
nos indican que las regione ms catalanas, en el sentido de que los nombres
castellanos Juan y Juana no predominan tanto sobre los catalanes Joan y
Joanna, tienden a votar ms a CU y ERC, que son partidos ms nacionalistas. Las regiones que votan ms al PSC y al PP, que son partidos ms
centralistas, estn en general, ms castellanizadas. Las segundas variables
cannicas tienen una interpretacin ms dificil.
4.8
Complementos
El anlisis de correlacin cannica (ACC) fu introducido por H. Hotelling en

1935, que buscaba la relacin entre tests mentales y medidas biomtricas, a fin
de estudiar el nmero y la naturaleza de las relaciones entre mente y cuerpo,
que con un anlisis de todas las correlaciones sera difcil de interpretar. Es
un mtodo de aplicacin limitada, pero de gran inters terico puesto que
diversos mtodos de AM se derivan del ACC.
Aplicaciones a la psicologa se pueden encontrar en Cooley y Lohnes
(1971), Cuadras y Snchez (1975). En ecologa se ha aplicado como un
modelo para estudiar la relacin entre presencia de especies y variables ambientales (Gittings, 1985).
La distribucin de las correlaciones cannicas es bastante complicada.
Solamente se conocen resultados asintticos (Muirhead, 1982).
Si f(x, y) es la densidad de dos v.a. X, Y , tiene inters en estadstica el
concepto de mxima correlacin (propuesto por H. Gabelein) que se define
como
1 = sup cor((X), (Y )),
,
62
donde (X), (Y ) son funciones con varianza finita. Entonces 1 = 0 si X, Y

son variables independientes. Podemos ver a 1 como la primera correlacin
cannica, 1 (X), 1 (Y ) como las primeras variables cannicas y definir las
sucesivas correlaciones cannicas. Sin embargo el clculo de 1 puede ser
complicado (Cuadras, 2002a). Lancaster (1969) estudia estas correlaciones
y demuestra que f (x, y) se puede desarrollar en serie a partir de las correlaciones y funciones cannicas. Diversos autores han estudiado la estimacin de
las primeras funciones cannicas, como una forma de predecir una variable en
funcin de la otra (Hastie y Tibshirani, 1990). Finalmente cabe destacar que
las correlaciones cannicas pueden constituir un conjunto contnuo (Cuadras,
2005).
Captulo 5
ANALISIS DE
COMPONENTES
PRINCIPALES
5.1
Definicin y obtencin de las componentes

principales
Sea X =[X1 , . . . , Xp ] una matriz de datos multivariantes. Lo que sigue tambin vale si X es un vector formado por p variables observables.
Las componentes principales son unas variables compuestas incorrelacionadas tales que unas pocas explican la mayor parte de la variabilidad
de X.
Definition 5.1.1 Las componentes principales son las variables compuestas
Y1 = Xt1 , Y2 = Xt2 , . . . , Yp = Xtp
tales que:
1. var(Y1 ) es mxima condicionado a t1 t1 = 1.
2. Entre todas las variables compuestas Y tales que cov(Y1 , Y ) = 0, la
variable Y2 es tal que var(Y2 ) es mxima condicionado a t2 t2 = 1.
3. Y3 es una variable incorrelacionada con Y1 , Y2 con varianza mxima.
Anlogamente definimos las dems componentes principales.
63
64
CAPTULO 5. ANALISIS DE COMPONENTES PRINCIPALES
Si T = [t1 , t2 , . . . , tp ] es la matriz p p cuyas columnas son los vectores

que definen las componentes principales, entonces la transformacin lineal
XY
Y = XT
(5.1)
se llama transformacin por componentes principales.
Theorem 5.1.1 Sean t1 , t2 , . . . , tp los p vectores propios normalizados de la
matriz de covarianzas S, es decir,
Sti = i ti ,
ti ti = 1,
i = 1, . . . , p.
Entonces:
1. Las variables compuestas Yi = Xti , i = 1, . . . , p, son las componentes
principales.
2. Las varianzas son los valores propios de S
var(Yi ) = i ,
i = 1, . . . , p.
3. Las componentes principales son variables incorrelacionadas:

cov(Yi , Yj ) = 0,
i = j = 1, . . . , p.
Demost.: Supongamos 1 > > p > 0. Probemos que las variables Yi =

Xti , i = 1, . . . , p, son incorrelacionadas:
cov(Yi , Yj ) = ti Stj = ti j tj = j ti tj ,
cov(Yj , Yi ) = tj Sti = tj j ti = i tj ti ,
(j i )ti tj = 0, ti tj = 0, cov(Yi , Yj ) = j ti tj = 0, si i = j.
Adems:
var(Yi ) = i ti tj = i .
p
p
Sea
Y =
i=1 ai Xi =
i=1 i Yi una variable compuesta tal que
p ahora
2
i=1 i = 1. Entonces
p
p
p
p

2
2
var(Y ) = var(
i Yi ) =
i var(Yi ) =
i i (
2i )1 = var(Y1 ),
i=1
i=1
i=1
i=1
5.2. VARIABILIDAD EXPLICADA POR LAS COMPONENTES PRINCIPALES65

que prueba que Y1 tiene varianza mxima.
Consideremos ahora las variables Y incorrelacionadas con Y1 . Las podemos
expresar como:
Y =
p

i=1
bi Xi =
p

i Yi condicionado a
i=2
p

2i = 1.
i=2
Entonces:
p
p
p
p

2
2
var(Y ) = var(
i Yi ) =
i var(Yi ) =
i i (
2i )2 = var(Y2 ),
i=2
i=2
i=2
i=2
y por lo tanto Y2 est incorrelacionada con Y1 y tiene varianza mxima. Si p

3, la demostracin de que Y3 , . . . , Yp son tambin componentes principales es
anloga.
5.2
Variabilidad explicada por las componentes

principales
La varianzade la componente principal Yi es var(Yi ) = i y la variacin total

es tr(S) = pi=1 i . Por lo tanto:
1. Yi contribuye con la cantidad i a la variacin total tr(S).

2. Si q < p, Y1 , . . . , Yq contribuyen con la cantidad qi=1 i a la variacin
total tr(S).
3. El porcentaje de variabilidad explicada por las m primeras componentes

principales es
1 + + m
Pm = 100
.
(5.2)
1 + + p
En las aplicaciones cabe esperar que las primeras componentes expliquen
un elevado porcentaje de la variabilidad total. Por ejemplo, si m = 2 < p, y
P2 = 90%, las dos primeras componentes explican una gran parte de la variabilidad de las variables. Entonces podremos sustituir X1 , X2 , . . . , Xp por las
componentes principales Y1 , Y2 . En muchas aplicaciones, tales componentes
tienen interpretacin experimental.
66
5.3
Representacin de una matriz de datos
Sea X =[X1 , . . . , Xp ] una matriz n p de datos multivariantes. Queremos

representar, en un espacio de dimensin reducida m (por ejemplo, m = 2), las
filas x1 , x2 , . . . , xn de X. Necesitamos introducir una distancia (ver Seccin
1.9).
Definition 5.3.1 La distancia eucldea (al cuadrado) entre dos filas de X
xi = (xi1 , . . . , xip ),
es
2ij
xj = (xj1 , . . . , xjp ),
p

= (xi xj ) (xi xj ) =
(xih xjh )2 .
h=1
La matriz = ( ij ) es la matriz n n de distancias entre las filas.

Podemos representar las n filas de X como n puntos en el espacio Rp
distanciados de acuerdo con la mtrica ij . Pero si p es grande, esta representacin no se puede visualizar. Necesitamos reducir la dimensin.
Definition 5.3.2 La variabilidad geomtrica de la matriz de distancias
es la media de sus elementos al cuadrado
n
1 2
V (X) = 2
.
2n i,j=1 ij
Si Y = XT es una transformacin lineal de X, donde T es una matriz p q

de constantes,
2ij (q)
q

= (yi yj ) (yi yj ) =
(yih yjh )2
h=1
es la distancia eucldea entre dos filas de Y. La variabilidad geomtrica en

dimensin q p es
n
1 2
(q).
V (Y)q = 2
2n i,j=1 ij
5.3. REPRESENTACIN DE UNA MATRIZ DE DATOS
67
Theorem 5.3.1 La variabilidad geomtrica de la distancia eucldea es la

traza de la matriz de covarianzas
V (X) =tr(S) =
p

h .
h=1
Demost.: Si x1 , . . . , xn es una muestra univariante con varianza s2 , entonces

n
1
(xi xj )2 = s2 .
2
2n i,j=1
(5.3)
En efecto, si x es la media
1
n2
n
i,j=1 (xi
n
(xi x (xj x))2
i,j=1

n
(xi x)2 + n12 ni,j=1 (xj x)2
i,j=1

+ n22 ni,j=1 (xi x)(xj x))2
= n1 ns2 + n1 ns2 + 0 = 2s2 .
xj )2 =
=
1
n2
1
n2
Aplicando (5.3) a cada columna de X y sumando obtenemos

V (X) =
p

sjj = tr(S).
j=1
Una buena representacin en dimensin reducida q (por ejemplo, q =

2) ser aquella que tenga mxima variabilidad geomtrica, a fin de que los
puntos estn lo ms separados posible.
Theorem 5.3.2 La transformacin lineal T que maximiza la variabilidad
geomtrica en dimensin q es la transformacin por componentes principales
(5.1), es decir, T = [t1 , . . . , tq ] contiene los q primeros vectores propios normalizados de S.
Demost.: Aplicando (5.3), la variabilidad geomtrica de Y = XT, donde T
es cualquiera, es
p
p

tj Stj ,
V (Y)q =
s2 (Yj ) =
j=1
j=1
68
siendo s2 (Yj ) = tj Stj la varianza de la variable compuesta Yj . Alcanzamos la

mxima varianza cuando Yj es una componente principal: s2 (Yj ) j . As:
max V (Y)q =
p

j .
j=1
El porcentaje de variabilidad geomtrica explicada por Y es

Pq = 100
V (Y)q
1 + + q
= 100
.
V (X)p
1 + + p
Supongamos ahora q = 2. Si aplicamos la transformacin (5.1), la matriz

de datos X se reduce a
y11 y12
..
..
.
.
Y = yi1 yi2 .
.
..
..
.
yn1 yn2
Entonces, representando los puntos de coordenadas (yi1 , yi2 ), i = 1, . . . , n,

obtenemos una representacin ptima en dimensin 2 de las filas de X.
5.4
Inferencia
Hemos planteado el ACP sobre la matriz S, pero lo podemos tambin plantear

sobre la matriz de covarianzas poblacionales . Las componentes principales
obtenidas sobre S son, en realidad, estimaciones de las componentes principales sobre .
Sea X matriz de datos n p donde las filas son independientes con distribucin Np (, ). Recordemos que:
1. x es Np (, /n).
2. U =nS es Wishart Wp (, n 1).
5.4. INFERENCIA
69
Sea = la diagonalizacin de . Indiquemos

= [ 1 , . . . , p ],
= [1 , . . . , p ],
= diag(1 , . . . , p ),
los vectores propios y valores propios de . Por otra parte, sea S = GLG la
diagonalizacin de S. Indiquemos:
G = [g1 , . . . , gp ],
L = diag(l1 , . . . , lp )
l = [l1 , . . . , lp ],
los vectores propios y valores propios de S. A partir de ahora supondremos

1 . . . p .
5.4.1
Estimacin y distribucin asinttica
Theorem 5.4.1 Se verifica:

1. Si los valores propios son diferentes, los valores y vectores propios
obtenidos a partir de S son estimadores mximo-verosmiles de los
obtenidos a partir de

i = li ,
i = gi
, i = 1, . . . , p.
2. Cuando k > 1 valores propios son iguales a

1 > . . . > pk = pk+1 = . . . = p = ,
el estimador mximo verosmil de es la media de los correspondientes
valores propios de S

= (lpk+1 + . . . + lp )/k
Demost.: Los valores y vectores propios estn biunvocamente relacionados

con y por lo tanto 1) es consecuencia de la propiedad de invariancia de
la estimacin mximo verosmil. La demostracin de 2) se encuentra en
Anderson (1959).
Theorem 5.4.2 Los vectores propios [g1 , . . . , gp ] y valores propios l = [l1 , . . . , lp ]
verifican asintticamente:
70

1. l es Np (, 22 /n). En particular:
li
es N (i , 22i /n),
cov(li , lj ) = 0,
i = j,
es decir, li , lj son normales e independientes.

2. gi es Np ( i , Vi /n) donde
Vi = i

j=i
i

(i j )2 i i
3. l es independiente de G.
Demost.: Anderson (1959), Mardia, Kent y Bibby (1979).
Como consecuencia de que li es N (i , 22i /n), obtenemos el intervalo de
confianza asinttico con coeficiente de confianza 1
li
li
< i <
1/2
(1 + az/2 )
(1 az/2 )1/2
siendo a2 = 2/(n 1) y P (|Z| > z/2 ) = /2, donde Z es N(0, 1).

Se obtiene otro intervalo de confianza como consecuencia de que log li es
N(log i , 2/(n 1))
li eaz/2 < i < li e+az/2 .
5.4.2
Tests de hiptesis
Determinados tests de hiptesis relativos a las componentes principales son

casos particulares de un test sobre la estructura de la matriz .
A. Supongamos que queremos decidir si la matriz es igual a una matriz
determinada 0 . Sea X un matriz n p con filas independientes Np (, ).
El test es:
H0 : = 0 ( desconocida)
Si L es la verosimilitud de la muestra, el mximo de log L bajo Ho es
n
n
log L0 = log |20 | tr(1
0 S).
2
2
El mximo no restringido es
n
n
log L = log |2S| p.
2
2
5.4. INFERENCIA
71
El estadstico basado en la razn de verosimilitud R es

2 log R = 2(log L log L0 )
1
= ntra(1
0 S)n log |0 S| np.
(5.4)
Si L1 , . . . , Lp son los valores propios de 1

0 S y a, g son las medias aritmtica
y geomtrica
a = (L1 + . . . + Lp )/p,
g = (L1 . . . Lp )1/p ,
(5.5)
entonces, asintticamente
2 log R = np(a log g 1) 2q ,
(5.6)
siendo q = p(p + 1)/2par(0 ) el nmero de parmetros libres de menos

el nmero de parmetros libres de 0 .
B. Test de independencia completa.
Si la hiptesis nula afirma que las p variables son estocsticamente independientes, el test se formula como
H0 : = d = diag( 11 , , pp ) ( desconocida).
Bajo H0 la estimacin de d es Sd =diag(s11 , , spp ) y S1
d S = R es la matriz de correlaciones. De (5.4) y de log |2Sd |log |2S| = log |R|, tra(R) =p,
obtenemos
2 log R = n log |R| 2q
siendo q = p(p + 1)/2 p = p(p 1)/2. Si el estadstico n log |R| no es significativo, entonces podemos aceptar que las variables son incorrelacionadas
y por lo tanto, como hay normalidad multivariante, independientes.
C. Test de igualdad de valores propios.
Este es un test importante en ACP. La hiptesis nula es
H0 : 1 > . . . > pk = pk+1 = . . . = p = .
Indicamos los valores propios de S y de S0 (estimacin de si H0 es cierta)

S (l1 , . . . , lk , lk+1 , . . . , lp ),
S0 (l1 , . . . , lk , a0 , . . . , a0 ),
donde a0 = (lk+1 + . . . + lp )/(p k) (Teorema 5.4.1). Entonces

S1
0 S (1, . . . , 1, lk+1 /a0 , . . . , lp /a0 ),
72

lam
50
37.5
25
12.5
5
k
Figura 5.1: Ejemplo de representacin de los valores propios, que indicara 3

componentes principales.
(kp)/p
las medias (5.5) son a = 1 y g = (lk+1 . . . lp )1/p a0
2 log R = n(p k) log(lk+1 + . . . + lp )/(p k) n(
p

i=k+1
y aplicando (5.6)
log li ) 2q , (5.7)
donde q = (p k)(p k + 1)/2 1.
5.5
Nmero de componentes principales
En esta seccin presentamos algunos criterios para determinar el nmero

m < p de componentes principales.
5.5.1
Criterio del porcentaje
El nmero m de componentes principales se toma de modo que Pm sea prximo a un valor especificado por el usuario, por ejemplo el 80%. Por otra
parte, si la representacin de P1 , P2 , . . . , Pk , . . . con respecto de k prcticamente se estabiliza a partir de un cierto m, entonces aumentar la dimensin
apenas aporta ms variabilidad explicada.
5.5. NMERO DE COMPONENTES PRINCIPALES
5.5.2
73
Criterio de Kaiser
Obtener las componentes principales a partir de la matriz de correlaciones

R equivale a suponer que las variables observables tengan varianza 1. Por
lo tanto una componente principal con varianza inferior a 1 explica menos
variabilidad que una variable observable. El criterio, llamado de Kaiser, es
entonces:
Retenemos las m primeras componentes tales que m 1,
donde 1 . . . p son los valores propios de R, que tambin son las
varianzas de las componentes. Estudios de Montecarlo prueban que es ms
correcto el punto de corte = 0.7, que es ms pequeo que 1.
Este criterio se puede extender a la matriz de covarianzas. Por ejemplo,
m podra ser tal que m v, donde v =tra(S)/p es la media de las varianzas.
Tambin es aconsejable considerar el punto de corte 0.7 v.
5.5.3
Test de esfericidad
Supongamos que la matriz de datos proviene de una poblacin normal multivariante Np (, ). Si la hiptesis
(m)
H0
: 1 > . . . > m > m+1 = . . . = p
es cierta, no tiene sentido considerar ms de m componentes principales. En

efecto, no hay direcciones de mxima variabilidad a partir de m, es decir,
(m)
la distribucin de los datos es esfrica. El test para decidir sobre H0 est
basado en el estadstico ji-cuadrado (5.7) y se aplica secuencialmente: Si
(0)
(0)
aceptamos H0 no hay direcciones principales, pero si rechazamos H0 , entonces repetimos el test con H0(1) . Si aceptamos H0(1) entonces m = 1, pero si
(1)
(2)
rechazamos H0 repetimos el test con H0 , y as sucesivamente. Por ejem(0)
(1)
plo, si p = 4, tendramos que m = 2 si rechazamos H0 , H0 y aceptamos
(2)
H0 : 1 > 2 > 3 = 4 .
5.5.4
Criterio del bastn roto
Los valores propios suman Vt =tr(S), que es la variabilidad total. Imaginemos

un bastn de longitud Vt , que rompemos en p trozos al azar (asignando p 1
puntos uniformemente sobre el intervalo (0, Vt )) y que los trozos ordenados
74
son los valores propios l1 > l2 > . . . > lp . Si normalizamos a Vt = 100,

entonces el valor esperado de lj es
pj
1 1
E(Lj ) = 100
.
p i=1 j + i
Las m primeras componentes son significativas si el porcentaje de varianza
explicada supera claramente el valor de E(L1 ) + . . . + E(Lm ). Por ejemplo,
si p = 4, los valores son:
Porcentaje E(L1 ) E(L2 ) E(L3 ) E(L4 )
Esperado
52.08 27.08 14.58 6.25
Acumulado 52.08 79.16 93.74 100
Si V2 = 93.92 pero V3 = 97.15, entonces tomaremos slo dos componentes.
5.5.5
Un ejemplo
Example 5.5.1
Sobre una muestra de n = 100 estudiantes de Bioestadstica, se midieron
las variables
X1 = peso (kg), X2 =talla (cm.), X3 =ancho hombros (cm.), X4 = ancho
caderas (cm.),
con los siguientes resultados:
1. medias: x1 = 54.25, x2 = 161.73, x3 = 36.53, x4 = 30.1.
2. matriz de covarianzas:
44.7
17.79
S =
5.99
9.19
17.79
26.15
4.52
4.44
5.99
4.52
3.33
1.34
9.19
4.44
1.34
4.56
5.5. NMERO DE COMPONENTES PRINCIPALES
75
3. vectores y valores propios (columnas):

t1
t2
t3
t4
. 8328 . 5095
. 1882
. 1063
. 5029 . 8552 .0 202
. 1232
. 1362 .05 88 . 1114 . 9826
.1867 .0738 .9755 .0892
Val. prop. 58.49 15.47
2.54
2.24
Porc. acum. 74.27 93.92
97.15
100
4. Nmero de componentes:
a. Criterio de Kaiser: la media de las varianzas es v =tr(S)/p =
19.68. Los dos primeros valores propios son 58.49 y 15.47, que son
mayores que 0.7 v. Aceptamos m = 2.
b. Test de esfericidad.
m
2 g.l.
0 333.9 9
1 123.8 5
2 0.39 2
Rechazamos m = 0, m = 1 y aceptamos m = 2.
c. Test del bastn roto: Puesto que P2 = 93.92 supera claramente el
valor esperado 79.16 y que no ocurre lo mismo con P3 , aceptamos
m = 2.
5. Componentes principales:
Y1 = . 8328X1 + . 5029X2 + . 1362X3 + . 1867X4 ,
Y2 = . 5095X1 . 8552X2 .05 88X3 + .0738X4 .
6. Interpretacin: la primera componente es la variable con mxima varianza y tiene todos sus coeficientes positivos. La interpretamos como
una componente de tamao. La segunda componente tiene coeficientes
positivos en la primera y cuarta variable y negativos en las otras dos.
La interpretamos como una componente de forma. La primera componente ordena las estudiantes segn su tamao, de la ms pequea
a la ms grande, y la segunda segn la forma, el tipo pcnico en contraste con el tipo atltico. Las dimensiones de tamao y forma estn
incorrelacionadas.
76
5.6
Complementos
El Anlisis de Componentes Principales (ACP) fu iniciado por K. Pearson en

1901 y desarrollado por H. Hotelling en 1933. Es un mtodo referente a una
poblacin, pero W. Krzanowski y B. Flury han investigado las componentes
principales comunes a varias poblaciones.
El ACP tiene muchas aplicaciones. Una aplicacin clsica es el estudio
de P. Jolicoeur y J. E. Mosimann sobre tamao y forma de animales, en
trminos de la primera, segunda y siguientes componentes principales. La
primera componente permite ordenar los animales de ms pequeos a ms
grandes, y la segunda permite estudiar su variabilidad en cuanto a la forma.
Ntese que tamao y forma son conceptos independientes.
El ACP puede servir para estudiar la capacidad. Supongamos que la
caparazn de una tortuga tiene longitud L, ancho A, y alto H. La capacidad
sera C = L A H , donde , , son parmetros. Aplicando logaritmos,
obtenemos
log C = log L + log A + log H = log(L A H ),
que podemos interpretar como la primera componente principal Y1 de las
variables log L, log A, log H, y por tanto , , seran los coeficientes de Y1 .
Por medio del ACP es posible efectuar una regresin mltiple de Y sobre X1 , . . . , Xp , considerando las primeras componentes principales Y1 , Y2 , . . .
como variables explicativas, y realizar regresin de Y sobre Y1 , Y2 , . . . , evitando as efectos de colinealidad, aunque las ltimas componentes principales tambin pueden influir (Cuadras, 1993). La regresin ortogonal es
una variante interesante. Supongamos que se quieren relacionar las variables
X1 , . . . , Xp (todas con media 0), en el sentido de encontrar los coeficientes
1 , . . . , p tales que 1 X1 + . . . + p Xp
= 0. Se puede plantear el problema
como var( 1 X1 + . . . + p Xp ) =mnima, condicionado a 21 + . . . + 2p = 1.
Es fcil ver que la solucin es la ltima componente principal Yp .
Se pueden definir las componentes principales de un proceso estocstico
y de una variable aleatoria. Cuadras y Fortiana (1995), Cuadras y Lahlou
(2000) han estudiado las componentes principales de las variables uniforme,
exponencial y logstica.
Captulo 6
ANLISIS FACTORIAL
6.1
Introduccin
El Anlisis Factorial (AF) es un mtodo multivariante que pretende expresar

p variables observables como una combinacin lineal de m variables hipotticas o latentes, denominadas factores. Tiene una formulacin parecida al
Anlisis de Componentes Principales, pero el modelo que relaciona variables
y factores es diferente en AF. Si la matriz de correlaciones existe, las componentes principales tambin existen, mientras que el modelo factorial podra
ser aceptado o no mediante un test estadstico.
Ejemplos en los que la variabilidad de las variables observables se puede
resumir mediante unas variables latentes, que el AF identifica como factores, son:
1. La teoria clsica de la inteligencia supona que los tests de inteligencia estaban relacionados por un factor general, llamado factor g de
Spearman.
2. La estructura de la personalidad, tambin medida a partir de los tests,
est dominada por dos dimensiones: el factor neuroticismo-estabilidad
y el factor introversin-extroversin.
3. Las diferentes caractersticas polticas de ciertos pases estn influidas
por dos dimensiones: izquierda-derecha y centralismo-nacionalismo.
El AF obtiene e interpreta los factores comunes a partir de la matriz de
77
78
CAPTULO 6. ANLISIS FACTORIAL
correlaciones entre las variables:
1 r12
r21 1
R =
...
rp1 rp2
6.2
r1p
r2p
.
...
1
El modelo unifactorial
Consideremos X1 , . . . , Xp variables observables sobre una misma poblacin.

El modelo ms simple de AF slo contempla un factor comn F, que recoge
la covariabilidad de todas las variables, y p factores nicos U1 , . . . , Up , uno
para cada variable. El modelo factorial es
Xi = ai F + di Ui ,
i = 1, . . . , p.
(6.1)
De acuerdo con este modelo, cada variable Xi depende del factor comn
F y de un factor nico Ui . El modelo supone que:
a) las variables y los factores estn estandarizados (media 0 y varianza
1).
b) Los p + 1 factores estn incorrelacionados.
De este modo F contiene la parte de la variabilidad comn a todas las
variables, y cada Xi est adems influida por un factor nico Ui , que aporta
la parte de la variabilidad que no podemos explicar a partir del factor comn.
El coeficiente ai es la saturacin de la variable Xi en el factor F.
De (6.1) deducimos inmediatamente que
a2i + d2i
= 1,
cor(Xi , F ) = ai ,
cor(Xi , Xj ) = ai aj ,
i = j.
Por lo tanto la saturacin ai es el coeficiente de correlacin entre Xi y el factor

comn. Por otra parte a2i , cantidad que recibe el nombre de comunalidad,
indicada por h2i , es la proporcin de variabilidad que se explica por F y la
correlacin entre Xi , Xj slo depende de las saturaciones ai , aj .
Una caracteritzacin del modelo unifactorial es
rij
rij
ai
=
= ,
ri j
ri j
ai
(6.2)
6.2. EL MODELO UNIFACTORIAL
79
es decir, los cocientes entre elementos de la misma columna no diagonal de

dos filas de la matriz de correlaciones R es constante. Esto es equivalente a
decir que el determinante de todo menor de orden dos de R, que no contenga
elementos de la diagonal, es cero:

rij rij

(6.3)
ri j ri j = rij ri j rij ri j = ai aj ai aj ai aj ai aj = 0.
Estas son las llamadas relaciones tetrdicas, que necesariamente se deben

cumplir para que sea vlido el modelo unifactorial.
La matriz de correlacions reducida R se obtiene substituyendo la diagonal de unos por las comunalidades (vase (6.7)). Es inmediato probar que R
tiene rango 1, que todos los menores de orden dos se anulan y que las comunalidades se obtienen a partir de las correlaciones. Por ejemplo, la primera
comunalidad es
r12 r14
r1p1 r1p
r12 r13
=
= =
.
(6.4)
h21 =
r23
r24
rpp1
En las aplicaciones reales, tanto estas relaciones, com las tetrdicas, slo se
verifican aproximadamente. As, la estimacin de la primera comunalidad
podra consistir en tomar la media de los cocientes (6.4).
Por ejemplo, la siguiente matriz de correlaciones
C
C 1.00
F 0.83
I 0.78
M 0.70
D 0.66
Mu 0.63
F
0.83
1.00
0.67
0.67
0.65
0.57
I
0.78
0.67
1.00
0.64
0.54
0.51
M
0.70
0.67
0.64
1.00
0.45
0.51
D
0.66
0.65
0.54
0.45
1.00
0.40
Mu
0.63
0.57
0.51
0.51
0.40
1.00
relaciona las calificaciones en C (clsicas), F (francs), I (ingls), M (matemticas), D (discriminacin de tonos) y Mu (msica) obtenidas por los alumnos
de una escuela. Esta matriz verifica, aproximadamente, las relaciones (6.2).
Si consideramos la primera y la tercera fila, tenemos que:
0.83 0.70 0.66 0.63
=
=
=
= 1.2 .
0.67
0.64
0.54
0.51
De acuerdo con el modelo unifactorial, estas calificaciones dependen esencialmente de un factor comn.
80
6.3
6.3.1
El modelo multifactorial
El modelo
El modelo del anlisis factorial de m factores comunes considera que las p

variables observables X1 , . . . , Xp dependen de m variables latentes F1 , . . . , Fm ,
lamadas factores comunes, y p factores nicos U1 , . . . , Up , de acuerdo con el
modelo lineal:
X1 = a11 F1 + + a1m Fm +d1 U1
X2 = a21 F1 + + a2m Fm
+d2 U2
Xp = ap1 F1 + + a1p Fm
+dp Up .
(6.5)
Las hiptesis del modelo son:

1. Los factores comunes y los factores nicos estn incorrelacionados dos
a dos
cor(Fi , Fj ) = 0, i = j = 1, . . . , m,
cor(Ui , Uj ) = 0,
i = j = 1, . . . , p.
2. Los factores comunes estn incorrelacionados con los factores nicos

cor(Fi , Uj ) = 0,
i = 1, . . . , m, j = 1, . . . , p.
3. Tanto los factores comunes como los factores nicos sn variables reducidas.
En el modelo factorial (6.5) se admite que las variables, en conjunto,
dependen de los factores comunes, salvo una parte de su variabilidad, slo
explicada por el correspondiente factor especfico. Los factores comunes representan dimensiones independentes en el sentido lineal, y dado que tanto
los factores comunes como los nicos son variables convencionales, podemos
suponer que tienen media 0 y varianza 1.
6.3. EL MODELO MULTIFACTORIAL
6.3.2
81
La matriz factorial
Los coeficientes aij son las saturaciones entre cada variable Xi y el factor Fj .
La matriz p m que contiene estos coeficientes es la matriz factorial
a11 a1m
a21 a2m
.
A =
ap1 apm
Si indicamos por X = (X1 , . . . , Xp ) el vector columna de las variables,

y anlogamente F = (F1 , . . . , Fm ) , U =(U1 , . . . , Up ) , el modelo factorial en
expresin matricial es
X = AF + DU,
(6.6)
donde D =diag(d1 , . . . , dp ) es la matriz diagonal con las saturaciones entre
variables y factores nicos. El AF tiene como principal objetivo encontrar e
interpretar la matriz factorial A.
6.3.3
Las comunalidades
De las condiciones del modelo del AF se verifica

var(Xi ) = a2i1 + + a2im + d2i ,
y por lo tanto a2ij es la parte de la variabilidad de la variable Xi que es debida
al factor comn Fj , mientras que d2i es la parte de la variabilidad explicada
exclusivamente por el factor nico Ui .
La cantidad
h2i = a2i1 + + a2im
(6.7)
se llama comunalidad de la variable Xi . La cantidad d2i es la unicidad. Luego,

para cada variable tenemos que:
variabilidad = comunalidad + unicidad.
La comunalidad es la parte de la variabilidad de las variables slo explicada

por los factores comunes.
Si supoemos que las variables observables son tambin reducidas, entonces
tenemos que
1 = h2i + d2i .
(6.8)
82
La matriz de correlaciones reducida se obtiene a partir de R substituyendo

los unos de la diagonal por las comunalidades
2
h1 r12 r1p
r21 h22 r2p
.
R =
... ...
rp1 rp2 h2p
Evidentmente se verifica
R = R + D2 .
6.3.4
(6.9)
Nmero mximo de factores comunes
El nmero m de factores comunes est limitado por un valor mximo ma ,

que podemos determinar teniendo en cuenta que hay p(p 1)/2 correlaciones
diferentes y p m saturaciones. Pero si A es matriz factorial tambin lo es
AT, donde T es matriz ortogonal, por tanto introduciremos m(m 1)/2
restricciones y el nmero de parmetros libres de A ser p m m(m 1)/2.
El nmero de correlaciones menos el nmero de parmetros libres es
1
d = p(p 1)/2 (p m m(m 1)/2) = [(p m)2 p m].
2
(6.10)
Si igualamos d a 0 obtenemos una ecuacin de segundo grado que un vez

resuelta nos prueba que

1
m ma = (2p + 1 8p + 1).
2
Un modelo factorial es sobredeterminado si m > ma , pues hay ms saturaciones libres que correlaciones. Si m = ma el modelo es determinado y
podemos encontrar A algebraicamente a partir de R.
Desde un punto de vista estadstico, el caso ms interesante es m < ma ,
ya que entonces podemos plantear la estimacin estadstica de A, donde
d > 0 juega el papel de nmero de grados de libertad del modelo. El nmero
mximo m de factores comunes en funcin de p es:
p 2 3 4 5 6 7 8 9 10 20 30 40
m 0 1 1 2 3 3 4 5 6 14 22 31
Asignamos a m el valor entero por defecto cuando ma tiene parte fraccionaria.
6.3. EL MODELO MULTIFACTORIAL
6.3.5
83
El caso de Heywood
Una limitacin del model factorial es que alguna comunalidad puede alcanzar
(algebraicamente) un valor superior a 1, contradiciendo (6.8). Cuando esto
ocurre, la soluci se ha de interpretar con precaucin. En algunos mtodos,
como el de la mxima verosimilitud, se resuelve este inconveniente (primeramente observado por H.B. Heywood) imponiendo la condicin h2i 1 en la
estimacin de las comunalidades.
6.3.6
Un ejemplo
Las asignaturas clsicas de la enseanza media, se dividen, en lneas generales, en asignaturas de Ciencias o de Letras, las primeras con contenido ms
racional y emprico, las segundas con contenido ms humanstico y artstico.
Consideremos las siguientes 5 asignaturas:
Ciencias Naturales (CNa), Matemticas (Mat), Francs (Fra), Latn (Lat),
Literatura (Lit). Supongamos que estn influidas por dos factores comunes o
variables latentes: Ciencias (C) y Letras (L). En otras palabras, suponemos
que C y L son dos variables no observables, que de manera latente influyen
sobre las cinco asignaturas. Las calificaciones de n = 20 alumnos en las
asignaturas y en los factores se encuentran en la Tabla 6.1.
Vamos a suponer que la matriz factorial es

C
CNa .8
Mat .9
Fra .1
Lla
.3
Lit
.2
L
.2
.1
.9
.8
.8
Las dos primeras asignaturas estn ms influidas por el factor C, y las

tres ltimas por el factor L. Por ejemplo, Matemticas tiene una correlacin
de 0.9 con Ciencias y slo 0.1 con Letras.
La calificacin del primer alumno en CNa es 7, debida a 7 puntos en
Ciencias y 5 puntos en Letras. Segn el modelo factorial:
7 = 0.8 7 + 0.2 5 + 0.4
84
Asignaturas
Factors
Alumno CNa Mat Fra Lat Lit
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
7
5
5
6
7
4
5
5
6
6
6
5
6
8
6
4
6
6
6
7
7
5
6
8
6
4
5
6
5
5
7
5
6
7
7
3
4
6
5
7
5
6
5
5
6
6
5
5
7
6
5
4
6
8
5
4
7
7
4
6
5
6
7
6
7
7
5
5
6
6
6
5
6
8
6
4
8
7
4
7
Cincies Lletres
6
5
5
6
6
6
6
5
6
6
5
4
5
8
6
4
7
7
4
6
7
5
6
7
6
4
5
6
5
5
7
6
6
7
6
3
5
6
5
7
5
6
5
5
6
6
6
5
6
6
5
4
6
8
5
4
7
7
4
6
Tabla 6.1: Calificaciones en 5 asignaturas y puntuaciones en 2 factores comunes de 20 alumnos.
CNa Mat
CNa 1
0.656
Mat
1
Fra
Lat
Lit
Fra
0.497
0.099
1
Lat
0.420
0.230
0.813
1
Lit
0.584
0.317
0.841
0.766
1
Tabla 6.2: Matriz de correlaciones para las calificaciones en 5 asignaturas.
6.4. TEOREMAS FUNDAMENTALES
85
De los 7 puntos, 5.6 se explican por el factor comn C, 1 punto por el factor
comn L y 0.4 punts por el factor nico. Este factor nico representa la
variabilidad propia de las CNa, independente de los conceptos C y L.
Las comunalidades son:
h21 = 0.68, h22 = 0.82, h23 = 0.82, h24 = 0.73, h25 = 0.68.
Los porcentajes de la variabilidad explicada por los factores comunes y las
comunalidades son:
Factor C Factor L Comunalidades
C. Naturales
64
4
68
Matemticas
81
1
82
Francs
1
81
82
Latn
9
64
73
Literatura
4
64
68
6.4
Teoremas fundamentales
El primer teorema, conocido como teorema de Thurstone, permite relacionar

la matriz factorial con la matriz de correlaciones, o ms exactamente, con la
matriz de correlaciones reducida. El segundo teorema permite determinar,
tericamente, el nmero de factores comunes y los valores de las comunalidades.
Theorem 6.4.1 Bajo las hiptesis del modelo factorial lineal se verifica

rij = m
i = j = 1, . . . , p,
k=1 aik ajk ,
m 2
1 = k=1 aik + d2i ,
i = 1, . . . , p.
En notacin matricial
R = AA + D2 .
(6.11)
Demost.: Al ser las variables reducidas, R =E(XX ) y de (6.6)

R = E((AF + DU)(AF + DU) )
= AE(FF )A +DE(UU )D + 2AE(FU )D.
Por las condiciones de incorrelacin entre factores tenemos que E(FF ) = Im ,
E(UU ) = Ip , E(FU ) = 0, lo que prueba (6.11).
86

De (6.9) vemos inmediatamente que
R = AA .
(6.12)
Una solucin factorial viene dada por cualquier matriz A que cumpla la
relacin (6.12). As pues, si m > 1, existen infinitas soluciones, pues si A es
solucin, tambin lo es AT, siendo T una matriz m m ortogonal. Por otro
lado, (6.11) o (6.12) tampoco resuelven completamente el problema, ya que
desconocemos las comunalidades. La obtencin de las comunalidades est
muy ligada al nmero de factores comunes.
1. El modelo factorial existe si R es la suma de una matriz semidefinida
positiva y una matriz diagonal con elementos no negativos.
2. El nmero m de factores comunes es el rango de la matriz R . Por
lo tanto m es el orden del ms grande menor de R que no contiene
elementos de la diagonal.
3. Les comunalidades son aquellos valores 0 h2i 1 tales que R es
matriz semi-definida positiva (tiene m valores propios positivos).
Prueba: Es una consecuencia de la relacin (6.12) entre R y A. El mayor
menor de R quiere decir la submatriz cuadrada con determinante no negativo,
que no contenga elementos de la diagonal.
Hemos visto que a partir de R podemos encontrar m, pero la solucin no
es nica. El principio de parsimonia en AF dice que entre varias soluciones
admisibles, escogeremos la que sea ms simple. El modelo factorial ser pues
aquel que implique un nmero mnimo m de factores comunes. Fijado m,
las comunalidads se pueden encontrar, algebraicamente, a partir de la matriz
de correlaciones R. En la prctica, las comunalidades se hallan aplicando
mtodos estadsticos.
Finalmente, podemos probar de manera anloga, que si el anlisis factorial
lo planteamos a partir de la matriz de covarianzas , sin suponer las variables
reducidas, aunque s los factores, entonces obtenemos la estructura
= AA + D2 .
(6.13)
6.5. MTODO DEL FACTOR PRINCIPAL
6.5
87
Mtodo del factor principal
Es un mtodo de obtencin de la matriz factorial con la propiedad de que

los factores expliquen mxima varianza y sean incorrelacionados.
La variabilidad total de las variables, que suponemos reducidas, es p. La
variabilidad de la variable Xi explicada por el factor Fj es a2ij . La suma de
variabilidades explicadas por Fj es
Vj = a21j + . . . + a2pj .
El primer factor principal F1 es tal que V1 es mximo. Consideremos pues
el problema de maximizar V1 con la restriccin R = AA . Utilizando el
mtodo de los multiplicadores de Lagrange debemos considerar la funcin
V1 +
p

j,j =1
q (r
jj
jj
m

ajk aj k ),
k=1
donde qjj = qj j sn los multiplicadores. Igualando las derivadas a cero se

obtiene que las saturaciones a1 = (a11 , . . . , ap1 ) del primer factor principal
verifican
R a1 = 1 a1 ,
es decir, a1 es el primer vector propio de R y 1 es el primer valor propio.
El valor mximo de V1 es precisamente 1 .
Si ahora restamos del modelo factorial el primer factor
Xi = Xi ai1 F1 = ai2 F2 + . . . + aim Fm + di Ui ,
el modelo resultante contiene m 1 factores. Aplicando de nuevo el criterio
del factor principal al modelo vemos que las saturaciones a2 = (a12 , . . . , ap2 )
tales que la variabilidad explicada por el segundo factor
V2 = a212 + . . . + a2p2 ,
sea mxima, corresponende al segundo vector propio de R con valor propio
2 , que es precisament el valor mximo de V2 .
En general, si R = UU es la descomposicin espectral de R , la
solucin del factor principal es
A = U1/2 .
88
Fijado un valor compatible de m, un algoritmo iterativo de obtencin de

la matriz factorial y de las comunalidads es:
R = UU
(p valores y vectores propios)
(1) (1) (1)
R1 = Um m Um
(m primeros valores y vectores prop
(i) (i) (i)
Ri = Um m Um ,
(i)
(i)
Ai = Um (m )1/2
Paso i+1 Ri+1 =diag(Ai Ai ) + R I (volver al paso i)
Paso 1
Paso 2
Paso i
La matriz Ai converge a la matriz factorial A. Como criterio de convergencia podemos considerar la estabilidad de las comunalidades. Pararemos
si pasando de i a i + 1 los valores de las comunalidads, es decir, los valores
en diag(Ai Ai ), prcticamente no varan. Esta refactorizacin podria fallar si
se presenta el caso de Heywood o R no satisface el model factorial (6.11).
Ejemplo: Volviendo al ejemplo de las asignaturas, la solucin por el
mtodo del factor principal encuentra dos factores que explican el 74.6% de
la varianza:
F1
F2
C. Naturales .621 -.543
Matemticas .596 -.682
Francs .796 .432
Latn .828 .210
Literatura .771 .292
Valor propio 2.654 1.076
Porcentaje 53.08 21.52
6.6
6.6.1
Mtodo de la mxima verosimilitud

Estimacin de la matriz factorial
Podemos plantear la obtencin de la matriz factorial como un problema de

estimacin de la matriz de covarianzas , con la restriccin que se descompone en la forma
= AA + V,
donde V = D2 es una matriz diagonal (vase (6.13)). Si suponemos que las
n observacions de las p variables provienen de una distribucin normal con
6.6. MTODO DE LA MXIMA VEROSIMILITUD
89
= 0, el logaritmo de la funcin de verosimilitud es

n
log L(X,, ) = (log |2| tr(1 S)).
2
Cambiando de signo y modificando algunas constantes, se trata de estimar
A y V de manera que
Fp (A, V) = log || + tr(1 S) log |S|p
(6.14)
sea mnimo, siendo S la matriz de covarianzas muestrales. Las derivadas

respecto de A y V son
Fp
= 21 ( S)1 A,
A
Fp
= diag(1 ( S)1 ).
V
Por tanto, las ecuaciones a resolver para obtener estimaciones de A y V son
1 ( S)1 A = 0, diag(1 ( S)1 ) = 0,
= AA + V,
A V1 A es diagonal.
(6.15)
La ltima condicin es slo una restriccin para concretar una solucin,

puesto que si A es solucin, tamb lo es AT, siendo T matriz ortogonal.
Debe tenerse en cuenta que se trata de encontrar el espacio de los factores
comunes. La solucin final ser, en la prctica, una rotacin de la solucin que verifique ciertos criterios de simplicidad. Las ecuaciones (6.15) no
proporcionan una solucin explcita, pero es posible encontrar una solucin
utilizando un mtodo numrico iterativo.
6.6.2
Hiptesis sobre el nmero de factores
Una ventaja del mtodo de la mxima verosimilitud es que permite formular

un test de hiptesis sobre la estructura factorial de y el nmero m de
factores comunes.
Planteemos el test
H0 : = AA + V vs H1 : es definida positiva,
donde A es de rango m.
90
=A
A
+V,
siendo A
yV
las estimaciones, los mximos del logaritmo
Si
de la razn de verosimilitud son (Seccin 5.4.2)
+ tr(
1 S)),
H0 : n2 (log ||
n
H1 : 2 (log |S| + p).
Aplicando el Teorema 3.5.1 tenemos que el estadstico

log |S| + tr(
1 S)p) = nFp (A,
V)

Ck = n(log ||
sigue asinptticamente la distribucin ji-cuadrado con
1
k = p(p 1)/2 (p m + p m(m 1)/2) = ((p m)2 p m)
2
grados de libertad. Podemos observar que Ck es n veces el valor mnimo de
la funcin (6.14) y que k coincide con (6.10).
6.7
Rotaciones de factores
La obtencin de la matriz factorial, por aplicacin de los dos mtodos que

hemos expuesto, no es ms que el primer paso del AF. Normalmente la matriz
obtenida no define unos factores interpretables. En el ejemplo de las asignaturas, la solucin por el mtodo del factor principal es en principio vlida,
pero define dos factores comunes F1 , F2 que no son fcilmente identificables.
Se hace necesario rotar estos dos factores hacia unos factores ms fciles
de interpretar.
Se han propuesto diferentes versiones sobre como transformar la matriz
factorial a fin de obtener una estructura simple de los factores. Esencialmente
se trata de conseguir que unas saturaciones sean altas a costa de otras, que
sern bajas, para as destacar la influencia de los factores comunes sobre las
variables observables.
6.7.1
Rotaciones ortogonales
Dada una matriz factorial A, queremos encontrar una matriz ortogonal T

tal que la nueva matriz factorial B = AT defina unos factores que tengan
una estructura ms simple. Un criterio analtico considera la funcin
p
p
p
m
m

2 2
2 2
G=
[
aij aik
aij
aik ],
p
i=1
i=1
k=1 k=j=1 i=1
(6.16)
6.7. ROTACIONES DE FACTORES
91
donde es un parmetro tal que 0 1. Hay dos criterios especialmente

interesantes.
Quartimax : Si = 0 minimizar G equivale a maximizar la varianza de
los cuadrados de los p m coeficientes de saturacin. Si cada saturacin a2ij se
divide por la comunalidad, es decir, se considera a2ij /h2i , la rotacin se llama
quartimax normalizada.
Varimax: Si = 1 minimizar G equivale a maximizar la suma de las
varianzas de los cuadrados de los coeficientes de saturacin de cada columna
de A. Anlogamente si consideramos a2ij /h2i , la rotacin se llama varimax
normalizada.
6.7.2
Factores oblicuos
Los factores comunes pueden estar tambin correlacionados, y entonces se

habla del model factorial oblcuo. Este modelo postula que las variables
observables dependen de unos factores correlacionados F1 , . . . , Fm y de p
factores nicos. As para cada variable Xi
Xi = pi1 F1 + . . . + pim Fm + di Ui ,
i = 1, . . . , p.
(6.17)
La solucin factorial oblicua consistir en hallar las siguientes matrices:

1. Matriz del modelo factorial oblcuo
P =(pij )
siendo pij la saturacin de la variable Xi en el factor Fj .
2. Matriz de correlaciones entre factores oblcuos
= (ij ) siendo ij = cor(Fi , Fj ).
3. Estructura factorial oblicua (estructura de referencia)
Q =(qij ) siendo qij = cor(Xi , Fj ).
Si indicamos F0 = (F1 , . . . , Fm ) y escribimos el modelo (6.17) en forma
matricial
X = PF0 + DU,
92
fcilmente probamos la relacin entre las tres matrices P, y Q

Q = P,
y la versin del teorema de Thurstone para factores correlacionados
R = PP + D2 .
Si los factores son ortogonales, el modelo factorial coincide con la estructura
factorial y tenemos que
P = Q,
6.7.3
= Im .
Rotacin oblicua
Ya se ha dicho que hallar una matriz factorial A constituye el primer paso de

la factorizacin. Queremos encontrar una matriz L tal que la nueva matriz
factorial P = AL defina unos factores oblicuos que tengan una estructura
ms simple. Un criterio analtico sobre la matriz de estructura factorial Q
considera la funcin
H=
p
p
p
m

2 2
2
qij
qik ]
[
qij2 qik
p
i=1
i=1
k=1 k=j=1 i=1
donde es un parmetro tal que 0 1. Hay tres criterios especialmente interesantes, que tienen una interpretacin parecida al caso ortogonal
y que tambin se pueden formular, ms adecuadamente, dividiendo por las
comunalidades.
Quartimin: Si = 0 hay mxima oblicuidad entre los factores comunes.
Bi-quartimin: Si = 1/2 el criterio es intermedio entre quartimin y
covarimin.
Covarimin: Si = 1 hay mnima oblicuidad entre los factores comunes.
Conviene tener en cuenta que las rotaciones ortogonales y oblcuas intentan simplificar la estructura factorial A y la estructura de referencia Q,
respectivamente.
Un criterio directo de rotacin oblicua es el promax. Sea A la matriz factorial obtenida por el mtodo varimax. Queremos destacar unas saturaciones
sobre otras, por tanto definimos P = (pij ) tal que
pij = |ak+1
ij |/aij ,
k > 1,
6.7. ROTACIONES DE FACTORES
93
siendo k un nmero entero.

Cada elemento de A queda elevado a una potencia k conservando el signo.
Seguidamente ajustamos P a AL en el sentido de los mnimos cuadrados
L = (A A)1 A P .
Es necesario normalizar la matriz L de manera que los vectores columna de
T = (L )1 tengan mdulo unidad. Obtenemos entonces
P = AL,
= T T,
Q = AT.
El grado de oblicuidad de los factores comunes aumenta con k. Se suele tomar

k = 4.
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, la estimacin
mximo verosmil y la matriz factorial rotada son:
CNa
Mat
Fra
Lat
Lit
Mxim veros.
F1
F2
.659 .432
.999 .005
.104 .974
.234 .809
.327 .831
Varimax
C
L
.636 .464
.999 .046
.055 .978
.193 .820
.280 .847
Comun.
.62
.99
.96
.71
.79
El test de hiptesis de que hay m = 2 factores comunes da 21 = 1.22,

no significativo. Podemos aceptar m = 2. La rotacin varimax pone de
manifiesto la existencia de dos factores C, L, que podemos interpretar como
dimensiones latentes de Ciencias y Letras.
La rotacin oblicua promax con k = 4 da las matrices P, Q, :
CNa
Mat
Fra
Lla
Lit
Modelo
C
.570
1.04
-.150
.028
.114
factorial Estruct. factorial Correlaciones factores

L
C
L
.375
.706 .581

-.135
1 .362
.992 .242
1.024
.221 .970
.362 1
.831
.330 .842
.844
.420 .885
La Figura 6.1 representa los factores ortogonales iniciales F1 y F2 , dibujados como vectores unitarios, y los factores oblcuos C y L. Las variables
tienen una longitud proporcional a la raz cuadrada de sus comunalidades.
94
Figura 6.1: Proyeccin de las variables sobre los factors comunes ortogonals,
y factores rotados (rotacin promax), interpretados como factores de Ciencias
y Letras.
6.7.4
Factores de segundo orden
Un vez hemos obtenido los factores oblcuos con matriz de correlaciones ,

podemos suponer que estos m factores primarios dependen de m factores
secundarios de acuerdo con una matriz factorial B que verifica
= BB + E2 ,
siendo E la matriz m m diagonal.
Si los factores secundarios son tambin oblicuos, el proceso de factorizacin puede continuar hasta llegar a un nico factor comn de orden superior.
Un ejemplo de aplicacin nos lo proporciona la teoria clsica de la estructura factorial de la inteligencia. Los tests de aptitud dependen de un conjunto
elevado de factores primarios, que dependen de un conjunto de 7 factores secundarios (verbal, numrico, espacial, razonamiento, memoria, percepcin,
psicomotores), que a su vez dependen de un factor general g (el factor g
de Spearman), que sintetiza el hecho de que todas las aptitudes mentales
estn correlacionadas.
6.8. MEDICIN DE FACTORES
6.8
95
Medicin de factores
Sea x = (x1 , . . . , xp ) los valores de las p variables observables obtenidas sobre un individuo . Nos planteamos ahora medir los factores, es decir,
encontrar los valores f = (f1 , . . . , fm ) de los factores comunes sobre . Se
verifica
x = Af + Du,
(6.18)
siendo u = (u1 . . . , up ) los valores de las unicidades.
Si interpretamos (6.18) como un modelo lineal, donde x es el vector de
observaciones, A es la matriz de diseo, f es el vector de parmetros y e = Du
es el trmino de errror, el criterio de los mnimos cuadrado (vase (12.4)) nos
da
f = (A A)1 A x.
Un mtodo ms elaborado (propuesto por M. S. Bartlett) considera que
f es funcin lineal de x y que los valores de los factores nicos
u = D1 (x Af )
son trminos de error. Si queremos minimizar
u u = u21 + . . . + u2p ,
expresando (6.18) como D1 x = D1 Af + u, es fcil ver que
f = (A D2 A)1 A D2 x.
Una modificacin de este mtodo (propuesta por T. W. Anderson y H.
Rubin) consiste en aadir la condicin de que los factores comunes estimados
estn incorrelacionados. La solucin que resulta es
f = B1 A D2 x,
siendo B2 = A D2 RD2 A.
Ejemplo: Continuando con el ejemplo de las 5 asignaturas, las calificaciones en las asignatures de los 4 primeros alumnos (Tabla 6.1) y las puntuaciones (Anderson-Rubin) en los factores C y L, obtenidos con la rotacin
varimax, son:
Alumno CNa Mat Fra Lat Lit
C
L
1
7
7
5
5
6
1.06 -.559
2
5
5
6
6
5 -.568 .242
3
5
6
5
7
5
.259 -.505
4
6
8
5
6
6
1.85 -.614
96
Teniendo en cuenta que los factores comunes son variables estandarizadas,

el primer alumno tiene una nota relativamente alta en Ciencias y una nota
algo por debajo de la media en Letras.
6.9
Anlisis factorial confirmatorio
Los mtodos del factor principal y de la mxima verosimilitud son exploratorios, en el sentido de que exploran las dimensiones latentes de las variables.
El AF tambin se puede plantear en sentido confirmatorio, estableciendo una
estructura factorial de acuerdo con el problema objeto de estudio, y seguidamente aceptando o rechazando esta estructura mediante un test de hiptesis.
Por ejemplo, podemos considerar que la matriz factorial en el ejemplo de las
5 asignaturas es
C L
CNa 1 0
Mat 1 0
Fra
0 1
Lla
0 1
Lit
0 1
interpretando que las dos primeras slo dependen del factor Ciencias y las
otras tres del factor Letras. Entonces podemos realizar una transformacin
de la matriz factorial inicial para ajustarnos a la matriz anterior.
Si la solucin inicial es A, postulamos una estructura B y deseamos encontrar T ortogonal tal que AT se aproxime a B en el sentido de los mnimos
cuadrados
tr(B AT)2 = mnimo,
entonces la solucin es T = UV , siendo A B = UV la descomposicin
singular de A B. Si T no es ortogonal y por lo tanto se admite una estructura
oblicua, entonces T se obtiene siguiendo un procedimiento parecido a la
rotacin promax
T = (A A)1 A B,
per normalizando a mdulo 1 los vectores columna de T.
Ms generalmente, en AF confirmatorio se especifica el nmero de factores
comunes, el tipo ortogonal u oblicuo de la solucin, y los valores libres o fijos
de las saturaciones.
6.9. ANLISIS FACTORIAL CONFIRMATORIO
97
Ejemplo: Un AF confirmatorio sobre 9 tests (estudiado por K. Joreskog)

obtiene siete soluciones confirmatorias. De los 9 tests considerados, los tests
1,2,3 miden relaciones espaciales, los tests 4,5,6 inteligencia verbal y los tests
7,8,9 velocidad de percepcin. La matriz de correlaciones es:
1
2
3
4
5
6
7
8
9
1 1 .318 .468 .335 .304 .326 .116 .314 .489
2
1
.230 .234 .157 .195 .057 .145 .139
3
1
.327 .335 .325 .099 .160 .327
4
1
.722 .714 .203 .095 .309
5
1
.685 .246 .181 .345
6
1
.170 .113 .280
7
1
.585 .408
8
1
.512
9
1
Slo comentaremos tres soluciones. La primera solucin es oblicua no
restringida, y se puede aceptar, puesto que la ji-cuadrado del ajuste no es
significativa.
.71
.54
.67
.00
-.03
.01
.00
.42
.56
P
.00 .00
-.03 -.08
.04 -.09
.87 .00
.81 .13
.82 -.01
.00 .78
-.30 .73
-.06 .41
Comun.
.50
.26
.46
1
.76
.54 1
.70
.24 .28 1
.68
.61
.68
.54
212 = 9.77
p = 0.64
La segunda solucin es oblicua restringida. Se impone la condicin de que

los tres primeros tests correlacionen slo con el primer factor, los tres siguientes slo con el segundo y los tres ltimos slo con el tercero. No obstante,
el valor ji-cuadrado es significativo y esta solucin no debera aceptarse.
98
.68
.52
.69
.00
.00
.00
.00
.00
.00
P
.00
.00
.00
.87
.83
.83
.00
.00
.00
Comun.
.46
.27
.48
1
.77
.54 1
.69
.52 .34 1
.69
.43
.63
.49
.00
.00
.00
.00
.00
.00
.66
.80
.70
224 = 51.19
p = 0.001
La tercera solucin es ortogonal no restringida, con un factor general y

tres factores especficos, en el sentido que el primero no correlaciona con la
variable 4, el segundo no correlaciona con las variables 1 y 7 y el tercero
no correlaciona con 1,2 y 4. El valor ji-cuadrado indica que esta solucin es
aceptable.
.38
.24
.38
.87
.83
.83
.24
.15
.36
6.10
.58
.41
.53
.00
.01
.01
.02
.43
.59
P
.00 .00
.35 .00
.30 -.03
.03 .00
-.13 .06
.04 -.02
.00 .95
-.13 .57
-.22 .34
Comun.
.48
.37
.52
1
.75
.00
1
.72
.00 .00 1
.68
.95
.56
.64
1
.00
.00
.00
26 = 2.75
p = 0.84
Complementos
Constituyen dos precedentes del Anlisis Factorial el concepto de factor latente de F. Galton y de eje principal de K. Pearson. El primer trabajo, publicado en 1904, por Ch. Spearman (Spearman, 1904) desarrolla una teora
de la inteligencia alrededor de un factor comn, el factor g. Esta teora,
6.10. COMPLEMENTOS
99
que ordenaba la inteligencia de los individuos a lo largo de una sola dimensin, fue defendida por C. Burt, con consecuencias sociolgicas importantes,
pues proporcion una base cientfica para financiar las escuelas privadas en
detrimento de otras.
El Anlisis Factorial moderno se inicia con la obra Multiple Factor
Analysis de L.L. Thurstone, que postulaba ms de un factor comn, introduca la estructura simple y las rotaciones de factores. A partir de Thurstone
la medida de la inteligencia era ms democrtica, ya que posea varias dimensiones latentes, quedando sin sentido una ordenacin de los individuos,
que si en una dimensin era posible hacerlo, en varias dimensiones no. Haba
una polmica similar sobre la personalidad. La teoria psicoanaltica defenda
una continuidad entre la personalidad neurtica y la psictica, mientras que
el AF revela que neurosis y psicosis son dimensiones independientes.
Los modelos y mtodos de Spearman, Burt, Thurstone y otros (Holzinger,
Harman y Horst), son ya historia. Los mtodos actuales para obtener la
matriz factorial son: factor principal, anlisis factorial cannico (C.R. Rao),
mtodo Alfa (H.F. Kaiser, J. Caffrey) y el mtodo de la mxima verosimilitud
(D.N. Lawley, K.G. Joreskog). Vase Joreskog (1967).
El mtodo varimax de rotacin ortogonal de Kaiser es uno de los ms
recomendados. J.B. Carroll introdujo la rotacin oblicua quartimin y A.E.
Hendrickson y P.O. White la promax. Anderson y Rubin (1956) publicaron
un excelente trabajo sobre AF, tratando todo los aspectos algebraicos y estadsticos del tema. Vase Harman (1976), Torrens-Ibern (1972).
El estudio de las dimensiones latentes es un tema presente en la ciencia
y siempre ha despertado inters. C. R. Rao demostr que si conocemos la
distribucin de k combinaciones lineales de p variables independientes, siendo
k(k 1)/2 < p k(k + 1)/2, entonces la distribucin de cada una de las p
variables queda determinada (salvo la media o parmetro de localizacin). Si
tenemos p = 210 variables independientes bastara conocer la distribucin de
k = 20 combinaciones lineales adecuadas para determinar la distribucin de
las 210 variables. Este resultado proporciona una cierta justificacin terica
acerca del hecho que la informacin multivariante posee una dimensionalidad
latente mucha ms pequea.
La etapa inicial del AF (hasta 1966), era exploratoria, como una herramienta para explorar la dimensionalidad latente de las variables. Ms
tarde, el anlisis factorial se ha entendido en sentido confirmatorio (Joreskog,
Lawley, Maxwell, Mulaik), estableciendo una estructura factorial de acuerdo
con el problema, y seguidamente aceptando o rechazando esta estructura
100
mediante un test de hiptesis (Joreskog, 1969, 1970). Consltese Cuadras

(1981).
Se han llevado a cabo muchas aplicaciones del AF. Citaremos tres, las
dos primeras sobre AF exploratorio y la tercera sobre AF confirmatorio.
Rummel (1963) estudia 22 medidas de los conflictos de 77 naciones y encuentra tres dimensiones latentes, que identifica como: agitacin, revolucin
y subversin, y ordena las naciones segn las puntuaciones en los factors
comunes.
Snchez-Turet y Cuadras (1972) adaptan el cuestionario E.P.I. de personalidad (Eysenck Personality Inventory) y sobre un test de 69 tems (algunos
tems detectan mentiras) encuentran tres factores: Introversin-Extroversin,
Estabilidad-Inestabilidad, Escala de mentiras.
Joreskog (1969) explica un ejemplo de AF confirmatorio sobre 9 tests,
previamente estudiado por Anderson y Rubin. Vase la Seccin 6.9.
Finalmente, el Anlisis de Estructuras Covariantes es una generalizacin
del AF, que unifica este mtodo con otras tcnicas multivariantes (MANOVA,
anlisis de componentes de la varianza, anlisis de caminos, modelos simplex
y circumplexos, etc.). Se supone que la estructura general para la matriz de
covarianzas es
= B(PP + D2 )B + 2 .
Otra generalizacin es el llamado modelo LISREL (Linear Structural Relationship), que permite relacionar un grupo de variables dependientes Y
con un grupo de variables independientes X, que dependen de unas variables
latentes a travs de un modelo de medida. Las variables latentes estn relacionadas por un modelo de ecuaciones estructurales. LISREL (Joreskog y
Sorbom, 1999) es muy flexible y tiene muchas aplicaciones (sociologa, psicologa, economa). Vase Satorra (1989), Batista y Coenders (2000).
Captulo 7
ANLISIS CANNICO DE
POBLACIONES
7.1
Introduccin
Con el Anlisis de Componentes Principales podemos representar los individuos de una poblacin, es decir, representar una nica matriz de datos. Pero
si tenemos varias matrices de datos, como resultado de observar las variables
sobre varias poblaciones, y lo que queremos es representar las poblaciones,
entonces la tcnica adecuada es el Anlisis Cannico de Poblaciones (CANP).
Supongamos que de la observacin de p variables cuantitativas X1 , . . . , Xp
sobre g poblaciones obtenemos g matrices de datos
X1
n1 p
X2 n2 p
X = ..
..
.
.
Xg
ng p
donde Xi es la matriz ni p de la poblacin i. Sean x1 ,x2 , . . . ,xg los vectores
(fila)
g de las medias de cada poblacin. X es de orden n p, siendo n =
i=1 ni . Indiquemos

x1 x
x x
2
X= ..
xg x
101
102
CAPTULO 7. ANLISIS CANNICO DE POBLACIONES
la matriz g p con las medias de las g poblaciones. Tenemos dos maneras

de cuantificar matricialmente la dispersin entre las poblaciones:
La matriz de dispersin no ponderada entre grupos
A =X X =
g

(xi x)(xi x) .
i=1
La matriz de dispersin ponderada entre grupos

B=
g

i=1
ni (xi x)(xi x) .
La matriz A es proporcional a una matriz de covarianzas tomando como

datos slo las medias de las poblaciones. La matriz B participa, juntamente
con W (matriz de dispersin dentro de grupos) en el test de comparacin
de medias de g poblaciones. Aqu trabajaremos con la matriz A, si bien los
resultados seran parecidos si utilizramos la matriz B. Tambin haremos uso
de la matriz de covarianzas (vase (3.1)):
g
1
ni Si .
S=
n g i=1
Entonces A =X X juega el papel de matriz de covarianzas entre las poblaciones, S juega el papel de matriz de covarianzas dentro de las poblaciones.
7.2
Variables cannicas
Definition 7.2.1 Sean V = [v1 , . . . , vp ] los vectores propios de A respecto

de S con valores propios 1 > . . . > p , es decir,
Avi = i Si vi ,
normalizados segn
vi Si vi = 1.
Los vectores v1 , . . . , vp son los vectores cannicos y las variables cannicas
son las variables compuestas
Yi = Xvi .
7.2. VARIABLES CANNICAS
103
Si vi = (v1i , . . . , vpi ) y X = [X1 , . . . , Xp ], la variable cannica Yi es la

variable compuesta
Yi = Xvi = v1i X1 + + vpi Xp
que tiene S-varianza 1 y Avarianza i , es decir:
varA (Yi ) = vi Avi = i ,
varS (Yi ) = vi Si vi = 1.
Trabajaremos con p variables cannicas, pero de hecho el nmero efectivo es

k = min{p, g 1}, ver Seccin 7.5.3.
Theorem 7.2.1 Las variables cannicas verifican:
1. Son incorrelacionadas dos a dos respecto a A y tambin respecto a S
covA (Yi , Yj ) = covS (Yi , Yj ) = 0
si i = j.
2. Las A-varianzas son respectivamente mximas:

varA (Y1 ) = 1 > > varA (Yp ) = p ,
en el sentido de que Y1 es la variable con mxima varianza entre grupos,
condicionada a varianza 1 dentro grupos, Y2 es la variable con mxima
varianza entre grupos, condicionada a estar incorrelacionada con Y1 y
tener varianza 1 dentro grupos, etc.
Demost.: Supongamos 1 > > p > 0. Probemos que las variables
Yi = Xti , i = 1, . . . , p, estn incorrelacionadas:
covA (Yi , Yj ) = ti Atj = ti Sj tj = j ti Stj ,
covA (Yj , Yi ) = tj Ati = tj Sj ti = i tj Sti ,
(j i )ti Stj = 0 ti Stj = 0 covA (Yi , Yj ) = j ti Stj =
covA (Yi , Yj ) = 0, si i = j. Adems, de ti Stj = 1:
varA (Yi ) = i ti Stj = i .
p
p
Sea ahora
Y
=
a
X
=
i
i
i=1

i=1 i Yi una variable compuesta tal que
varS (Y ) = pi=1 2i varS (Yi ) = pi=1 2i = 1. Entonces:
p

varA (Y ) = varA (
i=1
i Yi ) =
p

i=1
2i varA (Yi )
p

i=1
2i i
p

i=1
2i )1 = varA (Y1 ),
104
que prueba que Y1 tiene mxima varianza entre grupos.

Consideremos a continuacin las variables Y incorrelacionadas con Y1 ,
que podemos expresar como:
Y =
p

i=1
bi Xi =
p

i Yi
condicionado a
i=2
p

2i = 1.
i=2
Entonces:
p
p
p
p

varA (Y ) = varA (
i Yi ) =
2i varA (Yi ) =
2i i (
2i )2 = varA (Y2 ),
i=2
i=2
i=2
i=2
y por lo tanto Y2 est incorrelacionada con Y1 y tiene varianza mxima. La

demostracin de que Y3 , . . . , Yp son tambin variables cannicas es anloga.
7.3
Distancia de Mahalanobis y transformacin cannica
La distancia de Mahalanobis entre dos poblaciones es una medida natural

de la diferencia entre las medias de las poblaciones, pero teniendo en cuenta
las covarianzas. En la Seccin 1.9 hemos introducido la distancia entre los
individuos de una misma poblacin. Ahora definimos la distancia entre dos
poblaciones cuando hay ms de dos poblaciones.
Definition 7.3.1 Consideremos muestras multivariantes de g poblaciones
con vectores de medias x1 ,x2 , . . . ,xg y matriz de covarianzas (comn) S. La
distancia (al cuadrado) de Mahalanobis entre las poblaciones i, j es
M 2 (i, j) = (xi xj ) S1 (xi xj ).
Si X es la matriz centrada con los vectores de medias y V = [v1 , . . . , vp ]
es la matriz con los vectores cannicos (vectores propios de A =X X respecto

de S), la transformacin cannica es
Y =XV.
La matriz Y de orden g p contiene las coordenadas cannicas de las g
poblaciones.
7.4. REPRESENTACIN CANNICA
105
Theorem 7.3.1 La distancia de Mahalanobis entre cada par de poblaciones

i, j coincide con la distancia Eucldea entre las filas i, j de la matriz de coordenadas cannicas Y. Si yi = xi V entonces
d2E (i, j) = (yi yj ) (yi yj ) = (xi xj ) S1 (xi xj ).
(7.1)
Demost.: Basta probar que los productos escalares coinciden
yi yj = xi S1 xj XS1 X = YY .
Sea =diag(1 , . . . , p ) la matriz diagonal con los valores propios de A =X X

respecto de S. Entonces
AV = SV con
V SV = Ip ,
y la transformacin cannica es Y =XV.

Sea C matriz ortogonal definida por V = S1/2 C, siendo S = UDU , con
D diagonal y S1/2 = UD1/2 U . Tenemos que V AV = V SV es
C S1/2 AS1/2 C = C S1/2 SS1/2 C = ,

es decir, S1/2 C contiene los vectores propios de A con valores propios .
Entonces AV = SV implica
1/2
AS1/2 C =S
C con C C = CC = Ip .
La transformacin cannica es pues Y =XS1/2 C, as que
XS1 X = XS1/2 CC S1/2 X = YY .
7.4
Representacin cannica
La representacin de las g poblaciones mediante las filas de X con la mtrica

de Mahalanobis es bastante complicada: la dimensin puede ser grande y
los ejes son oblcuos. En cambio, la representacin mediante las coordenadas
cannicas Y con la mtrica Eucldea se realiza a lo largo de ejes ortogonales. Si adems, tomamos las q primeras coordenadas cannicas (q = 2, por
ejemplo), la representacin es totalmente factible y es ptima en dimensin
reducida, en el sentido de que maximiza la variabilidad geomtrica.
106
Theorem 7.4.1 La variabilidad geomtrica de las distancias de Mahalanobis

entre las poblaciones es proporcional a la suma de los valores propios:
g
p
1
1
2
VM (X) = 2
M(i, j) =
i .
2g i,j=1
g i=1
(7.2)
Si Y =XV, donde V, de orden p q es la matriz de la transformacin

cannica en dimensin q y
2ij (q)
q

= (yi yj )(yi yj ) =
(yih yjh )2
h=1
es la distancia Eucldea (al cuadrado) entre dos filas de Y, la variabilidad

geomtrica en dimensin q p es
g
q
1 2
1
(q) =
i ,
V (Y)q = 2
2g i,j=1 ij
g i=1
y esta cantidad es mxima entre todas las transformaciones lineales en dimensin q.

Demost.: De (5.3) y (7.1)
g
g
p
1
1
2
M (i, j) = 2
(yih yjh )2 = s21 + . . . + s2p
VM (X) = 2
2g i,j=1
2g i,j=1
h=1
g
donde s2j = (
de Y. Adems
i=1
yij2 )/g representa la varianza ordinaria de la columna Yj
1
1
1
1
Y Y = V X XV = V AV =
g
g
g
g
y por lo tanto s2j = j /g, lo que prueba (7.2).

Sea ahora Y=XT
una transformacin cualquiera tal que T ST = I. Es
decir, si

X= [X 1 , . . . , X p ] Y=XT
= [Y1 , . . . , Yp ]
que
donde X j , Yj son las columnas de X, Y,
t11
..
T = [t1 , . . . , tp ] = .
tp1
son matrices centradas, y
t1p
. . . ..
. ,
tpp
7.5. ASPECTOS INFERENCIALES
107
entonces Yk = Xtk = t1k X 1 + . . . + tpk X p tiene A-varianza
varA (Yk ) = tk Atk = tk X Xtk = Yk Yk = g s2 (Yk )
donde s2 (Yk ) indica la varianza ordinaria. Puesto que la A-varianza mxima

es k , tenemos:
=
V (Y)
q
g

k=1
s2 (Yk ) =
1
1
varA (Yk )
k .
g k=1
g k=1
El porcentaje de variabilidad geomtrica explicada por las q primeras

coordenadas cannicas es
Pq = 100
7.5
1 + + q
V (Y)q
= 100
.
1 + + p
VM (X)
Aspectos inferenciales
Supongamos que las matrices de datos X1 , . . . , Xg provienen de g poblaciones

normales Np (1 , 1 ), . . . , Np (g , g ). Para poder aplicar correctamente un
anlisis cannico de poblaciones conviene que los vectores de medias sean
diferentes y que las matrices de covarianzas sean iguales.
7.5.1
Comparacin de medias
El test
H0 : 1 = 2 = . . . = g
(7.3)
ha sido estudiado en la Seccin 3.3.3 y se decide calculando el estadstico

= |W|/|B + W| con distribucin lambda de Wilks. Si aceptamos H0 las
medias de las poblaciones son tericamente iguales y el anlisis cannico,
tcnica destinada a representar las medias de las poblaciones a lo largo de
ejes cannicos, no tiene razn de ser. Por lo tanto, conviene rechazar H0 .
7.5.2
Comparacin de covarianzas
El test
H0 : 1 = 2 = . . . = g
108
se resuelve mediante el test de razn de verosimilitud

R =
|S1 |n1 /2 |Sg |ng /2

|S|n/2
donde Si es la matriz de covarianzas de las datos de la poblacin i, estimacin

mximo verosmil de i y
S = (n1 S1 + + ng Sg )/n = W/n
es la estimacin mximo verosmil de , matriz de covarianzas comn bajo
H0 . Rechazaremos H0 si el estadstico
2 log R = n log |S| (n1 log |S1 | + + ng log |Sg |) 2q
es significativo, donde q = gp(p+1)/2 p(p +1)/2 = (g 1)p(p+1)/2 son los
grados de libertad de la ji-cuadrado. Si rechazamos H0 , entonces resulta que
no disponemos de unos ejes comunes para representar todas las poblaciones
(la orientacin de los ejes viene dada por la matriz de covarianzas), y el
anlisis cannico es tericamente incorrecto. Conviene pues aceptar H0 .
Debido a que el test anterior puede ser sesgado, conviene aplicar la correccin de Box,
1 | + + (ng 1) log |S
g |)
c (n g) log |S| ((n1 1) log |S
i = (ni /(ni 1))Si , y la constante c es

donde S
g
2p2 + 3p 1 1
1
)(
)].
c = [1 (
6(p + 1)(g 1) k=1 ng 1 n g
7.5.3
Test de dimensionalidad
Como el rango de A = X X no puede superar ni la dimensin p ni g 1, es

obvio que el nmero efectivo de valores propios es
k = min{p, g 1}.
Si los vectores de medias poblacionales estn en un espacio Rm de dimensin m < k, entonces el espacio cannico tiene dimensin m y por lo tanto
debemos aceptar la hiptesis
H0(m) : 1 > . . . > m > m+1 = . . . = k ,
109
donde 1 > . . . > m son los valores propios de MM (la versin poblacional
de A) respecto de . Si
l1 > . . . > lk
son los valores propios de B respecto de W (ver Seccin 3.3.3), es decir,
soluciones de
|BlW| = 0,
(m)
entonces un test para decidir H0
est basado en el estadstico
k

1
bm = [n 1 (p + g)]
log(1 + li ) 2q ,
2
i=m+1
donde q = (p m)(g m 1). Este test asinttico, propuesto por Bartlett,

se aplica secuencialmente: si b0 es significativo, estudiaremos b1 ; si b1 es
tambin significativo, estudiaremos b2 , etc. Si b0 , . . . , bm1 son significativos
(0)
pero bm no, aceptaremos que la dimensin es m. Obsrvese que aceptar H0
equivale a la hiptesis nula de igualdad de vectores de medias (que entonces
coincidiran en un punto), es decir, equivale a aceptar (7.3).
Otros autores utilizan este test independienmente para cada dimensin.
As, el test H0 : j = 0 est basado en el estadstico
1
cj = [n 1 (p + g)] log(1 + lj ) 2r ,
2
donde r = p + g 2j son los grados de liberdad. Rechazaremos H0 si cj es
significativo.
7.5.4
Regiones confidenciales
Sean yi = xi V,i = 1, . . . , g las proyecciones cannicas de los vectores de

medias muestrales de las poblaciones. Podemos entender yi como una estimacin de i = i V, la proyeccin cannica del vector de medias poblacional
i . Queremos encontrar regiones confidenciales para i , i = 1, . . . , g.
Theorem 7.5.1 Sea 1 el coeficiente de confianza, F tal que P (F >
F ) = , donde F sigue la distribucin F con p y (n g p + 1) g.l. y
consideremos:
(n g)p
R2 = F
.
(n g p + 1)
110
Entonces las proyecciones cannicas i de los vectores de medias poblacionales pertenecen a regiones confidenciales que son hiperesferas (esferas
en dimensin 3, crculos en dimensin 2) de centros y radios
(yi , R / ni ),
donde ni es el tamao muestral de la poblacin i.
Demost.: xi i es Np (0, /ni ) independiente de W que sigue la distribucin Wp (, n g). Por lo tanto
(n g)ni (xi i ) W1 (xi i )
= ni (xi i )S1 (xi i )
T 2 (p, n g),
y como la distribucin de Hotelling equivale a una F , tenemos que
(xi i ) S1 (xi i )
(n g)p
Fp
.
ni (n g p + 1) ngp+1
As pues
R2
] = 1 ,
ni
que define una regin confidencial hiperelptica para i con coeficiente de
confianza 1 . Pero la transformacin cannica yi = xi V convierte (xi
i ) S1 (xi i ) en (yi i ) (yi i ) y por lo tanto
P [(xi i ) S1 (xi i )
P [(yi i ) (yi i )
R2
] = 1 .
ni
Esta transformacin convierte adems hiperelipses en hiperesferas (elipses

en crculos si la dimensin es 2), ya que las variables cannicas son incorrelacionadas, lo que tambin es vlido si reducimos la dimensin (tomamos las
m primeras coordenadas cannicas).
Por ejemplo, si elegimos 1 = 0.95 y una representacin en dimensin
reducida 2, cada poblacin vendr representada por un crculo de centro yi
y radio R0.05 / ni , de manera que el vector de medias proyectado pertenece

al crculo con coeficiente de confianza 0.95. La separacin entre los centros
indicar diferencias, mientras que si dos crculos se solapan, ser indicio de
que las dos poblaciones son posiblemente iguales.
Example 7.5.1
111
Figura 7.1: Proyecin cannica de cuatro poblaciones.

Se tienen medidas de 5 variables biomtricas sobre colepteros del gnero
Timarcha de 5 especies encontradas en 8 localidades:
1. T. sinustocollis (Campellas, Pirineos) n1 = 40.
2. T. sinustocollis (Planollas, Pirineos) n2 = 40.
3. T. indet (vall de Llauset, Pirineos, Osca) n3 = 20.
4. T. monserratensis (Collformic, Barcelona) n4 = 40.
5. T. monserratensis (Collfsuspina, Barcelona) n5 = 40.
6. T. catalaunensis (La Garriga, Barcelona) n6 = 40.
7. T. balearica (Mahn, Baleares) n7 = 15
8. T. pimeliodes (Palermo, Sicilia) n8 = 40
Las medidas (en mm.) son:
X1 = long. prognoto, X2 =diam. mximo prognoto, X3 = base prognoto,
X4 = long. litros, X5 = diam. mximo litros.
Se quiere estudiar si existen diferencias entre las 8 especies y representarlas mediante la distancia de Mahalanobis. Los resultados del anlisis
cannico son:
Matriz de covarianzas comn:
3.277 3.249 2.867 5.551 4.281
7.174 6.282 9.210 7.380
6.210
8.282
6.685
S=
20.30 13.34
13.27
112
Test de Bartlett para homogeneidad de la matriz de covarianzas. Jicuadrado = 229.284, con 105 g.l. Significativo al 5%.
Matriz de dispersin entre grupos:
6268 11386 8039
21249 15370
11528
B=
22924
42795
31009
86629
Matriz de dispersin dentro de grupos:
874.8 867.5 765.4 1482
1915 1677 2458.99
W=
1658
2211
5419
17419
32502
23475
65626
49890
1142
1970
1784
3562
3541
W4 (7, )
W5 (267, )
Matriz de dispersin total:
7143 12253 8804 24407 18562
23164 17047 45254 34472
13186 33220 25260

T=
92049 69189
53432
Test de comparacin de medias:
= |W| / |B + W| = 0.0102 (5, 267, 7) F = 62.5
(35 y 1108 g.l.)
Existen diferencias muy significativas.
Transformacin cannica, valores propios y porcentaje acumulado:

v1
v2
-.0292 .2896
.5553 .7040
-.6428 -.9326
.1259 -.1326
.1125 .0059
158.64 24.53
% 85.03 98.18
7.6. COMPLEMENTOS
113
Figura 7.2: Representacin cannica de 8 especies de colepteros.

De acuerdo con la Fig. 7.2, las poblaciones 1 y 2 pertenecen claramente
a la misma especie, as como la 4 y 5. Las poblaciones 3 y 6 son especies
prximas, mientras que las 7 y 8 se diferencian mucho de las otras especies.
7.6
Complementos
El Anlisis Cannico de Poblaciones (CANP) fu planteado por M.S. Bartlett

en trminos de correlacin cannica entre las poblaciones y las variables
observables. C. R. Rao lo relacion con la distancia de Mahalanobis y lo
estudi como una tcnica para representar poblaciones. Su difusin es debido
a Seal (1964).
Existen diferentes criterios para obtener la regin confidencial para las
medias de las poblaciones. Aqu hemos seguido un criterio propuesto por
Cuadras (1974). Una formulacin que no supone normalidad es debido a
Krzanowski y Radley (1989). A menudo los datos no cumplen la condicin
de igualdad de las matrices de covarianzas, aunque el CANP es vlido si las
matrices muestrales son relativamente semejantes.
En el CANP, y ms adelante en el Anlisis Discriminante, interviene la
descomposicin T = B + W, es decir:
g
g
g
ni
ni

ni (xi x)(xi x) +
(xih xi )(xih xi ) .
(xih x)(xih x) =
i=1 h=1
i=1
i=1 h=1
114
Si los datos provienen de g poblaciones con densidades fi (x), medias y

matrices de covarianzas (i , i ) y probabilidades pi , i = 1, . . . , g, es decir, con
densidad
f (x) =p1 f1 (x) + . . . +pg fg (x),
entonces el vector de medias correspondiente a f es
=p1 1 + . . . +pg g ,
y la matriz de covarianzas es
=
g

i=1
pi (i )(i ) +
g

pi i .
i=1
Esta descomposicin de es la versin poblacional de T = B + W, y la

versin multivariante de
var(Y ) = E[var[Y |X]] + var[E[Y |X]],
donde Y |X representa la distribucin de una variable Y dada X. Ver Flury
(1997).
Captulo 8
ESCALADO
MULTIDIMENSIONAL
(MDS)
8.1
Introduccin
Representar un conjunto finito cuando disponemos de una distancia entre los

elementos del conjunto, consiste en encontrar unos puntos en un espacio de
dimensin reducida, cuyas distancias eucldeas se aproximen lo mejor posible
a las distancias originales.
Sea = { 1 , 2 , . . . , n } un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
= {1, 2, ..., n}.
Sea ij = (i, j) = (j, i) (i, i) = 0 una distancia o disimilaridad entre

los elementos i, j de . Consideremos entonces la matriz de distancias
11 12 1n
21 22 2n
= ..
ij = ji = (i, j) ii = 0.
.. . .
..
.
. .
.
n1 n2 n
Definition 8.1.1 Diremos que = ( ij ) es una matriz de distancias Eucldeas si existen n puntos x1 , . . . , xn Rp , siendo
xi = (xi1 , . . . , xip ),
115
i = 1, . . . , n,
116
CAPTULO 8. ESCALADO MULTIDIMENSIONAL (MDS)
tales que
2ij
p

=
(xi xj )2 = (xi xj ) (xi xj )
(8.1)
=1
Indicaremos las coordenadas de los puntos x1 , . . . , xn , que representan los

elementos 1, . . . , n de , en forma de matriz
X =
x11 x12 x1p

x21 x22 x2n
..
..
..
...
.
.
.
xn1 xn2 xnp
El objetivo del escalamiento multidimensional es encontrar la X adecuada a

partir de la matriz de distancias.
8.2
Cuando una distancia es eucldea?
Sea (2) = ( 2ij ) la matriz de cuadrados de las distancias. Si la distancia es

eucldea entonces de (8.1)
2ij = xi xi + xj xj 2xi xj
La matriz de productos internos asociada a es
G = XX .
Los elementos de G = (gij ) son gij = xi xj . Relacionando (2) = ( 2ij ) con G
vemos que
(2) = 1g + g1 2G,
(8.2)
donde g =(g11 , . . . , gnn ) contiene los elementos de la diagonal de G. Sea H la
matriz de centrado (Cap. 1). Introducimos ahora las matrices A = 21 (2)
y B = HAH.
Theorem 8.2.1 La matriz de distancias es eucldea si y slo si B 0, es
decir, los valores propios de B son no negativos.
8.3. EL ANLISIS DE COORDENADAS PRINCIPALES
117
Demost.: La relacin entre B = (bij ) y A = (aij ) es

bij = aij ai. a.j + a.. ,
donde ai. es la media de la columna i de A, a.j es la media de la fila j y a..
es la media de los n2 elementos de A. Entonces
bii = ai. a.i + a.. ,
bjj = aj. a.j + a.. ,
y por lo tanto
2ij = bii + bjj 2bij = aii + ajj 2aij .
(8.3)
Supongamos que es eucldea. Entonces G = XX . De (8.2) resulta que

A = (1g + g1 )/2 + G.
Multiplicando ambos lados de A por H, dado que H1 = 1 H = 0, tenemos
que
B = HAH = HGH = HXX H = XX 0,

lo que prueba que B es semidefinida positiva.
Supongamos ahora que B 0. Entonces B = YY para alguna matriz
Y de orden n p, es decir, bij = yi yj , donde yi es la fila i- sima de Y.
Aplicando (8.3) tenemos
2ij = yi yi + yj yj 2yi yj = (yi yj ) (yi yj ),
que demuestra que es matriz de distancias eucldeas.
8.3
El anlisis de coordenadas principales
Hemos visto que si B 0, cualquier matriz Y tal que B = YY proporciona

unas coordenadas cartesianas compatibles con la matriz de distancias . Sea
B = UU
la descomposicin espectral de B, donde U es una matriz n p de vectores
propios ortonormales de B y es matriz diagonal que contiene los valores
propios ordenados
1 p > p+1 = 0
(8.4)
118
Obsrvese que B1 = 0, y por lo tanto p+1 = 0 es tambin valor propio de

B de vector propio el vector 1 de unos. Entonces es evidente que la matriz
np
X = U1/2
(8.5)
tambin verifica B = XX .
Definition 8.3.1 La solucin por coordenadas principales es la matriz de coordenadas (8.5), tal que sus columnas X1 , . . . , Xp , que interpretaremos como
variables, son vectores propios de B de valores propios (8.4). Las coordenadas del elemento i son
xi = (xi1 , . . . , xip ),
donde xi es la fila i-sima de X. Reciben el nombre de coordenadas principales
y cumplen (8.1).
La solucin por coordenadas principales goza de importantes propiedades.
En las aplicaciones prcticas, se toman las q < p primeras coordenadas principales a fin de representar . Por ejemplo, si q = 2, las dos primeras coordenadas de X proporcionan una representacin a lo largo de los ejes X1 y
X2 :
X1 X2
1 x11 x12
2 x21 x22
..
..
..
.
.
.
n xn1
xn2
Propiedades:
1. Las variables Xk (columnas de X) tienen media 0.
X1 = = Xp = 0
Prueba: 1 es vector propio de B ortogonal a cada Xk , por lo tanto
X k = n1 (1 Xk ) = 0.
2. Las varianzas son proporcionales a los valores propios
s2k =
1
k ,
n
k = 1, . . . , p
Prueba: la varianza es n1 Xk Xk = n1 k .
8.3. EL ANLISIS DE COORDENADAS PRINCIPALES
119
3. Las variables son incorrelacionadas

cor(Xk , Xk ) = 0,
k = k = 1, . . . , p.
Prueba: como las medias son nulas, la covarianza es

cov(Xk , Xk ) =
1
X Xk = 0,
n k
pues los vectores propios de B son ortogonales.

4. Las variables Xk son componentes principales de cualquier matriz de
datos Z tal que las distancias eucldeas entre sus filas concuerden con
.
Prueba: Supongamos Z matriz de datos centrada. Tenemos que
B = XX = ZZ
La matriz de covarianzas de Z es
1
S = Z Z = TDT ,
n
donde D es diagonal y T es la matriz ortogonal de la transformacin
en componentes principales. Entonces:
Z Z
= nTDT ,
ZZ Z = nZTDT,
BZT = ZTnD,
y por lo tanto ZT es matriz de vectores propios de B con valores
propios los elementos diagonales de nD, lo que implica X = ZT. En
consecuencia la matriz de coordenadas principales X coincide con la
transformacin por componentes principales de Z.
5. La variabilidad geomtrica de es
p
n
1 2
1
V (X) = 2
=
k .
2n i,j=1 ij n k=1
120
6. La variabilidad geomtrica en dimensin q es mxima cuando tomamos

las q primeras coordenadas principales. Es decir,
q
q
n
n
1 2
1
1
2
V (X)q = 2
(q) = 2
(xik xjk ) =
k
2n i,j=1 ij
2n i,j=1 k=1
n k=1
es mximo.
Prueba: Sea x1 , ..., xn una muestra con media x = 0 y varianza s2 . Se
verifica
n

1
2
= 2n1 2 ( ni,j=1 x2i + ni,j=1 x2j 2 ni,j=1 xi xj )
i,j=1 (xi xj )
2n2

= 2n1 2 (n ni=1 x2i + n nj=1 x2j 2 ni=1 xi nij=1 xj )
= s2 ,
por lo tanto
V (X) =
p

s2k .
k=1
Hemos demostrado que para cualquier matriz X tal que B = XX , la

suma de las varianzas de las colummnas de X es igual a la variabilidad
geomtrica. Si en particular tenemos las coordenadas principales, esta
suma de varianzas es la suma de los valores propios dividida por n, y
como entonces las columnas son componentes principales, sus varianzas
son respectivamente mximas.
El porcentaje de variabilidad explicada por los q primeros ejes principales
es la proporcin de variabilidad geomtrica
q
V (X)q
k
Pq = 100
= 100 k=1
p
V (X)
k=1 k
Example 8.3.1
Consideremos = {1, 2, 3, 4, 5} y la matriz de distancias (al cuadrado):

1 2
3
4
5
1 0 226 104 34 101
2
0 26 104 29
3
0 26
9
4
0 41
5
0
8.4. SIMILARIDADES
121
Los valores propios de B son 1 = 130, 2 = 10, 3 = 4 = 5 = 0.

Por lo tanto es matriz de distancias eucldeas y se puede representar
en un espacio de dimensin 2. Las coordenadas principales son las columnas
X1 , X2 de:
X1 X2 1
1
-8 -1 1
2
7
0 1
3
2
1 1
4
-3
2 1
5
2 -2 1
130 10 0
x
0
0 1
2
s
26
2 0
8.4
Similaridades
En ciertas aplicaciones, especialmente en Biologa y Psicologa, en lugar de

una distancia, lo que se mide es el grado de similaridad entre cada par de
individuos.
Una similaridad s sobre un conjunto finito es una aplicacin de
en R tal que:
s(i, i) s(i, j) = s(j, i) 0.
La matriz de similaridades entre los elementos de es
s11 s12 ... s1n

s21 s22 ... s2n
S = ..
.. . .
..
.
. .
.
sn1 sn2 ... snn
donde sij = s(i, j).

Supongamos que tenemos p variables binarias X1 , X2 , ...Xp , donde cada
Xi toma los valores 0 1. Para cada par de individuos (i, j) consideremos la
tabla
j
1 0
i 1 a b
0 c d
122
donde a, b, c, d las frecuencias de (1,1), (1,0), (0,1) y (0,0), respectivamente,

con p = a + b + c + d. Un coeficiente de similaridad debera ser funcin de
a, b, c, d. Son conocidos los coeficientes de similaridad:
sij
sij
a+d
p
a
=
a+b+c
(Sokal-Michener)
(8.6)
(Jaccard)
que verifican : sii = 1 sij = sji 0.

Podemos transformar una similaridad en distancia aplicando la frmula
d2ij = sii + sjj 2sij .
(8.7)
Entonces la matriz A = (d2ij )/2 es

1
A = (Sf + Sf 2S),
2
donde Sf tiene todas sus filas iguales, y como HSf = Sf H = 0, resulta que
B = HAH = HSH.
Por lo tanto:
1. Si S es matriz (semi)definida positiva, la distancia dij es eucldea.
2. rang(HSH) = rang(S) 1.
3. Las coordenadas principales se obtienen diagonalizando HSH.
8.5
Nociones de MDS no mtrico
Supongamos que la matriz de distancias es no eucldea. Entonces la matriz

B (Teorema 8.2.1) tiene valores propios negativos:
1 p > 0 > p+1 p .
El fundamento del MDS no mtrico es transformar las distancias ij para
convertirlas en eucldeas, pero conservando las relaciones de proximidad entre
los elementos del conjunto .
8.5. NOCIONES DE MDS NO MTRICO
123
Figura 8.1: Representacin de 4 objetos conservando las preordenaciones

relacionadas a tres matrices de distancias.
Definition 8.5.1 La preordenacin asociada a la matriz de distancias es
la ordenacin de las m = n(n 1)/2 distancias:
(8.8)
i1 j1 i2 j2 im jm .
La preordenacin es, de hecho, una propiedad asociada a , es decir,

podemos escribir
(i1 , j1 ) (i2 , j2 ) (im , jm ),
(ik , jk ) ,
donde
(i, j) (i , j ) si ij i j .
Se trata de representar en un espacio que conserve la preordenacin. Por
ejemplo, si consideramos las tres matrices de distancias sobre {A,B,C,D}:
A
B
C
D
A B C
0 1 2
0 1
0
D A B
3 0 1
2
0
1
0
C
1
1
0
D A B
1 0 1
1
0
0
0
C
1
1
0
D
1
1
1
0
las preordenaciones se pueden representar en 1, 2 3 dimensiones (Fig. 8.1),

respectivamente.
124
Si transformamos la distancia ij en
ij = ( ij ), donde es una funcin
positiva creciente, es evidente que
ij tiene la misma preordenacin (8.8), y
por lo tanto, individuos prximos (alejados) segn ij estarn tambin prximos (alejados) con respecto a ij . Si adems ij es eucldea, tendremos la
posibilidad de representar , aplicando, por ejemplo, un anlisis de coordenadas principales sobre la distancia transformada, pero conservando (aproximadamente) la preordenacin. En general, la funcin no es lineal, y se
obtiene por regresin montona. Hay dos casos especialmente simples.
Definition 8.5.2 La transformacin q-aditiva de ij se define como
2
2
ij 2a si i = j

ij =
0
si i = j
donde a < 0 es una constante. La transformacin aditiva se define como

ij + c si i = j

ij =
0
si i = j
donde c > 0 es una constante.
Es evidente que las dos transformaciones aditiva y q-aditiva conservan

la preordenacin de la distancia. Probemos ahora que la primera puede dar
lugar a una distancia eucldea.
Theorem 8.5.1 Sea una matriz de distancias no eucldeas y sea p < 0 el
menor valor propio de B. Entonces la transformacin q-aditiva proporciona
una distancia eucldea para todo a tal que a p .
= (
Demost.: Sea
ij ) la matriz de distancias transformadas. Las ma B
(ver Teorema 8.2.1) verifican
trices A, B y A,
Aa(I J), B
= BaH.
A=
Sea v vector propio de B de valor propio = 0. Entonces Hv = v y por lo

tanto
= (BaH)v = ( a)v.
Bv
tiene los mismos vectores propios que B, pero los valores propios son
As B
1 a p a > 0 > p+1 a p a,
8.6. DISTANCIAS ESTADSTICAS
125
es semidefinida positiva.
que son no negativos si a p , en cuyo caso B
La mejor transformacin q-aditiva es la que menos distorsiona la distancia
original. De acuerdo con este criterio, el mejor valor para la constante es
a = p .
Las transformaciones aditiva y no lineal son ms complicadas y las dejamos para otro dia. De hecho, los programas de MDS operan con transformaciones no lineales, siguiendo criterios de minimizacin de una funcin
que mide la discrepancia entre la distancia original y la transformada. Por
ejemplo, el mtodo de Kruskal consiste en:
1. Fijar una dimensin Eucldea p.
2. Transformar la distancia ij en la disparidad
ij = ( ij ), donde
es una funcin montona creciente. Las disparidades conservan la
preordenacin de las distancias.
3. Ajustar una distancia eucldea dij a las disparidades
ij de manera que
minimice

(dij
ij )2 .
i<j
4. Asociar a las distancias dij una configuracin eucldea p-dimensional, y

representar los n objetos a partir de las coordenades de la configuracin.
Para saber si la representacin obtenida refleja bien las distancias entre
los objetos, se calcula la cantidad

2
i<j (dij ij )

S=
,
2
i<j dij
denominada stress, que verifica 0 S 1, pero se expresa en forma de

porcentaje. La representacin es considerada buena si S no supera el 5%.
Tambin es conveniente obtener el diagrama de Sheppard, que consiste en
representar los n(n 1)/2 puntos ( ij , dij ). Si los puntos dibujan una curva
creciente, la representacin es buena, porque entonces se puede decir que
conserva bien la preordenacin (Fig. 8.4).
8.6
Distancias estadsticas
En esta seccin discutiremos algunos modelos de distancias estadsticas.
126
8.6.1
Variables cuantitativas
Siendo x = (x1 , x2 , . . . , xp ), y = (y1 , y2 , . . . , yp ) dos puntos de Rp . La distancia

de Minkowsky se define como
dq (x, y) = (
p

i=1
|xi yi |q )1/q ,
Casos particulares de la distancia dq son:

1. Distancia ciudad:
d1 (x, y) =
p

i=1
|xi yi |
2. Distancia Eucldea:

d2 (x, y) = (xi yi )2
i=1
3. Distancia dominante:
d (x, y) = max {|xi yi |}
1ip
Tienen tambin inters en las aplicaciones, la distancia normalizada por

el rang Ri de la variable i
p
1 |xi yi |
dG (x, y) =
,
p i=1
Ri
y, cuando los valores de las variables son positivos, la mtrica de Canberra
p
1 |xi yi |
dC (x, y) =
.
p i=1 xi + yi
dG y dC son invariantes por cambios de escala.
127
Supongamos ahora dos poblaciones 1 , 2 con vectores de medias 1 , 2

y matrices de covarianzas 1 , 2 . Cuando 1 = 2 = , la distancia de
Mahalanobis entre poblaciones es
M 2 (1 , 2 ) = (1 2 ) 1 (1 2 )
Esta distancia, ya introducida previamente, es invariante por cambios de escala y tiene en cuenta la correlacin entre las variables. Adems, si Mp , Mq , Mp+q
indican las distancias basada en p, q, p + q variables, respectivamente, se verifica:
a) Mp Mp+q .
2
b) Mp+q
= Mp2 +Mq2 si los dos grupos de p y q variables son independientes.
No es fcil dar una definicin de distancia cuando 1 = 2 . Una definicin
de compromiso es
1
(1 2 ) [ (1 + 2 )]1 (1 2 ).
2
8.6.2
Variables binarias
Cuando todas las variables son binarias (toman solamente los valores 0 y
1), entonces conviene definir un coeficiente de similaridad (Seccin 8.4) y
aplicar (8.7) para obtener una distancia. Existen muchas maneras de definir
una similaridad sij en funcin del peso que se quiera dar a los a, b, c, d. Por
ejemplo:
sij =
a
a + 2(b + c)
(Sokal-Sneath)
2a
sij =
(Dice)
(a + b)(a + c)
(8.9)
Las similaridades definidas en (8.6) y (8.9) proporcionan distancias eucldeas.
8.6.3
Variables categricas
Supongamos que las observaciones pueden ser clasificades en k categoras

ex
cluyentes A1 , . . . , Ak , con probabilidades p = (p1 , . . . , pk ), donde kh=1 ph =
1. Podemos definir distancias entre individuos y entre poblaciones.
128
1. Entre individuos. Si dos individuos i, j tienen las categoras Ah, Ah ,

respectivamente, una distancia (al cuadrado) entre i, j es:

0
si h = h ,
2
d(i, j) =
1
p1
si h = h .
h + ph
Si hay varios conjuntos de variables categricas, con un total de K
categoras o estados, una similaridad es /K (matching coefficient),
donde es el nmero de coincidencias.
2. Entre poblaciones. Si tenemos dos poblaciones representadas por p =
(p1 , . . . , pk ), q = (q1 , . . . , qk ), dos distancias entre poblaciones son

da (p, q) = 2 ki=1 |pi qi |/(pi + qi ),

db (p, q) = arccos( ki=1 pi qi ).
8.6.4
Variables mixtas
En las aplicaciones a menudo los datos provienen de las observaciones de

p1 variables cuantitativas, p2 variables dicotmicas (dos estados: presente,
ausente) y p3 variables categricas o cualitativas (ms de dos estados). Un
coeficiente de similaridad (propuesto por J.C. Gower) es
p1
(1 |xih xjh |/Rh ) + a +
sij = h=1
,
p1 + (p2 d) + p3
donde Rh es el rango de la variable cuantitativa Xh , a y d son el nmero
de dobles presencias y dobles ausencias de las variables dicotmicas, y es
el nmero de coincidencias entre las variables categricas. Si solamente hay
variables dicotmicas o variables categricas, sij reduce la similaridad normalizada por el rango, al coeficiente de Jaccard o al matching coefficient,
respectivamente:
1
1 p11 ph=1
|xh yh |/Rh si p2 = p3 = 0,
a/(a + b + c)
si p1 = p3 = 0,
/p3
si p1 = p2 = 0.
Este coeficiente verifica 0 sij 1, y aplicando (8.7) se obtiene una distancia

eucldea que adems admite la posibilidad de datos faltantes.
8.6.5
129
Otras distancias
Existen muchos procedimientos para definir distancias, en funcin de los

datos y el problema experimental. Veamos dos.
Modelo de Thurstone
Supongamos que queremos ordenar n estmulos 1 , . . . , n (por ejemplo, n
productos comerciales)
i1 . . . in
segn una escala de preferencias i1 in , donde los i son parmetros.

Sea pij la proporcin de individuos de la poblacin que prefieren j sobre i .
Un modelo es
j i
1
2
et /2 dt.
pij =
2
Si ms de la mitad de los individuos prefieren j sobre i , entonces i < j .
As:
a) pij < 0.5 implica i > j ,
b) pij = 0.5 implica i = j ,
c) pij > 0.5 implica i < j .
La estimacin de los parmetros a partir de las proporciones pij es complicada. Alternativamente, teniendo en cuenta que pij + pji = 1 podemos
definir la distancia entre estmulos
d(i , j ) = |pij 0.5|
y aplicar un MDS sobre la matriz (d( i , j )). La representacin de los estmulos a lo largo de la primera dimensin nos proporciona una solucin a la
ordenacin de los estmulos.
Distancia de Rao
Sea S = {f (x, ), } un modelo estadstico y z() =

log f (x, ) un
vector columna. La matriz de informacin de Fisher F () es la matriz de
130
covarianzas de los z s. Siendo a , b dos valores de los parmetros. Una

distancia tipo Mahalanobis sera el valor esperado de
(z( a ) z(b )) F ()1 (z(a ) z(b )).
Pero z depende de x y vara entre a , b . Consideremos entonces a F ()
como un tensor mtrico sobre la variedad diferenciable S . La distancia de
Rao entre a , b es la distancia geodsica entre los puntos correspondientes de
S . La distancia de Rao es invariante por transformaciones de las variables y
de los parmetros, generaliza la distancia de Mahalanobis y tiene aplicaciones
en estadstica matemtica. Veamos tres ejemplos.
1. Distribucin de Poisson: f (x, ) = ex x/x!, x = 0, 1, 2, . . . . La distancia entre dos valores a , b es:

(a , b ) = 2| a b |.
2. Distribucin multinomial. La distancia entre p = (p1 , . . . , pk ) y q =
(q1 , . . . , qk ) es:
k

(p, q) = arccos(
pi qi ).
i=1
3. Distribucin normal. Si es fija, la distancia (al cuadrado) entre dos

vectores de medias es:
2 (1 , 2 ) = (1 2 ) 1 (1 2 ).
Finalmente, para un valor fijo de , podemos definir la distancia entre
dos observaciones x1 , x2 que dan zi () =

log f (xi , ), i = 1, 2, como
(z1 () z2 ()) F ()1 (z1 () z2 ()).
8.7
Dos ejemplos
Example 8.7.1
8.7. DOS EJEMPLOS
131
Un arquelogo encontr 5 herramientas cortantes A,B,C,D,E y una vez

examinadas, comprob que estaban hechas de piedra, bronce y hierro, conforme a la siguiente matriz de incidencias:
Piedra Bronce Hierro
A
0
1
0
B
1
1
0
C
0
1
1
D
0
0
1
E
1
0
0
Utilizando la similaridad de Jaccard
dades:
A B
A 1 1/2
1
B
C
D
E
(8.6), obtenemos la matriz de similariC

1/2
1/3
1
D
0
0
1/2
1
E
0
1/2
0
0
1
Los resultados del anlisis de coordenadas principales son:

A
.0000 .6841 -.3446
B
.4822 .1787 .2968
C
-.4822 .1787 .2968
D
-.6691 -.5207 -.1245
E
.6691 -.5207 -.1245
valor propio 1.360 1.074 .3258
porc. acum. 44.36 79.39 90.01
La primera y segunda coordenadas explican el 80% de la variabilidad
geomtrica. La representacin (Fig. 8.2) indica que las herramientas quedan
ordenadas segn su antigedad: E es la ms antigua (slo contiene piedra) y
D la ms moderna (slo contiene hierro).
Example 8.7.2
Una distancia gentica es una medida que cuantifica las proximidades
entre dos poblaciones a partir de las proporciones gnicas. Por ejemplo, si
existen k ordenaciones cromosmicas que se presentan en las proporciones
132
Figura 8.2: Representacin por anlisis de coordenadas principales de 5 herramientas prehistricas.

(p1 , . . . , pk ), (q1 , . . . , qk ), una distancia adecuada (propuesta por A. Prevosti)
es
k
1
|pi qi |
2r i=1
donde r es el nmero de cromosomas diferentes.

Las distancias entre n = 19 poblaciones de D. Suboscura que provienen de
Droback, Dalkeith, Groningen, Fontaineblau, Viena, Zurich, Huelva, Barcelona,
Fornia, Foresta, Etna, Fruska-Gora, Thessaloniki, Silifke, Trabzon, Chalus,
Orangerie, Agadir, Las Mercedes, se dan en la Tabla 8.1. Aplicando un MDS
no mtrico, se obtiene la representacin de las 19 poblaciones (Fig. 8.3), con
un stress de 2.84, que indica que la representacin es buena. La Fig. 8.4
representa las distancias versus las disparidades.
8.8
Complementos
En un plano terico, el MDS comienza con el teorema de I. J. Schoenberg

acerca de la posibilidad de construir las coordenadas de un conjunto de puntos
dadas sus distancias. A nivel aplicado, es de destacar a W. S. Torgerson, que
en 1957 aplica el MDS a la psicologa, y Gower (1966), que prueba su relacin
con el Anlisis de Componentes Principales y el Cannico de Poblaciones,
abriendo un fructfero campo de aplicacin en la biologa.
8.8. COMPLEMENTOS
133
D ro D a l G ro Fo n V ie Z u r H u e B a r Fo r Fo r E tn Fru T h e S il Tra C h a O ra A g a L a s
D RO BA
DA LK E
.30 7
G RO N I
.1 5 2 .27 6
F O N TA
.2 7 1 .2 2 5 .15 0
V IE N A
.2 6 0 .37 0 .1 8 7 .1 9 5
Z U R IC
.23 5 .3 0 0 .1 1 2 .12 0 .1 2 8
H U E LV
.78 2 .6 5 7 .6 9 5 .58 0 .5 4 0 .6 2 3
BARCE
.6 1 5 .4 6 5 .52 9 .4 1 2 .4 6 9 .44 5 .2 5 9
FO R N I
.7 8 0 .6 5 7 .69 3 .6 0 7 .6 0 6 .60 9 .3 7 3 .3 0 9
0
0
0
0
0
0
0
0
FO R E S
.87 9 .7 9 0 .8 0 1 .76 4 .7 6 0 .7 6 1 .3 9 6 .4 9 0 .4 5 2
ETNA
.9 4 1 .84 6 .8 7 3 .8 1 3 .81 8 .8 1 7 .4 1 4 .5 2 4 .4 5 1 .1 7 7
FRUSK
.5 6 0 .5 0 5 .47 0 .4 4 2 .3 4 2 .39 1 .5 7 7 .4 6 0 .5 0 1 .6 8 1 .6 9 6
THESS
.6 6 8 .5 4 5 .59 2 .5 1 4 .4 3 4 .50 0 .5 0 2 .3 9 2 .3 6 3 .5 9 0 .6 3 0 .31 5
S IL IF
.76 3 .6 4 3 .6 8 0 .58 4 .5 8 1 .6 1 0 .4 1 4 .3 5 7 .4 1 3 .6 4 6 .6 6 7 .54 4 .3 4 0
0
0
0
0
TRABZ
.7 5 1 .61 9 .6 7 5 .5 8 2 .51 9 .5 8 7 .4 1 8 .3 4 2 .3 9 9 .5 8 7 .6 4 8 .43 9 .2 6 9 .2 8 6
CH A LU
.7 0 9 .48 9 .6 3 6 .5 4 8 .53 1 .5 4 9 .5 9 5 .4 8 9 .5 1 4 .6 3 5 .6 4 9 .44 4 .4 0 8 .5 7 4 .4 3 8
ORANG
.9 4 7 .8 6 7 .86 4 .7 8 2 .8 3 7 .79 5 .5 7 3 .5 7 4 .5 6 8 .5 1 9 .5 3 5 .78 2 .7 3 3 .6 9 6 .6 9 8 .7 6 0
0
0
AG A DI
.92 7 .8 3 4 .8 4 4 .80 3 .7 8 9 .7 9 2 .4 2 8 .4 9 8 .4 8 5 .3 2 9 .3 0 3 .66 6 .6 6 1 .6 4 2 .6 3 1 .7 1 0 .3 2 1
LASM E
.9 3 1 .6 9 9 .84 6 .7 4 9 .8 0 2 .79 2 .4 0 4 .4 8 5 .4 2 9 .3 8 0 .2 5 3 .65 9 .5 6 6 .6 0 4 .5 5 1 .4 6 0 .6 1 5 .4 3 0
0
0
Tabla 8.1: Distancias genticas respecto a las ordenaciones cromosmicas

entre 19 poblaciones de D. Suboscura.
134
Figura 8.3: Representacin MDS de 19 poblaciones de D. Subobscura respecto a las distancias genticas entre ordenaciones cromosmicas.
Figura 8.4: Representacin de las distancias genticas vs las disparidades.
8.8. COMPLEMENTOS
135
El MDS no mtrico es debido a R. N. Shepard, que en 1962 introdujo el

concepto de preordenacin, y J. B. Kruskal, que en 1964 propuso algoritmos
efectivos que permitan encontrar soluciones. La transformacin q-aditiva
fue estudiada por J.C. Lingoes y K.V. Mardia. Diversos autores estudiaron
la transformacin aditiva, hasta que Cailliez (1983) encontr la solucin definitiva. Consultar Cox y Cox (1994).
Existen diferentes modelos para tratar el problema de la representacin
cuando actan diferentes matrices de distancias. Un modelo, propuesto por
J.D. Carroll, es el INDSCAL. Un modelo reciente, propuesto por Cuadras y
Fortiana (1998) y Cuadras (1998), es el related metric scaling.
De la misma manera que se hace regresin sobre componentes principales,
se puede hacer regresin de una variable dependiente Y sobre las dimensiones principales obtenidas aplicando MDS sobre una matriz de distancias
entre las observaciones. Este modelo de regresin basado en distancias permite plantear la regresin con variables mixtas. Consultar Cuadras y Arenas
(1990), Cuadras et al. (1996).
Una versin del MDS, denominada continuous scaling, permite encontrar las coordenadas principales de una variable aleatoria. Consultar Cuadras
y Fortiana (1993a,1995), Cuadras y Lahlou (2000).
P.C. Mahalanobis y C. R. Rao propusieron sus distancias en 1936 y 1945,
respectivamente. Posteriormente Amari, Atkinson, Burbea, Mitchell, Oller y
otros estudiaron la distancia de Rao. Consultar Oller (1987), Oller y Cuadras
(1985), Cuadras (1988).
136
Captulo 9
ANALISIS DE
CORRESPONDENCIAS
9.1
Introduccin
El Anlisis de Correspondencias (AC) es una tcnica multivariante que permite representar las categoras de las filas y columnas de una tabla de contingencia.
Supongamos que tenemos dos variables categricas A y B con I y J categoras respectivamente, y que han sido observadas
cruzando las I categoras

A con las J categoras B, obteniendo n = ij fij observaciones, donde fij
es el nmero de veces en que aparece la interseccn Ai Bj , dando lugar a la
tabla de contingencia I J :
A1
A2
..
.
AI
B1
f11
f21
B2
f12
f22
...
BJ
f1J
f2J
fI1
f1
fI2
f2
fIJ
fJ
f1
f2
..
.
(9.1)
fI
n

donde fi = j fij son las frecuencias de Ai , fj = i fij son las frecuencias
de Bj . Hemos de tener en cuenta que la tabla (9.1) resume la matriz de datos
137
138
CAPTULO 9. ANALISIS DE CORRESPONDENCIAS
inicial, que tpicamente es de la forma

1
..
.
A1
1
..
.
A2
0
..
.
...
AI
0
..
.
B1
1
..
.
B2
0
..
.
...
BJ
0
..
.
i
..
.
0
..
.
0
..
.
...
1
..
.
0
..
.
1
..
.
...
0
..
.
en la que damos el valor 1 cuando se presenta una caracterstica y 0 cuando

no se presenta. As, el individuo 1 presentara las caractersticas A1 y B1 ,
el individuo i presentaria las caractersticas AI y B2 , y el individuo n las
caractersticas AI y BJ . La matriz de datos n (I + J) es pues
Z = [X, Y].
A partir de ahora utilizaremos el nombre de variables filas y variables
columnas a las variables A y B, respectivamente.
Indiquemos por N = (fij ) la matriz I J con las frecuencias de la tabla
de contingencia. La matriz
1
P = N,
n
es la matriz de correspondencias. Indiquemos por r el vector I 1 con los
totales marginales de las filas de P, y por c el vector J 1 con los totales
marginales de las columnas de P :
r = P1,
c = P 1.
Tenemos entonces que

r=
1
1 X,
n
c=
1
1 Y,
n
son los vectores de medias de las matrices de datos X, Y. Indiquemos adems

Dr = diag(r),
Dc = diag(c),
las matrices diagonales que contienen los valores marginales de filas y columnas de P. Se verifica
X X = nDr ,
Y Y = nDc ,
X Y = nP = N.
9.2. CUANTIFICACIN DE LAS VARIABLES CATEGRICAS
139
Por lo tanto, las matrice de covarianzas entre filas, entre columnas y entre
filas y columnas, son
S11 = Dr rr ,
S22 = Dc cc ,
S12 = P rc .
Puesto que la suma de las variables es igual a 1, las matrices S11 y S22 son
singulares.
9.2
Cuantificacin de las variables categricas
El problema de las variables categricas, para que puedan ser manejadas en

trminos de AM clsico, es que no son cuantitativas. La cuantificacin 0
1 anterior es convencional. Asignemos pues a las categoras A1 , . . . ,AI de la
variable fila, los valores numricos a1 , . . . , aI , y a las categoras B1 , . . . ,BJ de
la variable columna, los valores numricos b1 , . . . , bJ . es decir, indiquemos los
vectores
a = (a1 , . . . , aI ) , b = (b1 , . . . , bJ ) ,
y consideremos las variables compuestas
U = Xa,
V = Yb.
Si en un individuo k se observan las categoras Ai ,Bj , entonces los valores de

U, V sobre k son
Uk = ai , Vk = bj .
Deseamos encontrar a, b tales que las correlaciones entre U y V sean
mximas. Claramente, estamos ante un problema de correlacin cannica,
salvo que ahora las matrices S11 y S22 son singulares. Una g-inversa de S11
1
es la matriz S
11 = Dr que verifica
S11 S
11 S11 = S11 .
En efecto,
(Dr rr )D1
r (Dr rr ) = (Dr rr )(I 1r )
= Dr Dr 1r rr +rr 1r
= Dr rr rr +rr
= Dr rr .
140
1
Anlogamente S
22 = Dc . Aplicando la teoria de la correlacin cannica
(Seccin 4.3), podemos considerar la descomposicin singular
Dr1/2 (P rc )D1/2
= UD V ,
c
(9.2)
donde D es la matriz diagonal con los valores singulares en orden decreciente. Si u1 , v1 son los primeros vectores cannicos, tendremos entonces
1/2
a = S11 u1 ,
1/2
b = S22 v1 ,
r = 1 ,
es decir, el primer valor singular es la mxima correlacin entre las variables

U y V. Pero pueden haber ms vectores y correlaciones canonicas, y por lo
tanto la solucin general es
ai = D1/2
ui ,
r
bi = D1/2
vi ,
c
ri = i ,
i = 1, . . . , min{I, J}.
En notacin matricial, los vectores que cuantificn las categoras de las filas y
de las columnas de N, son las columnas de las matrices
A0 = D1/2
U,
r
B0 = Dc1/2 V.
Tambin obtenemos correlaciones mximas considerando las matrices

A = Dr1/2 UD ,
B = Dc1/2 VD ,
(9.3)
pues el producto por una constante (en este caso un valor singular), no altera
las correlaciones.
9.3
Representacin de filas y columnas
Los perfiles de las filas son

(
pi1 pi2
piJ
, , ,
),
ri ri
ri
es decir, las probabilidades condicionadas P (B1 /Ai ), . . . , P (BJ /Ai ). La

matriz de perfiles de las filas es
Q = D1
r P.
9.3. REPRESENTACIN DE FILAS Y COLUMNAS
141
Definition 9.3.1 La distancia ji-cuadrado entre las filas i, i de N es

2ii
J

(pij /ri pi j /ri )2
j=1
cj
La matriz de productos escalares asociada a esta distancia es
G = QD1
c Q,
y la relacin entre (2) = ( 2ii ) y G es

(2) = g1 + 1g 2G,
siendo g el vector columna con los I elementos diagonales de G. La solucin
MDS ponderada de las filas de N (Seccin 9.8) se obtiene calculando la
diagonalizacin
1/2
D1/2
= UD2 U
r (I 1r )G(I r1 )Dr
y seguidamente obteniendo las coordenadas principales

A = D1/2
UD .
r
(9.4)
Las distancias eucldeas entre las filas de A coinciden con la distancia jicuadrado.
Relacionemos ahora estas coordenadas con las cuantificaciones anteriores.
De (9.2) tenemos
1/2
D1/2
(P rc )D1
= UD2 U ,
r
c (P cr )Dr
y de
1
1
1/2
1/2
1/2
Dr1/2 (D1
r P 1c )Dc (P Dr c1 )Dr = Dr (Q 1r Q)Dc (Q Q r1 )Dr ,
deducimos que
1/2
2
D1/2
r (I 1r )QDc Q (I r1 )Dr = UD U .
Esta ltima expresin demuestra que las matrices A obtenidas en (9.3) y

(9.4) son la misma.
142
Anlogamente podemos definir la distancia ji-cuadrado entre columnas

2jj
I

(pij /cj pij /cj )2
ri
i=1
y probar que las distancias eucldeas entre las filas de la matriz B obtenidas
en (9.3), coinciden con esta distancia ji-cuadrado.
As pues, si consideramos las dos primeras coordenadas principales:
Filas
(a11 , a12 )
(a21 , a22 )
..
.
B1
B2
..
.
Columnas
(b11 , b12 )
(b21 , b22 )
..
.
AI (aI1 , aI2 )
BJ
(bJ1 , bJ2 )
A1
A2
..
.
obtenemos una representacin de filas y columnas de la matriz de frecuencias

N.
9.4
Relacin entre filas y columnas y representacin conjunta
Las coordenadas A y las coordenadas B, que representan las filas y las colum1/2
nas, estn relacionadas. Premultiplicando (9.2) por Dr
y postmultiplicando por V obtenemos
1/2
D1
V = D1/2
U,
r (P rc )Dc
r
luego
1
D1
r (P rc )BD = A.
Anlogamente se prueba que
D1
c (P cr )AD = B.
Si ahora tenemos en cuenta que r D1

r = 1 , premultiplicando por r
1 (P rc )BD1
= r A.
Como adems 1 P = c , 1 r = 1, vemos fcilmente que
(c c )BD1
= r A = 0.
9.4. RELACIN ENTRE FILAS Y COLUMNAS Y REPRESENTACIN CONJUNTA14

Anlogamente, c B = 0, es decir, las medias ponderadas de las coordenadas
principales son cero. En consecuencia
1
A = D1
r PBD ,
B = D1
c P AD .
(9.5)
1
Conviene notar que D1
r P son los perfiles de las filas, y Dc P son los perfiles
de las columnas. As pues tenemos que, salvo el factor dilatador D1
, (pues
los elementos diagonales de D son menores que 1), se verifica:
1. Las coordenadas de las filas son medias, ponderadas por los perfiles de
las filas, de las coordenadas de las columnas.
2. Las coordenadas de las columnas son medias, ponderadas por los perfiles de las columnas, de las coordenadas de las filas.
Por ejemplo, la primera coordenada principal de las filas verifica:
ai1 =
1
pi1
pi2
piJ
(b11
+ b21
+ + bJ1 ),
1
ri
ri
ri
i = 1, . . . , I,
y la primera coordenada principal de las columnas verifica

bj1 =
1
p1j
p2j
pIj
(a11
+ a21
+ + aI1 ),
1
cj
cj
cj
j = 1, . . . , J.
Ejemplo 1. La Tabla 9.1 contiene unos datos artificiales, que clasifican 400 clientes segn la edad (joven, mediana, mayor) y los productos que
compran en un supermercado.
Tenemos:
.175
0
0
.175
.112 5 .1125 0
.225
.45
.40 .
P=
.075 .075 .075 , r = .225 , c =
0
.2
.05
.250
.15
.0875 .0125 .025
.125
La matriz de perfiles de las filas es:
1.00 0
0
0.50 0.50 0
0.33 0.33 0.33
0 0.80 0.20
0.70 0.10 0.20
144
Producto
A
B
C
D
E
Total
Edad
Joven Mediana Mayor Total
70
0
0
70
45
45
0
90
30
30
30
90
0
80
20
100
35
5
10
50
180
160
60
400
Tabla 9.1: Clasificacin de 400 clientes segn edades y productos adquiridos

en un supermercado.
Las coordenadas principales son:
A=
Filas
1.0990 0.1199
0.0551 0.4213
0.1834
0.4815
0.9231 0.1208
0.5384
0.3012
Columnas
0.7525 0.0397
B = 0.6770 0.2393
0.4522
0.7571
Los valores singulares son: 1 = 0.6847, 2 = 0.3311. La primera coordenada principal de las filas A1 , . . . ,A5 verifica:
1.0990
0.0551
0.1834
0.9231
0.5384
= 0.68471 (.7525 1 + 0 + 0)
= 0.68471 (.7525 .5 .677 .5 + 0)
= 0.68471 (.7525 .33 .677 .33 .4522 .33)
= 0.68471 (0 .677 .8 .4522 .2)
= 0.68471 (.7525 .7 .677 .1 .4522 .2)
Las coordenadas de las marcas A,B,C,D,E son medias de las coordenadas de

las tres edades, ponderadas por la incidencia del producto en la edad.
9.5
Soluciones simtrica y asimtrica
La representacin de filas y columnas utilizando las coordenadas principales

A, B es la solucin simtrica. La representacin conjunta es posible gracias
a las frmulas (9.5). La representacin utilizando las matrices
A = Dr1/2 UD ,
B0 = D1/2
V,
c
9.5. SOLUCIONES SIMTRICA Y ASIMTRICA
145
Figura 9.1: Representacin asimtrica (izquierda) y simtrica (derecha) de

las filas (productos) y columnas (edades) de la Tabla 9.1.
Color ojos
CLARO
AZUL
CASTAO
OSCURO
Total
Color
cabellos
Rubio Rojo Castao Oscuro Negro Total
688
116
584
188
4
1,580
326
38
241
110
3
718
343
84
909
412
26
1,774
98
48
403
681
81
1,311
1,455 286
2,137
1,391
114
5,383
Tabla 9.2: Classificacin de 5383 individuos segn el color de los ojos y del
cabello.
es decir, coordenadas principales para las filas y coordenadas estndard para
las columnas, es la llamada solucin asimtrica. Esta solucin verifica
P rc = Dr AB0 Dc ,
y por lo tanto reproduce mejor la dependencia entre filas y columnas.
Ejemplo 2. La Tabla 9.2 relaciona los colores de los cabellos y de los
ojos de 5,383 individuos.
146
Figura 9.2: Representacin asimtrica (izquierda) y simtrica (derecha) de

los datos de los colores de ojos y cabellos.
Las coordenadas principales son:
Filas
0.4400 0.0872
0.3996 0.1647
B=
A=
0.0361
0.2437
0.7002 0.1345
Columnas
0.5437 0.1722
0.2324 0.0477
0.0402
0.2079
0.5891 0.1070
1.0784 0.2743
Los valores singulares son: 1 = 0.449, 2 = 0.1727, 3 = 0.0292. De

acuerdo con (9.6), la variabilidad explicada por las dos primeras dimensiones
principales es P2 = 86.8%. La Figura 9.2 proporciona las representaciones
simtrica y asimtrica.
9.6
Variabilitadad geomtrica (inercia)
Vamos a probar que

2
=n
m

k=1
2k ,
9.6. VARIABILITADAD GEOMTRICA (INERCIA)

siendo
2
=n
147
I
J

(fij fi fj /n)2
fi fj
i=1 j=1
el estadstico ji-cuadrado con (I 1)(J 1) g.l. que permite decidir si hay

independencia entre filas y columnas de N. Es decir, la ji-cuadrado es n veces
la suma de los valores propios del AC.
El coeficiente 2 de Pearson se define como
2
I
J

(pij ri cj )2
ri cj
i=1 j=1
2
= ,
n
Es fcil probar que tambin podemos expresar

2 =
I
J

p2ij
1.
r
c
i
j
i=1 j=1
La variabilidad geomtrica ponderada de la distancia ji-cuadrado entre

filas es
I
I
1 2
V =
ri ri .
2 i=1 i =1 ii
Proposition 9.6.1 V = 2 .
Prueba:
2ii
J

(pij /ri pi j /ri )2
cj
j=1
Por lo tanto
J

pij
pi j 2
=
(
) cj
ri cj ri cj
j=1
1
pij
pi j 2
V =
ri (
) cj ri
2 i=1 i=1 j=1 ri cj ri cj
Si desarrollamos por un lado

I
i=1
I
i =1
J
p2ij
j=1 ri ri2 c2j cj ri
=
=
I
i=1
I
i=1
I
i =1
J
J
p2ij
j=1 ri cj ri
p2ij
j=1 ri cj ,
148
y por otro lado, dado que

I I J
i=1
i=1
I
i =1
pij = cj ,
pij pi j
j=1 ri ri c2j ri cj ri
=
=
I
i=1
I
i=1
I
J pij pi j
i =1
j=1 cj
J pij cj
j=1 cj = 1,
es decir, vemos que V = ( + 2)/2, siendo =

Proposition 9.6.2 2 =
Prueba: Sea
I
k=1
2k .
p2ij
i,j ri cj .
W = Dr1/2 (P rc )D1/2
= UD V .
c
Entonces
2 = tr(WW ) = tr(UD2 U ) = tr(D2 ).
Proposition 9.6.3 La variabilidad geomtrica utilizando slo las primeras
m coordenadas principales es
V (m) =
m

2k .
k=1
Prueba: Supongamos m = J. Podemos escribir la matriz de distancias

entre filas como
(2) = a1 +1a 2AA ,
siendo a el vector columna que contiene los elementos de la diagonal de AA .
Entonces
1
V = r (2) r = r a1 r + r 1a r 2r AA r = r a.
2
Pero
1/2
2
2
r a = tr(D1/2
r AA Dr ) = tr(UD U ) = tr(D ).
Lo hemos probado para m = J, pero fcilmente vemos que la frmula tambin

vale para m < J.
As pues, en la representacin por AC de las filas y columnas de N en
dimensin m, el porcentaje de variabilidad geomtrica o inercia viene dado
por
m 2
k
Pm = 100 k=1
.
(9.6)
K
2
k=1 k
9.7. ANALISIS DE CORRESPONDENCIAS MLTIPLES
9.7
149
Analisis de Correspondencias Mltiples
El AC combina y representa dos variables categricas. Pero se puede adaptar

para estudiar ms de dos variables. Presentemos primero el procedimiento
para dos, que despus generalizaremos.
Escribimos la matriz n (I + J) de datos binarios como una matriz
n (J1 + J2 )
Z = [Z1 , Z2 ].
Entonces tenemos que
Bu = Z Z =
Z1 Z1 Z1 Z2
Z2 Z1 Z2 Z2
=n
Dr P
P Dc
La matriz de frecuencias, donde F y C contienen las marginales de filas y

columnas,
!
F N
Bu =
N C
es la llamada matriz de Burt. A continuacin podemos realizar tres anlisis
de correspondencias diferentes sobre las matrices:
a) N.
b) [Z1 , Z2 ].
c) Bu .
El anlisis a) lo hemos vistos en las secciones anteriors. El resultado es

una representacin de filas y columnas de N.
El anlisis b) es sobre [Z1 , Z2 ], considerada una matriz binaria con n filas
y J1 +J2 columnas. AC nos dara una representacin de las J1 +J2 columnas,
que es la interesante, y de los n individuos, pero esta segunda representacin
es innecessaria.
El anlisis c) es sobre Bu que es la matriz simtrica de orden (J1 + J2 )
(J1 + J2 ). Tendremos una representacin idntica por columnas y por filas.
En los tres casos vemos que podemos representar las filas y columnas de
N. Es posible demostrar que los tres anlisis son equivalentes en el sentido de
que proporcionan la misma representacin, variando slo los valores propios.
150
Todo esto se describe en el cuadro que sigue.

Tabla
N = Z1 Z2
Z = [Z1 , Z2 ]
Bu = Z Z
Dimensin
J1 J2
n (J1 + J2 )
(J1 + J2 ) (J1 + J2 )
Coordenadas
A (filas)
B (columnas)
!
A
B !
A
B
Valor propio
1+
2
( 1+2 )2
Consideremos a continuacin Q variables categricas con J1 , . . . , JQ estados, respectivamente, sobre n individuos. Sea J = J1 + . . . + JQ. La tabla de
datos, de orden n J es la super-matriz de indicadores
Z = [Z1 , . . . , Zj , . . . , Zq ],
donde Zj es n Jj y contiene los datos binarios de la variable j. La tabla de
contingencia que tabula la combinacin de las variables i, j es Nij = Zi Zj .
La matriz de Burt, de orden J J es

Z1 Z1 Z1 Z2 Z1 Zq
Z Z1 Z Z2 Z Zq
2
2
2
Bu = Z Z = ..
..
.. ,
.
.
.
.
.
.
Zq Z1 Zq Z2 Zq Zq
donde las matrices Zj Zj sn diagonales.

El Anlisis de Correspondncias Mltiples intenta representar los J =
J1 + . . . + Jq estados de las q variables categricas. Como en el caso Q = 2,
lo podemos hacer aplicando un AC simple sobre leas matrices:
a) Z.
b) Bu .
E en caso a) representampos las J columnas y ignoramos las n filas (individuos). En el caso b) tenemos una tabla de frecuencias J J simtrica
y podemos representar las filas (=columnas) aplicando AC simple. Los dos
procedimientos son equivalentes, salvo que se cumple la relacin
Z 2
B
k = (k )
9.7. ANALISIS DE CORRESPONDENCIAS MLTIPLES
151
Z
entre los valores propios B
i obtenidos a partir de la matriz de Burt y los i
que surgen del anlisis sobre Z. Las inercias correspondientes son:
2 (Bu ) =
2 (Z)
B
=
k k
Zk =
1 2
[
(Nij ) + (J Q)],
Q2 i=j
J
1,
Q
siemdo 2 (Nij ) la inercia para la tabla Nij , vase Secci ??. As pues podemos
constatar que AC puede servir tambin para representar ms de dos variables
categriques.
Exemple 9.7.1 La Tabla 9.3 contiene las frecuencias con la clasifcacin
cruzada de 1257 individuos segun Edad (E), Sexo (S), intencin de Voto (V)
y Clase social (C). Tenemos Q = 4, J = 12, J1 = 4, J2 = 2, J3 = 3, J4 = 2.
Los datos (matriz Z, solo mostramos 5 individuos) son de la forma:
Edad
>73 51-73 41-50
0
1
0
0
1
0
0
0
0
1
0
0
0
1
0
..
..
..
.
.
.
Votacin
26-40 <26 Lib Con
0
0
1
0
0
0
0
1
0
1
1
0
0
0
0
1
0
0
1
0
..
..
..
..
.
.
.
.
Clase
Alt Mit Obr
0
1
0
1
0
0
0
0
1
1
0
0
0
1
0
..
..
..
.
.
.
Sexo
H D
1 0
0 1
1 0
0 1
1 0
.. ..
. .
La Tabla 9.4 (abajo) es la tabla de Burt. Observemos que es simtrica.

El AC sobre esta tabla nos permite representar las 4 variables categricas
sobre el mismo grfico, vase la Figura 9.3.
152

Edad
Hombres
Derecha Izquierda
Clase
4
0
27
8
27
4
17
12
7
6
Clase
8
4
21
13
27
12
14
15
9
9
Clase
8
15
35
62
29
75
32
66
14
34
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
>73
51-73
41-50
26-40
<26
Mujeres
Derecha Izquierda
alta
10
0
26
9
25
9
28
9
7
3
media
9
1
33
8
29
4
17
13
13
7
obrera
17
4
52
53
32
70
36
67
18
33
Tabla 9.3: Tabla de frecuencias combinando 1257 individuos segn edad,

sexo, clase social y tendencia de voto.
81
0
0
0
0
56
25
14
23
44
39
42
0
347
0
0
0
194
153
70
75
202
166
181
0
0
343
0
0
169
174
65
72
206
174
169
0
0
0
326
0
144
182
66
59
201
156
170
0
0
0
0
160
68
92
23
38
99
79
81
56
194
169
144
68
631
0
178
180
273
279
352
25
153
174
182
92
0
626
60
87
479
335
291
14
70
65
66
23
178
60
238
0
0
112
126
23
75
72
59
38
180
87
0
267
0
132
135
44
202
206
201
99
273
479
0
0
752
370
382
39
166
174
156
79
279
335
112
132
370
614
0
42
181
169
170
81
352
291
126
135
382
0
643
Tabla 9.4: Tabla de Burt con la clasificacin de 1257 individuos segn edad,
sexo, clase social y tendencia de voto.
9.8. MDS PONDERADO
153
Figura 9.3: Representacin por anlisis de correspondencias mltiples de los

datos de la Tabla 9.3.
9.8
MDS ponderado
En esta seccin introducimos una variante del Anlisis de Coordenadas Principales.

Definition 9.8.1 Sea g = ( ij ) una matriz de distancias g g, w =
(w1 , . . . , wg ) un vector de pesos tal que
w1=
g

i=1
wi = 1,
wi 0,
y consideremos la matriz diagonal Dw =diag(w). La solucin MDS ponderada

de g es la matriz
1/2
X = Dw
U,
siendo
1 (2)
1/2
2
D1/2
(9.7)
w (Ig 1w )( g )(Ig w1 )Dw = U U ,
2
una descomposicin espectral, donde = diag(21 , . . . , 2p ) contiene los val2
ores propios y (2)
g = ( ij ).
154
Definition 9.8.2 La variabilidad geomtrica ponderada de g es

n
1
1
V =
wi 2ij wj = w (2)
g w.
2 i,j=1
2
Las coordenadas principales son las filas de X. Escribiendo

X = [X1 , X2 , . . . , Xp ],
podemos interpretar las columnas de X como variables. Observemos que se
verifica
1
(Ig 1w )( (2)
)(Ig w1 ) = XX .
(9.8)
2 g
Propietades:
1. Las variables Xk (columnas de X) tienen medias ponderadas iguales a
cero:
X k = w Xk = 0.
Prueba:
w (Ig 1w ) = w w = 0 w XX w = 0 w X = 0.
2. Las varianzas ponderadas de las variables Xk son iguales a los valores
propios:
s2k = 2k , k = 1, . . . , p.

Prueba: si la media de x1 , . . . , xg es 0, la varianza ponderada es wi x2i ,
es decir,
1/2
s2k = D1/2
w Xk Xk Dw = (Uk k )(k Uk ) = k ,
donde 2k es el valor propio de vector propio Uk .
3. Las variables (columnas de X) estn incorrelacionadas
cor(Xk , Xk ) = 0,
k = k = 1, . . . , p.
Prueba: puesto que las medias son nulas la covarianza ponderada es

2
1/2
cov(Xk , Xk ) = D1/2
w Xk Xk Dw = k Uk Uk = 0,
ya que los vectores propios son ortogonales.
9.8. MDS PONDERADO
155
4. La variabilidad geomtrica ponderada de g es

V =
p

2k .
k=1
Prueba: Expresemos la matriz de distancias al cuadrado como
(2)
g = 1d +d1 2XX ,
siendo d un vector g 1 con los elementos diagonales de XX . Por una

parte
1 (2)
w g w = w 1d w w XX w = d w.
2
Por otra parte
2
1/2
2
d w =tr(D1/2
w XX Dw ) =tr(U U ) =tr( ).
5. Si tomamos las q primeras coordenadas principales de X, la variabilidad

geomtrica ponderada es:
V (q)=
q

2k .
k=1
Estudiemos ahora la relacin entre el Anlisis de Coordenadas Principales

ordinario (Cap. 8) y el ponderado. Supongamos que podemos expresar el
vector de pesos como
1
w = (n1 , n2 , . . . , nk ),
n
n=
g

ni ,
i=1
donde ni son enteros positivos y el peso wi es igual (o muy prximo 1 ) a ni /n.

Indiquemos por M la matriz n g que contiene ni filas (0, . . . , 1, . . . , 0). Por
ejemplo, si g = 3 y n1 = 2, n2 = 3, n3 = 1, entonces
1 0 0
1 0 0
0 1 0
M=
0 1 0 .
0 1 0
0 0 1
1
Tomando n suficientmente grande, podemos aproximarlo tanto como queramos.
156
Si ahora suponemos que en vez de g objetos tenemos n objetos, pero

el primer objeto est repetido n1 veces, el segundo objeto n2 veces, etc.,
entonces la matriz de distancias es
n = Mg M ,
(9.9)
y el anlisis no ponderado sobre la matriz n es

1
1
1
2
(In 11 )( (2)
(9.10)
n )(In 11 ) = UD U = YY ,
n
2
n
la matriz n p de los vectores propios. La solucin no ponderada
siendo U
es
.
Y = UD
Theorem 9.8.1 La solucin no ponderada Y sobre n coincide con la solucin ponderada X sobre g , en el sentido de que obtenemos Y repitiendo
n1 , . . . , ng veces las filas de X.
Prueba: De (9.9) podemos expresar la solucin no ponderada (9.10) como
(In
1
1
1
11 )M( (2)
g )M (In 11 ) = YY .
n
2
n
Se verifica
1
11 )M = M(Ig 1g w ).
n
Por lo tanto, de (9.8) tenemos
(In
1
)(Ig w1 )M = MXX M ,
M(Ig 1w )( (2)
2 g
que demuestra que Y = MX. En otras palabras, las coordenadas principales
no ponderadas Y son el resultado de repetir n1 , . . . , ng veces las coordenadas
X. La relacin entre los valores singulares es
k = gk ,
k = 1. . . . , p.
Por ejemplo, si g = 3 y n1 = 2, n2 = 3, n3 = 1, obtenemos
x11 x12
x11 x12
x11 x12
x21 x22
x21 x22 , Y =
X=
x
x
21
22
x31 x32
x21 x22
x31 x32
9.9. COMPLEMENTOS
9.9
157
Complementos
El Anlisis de Correspondencias (AC) tiene una larga historia que se inicia

en 1935 (H.O. Hirschfeld, R.A. Fisher, L. Guttman). Ha sido extensamente
estudiado por Benzcri (1973) y Greenacre (1984).
Utilitzando coordenadas estndard A0 = (a0ik ), B0 = (b0jk ), podemos expresar la matriz de correspondencias P = (pij ) como
P = rc + Dr A0 D B0 Dc .
Indicando r = (p1 , . . . , pI ) , c = (p1 , . . . , pJ ) los vectores marginales de filas
y columnas de P, la expresin escalar es
pij = pi pj (1 +
K

k a0ik b0jk ).
k=1

0 0
Si el trmino entre parntesis = K
k=1 k aik bjk , es suficientemente pequeo
para que log(1 + ) , entonces
log pij = log pi + log pj +
K

k a0ik b0jk ,
k=1
que se adapta a un modelo log-lineal (Seccin 11.5), donde cuantificara

el trmino de interaccin. El AC sera pues una manera de visualizar los
trminos de interaccin (van der Heijden y de Leeuw, 1985).
CA verifica el principio de equivalencia distribucional: si dos perfiles
de columnas son idnticos, es decir,
pij /cj = pij /cj ,
i = 1, . . . , I,
entonces las columnas j, j de N pueden juntarse y ser reemplazadas por su

suma. En efecto, cuando se cumple este principio
pij
pij
pij + pij
=
=
.
cj
cj
cj + cj
Luego
[(
pij
pi j 2
pij
pi j 2
pij + pij
pi j + pi j 2
)(
)] cj +[(
)(
)] cj = [(
)(
)] (cj +cj ),
ri cj
ri cj
ri cj
ri cj
ri (cj + cj )
ri (cj + cj )
158
y la distancia ji-cuadrado queda inalterada si juntamos las columnas j y j .

Una variante del AC propuesta por Rao (1995), se basa en la distancia
de Hellinger
J

2

ii =
( pij /ri pi j /ri )2 ,
j=1
entre dos filas de N, que tiene la ventaja de no depender de los perfiles de las
columnas. Sin embargo los resultados pueden ser muy similares (Cuadras et
al, 2004), y el mtodo basado en esta distancia resulta ms apropiado cuando
las filas se ajustan a poblaciones multinomiales distintas.
Una forma alternativa de presentar el AC es el reciprocal averaging
(RA). Supongamos que queremos encontrar las coordenadas de las filas (a1 , . . . , aI )
como medias ponderadas de las coordenadas de las columnas y recprocamente, las coordenadas de las columnas (b1 , . . . , bJ ) como medias ponderadas
de las coordenadas de las filas
J

pij
ai =
bj ,
ri
j=1
bj =
I

i=1
ai
pij
.
cj
Pero estas relaciones no se pueden verificar simultneamente (por razones

geomtricas), as que hemos de introducir un factor multiplicativo > 1 y
escribir
J
I

pij
pij
ai =
bj ,
bj =
ai .
(9.11)
r
c
i
j
j=1
i=1
El objectivo del RA es encontrar las coordenadas verificando (9.11) tal que

sea mnimo. Entonces es posible probar que = (1/)2 es un valor propio.
Esto mismo lo podemos plantear para la segunda y siguientes coordenadas
y probar la equivalencia entre RA y AC. Los clculos del RA se efectan
iterativamente, y es til (especialmente en ecologa), cuando la matriz de
frecuencias N tiene dimensin grande y contiene muchos ceros (Hill, 1973).
Por otra parte se conoce a (9.11) como la mejor representacin baricntrica
sobre un eje (Lebart et al., 1977).
Una extensin interesante del AC es el Canonical Correspondence Analysis (Ter Braak, 1986), que tiene en cuenta, para la representacin, que los
ejes sean combinacin lineal de variables externas. Tiene aplicaciones en
ecologa, dado que permite relacionar las comunidades biolgicas con las
variables ambientales.
9.9. COMPLEMENTOS
159
Una extensin continua del AC considera una densidad bivariante h(x, y)

con densidades marginales f (x), g(y), y la descomposicin singular
1/2
f (x)
h(x, y)g(y)
1/2
k uk (x)vk (y),
(9.12)
k=1
donde {k , k 1} son correlaciones cannicas y {uk , k 1}, {vk , k 1} son

sistemas de funciones ortonormales (Lancaster, 1969). Hay una interesante
semejanza entre (9.12) y el AC, pues muchas propiedades se conservan. Vase
una comparacin sistemtica en Cuadras et al. (2000) y Cuadras (2002b).
El AC ha sido tambin comparado con otros mtodos de representacin
de tablas de contingencia (Cuadras et al., 2006), propiciando una versin
paramtrica que los engloba a todos (Cuadras y Cuadras, 2006).
160
Captulo 10
CLASIFICACIN
10.1
Introduccin
Clasificar los elementos de un conjunto finito consiste en realizar una particin del conjunto en subconjuntos homogneos, siguiendo un determinado
criterio de clasificacin. Cada elemento pertenece a un nico subconjunto,
que a menudo tiene un nombre que lo caracteriza. As clasificamos:
Las personas en hombres y mujeres.
Los trabajadores en actividades profesionales: servicios, industria, agricultura.
Los animales en especies, gneros, familias y rdenes.
Los libros de una biblioteca en arte, literatura, ciencia, informtica y
viajes.
Sea = { 1 , 2 , . . . , n } un conjunto finito con n elementos diferentes,
que abreviadamente indicaremos
= {1, 2, ..., n}.
Clasificar es tambin definir una relacin de equivalencia R sobre . Esta

relacin define una particin sobre en m clases de equivalencia:
= c1 + c2 + . . . + cm ,
donde + significa reunin disjunta. A la particin la llamaremos clustering
y a las clases de equivalencia clusters.
161
162
10.2
CAPTULO 10. CLASIFICACIN
Jerarqua indexada
Las clasificaciones pueden ser jerrquicas o no jerrquicas . Una clasificacin

jerrquica es una sucesin de clusterings tal que cada clustering se obtiene
agrupando clusters. Por ejemplo, si n = 5,
= {1} + {2} + {3} + {4} + {5}

= {1, 2} + {3, 4} + {5}
= {1, 2} + {3, 4, 5}
=
Definition 10.2.1 Una jerarqua indexada (C, ) sobre est formada por
una coleccin de clusters C () y un ndice tal que:
Axioma de la interseccin: Si c, c C entonces c c {c, c , }.
Axioma de la reunin: Si c C entonces c = {c | c C, c c}.
La reunin de todos los clusters es el conjunto total: = {c | c C}.
El ndice es una aplicacin de C sobre el conjunto de nmeros reales positivos tal que:
(i) = 0, i ,
(c) (c ) si c c .
Diremos que una jerarqua es total si:

i ,
{i} C.
C.
Comentarios:
1. El primer axioma significa que si tenemos dos clusters, uno est incluido
en el otro o ambos son disjuntos, es decir, c c , c c, c c = .
Se trata de evitar que un elemento de pertenezca a dos clusters
excluyentes a la vez, ya que entonces estara mal clasificado.
2. El segundo axioma significa que cada cluster es reunin de los clusters
que contiene. Es decir, reuniendo clusters obtenemos clusters ms amplios. Por ejemplo, en el reino animal, un gnero es reunin de especies,
una familia es reunin de gneros, etc.
10.2. JERARQUA INDEXADA
163
3. El ndice mide el grado de heterogeneidad de cada cluster. Cuanto

ms grande es el cluster ms heterogneo es.
Theorem 10.2.1 Para todo x 0 la relacin binaria Rx sobre los elementos
de
iRx j si i, j c, siendo (c) x,
(10.1)
es de equivalencia.
Demost.: La relacin Rx es:
Reflexiva: iRx i ya que i {i}, siendo ({i}) = 0 x.
Simtrica: Evidente.
Transitiva: Sea cij el mnimo cluster que contiene i, j, y anlogamente
cjk . Entonces :
iRx j i, j cij,
(cij ) x,
cij cjk =
jRx k j, k cjk,
(cjk ) x,
a) cij cjk i, k cjk,

iRx k.
b) cjk cij i, k cij,
La relacin (10.1) define, para cada x 0, una particin de en clases

de equivalencia. La particin se llama clustering al nivel x.
Ejemplo. Consideremos n = 5 partidos polticos: CU (Conveniencia y
Unin), PP (Partido Pragmtico), PSC (Partido Social Cataln), IC (Iniciativa Catalana) y ER (Entente Republicana). Un ejemplo (hipottico) de
jerarqua indexada sobre ={CU,PP,PSC,IC,ER} es:
C ={CU0 ,PP0 ,PSC0 ,IC0 ,ERC0 ,{CU, PP}1 ,{PSC, IC}1.5 ,{PSC, IC, ERC}2 ,3 },
donde el ndice est indicado como un subndice: (CU)=0, (CU,PP)=1,
etc. tenemos entonces tenemos las siguientes particiones o clusterings:
=
=
=
=
{CU} + {PP} + {PSC} + {IC} + {ER} 0

{CU, PP} + {PSC, IC} + {ER}
1.5
{CU, PP} + {PSC, IC, ER}
2
Nombre del clustering

(partidos)
(derecha, izquierda, centro)
(coaliciones)
(parlamento)
La representacin de esta clasificacin se encuentra en la Figura 10.1, que

justificamos en la seccin siguiente.
164
10.3
Geometra ultramtrica
Para presentar una clasificacin utilizamos llaves. Por ejemplo, la clasificacin divisiva de Nacin, Comunidades Autnomas y Provincias (slo vamos
a considerar 8) es:
Nacin
Autonomas Provincias
Huesca
Teruel
Aragon
Zaragoza
Barcelona
Gerona
Catalunya
Lerida
Tarragona
Madrid
Madrid
Espa
na
Una generalizacin de las llaves es el rbol ultramtrico. Como veremos

ms adelante, una jerarqua indexada puede ser visualizada mediante un
grfico sencillo e intuitivo, llamado dendograma.
Definition 10.3.1 Un espacio ultramtrico (, u) es una estructura formada por un conjunto finito y una funcin distancia u sobre verificando, para todo i, j, k de :
No negatividad: u(i, j) u(i, i) = 0.
Simetra: u(i, j) = u(j, i).
Propiedad ultramtrica:
u(i, j) sup{u(i, k), u(j, k)}.
La matriz U = (u(i, j))
u11 u12
u21 u22
U = ..
..
...
.
.
un1 un2
de orden n n
u1n
u2n
uij = uji = u(i, j),

..
.
unn
es la matriz de distancias ultramtricas .
uii = 0.
10.3. GEOMETRA ULTRAMTRICA
165
Proposition 10.3.1 Una distancia ultramtrica verifica la desigualdad triangular y por lo tanto es mtrica.
Demost.:
u(i, j) sup{u(i, k), u(j, k)} u(i, k) + u(j, k).
Definition 10.3.2 Un tringulo {i, j, k} formado por tres elementos de
es ultramtrico si es issceles y su base es el lado ms pequeo. Es decir, si
u(i, j) es la base, entonces
u(i, j) u(i, k) = u(j, k).
Theorem 10.3.2 En un espacio ultramtrico todo tringulo es ultramtrico.
Demost.: Sea {i, j, k} un tringulo. Sea u(i, j) es el lado ms pequeo,
entonces:
u(i, k) sup{u(i, j), u(j, k)} = u(j, k)
= u(i, k) = u(j, k).
u(j, k) sup{u(i, j), u(i, k)} = u(i, k)
Definition 10.3.3 Un rbol ultramtrico (tambin llamado dendograma) es
un grafo conexo, sin ciclos con un punto llamado raiz y n puntos extremos
equidistantes de la raiz.
Una propiedad importante es que todo espacio ultramtrico (, u) se
puede dibujar mediante un dendograma, como en la Figura 10.2.
Theorem 10.3.3 Sea (, u) un espacio ultramtrico. Entonces podemos
representarlo mediante un rbol ultramtrico con extremos los elementos de
.
Demost.: Supongamos el rbol en posicin vertical. Sea u(i, j) la distancia
entre los extremos i, j medida como la mitad de la mnima longitud de las
aristas verticales que unen i con j, es decir, la distancia vertical hasta el
nudo que liga i con j. Consideremos un tringulo {i, j, k} y supongamos
que {i, j} es el lado ms pequeo. Entonces k se relaciona con i, j en un
nudo por encima de . As u(k, i) = u(k, j) = u(i, j) + , donde 0
es la distancia vertical entre y . Esto demuestra que {i, j, k} es un arbol
ultramtrico.
Hay una versin del Teorema 10.2.1 para distancias ultramtricas.
166
Figura 10.1: Representacin en rbol ultramtrico (dendograma) de cinco

partidos polticos.
Theorem 10.3.4 Sea (, u) un espacio mtrico. Si u es distancia ultramtrica, entonces la relacin binaria Rx sobre los elementos de
iRx j
si u(i, j) x,
(10.2)
es de equivalencia para todo x 0. Recprocamente, si la relacin (10.2) es

de equivalencia para todo x 0, entonces u es distancia ultramtrica.
Demost.: Supongamos que u es ultramtrica. Entonces la relacin Rx es:
Reflexiva: u(i, i) = 0 x.
Simtrica: u(i, j) = u(j, i) x.
Transitiva: Sea {i, j, k} un tringulo ultramtrico con base {i, j}. entonces
tenemos
u(i, j) u(j, k) = u(i, k) x,
que nos demuestra la transitividad.
Supongamos ahora que Rx es de equivalencia y que el tringulo {i, j, k}
verifica:
u(i, j) u(j, k) u(i, k).
10.3. GEOMETRA ULTRAMTRICA
167
Sea x = u(j, k). Entonces u(i, j) x, u(j, k) x u(i, k) x = u(j, k)

por la transitividad de Rx . Esto demuestra que u(j, k) = u(i, k) y por lo
tanto el tringulo {i, j, k} es ultramtrico.
Otra propiedad importante es que juntando elementos prximos de
seguimos manteniendo la propiedad ultramtrica, y esto vale para cualquier
clustering.
Theorem 10.3.5 Supongamos que sobre los m clusters del clustering
= c1 + c2 + . . . + cm
hay definida una distancia ultramtrica u. Sean ci , cj los dos clusters ms
prximos: u(ci , cj ) = mnimo. Entonces uniendo ci con cj , se puede definir
una distancia ultramtrica u sobre los m 1 clusters del clustering
= c1 + . . . + ci cj + . . . + cm .
Demost.: Si k = i, j, por la propiedad ultramtrica tenemos que u(ck , ci ) =
u(ck , cj ). Definimos:
u (ck , ci cj ) = u(ck , ci ) = u(ck , cj ), k = i, j,
u (ca , cb )
= u(ca , cb ),
a, b = i, j.
(10.3)
Consideremos el tringulo {ca , cb , ci cj }. Entonces:

u (ca , cb )
= u(ca , cb )
sup{u(ca , ci ), u(cb , ci )} = sup{u (ca , ci cj ), u (cb , ci cj )},
u (ca , ci cj ) = u(ca , ci )
sup{u(ca , cb ), u(cb , ci )} = sup{u (ca , cb ), u (cb , ci cj )}.
Finalmente, la propiedad ultramtrica es invariante por transformaciones

montonas.
Proposition 10.3.6 Si u es distancia ultramtrica y u = (u) es una transformacin de u donde es una funcin positiva montona (creciente o decreciente), entonces u es tambin distancia ultramtrica.
Demost.: Si {i, j, k} es un tringulo ultramtrico con base {i, j} y es
montona, tendremos que
u(i, j) u(i, k) = u(j, k) u (i, j) u (i, k) = u (j, k).
168
10.4
Algoritmo fundamental de clasificacin
A partir de un espacio ultramtrico podemos construir una jerarquia indexada. Nos lo permite el siguiente
Algoritmo fundamental de clasificacin
Sea (, u) un espacio ultramtrico. El fundamento de este algoritmo
consiste en el hecho de que, en virtud del Teorema 10.3.5, juntando elementos
o clusters ms prximos, conservamos la propiedad ultramtrica.
1. Comencemos con la particin:
= {1} + ... + {n}.
2. Sean i, j los dos elementos ms prximos: u(i, j) = mnimo. Los unimos
{i} {j} = {i, j}
y definimos la nueva distancia ultramtrica u
u (k, {i, j}) = u(i, k) = u(j, k),
k = i, j,
(ver Teorema 10.3.5).

3. Consideremos la nueva particin:
= {1} + ... + {i, j} + . . . + {n}
y repitamos el paso 2 hasta llegar a . En este proceso, cada vez que
unimos ci con cj tal que u(ci , cj ) = mnimo, definimos el ndice
(ci cj ) = u(ci , cj ).
(10.4)
El resultado de este proceso es una jerarqua indexada (C, ).
10.5
Equivalencia entre jerarqua indexada y

ultramtrica
Una jerarqua indexada es una estructura conjuntista. Un espacio ultramtrico es una estructura geomtrica. Ambas estructuras son equivalentes.
10.6. ALGORITMOS DE CLASIFICACIN JERRQUICA
169
Theorem 10.5.1 Sea (C, ) una jerarqua indexada total sobre un conjunto
. Entonces podemos definir una distancia ultramtrica u sobre . Recprocamente, todo espacio ultramtrico (, u) define una jerarqua indexada (C, ).
Demost.: A partir de (C, ) definimos la siguiente distancia
u(i, j) = (cij ),
donde cij es el mnimo cluster (respecto a la relacin de inclusin) que contiene i, j. Sea {i, j, k} un tringulo y sean tambin cik , cjk los mnimos clusters
que contienen {i, k}, {j, k} respectivamente. Tenemos que
cik cjk =
y por tanto (axioma de la interseccin) hay dos posibilidades:

a) cik cjk i, j, k cjk cij cjk u(i, j) = (cij ) u(j, k) = (cjk )
b) cjk cik i, j, k cik cij cik u(i, j) = (cij ) u(i, k) = (cik )
As pues: u(i, j) sup{u(i, k), u(j, k)}.

La posibilidad de construir una jerarqua indexada a partir de una distancia ultramtrica es una consecuencia del algoritmo fundamental de clasificacin. El ndice de la jerarqua viene dado por (10.4).
Comentarios:
1. Observa la analoga entre el Teorema 10.3.5 y el algoritmo fundamental

de clasificacin.
2. Observa adems que (10.3) permite definir de manera inequvoca una
distancia entre un cluster y la unin de los dos clusters ms prximos.
Esta propiedad es la que otorga importancia a la distancia ultramtrica.
10.6
Algoritmos de clasificacin jerrquica
Supongamos que, en relacin a unas variables observables, hemos obtenido

una matriz de distancias = ((i, j)) de orden n n entre los elementos de
un conjunto :
11 12 1n
21 22 2n
ij = ji = (i, j), ii = 0.
= ..
.. . .
..
.
.
.
.
n1 n2 nn
170
Si la distancia es ultramtrica, entonces no hay ningn problema para

llevar a cabo una clasificacin construyendo una jerarqua indexada. Basta
con aplicar el algoritmo fundamental de clasificacin (Seccin 10.4). Pero
en general no cumple la propiedad ultramtrica y por lo tanto hemos de
modificar adecuadamente este algoritmo.
Algoritmo de clasificacin
Sea (, ) un espacio mtrico. El algoritmo de clasificacin se basa en el
Teorema 10.3.5, en el sentido de que juntaremos los elementos o clusters ms
prximos, y procuraremos obtener tringulos ultramtricos.
1. Comencemos con la particin:
= {1} + ... + {n}.
2. Sean i, j los dos elementos ms prximos: (i, j) = mnimo. Los unimos
{i} {j} = {i, j}
y definimos la distancia de un elemento k al cluster {i, j}
(k, {i, j}) = f ((i, k), (j, k)),
k = i, j,
(10.5)
donde f es una funcin adecuada.

3. Consideremos la nueva particin:
= {1} + ... + {i, j} + . . . + {n},
y repitamos el paso 2 hasta llegar a . En este proceso, cada vez que
unimos ci con cj tal que (ci , cj ) = mnimo, definimos el ndice
(ci cj ) = (ci , cj ).
(10.6)
La funcin f en (10.5) se define adecuadamente a fin de que se cumpla

la propiedad ultramtrica. El resultado de este proceso es una jerarqua
indexada (C, ).
10.6.1
171
Mtodo del mnimo
Los diferentes mtodos de clasificacin jerrquica dependen de la eleccin de

f en (10.5). Una primera eleccin conveniente de f consiste simplemente
en tomar el valor ms pequeo de los dos lados {i, k}, {j, k} del tringulo
{i, j, k} con base {i, j}, es decir:
(k, {i, j}) = min{(i, k), (j, k)},
k = i, j.
(10.7)
En otras palabras, hacemos que el tringulo

(i, j} (i, k) = a (j, k),
se transforme en ultramtrico
(i, j} (i, k) = (j, k) = a.
Ejemplo. Sea una matriz de distancias sobre = {1, 2, 3, 4, 5}. El
mtodo del mnimo proporciona una jerarqua indexada (C, ) asociada a
una matriz ultramtrica U:
1 2 3 4 5
1 0 1 3 4 7
2
0 4 4 8
=
3
0 2 8
4
0 7
5
0
(1, 2, 3, 4)
(1, 2, 3, 4)
0
5
(1, 2)
3
4
5
(1, 2) 3 4
0
3 4
0 2
0
5
(1, 2) (3, 4)
7
(1, 2)
0
3
8
(3, 4)
0
7
5
0
5
7
7
0
5
7 C = {{1}0 , . . . , {5}0 , {1, 2}1 , {3, 4}2 , {1, 2, 3, 4}3 , 7 }
0
1 2 3 4 5
1 0 1 3 3 7
2
0 3 3 7
(C, ) U =
3
0 2 7
4
0 7
5
0
El mtodo del mnimo produce una distancia ultramtrica u que goza de

la siguiente propiedad.
172
Theorem 10.6.1 Sea

U = {u | u es ultrametrica, u(i, j) (i, j)}
el conjunto de distancias ultramtricas ms pequeas que . Entonces la distancia ultramtrica u resultante del mtodo del mnimo es el elemento mximo de U
u(i, j) u(i, j), u U, i, j .
Demost.: Sean {i, j} los elementos ms prximos. Entonces u(i, j) = (i, j).
La columna k ( = i, j) tendr trminos repetidos iguales a una distancia
construida tomando un mnimo. Si u es otra distancia ultramtrica,
entonces: a) si es estrictamente ms pequea es evidente que u > u. b) si
u(k , k ) es ms grande que u(k , k ) pero es igual a alguna , entonces la
columna k tendr elementos repetidos, y al menos uno ser superior a .
Contradiccin.
El razonamiento es parecido si consideramos un cluster c y un elemento
k
/ c. Comprese con U en el ejemplo anterior. Vase tambin el Teorema
10.7.3.
A la vista de este resultado, podemos decir que u es la mejor aproximacin
a por defecto.
10.6.2
Mtodo del mximo
Una segunda eleccin razonable de f consiste en tomar el valor ms grande

de los dos lados {i, k}, {j, k} del tringulo {i, j, k} con base {i, j}, es decir:
(k, {i, j}) = max{(i, k), (j, k)},
En otras palabras, hacemos que el tringulo
k = i, j.
(10.8)
(i, j} (i, k) (j, k) = b,

se convierta en ultramtrico
(i, j} (i, k) = (j, k) = b.
El mtodo del mximo produce una distancia ultramtrica u que goza de
la siguiente propiedad.
173
Theorem 10.6.2 Sea

U = {u | u es ultrametrica, u(i, j) (i, j)}
el conjunto de distancias ultramtricas ms grandes que . Entonces la distancia ultramtrica u resultante del mtodo del mximo es un elemento minimal
de U
u(i, j) u(i, j), u U, i, j .
As u es la mejor aproximacin a por exceso.
Comentarios:
1. Las distancias u, u, y verifican:
u(i, j) (i, j) u(i, j).
Hay igualdad u = = u si y slo si es ultramtrica.
2. u es elemento mximo y es nico. El mtodo del mnimo slo tiene una
solucin.
3. u es elemento minimal y no es nico. El mtodo del mximo puede
tener varias soluciones.
4. Si todos los elementos fuera de la diagonal de la matriz de distancias
son diferentes, entonces la solucin aplicando el mtodo del mximo
es nica y por tanto u es elemento mnimo .
Finalmente, una notable propiedad de los mtodos del mnimo (tambin
conocido como single linkage) y del mximo (complete linkage) es que conservan la ordenacin de la distancia , en el sentido de la Proposicin 10.3.6.
Theorem 10.6.3 Los mtodos del mnimo y del mximo son invariantes por
transformaciones montonas de la distancia :
= () u = (u)
donde u, u son las ultramtricas asociadas a , y es una funcin montona positiva.
Demost.: En el proceso de encontar la ultramtrica slo intervienen los rangos
de los valores de , que son los mismos que los rangos de los valores de .
174
10.7
Otras propiedades del mtodo del mnimo
Una propiedad de la distancia ultramtrica dice que todo elemento de una

bola es tambin centro de la propia bola.
Proposition 10.7.1 Sea B(i0 , r) una bola cerrada de centro i0 y radio r :
B(i0 , r) = {i | u(i0 , i) r}.
Entonces
i B(i0 , r)
verifica B(i, r) = B(i0 , r).
La demostracin es inmediata. Tambin se verifica:

Proposition 10.7.2 Sea {i1 , . . . , im }. Se cumple la desigualdad
u(i1 , im ) sup{u(i , i+1 )| = 1, . . . , m 1}.
Demost.: Por recurrencia sobre m. Para m = 2 es la desigualdad ultramtrica. Supongamos cierto para m 1. Tenemos:
u(i1 , im ) sup{u(i1 , im1 ), u(im1 , im )}
sup{sup{u(i , i+1 )| = 1, . . . , m 2}, u(im1 , im )}
sup{u(i , i+1 )| = 1, . . . , m 1}.
Sea ahora = {1, 2, . . . , n} y una distancia sobre .
Definition 10.7.1 Una cadena [i, j]m es el conjunto {i = i1 , i2 , . . . , j = im }.
Definition 10.7.2 Indiquemos
sup[i, j]m = sup (i , i+1 )
1m
el mximo salto de la cadena [i, j]m . Definimos la distancia sobre

u(i, j) = inf sup[i, j]m
m
10.8. UN EJEMPLO
175
1. u es una ultramtrica tal que u .

2. Si u es otra ultramtrica tal que u entonces u u.
3. u es la ultramtrica que se obtiene por el mtodo del mnimo.
Demost.: [i, j]2 = {i, j} es una cadena que une i, j y por lo tanto
u(i, j) sup[i, j]2
Sea [i, j, k] una cadena que une i, j pero que contiene k. El conjunto de
las cadenas [i, j, k] est contenido en el conjunto de las cadenas [i, j]. Por lo
tanto:
inf sup[i, j]m inf sup[i, k, j]m
(10.9)
m
Por otra parte, dadas las cadenas [i, j], [j, k] podemos construir
[i, k, j] = [i, j] [j, k]
de modo que
sup[i, k, j] = sup{sup[i, j], sup[j, k]}
Teniendo en cuenta (10.9) deducimos que
u(i, j) sup{u(i, k), u(j, k)}
Sea ahora u . Aplicando la Proposicin 10.7.2
u(i, j) sup u(i , i+1 ) sup[i, j]m
1m
Por lo tanto
u(i, j) inf sup[i, j]m = u(i, j).
m
Conviene comparar este resultado con el Teorema 10.6.1.
10.8
Un ejemplo
Un grupo de n = 11 profesores de probabilidades y estadstica de la Universidad de Barcelona han publicado, entre 1994 y 2000, unos 150 artculos
176
internacionales, algunos en colaboracin. Con la finalidad de agrupar los profesores segn los artculos que publicaron juntos, consideramos el coeficiente
de similaridad
s(i, j) = nmero de artculos que i, j han publicado juntos.
Definimos entonces la distancia
d(i, j) = 1 s(i, j)/ min{s(i, i), s(j, j)}.
Obtenemos la matriz de distancias:
Arenas
Corcuera
Cuadras
Fortiana
Marquez
Nualart
Oliva
Oller
Rovira
Sanz
Sarra
Are
0
1
0.50
0.83
1
1
1
1
1
1
1
Cor
Cua For
Mar Nua Oli Oll Rov
0
1
1
1
1
1
0.75
1
1
1
0
0.06
1
1
0.33
1
1
1
1
0
1
1
1
1
0.33
0.75
0
1
1
0.33
1
1
1
1
0
1
1
1
0.93
1
0
1
1
1
1
0
1
1
1
San
Sar
0
0.11 0
1
0.25 0
Aplicando un anlisis cluster, mtodo del mnimo, a esta matriz, obtenemos el dendograma de la Figura 10.2. Este dendograma pone de manifiesto
que hay tres grupos principales con 4, 2 y 5 profesores, que trabajan en anlisis multivariante (AM), estadstica matemtica (EM) y anlisis estocstico
(AE), respectivamente.
10.9
Clasificacin no jerrquica
Una clasificacin no jerrquica de n objetos en relacin a una matriz de

datos cuantitativos X, consiste en obtener g grupos homogneos y excluyentes
(clusters). Si tenemos g clusters, estamos en la misma situacin contemplada
en el Cap. 7, y podemos considerar la descomposicin de la variabilidad total
T= B+W
10.9. CLASIFICACIN NO JERRQUICA
177
Figura 10.2: Representacin que agrupa 11 profesores segn los artculos

publicados conjuntamente.
Una particin en g clusters que hace mxima B o mnima W, en relacin
a algn criterio, dar una solucin al problema, puesto que tendremos una
mxima dispersin entre clusters. Algunos criterios, justificados por el anlisis multivariante de la varianza, son:
a) Minimizar tr(W)
b) Minimizar |W|.
c) Minimizar = |W|/|T|.
d) Maximizar tr(W1 B).
Pero la cantidad de maneras diferentes de agrupar n objetos en g clusters
es del orden de g n /g!, nmero muy grande incluso para valores moderados
de n y g (necesitaramos formar ms de 1023 clusters si n = 50, g = 3). Por
tanto, es necesario seguir algn algoritmo de agrupacin.
El mtodo de las medias mviles consiste en:
1. Comenzar con g puntos del espacio Rp y asignar los objetos a g clusters de acuerdo con la proximidad (distancia eucldea) a los g puntos
iniciales.
178
2. Calcular los centroides de los g clusters obtenidos y reasignar los objetos

segn su proximidad al centroide de cada cluster.
3. Repetir el paso anterior, calculando cada vez la cantidad |W| (o el
criterio de optimizacin escogido). Parar cuando |W| ya no disminuye.
Es posible probar que la suma de cuadrados de las distancias eucldeas
de los puntos de cada cluster al centroide
g
n

d2 (xki , xk )
k=1 i=1
disminuye a cada paso.
10.10
Nmero de clusters
Diversos autores (Calinski, Harabasz, Hartigan, Krzanowski, Lai) han propuesto mtodos para estimar el nmero de clusters de una clasificacin. Es
ste un tema abordado desde muchas perspectivas (vase Gordon, 1999).
Normalmente el usuario determina el nmero k de clusters. Un primer
criterio consiste en tomar el valor k tal que maximice la cantidad
cl1 (k) =
tr(B(k)) tr(W(k))
/
,
g1
ng
donde B(k), W(k) indican las matrices entre-grupos y dentro-grupos para k

grupos. Otro criterio considera
dif(k) = (k 1)2/p W(k 1) k 2/p W(k)
y elige k tal que maximiza
cl2 (k) = dif (k)/dif (k + 1).
Pero cl1 i cl2 no estan definidos para k = 1. Un tercer criterio propone el
estadstico
W(k)
H(k) = (
1)/(n k 1),
W(k + 1)
empieza con k = 1 y aumenta k si H(k) crece significativamente de acuerdo
con una aproximacin a la distribucin F.
10.11. COMPLEMENTOS
179
Tibshirani et al. (2001) proponen un mtodo que contempla tambin el

caso k = 1. Partiendo del resultado de cualquier clasificacin, jerrquica o
no, comparan el cambio de W(k) respecto al cambio esperado para a una
distribucin apropiada de referencia
E(log |W(k)|) log |W(k)|.
10.11
Complementos
La historia de la clasificacin comienza con la sistemtica de Carl von Linn,

que permita clasificar animales y plantas segn gnero y especie. La clasificacin moderna (denominada taxonoma numrica) se inicia en 1957 con
la necesidad de proponer criterios objetivos de clasificacin (Sokal, Sneath,
Michener). Posteriormente, diversos autores relacionaron las clasificaciones
jerrquicas con los espacios ultramtricos (Benzecri, Jardine, Sibson, Johnson), dado que la propiedad ultramtrica ya era conocida en otros campos
de la matemtica.
Una crtica que se ha hecho al anlisis cluster es el excesivo repertorio
de distancias y mtodos de clasificacin. Incluso se han realizado clasificaciones de las propias maneras de clasificar, y clasificaciones jerrquicas de las
distancias. Tambin se ha argumentado (Flury, 1997) que el planteamiento
correcto del anlisis cluster consiste en encontrar mixturas
f(x) =p1 f1 (x) + . . . +pg fg (x),
donde cada densidad fi representara un cluster y f la densidad de los datos
que hemos observado. Pero si una distancia mide razonablemente las diferencias entre los objetos, entonces se pueden obtener clasificaciones objetivas
aplicando anlisis cluster jerrquico. Por ejemplo, en el ao 1999 se realiz la
clasificacin jerrquica del reino vegetal a partir de distancias entre secuencias de DNA, obteniendo una concordancia de un 60% con la clasificacin
tradicional basada en la similitud morfolgica de las plantas.
J. C. Gower conjetur y Holman (1972) prob, que toda distancia ultramtrica era eucldea con dimensin n 1. Entonces interes estudiar la
relacin entre representaciones en rbol y en coordenadas (Bock, Crithcley,
Heiser, Kruskal). Critchley y Heiser (1988) probaron que, a pesar del resultado de Holman, es posible representar un espacio ultramtrico con una sola
180
dimensin utilizando una mtrica adecuada. Un estudio de los vectores propios y las dimensiones principales de una matriz de distancias ultramtricas
es debido a Cuadras y Oller (1987). Ver Cuadras et al. (1996).
N. Jardine y R. Simpson propusieron el mtodo de clasificacin denominado flexible, que consiste en definir la distancia de un cluster a la unin de
dos clusters en funcin de unos parmetros, por ejemplo, inicialmente
(k, {i, j}) = i (i, k) + j (j, k) + (i, j) + |(i, k) (j, k)|,
y anlogamente en los siguientes pasos. Dando valores a los parmetros se
obtienen los mtodos siguientes (se incluye denominacin estndar):
Criterio de agrupacin
i
Mnimo (single linkage)
1/2
Mximo (complete linkage)
1/2
Media (weighted average link)
1/2
UPGMA (group average link) ni /(ni + nj )
j
1/2
1/2
1/2
nj /(ni + nj )
0
0
0
0
1/2
+1/2
0
0
UPGMA (Unweighted pair group method using arithmetic averages) es un

mtodo recomendable porque proporciona una clasificacin que se ajusta bien
a la distancia inicial en el sentido de los mnimos cuadrados.
G.H. Ball, D.J. Hall, E. Diday y otros propusieron algoritmos eficientes
de agrupacin no jerrquica. Consltese Everitt (1993).
Captulo 11
ANALISIS DISCRIMINANTE
11.1
Introduccin
Sean 1 , 2 dos poblaciones, X1 , ...,Xp variables observables, x = (x1 , ..., xp )

las observaciones de las variables sobre un individuo . El problema es
asignar a una de las dos poblaciones. Este problema aparece en muchas
situaciones: decidir si se puede conceder un crdito; determinar si un tumor
es benigno o maligno; identificar la especie a que pertenece una planta.
Una regla discriminante es un criterio que permite asignar , y que a
menudo es planteado mediante una funcin discriminante D (x1 , ..., xp ). Entonces la regla de clasificacin es
Si D (x1 , ..., xp ) 0 asignamos a 1 ,
en caso contrario asignamos a 2 .
Esta regla divide Rp en dos regiones
R1 = {x|D(x) > 0},
R2 = {x|D(x) < 0}.
En la decisin de clasificar, nos equivocaremos si asignamos a una poblacin

a la que no pertenece. La probabilidad de clasificacin errnea (pce) es
pce = P (R2 /1 )P (1 ) + P (R1 /2 )P (2 ).
181
(11.1)
182
CAPTULO 11. ANALISIS DISCRIMINANTE
11.2
Clasificacin en dos poblaciones
11.2.1
Discriminador lineal
Sean 1 , 2 los vectoros de medias de las variables en 1 , 2 , respectivamente,

y supongamos que la matriz de covarianzas es comn. Las distancias de
Mahalanobis de las observaciones x =(x1 , . . . , xp ) de un individuo a las
poblaciones son
M 2 (x,i ) = (xi ) 1 (xi ),
i = 1, 2.
Un primer criterio de clasificacin consiste en asignar a la poblacin ms

prxima:
Si M 2 (x,1 ) < M 2 (x,2 ) asignamos a 1 ,
(11.2)
Expresando esta regla como una funcin discriminante, tenemos:
M 2 (x,2 ) M 2 (x,1 ) = x 1 x+2 1 2 2x 1 2
x 1 x1 1 1 + 2x 1 1
= (2 1 ) 1 (2 + 1 ) + 2x 1 (1 2 )
Definimos la funcin discriminante
!
1
L (x) = x (1 + 2 ) 1 (1 2 ) .
2
Tenemos que
M 2 (x,2 ) M 2 (x,1 ) = 2L(x)L((1 + 2 ) /2)
y la regla (11.2) es
Si L(x) >0 asignamos a 1 ,
La funcin lineal (11.3) es el discriminador lineal de Fisher.
(11.3)
11.2. CLASIFICACIN EN DOS POBLACIONES
11.2.2
183
Regla de la mxima verosimilitud
Supongamos que f1 (x) , f2 (x) son las densidades de x en 1 , 2 . Una regla

de clasificacin consiste en asignar a la poblacin donde la verosimilitud
de las observaciones x es ms grande:
Si f1 (x) >f2 (x) asignamos a 1 ,
La funcin discriminante es
V (x) = log f1 (x) log f2 (x) .
11.2.3
Regla de Bayes
En ciertas situaciones, se conocen las probabilidades a priori de que pertenezca

a cada una de las poblaciones
q1 = P (1 ) ,
q2 = P (2 ) ,
q1 + q2 = 1.
Una vez que se dispone de las observaciones x =(x1 , . . . , xp ), las probabilidades a posteriori de que pertenezca a las poblaciones (teorema de Bayes)
son
qi fi (x)
P (i /x) =
, i = 1, 2.
q1 f1 (x) + q2 f2 (x)
La regla de clasificacin de Bayes es
Si P (1 /x) >P (2 /x) asignamos a 1 ,
El discriminador de Bayes es
B (x) = log f1 (x) log f2 (x) + log (q1 /q2 ) .
Cuando q1 = q2 = 1/2, entonces B (x) = V (x) . Este discriminador es ptimo.
Theorem 11.2.1 La regla de Bayes minimiza la probabilidad de clasificacin
errnea.
184
Demost.: Supongamos que se dispone de otra regla que clasifica a 1

si x R1 , y a 2 si x R2 , donde R1 , R2 son regiones complementarias del
espacio muestral. Indicando dx =dx1 dxp . La probabilidad de clasificacin
errnea es

pce = q1 R f1 (x)dx+q2 R f2 (x)dx
2
1

= R (q1 f1 (x)q2 f 2 (x))dx+q2 ( R2 f2 (x)dx+ R f2 (x)dx)
1
2
= R (q1 f1 (x)q2 f 2 (x))dx+q2 .
2
Esta ltima integral es mnima si R2 incluye todas las x tal que q1 f1 (x)q2 f 2 (x) <
y excluye toda las x tal que q1 f1 (x)q2 f 2 (x) >0. Por tanto pce es mnima
si R2 = R2 , donde R2 = {x|B(x) <0}.
11.3
Clasificacin en poblaciones normales
Supongamos ahora que la distribucin de X1 , ...,Xp en 1 es Np (1 , 1 ) y en

2 es Np (2 , 2 ), es decir,
11.3.1

1/2
exp{ 1 (x i ) 1 (x i )}.
fi (x) = (2)p/2 1
i
i
2
Clasificador lineal
Si suponemos 1 = 2 , 1 = 2 = , entonces
V (x) = 12 (x1 ) 1 (x1 ) + 12 (x2 ) 1 (x2 )
= L(x)
y por tanto los discriminadores mximo verosmil y lineal, el segundo basado
en el criterio de la mnima distancia, coinciden.
Sea la distancia de Mahalanobis entre las dos poblaciones
= (1 2 ) 1 (1 2 ).
Si suponemos que x proviene de Np (2 , ), de x1 = x2 + 2 1 , y de
E(x2 )(x2 ) = , (x2 ) 1 (x2 ) 2p , tenemos que la esperanza
de U = (x1 ) 1 (x1 ) es
E(U) =E[(x2 ) 1 (x2 ) + + 2(x2 ) 1 (2 1 )] = p + ,
11.3. CLASIFICACIN EN POBLACIONES NORMALES
185
y la varianza de V = (x2 ) 1 (x2 ) es la misma que la de L(x) y es

var(V ) = E((2 1 ) 1 (x2 )(x2 ) 1 (2 1 )) = .
Entonces encontramos fcilmente la distribucin de la funcin discriminante
L(x) :
L(x) es N (+ 12 , ) si x proviene de Np (1 , ),
(11.4)
L(x) es N ( 21 , ) si x proviene de Np (2 , ).
11.3.2
Regla de Bayes
Si suponemos 1 = 2 , 1 = 2 = , y conocemos las probabilidades a priori

q1 = P (1 ) , q2 = P (2 ) , entonces es fcil ver que
B(x) =L(x)+ log(q1 /q2 ),
y la funcin discriminante de Bayes es el discriminador lineal ms la constante
log(q1 /q2 ).
11.3.3
Probabilidad de clasificacin errnea
La probabilidad de asignar x a 2 cuando proviene de Np (1 , ) es
1
1
),
P (L(x) <0|1 ) = P ((L(x) )/ ) = (
2
2
donde (z) es la funcin de distribucin N (0, 1). La probabilidad de clasificacin errnea es
1
pce = q1 P (L(x) <0|1 ) + q2 P (L(x) >0|2 ) = (
).
2
Por tanto pce es una funcin decreciente de la distancia de Mahalanobis
entre las dos poblaciones.
11.3.4
Discriminador cuadrtico
Supongamos 1 = 2 , 1 = 2 . Entonces el criterio de la mxima verosimilitud proporciona el discriminador

&
'
& 1
'
1
1
Q (x) = 12 x 1
x
+
x
1
2
2
1
1
2
1 1
1
1
+ 21 2 1
2 2 2 1 1 1 + 2 log |2 | 2 log |1 |
186
Q(x) es el discriminador cuadrtico. Anlogamente podemos obtener el discriminador cuadrtico de Bayes

B(x) =Q(x) + log(q1 /q2 ).
11.3.5
Clasificacin cuando los parmetros son estimados
En las aplicaciones prcticas, 1 , 2 , 1 , 2 son desconocidos y se debern

estimar a partir de muestras de tamaos n1 , n2 de las dos poblaciones sustituyendo 1 , 2 por los vectores de medias x1 , x2 , y 1 , 2 por las matrices de
covarianzas S1 , S2 . Si utilizamos el estimador lineal, entonces la estimacin
de ser
S =(n1 S1 + n2 S2 )/(n1 + n2 )
y la versin muestral del discriminador lineal es
(x) = [x 1 (x1 + x2 )] S1 (x1 x2 ) .
L
2
(x) es bastante complicada, pero la distribucin

La distribucin muestral de L
asinttica es normal:

L(x)
es N (+ 12 , ) si x proviene de Np (1 , ),

L(x)
es N ( 21 , 12 ) si x proviene de Np (2 , ),
donde = (x1 x2 ) S1 (x1 x2 ) .
11.3.6
Un ejemplo
Example 11.3.1
Mytilicola intestinalis es un coppodo parsito del mejilln, que en estado
larval presenta diferentes estadios de crecimiento. El primer estadio (Nauplis)
y el segundo estadio (Metanauplius) son difciles de distinguir.
Sobre una muestra de n1 = 76 y n2 = 91 coppodos que se pudieron identificar al microscopio como del primero y segundo estadio respectivamente,
se midieron las variables
l = longitud, a = anchura,
11.3. CLASIFICACIN EN POBLACIONES NORMALES
187
Figura 11.1: Discriminadores lineal y cuadrtico en la clasificacin de coppodos. La lnea recta es el conjunto de puntos tales que L = 0. La parbola es
el conjunto de puntos tales que Q = 0.
y se obtuvieron las siguientes medias y matrices de covarianzas:
Estadio-1
Estadio-2
x1 = ( 219.5 138.1 ) x2 = ( 241.6 147.8
)
409.9 1.316
210.9 57.97
S1 =
S2 =
1.316 306.2
57.97 152.8
Discriminador lineal
La estimacin de la matriz de covarianzas comn es

301.4 31.02
S = (n1 S1 + n2 S2 )/(n1 + n2 ) =
31.02 22.6
El discriminador lineal es:
L(l, a) = ((l, a) (461.1, 285.9) /2)
= 0.069l 0.038a + 20.94
301.4 31.02
31.02 222.6
1
22.1
9.7
188
La tabla de clasificaciones es:

Estadio asignado
1
2
Estadio 1
61
15
original 2
21
70
Discriminador de Bayes
Una larva, desde que eclosiona est 4 horas en el estadio 1 y 8 horas en
el estadio 2. Al cabo de 12 horas, la larva pasa a un estadio fcilmente
identificable. Por tanto, una larva tiene, a priori, una probabilidad 4/12 =
1/3 de pertenecer al estadio 1 y una probabilidad 8/12 = 2/3 de pertenecer
al estadio 2. As q1 = 1/3, q2 = 2/3, y el discriminador de Bayes es
B(l, a) = V (l, a) + log(1/2) = 0.069l 0.038a + 20.24
Probabilidad de clasificacin errnea
Una estimacin de la distancia de Mahalanobis es

&
' 301.4 31.02 1 22.1
22.1 9.7
= 4.461.
31.02 22.6
9.7
La probabilidad de asignar una larva al estadio 1 cuando corresponde al

estadio 2 o al estadio 2 cuando corresponde al estadio 1 es
pce = (
1
4.461) = 0.145.
2
Discriminador cuadrtico
El test de homogeneidad de covarianzas nos da:
2 = [1
13 1
1
1
( +
)](1835.4 882.5 926. 32) = 26.22

18 75 90 165
con 3 g.l. Las diferencias entre las matrices de covarianzas son significativas. Por tanto, el discriminador cuadrtico puede resultar ms apropiado.
Efectuando clculos se obtiene:
Q(l, a) = 0.0014l2 + 0.002a2 0.002al 0.445l 0.141a + 72.36
11.4. DISCRIMINACIN EN EL CASO DE K POBLACIONES
189
Con el clasificador cuadrtico se han clasificado bien 2 individuos ms (Fig.

11.1):
Estadio asignado
1
2
Estadio 1
59
17
original 2
17
74
11.4
Discriminacin en el caso de k poblaciones
Supongamos ahora que el individuo puede provenir de k poblaciones 1 , 2 ,

. . . , k , donde k 3. Es necesario establecer una regla que permita asignar a una de las k poblaciones sobre la base de las observaciones x =
(x1 , x2 , . . . , xp ) de p variables.
11.4.1
Discriminadores lineales
Supongamos que la media de las variables en i es i , y que la matriz de

covarianzas es comn. Si consideramos las distancias de Mahalanobis de
a las poblaciones
M 2 (x,i ) = (xi ) 1 (xi ),
i = 1, , k,
un criterio de clasificacin consiste en asignar a la poblacin ms prxima:

Si M 2 (x,i ) = min{M 2 (x,1 ), , M 2 (x,k )},
asignamos a i . (11.5)
Introduciendo las funciones discriminantes lineales

&
'
'
&
'
1&
Lij (x) = i j 1 x i j 1 i + j
2
es fcil probar que (11.5) equivale a
Si Lij (x) > 0 para todo j = i,
asignamos a i .
Adems las funciones Lij (x) verifican:
1. Lij (x) = 12 [M 2 (x,j ) M 2 (x,i )].

2. Lij (x) = Lji (x) .
3. Lrs (x) = Lis (x) Lir (x) .
Es decir, slo necesitamos conocer k 1 funciones discriminantes.
190
11.4.2
Regla de la mxima verosimilitud
Sea fi (x) la funcin de densidad de x en la poblacin i . Podemos obtener

una regla de clasificacin asignando a la poblacin donde la verosimilitud
es ms grande:
Si fi (x) = max{f1 (x), , fk (x)},
asignamos a i .
Este criterio es ms general que el geomtrico y est asociado a las funciones

discriminantes
Vij (x) = log fi (x) log fj (x).
En el caso de normalidad multivariante y matriz de covarianzas comn, se

verifica Vij (x) = Lij (x), y los discriminadores mximo verosmiles coinciden
con los lineales. Pero si las matrices de covarianzas son diferentes 1 , . . . , k ,
entonces este criterio dar lugar a los discriminadores cuadrticos
&
'
&
'
1
1
Qij (x) = 12 x 1
x + x 1
j i
i 1 j 2
1 1
1
1
+ 12 j 1
j j 2 i i i + 2 log |j | 2 log |i | .
11.4.3
Regla de Bayes
Si adems de las funciones de densidad fi (x), se conocen las probabilidades

a priori
q1 = P (1 ) , . . . , qk = P (k ) ,
la regla de Bayes que asigna a la poblacin tal que la probabilidad a
posteriori es mxima
Si qi fi (x) = max{q1 f1 (x), , qk fk (x)},
asignamos a i ,
est asociada a las funciones discriminantes

Bij (x) = log fi (x) log fj (x) + log(qi /qj ).
Finalmente, si P (j/i) es la probabilidad de asignar a j cuando en realidad
es de i , la probabilidad de clasificacin errnea es
pce =
k

i=1
k

qi (
P (j/i)),
j=i
y se demuestra que la regla de Bayes minimiza esta pce.
11.4. DISCRIMINACIN EN EL CASO DE K POBLACIONES
11.4.4
191
Un ejemplo clsico
Continuando con el ejemplo 3.6.2, queremos clasificar a una de las 3 especies

una flor de medidas
x1 =6.8 x2 =2.8 x3 =4.8 x4 =1.4
La matriz de covarianzas comn es
.2650 .0927 .1675 .0384
.1154 .05524 .0327

S=
.18519 .0426
.0418
Las distancies de Mahalanobis (al cuadrado) entre las 3 poblaciones son:

Setosa
Versicolor
Virginica
Setosa Versicolor Virginica

0
89.864
179.38
0
17.201
0
Los discriminadores lineales son:

L12 (x) = 12 [M 2 (x, x2 ) M 2 (x, x1 )] ,
L13 (x) = 12 [M 2 (x, x3 ) M 2 (x, x1 )] ,
L23 (x) = L13 (x) L12 (x), L21 (x) = L12 (x),
L31 (x) = L13 (x), L32 (x) = L23 (x).
La regla de decisin consiste en asignar el individuo x a la poblacin i si
Lij (x) > 0 j = i.
Se obtiene:
Individuo
L12
L13
L21
L23
L31
L32
Poblacin
x
-51.107 -44.759 51.107 6.3484 44.759 -6.3484
2
Por lo tanto clasificamos la flor a la especie I. Versicolor.
Para estimar la probabilidad de clasificacin errnea pce podemos omitir
una vez cada individuo, clasificarlo a partir de los dems y observar si sale
bien clasificado (mtodo leaving-one-out). El resultado de este proceso da:
192
Poblacin 1
original
2
3
Poblacin asignada
1
2
3
50
0
0
0
48
2
0
1
49
Slo hay 3 individuos mal clasificados y la pce estimada es 3/150 = 0.02.
11.5
Anlisis discriminante basado en distancias
Los mtodos que hemos descripto funcionan bien con variables cuantitativas
o cuando se conoce la densidad. Pero a menudo las variables son binarias,
categricas o mixtas. Aplicando el principio de que siempre es posible definir
una distancia entre observaciones, es posible dar una versin del anlisis
discriminante utilizando solamente distancias.
11.5.1
La funcin de proximidad
Sea una poblacin, X un vector aleatorio con valores en E Rp y densidad

f (x1 , ..., xp ) . Sea una funcin de distancia entre las observaciones de X.
Definimos la variabilidad geomtrica como la cantidad

1
2 (x, y) f (x)f(y)dxdy
V (X) =
2 E
V (X) es el valor esperado de las distancias (al cuadrado) entre observaciones
independientes de X.
Sea un individuo de , y x = (x1 , ..., xp ) las observaciones de X sobre
. Definimos la funcin de proximidad de a en relacin con X como la
funcin

( 2
)
2
(x) = E (x, X) V (X) =
2 (x, t)f (t)dtV (X) .
(11.6)
E
2 (x) es la media de las distancias de x, que es fija, a t, que vara aleatoriamente, menos la variabilidad geomtrica.
11.5. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS
193
Theorem 11.5.1 Supongamos que existe una representacin de (E, ) en

un espacio L (Eucldeo o de Hilbert)
(E, ) L
con un producto escalar < ., . > y una norma z2 =< z, z >, tal que
2 (x, y) = (x) (y)2 ,
donde (x) , (y) L son las imgenes de x, y. Se verifica:

V (X) = E( (X)2 ) E( (X))2 .
2 (x) = (x) E( (X))2 .
En consecuencia, podemos afirmar que la variabilidad geomtrica es una

varianza generalizada, y que la funcin de proximidad mide la distancia de
un individuo a la poblacin.
11.5.2
La regla discriminante DB
Sean 1 , 2 dos poblaciones, una funcin distancia. es formalmente la

misma en cada poblacin, pero puede tener diferentes versiones 1 , 2 , cuando
estemos en 1 , 2 , respectivamente. Por ejemplo, si las poblaciones son normales Np (i , i ) , i = 1, 2, y consideramos las distancias de Mahalanobis
2i (x, y) = (x y) 1
i (x y) ,
i = 1, 2,
lo nico que cambia es la matriz . Debe quedar claro que depende del
vector aleatorio X, que en general tendr diferente distribucin en 1 y 2 .
Seguidamente, mediante (11.6), encontraremos las funciones de proximidad 21 , 22 , correspondientes a 1 , 2 . Sea un individuo que queremos
clasificar, con valores x = X ().
La regla de clasificacin DB (distance-based) es:
Si 21 (x) 22 (x) asignamos a 1 ,
Teniendo en cuenta el Teorema 11.5.1, se cumple
2i (x) = (x) Ei ( (X))2 ,
i = 1, 2,
y por tanto la regla DB asigna a la poblacin ms prxima. La regla DB

solamente depende de las distancias entre individuos.
194
11.5.3
La regla DB comparada con otras
Los discriminadores lineal y cuadrtico son casos particulares de la regla DB.

1. Si las poblaciones son Np (1 , 1 ) , Np (2 , 2 ) y 2 es la distancia de
Mahalanobis entre observaciones 2 (x, y) = (x y) 1 (x y) , entonces las funciones de proximidad son
2i (x) = (x i ) 1 (x i )
y el discriminador lineal es
L (x) =
)
1( 2
2 (x) 21 (x) .
2
2. Si las poblaciones son Np (1 , 1 ) , Np (2 , 2 ) y 2i es la distancia de

Mahalanobis ms una constante
2i (x, y) = (x y) 1
i (x y) + log |i | /2
=0
x = y,
x = y,
entonces el discriminador cuadrtico es

Q (x) =
)
1( 2
2 (x) 21 (x) .
2
3. Si es la distancia eucldea ordinaria entre observaciones, la regla DB

equivale a utilizar el discriminador
E (x) = [x
1
(1 + 2 )] (1 2 ) ,
2
conocido como discriminador Eucldeo. E (x) es til en determinadas

circunstancias, por ejemplo, cuando la cantidad de variables es grande
en relacin al nmero de individuos, pues tiene la ventaja sobre L(x)
de que no necesita calcular la inversa de .
11.5.4
La regla DB en el caso de muestras
En las aplicaciones prcticas, no se dispone de las densidades f1 (x), f2 (x),

sino de dos muestras de tamaos n1 , n2 de las variables X = (X1 , ..., Xp ) en
las poblaciones 1 , 2 . Sea 1 = ( ij (1)) la matriz n1 n1 de distancias
11.5. ANLISIS DISCRIMINANTE BASADO EN DISTANCIAS
195
entre las muestras de la primera poblacin, y 2 = ( ij (2)) la matriz n2 n2

de distancias entre las muestras de la segunda poblacin. Indicamos (las
representaciones Eucldeas de las muestras) por
x1 , x2 , ..., xn1
y1 , y2 , ..., yn2
muestra de 1 ,
muestra de 2 ,
(11.7)
es decir, ij (1) = E (xi , xj ), ij (2) = E (yi , yj ).

Las estimaciones de las variabilidades geomtricas son:
n1
1

V1 = 2
2 (1) ,
2n1 i,j=1 ij
n2
1

V2 = 2
2 (2).
2n2 i,j=1 ij
Sea un individuo, i (1), i = 1, . . . , n1 , las distancias a los n1 individuos

de 1 y i (2), i = 1, . . . , n2 , las distancias a los n2 individuos de 2 . Si x son
las coordenadas (convencionales) de cuando suponemos que es de 1 , y
anlogamente y, las estimaciones de las funciones de proximidad son
n1

2 (x) = 1
2 (1) V1 ,
1
n1 i=1 i
La regla DB en el caso de muestras es
n2

2 (y) = 1
2 (2) V2 .
2
n2 i=1 i
2 (x)
2 (y) asignamos a 1 ,
Si
1
2
Esta regla solamente depende de distancias entre observaciones y es preciso

insistir en que el conocimiento de x, y, no es necesario. La regla DB clasifica
a la poblacin ms prxima:
Theorem 11.5.2 Supongamos que podemos representar y las dos muestras en dos espacios eucldeos (posiblemente diferentes)
x, x1 , x2 , ..., xn1 Rp ,
y, y1 , y2 , ..., yn2 Rq ,
respectivamente. Entonces se cumple

2 (x) = d2 (x,x) ,
1
E
2 (y) = d2 (y,y) ,
2
E
donde x, y son los centroides de las representaciones Eucldeas de las muestras.
196
Demost.: Consideremos x, x1 , x2 , ..., xn , x= (

1
n
Por otro
1
2n2
Restando
11.6
n

d2 (xi , x) =
i=1
n

d2 (xi , xj ) =
i,j=1
1
n
1
n
n

1
n
i=1
xi )/n. Por un lado
(xi x) (xi x)
i=1
n

i=1
1
2n2
n
xi xi + x x2x x.
n

i,j=1
n

i=1
(xi xj ) (xi xj )
xi xi x x.
2 (x) = x x+x x2x x =d2 (x,x) .
Complementos
El Anlisis Discriminante se inicia en 1936 con el trabajo de R.A. Fisher sobre

clasificacin de flores del gnero Iris. A. Wald y T.W. Anderson estudiaron las
propiedades del discriminador lineal. L. Cavalli y C.A.B. Smith introdujeron
el discriminador cuadrtico.
J.A. Anderson estudi la discriminacin logstica. Si definimos
y(, x) = P (1 /x) = q1 f1 (x)/(q1 f1 (x) + q2 f2 (x)),
la regla de classificacin es
es de 1 si y(, x) > 1/2, de 2 en caso contrario.
Entonces el modelo logstico supone
y(, x) =
1
1+
e x
Existen otros mtodos de anlisis discriminante, algunos no-paramtricos,

otros para variables mixtas, como el mtodo del ncleo, del vecino mas prximo, el basado en el location model de W. Krzanowski, etc. Consultar
McLachlan (1992).
Los mtodos de anlisis discriminante basados en distancias pueden abordar todo tipo de datos y han sido estudiados por Cuadras (1989, 1992b),
Cuadras et al. (1997).
Captulo 12
EL MODELO LINEAL
12.1
El modelo lineal
Supongamos que una variable observable Y depende de varias variables explicativas (caso de la regresin mltiple), o que ha sido observada en diferentes situaciones experimentales (caso del anlisis de la varianza). Entonces
tendremos n observaciones de Y , que en muchas situaciones aplicadas, se
ajustan a un modelo lineal
yi = xi1 1 + xi2 2 + . . . + xim m + ei ,
que en notacin matricial es

y1
x11 x12 x1m
y2 x21 x22 x2m

.. = ..
..
..
...
. .
.
.
yn
xn1 xn2 xnm
1
2
..
.
m
1. El vector de observaciones de Y
y = (y1 , y2 , . . . , yn ) .
2. El vector de parmetros
= ( 1 , 2 , . . . , m ) .
Los elementos que intervienen en el modelo lineal son:
197
(12.1)
i = 1, . . . , n,
e1
e2
..
.
en
198
CAPTULO 12. EL MODELO LINEAL
3. La matriz de diseo
x11 x12
x21 x22
X =
xn1 xn2
x1m
x2m
...
xnm
4. El vector de desviaciones aleatorias
e = (e1 , e2 , . . . , en )
La notacin matricial compacta del modelo es:
y = X + e.
Solamente y y X son conocidas. En los modelos de regresin, X contiene
las observaciones de m variables explicativas. En los modelos de anlisis
de la varianza, X contiene los valores 0, 1 1, segn el tipo de diseo
experimental.
12.2
Suposiciones bsicas del modelo
Supongamos que las desviaciones aleatorias o errores ei del modelo lineal

se asimilan a n variables aleatorias con media 0, incorrelacionadas y con
varianza comn 2 , es decir, satisfacen:
1. E(ei ) = 0,
i = 1, . . . , n.
2. E(ei ej ) = 0,
i = j = 1, . . . , n.
3. var(ei ) = 2 ,
i = 1, . . . , n.
Estas condiciones equivalen a decir que el vector de medias y la matriz

de covarianzas del vector e = (e1 , e2 , . . . , en ) son:
E(e) = 0, e = 2 Ip .
Si podemos suponer que los errores son normales y estocsticamente independientes, entonces estamos ante un modelo lineal normal
y Nn (X, 2 Ip ).
La cantidad r = rang(X) es el rango del diseo. Tenemos r m y cuando

r = m se dice que es un modelo de rango mximo.
12.3. ESTIMACIN DE PARMETROS
199
12.3
Estimacin de parmetros
12.3.1
Parmetros de regresin
La estimacin de los parmetros = ( 1 , . . . , m ) en funcin de las observaciones y = (y1 , . . . , yn ) , se plantea mediante el criterio de los mnimos
= (
1 , . . . ,
m ) tal
cuadrados (LS, least squares). Se desea encontrar
que
n

e e = (y X) (y X) =
(yi xi1 1 . . . xim m )2
(12.2)
i=1
sea mnimo.
Theorem 12.3.1 Toda estimacin LS de es solucin de las ecuaciones

X X = X y
(12.3)
denominades ecuaciones normales del modelo.

Demost.:
e e =(y X) (y X) = y y2 X y+2X X.
Derivando vectorialmente respecto de e igualando a cero

e e = 2X y+2X X = 0
obtenemos (12.3).
Distinguiremos dos casos segn el rango del diseo.
a) r = m. Entonces la estimacin de es nica:
= (X X)1 X y.
(12.4)
b) r < m. Cuando el diseo no es de rango mximo una solucin es

= (X X) X y,
donde (X X) es una inversa generalizada de X X.

La suma de cuadrados residual de la estimacin de es
n

2

R0 = (y X) (y X) =
(yi yi )2 ,
i=1
siendo
1 + . . . + xim
m.
yi = xi1
200
12.3.2
Varianza
La varianza comn de los trminos de error, 2 =var(ei ), es el otro parmetro

que hemos de estimar en funcin de las observaciones y = (y1 , . . . , yn ) y de
X. En esta estimacin interviene de manera destacada la suma de cuadrados
residual.
Lemma 12.3.2 Sea Cr (X) el subespacio de Rn de dimensin r generado por
es ortogonal
las columnas de X. Entonces E(y) = X Cr (X) y
e= y X
a Cr (X).
Demost.: Por las ecuaciones normales
= X y X X
= 0.
X
e= X (y X)
Theorem 12.3.3 Sea y = X + e el modelo lineal donde e satisface las suposiciones bsicas del modelo (Seccin 12.2). Entonces el estadstico
2 = R02 /(n r),
siendo R02 la suma de cuadrados residual y r = rang(X) el rango del modelo,

es un estimador insesgado de 2 .
Demost.: Sea T = [t1 , . . . , tr , tr+1 , . . . , tn] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn , de manera que las r primeras
generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a
Cr (X). Definimos z = T y. Entonces z =(z1 , . . . , zn ) verifica
E(zi ) = ti X = i si i r,
= 0 si i > r,
Entonces
pues ti es ortogonal a Cr (X) si i > r. Consideremos
e= y X.

T
e= z T X, donde las r primeras componentes de T
e son cero (por el
son tambin cero. Por tanto
lema anterior) y las n r componentes de T X
T
e es
T
e = (0, . . . , 0, zr+1 , . . . , zn )
y en consecuencia
R02
=
e
e=
e TT
e=
n

i=r+1
zi2 .
12.4. ALGUNOS MODELOS LINEALES
201
La matriz de covarianzas de y es 2 In , y por ser T ortogonal, la de z es

tambin 2 In . As
E(zi2 ) = var(zi ) = 2 ,
E(zi ) = 0,
y por tanto
E(Ro2 )
n

i=r+1
i > r,
E(zi2 ) = (n r) 2 .
Bajo el modelo lineal normal, la estimacin de es estocsticamente

independiente de la estimacin de 2 , que sigue la distribucin ji-cuadrado.
Theorem 12.3.4 Sea y Nn (X, 2 Ip ) el modelo lineal normal de rango
mximo m = rang(X). Se verifica:
1. La estimacin LS de es tambin la estimacin mximo verosmil de
. Esta estimacin es adems insesgada y de varianza mnima.
1
2

2. N
m (, (X X) ).
) X X(
)/ 2 2 .
3. U = (
m
es estocsticamente independiente de R2 .
4.
0
5. R02 / 2 2nr .
12.4
Algunos modelos lineales
12.4.1
Regresin mltiple
El modelo de regresin mltiple de una variable respuesta Y sobre m variables

explicativas X1 , . . . , Xm es
yi = 0 + xi1 1 + . . . + xim m + ei ,
i = 1, . . . , n,
(12.5)
donde yi es la i-sima observacin de Y, y xi1 , . . . , xim son las i-simas observaciones de las variables explicativas. La matriz de diseo es
1 x11 x1m
1 x21 x2m
X = .. ..
.. .
.
.
. .
.
.
1 xn1 xnm
202
12.4.2
Diseo de un factor
Supongamos que una variable observable Y ha sido observada en k condiciones experimentales diferentes, y que disponemos de ni rplicas (observaciones independentes de Y ) yi1 , . . . , yini bajo la condicin experimental i. El
modelo es
yih = + i + eih , i = 1, . . . ,k; h = 1, . . . ,ni ,
(12.6)
donde es la media general y i es el efecto aditivo de la condicin i. Las
desviaciones aleatorias eih se suponen normales independientes. En el modelo
(12.6), se supone la restriccin lineal
1 + . . . +k = 0,
y por tanto cabe considerar solamente los parmetros , 1 , . . . ,k1 . Por
ejemplo, si k = 3, n1 = n2 = 2, n3 = 3, la matriz de diseo es
12.4.3
1 2
1
1
0
1
1
0
1
0
1
1
0
1
X=
1 1 1
1 1 1
1 1 1
Diseo de dos factores
Supongamos que las n = a b observaciones de una variable observable

Y se obtienen combinando dos factores con a y b niveles, respectivamente,
denominados factor fila y columna (por ejemplo, produccin de trigo obtenida
en 9 = 3 3 parcelas, 3 fincas y 3 fertilitzantes en cada finca). El modelo es
yij = + i + j + eij ,
(12.7)
donde es la media general, i es el efecto aditivo del nivel i del factor

fila, j es el efecto aditivo del nivel j del factor columna. Las desviaciones
aleatorias eij se suponen normales independientes. En el modelo (12.6) se
suponen las restricciones lineales
a

i=1
i =
b

j=1
j = 0.
(12.8)
12.5. HIPTESIS LINEALES
203
Por ejemplo, si a = b = 3 la matriz de diseo es
1
1
X=
1
1
1
1
12.5
1
1
0
1
1
0
1
1
0
1
2
0
1
1
0
1
1
0
1
1
1
1
1
1
0
0
0
1
1
1
2
0
0
0
1
1
1
1
1
1
Hiptesis lineales
Consideremos el modelo lineal normal y = X + e. Una hiptesis lineal es

una restriccin lineal sobre los parmetros del modelo.
Definition 12.5.1 Una hiptesis lineal de rango t sobre los parmetros es
una restriccin lineal
hi1 1 + . . . + him m = 0,
Indicando la matriz t m, con t < m
h11
H=
ht1
i = 1, . . . , t.
filas linealmente independientes,
h1m
htm
la notacin matricial de una hiptesis lineal es

H0 : H = 0.
(12.9)
Definition 12.5.2 Una hiptesis lineal es demostrable si las filas de H son

combinacin lineal de las filas de X. Dicho de otra manera, si existe una
matriz A de orden t n tal que
H = AX.
204
Observaciones:
a) Suponemos que la matriz H es de rango t.
b) Solamente podremos construir un test (el test F) para decidir si podemos
aceptar o no una hiptesis lineal si esta hiptesis es demostrable.
c) Es evidente que si el modelo es de rango mximo, r = rang(X) = m,
cualquier hiptesis lineal es demostrable.
Cuando una hiptesis (12.9) es cierta, los parmetros se convierten en
As el modelo lineal, bajo H0 , es
y la matriz de diseo X en X.
+ e.
y =X
(12.10)
Para obtener (12.10), consideramos los subespacios F (H),F (X) generados

por las filas de H y X. Entonces F (H) F (X) Rm . Sea C una matriz m
(r t) tal que F (C ) F (X) y HC = 0. En otras palabras, las columnas de
C pertenecen a F (X) y son ortogonales a F (H). Si definimos los parmetros
= (1 , . . . , rt ) tales que
= C,
entonces H = HC = 0 y el modelo y = X + e, bajo la restriccin H = 0,
se transforma en (12.10), siendo
La estimacin LS de es
= XC.
X
(X
X)
1 Xy

=
y la suma de cuadrados residual es
(yX

)
).
R12 = (yX
Tambin se puede probar que la estimacin LS de los parmetros , bajo

la restriccin (12.9), es
H = (X

X) H (H(X X) H )1 H
y la suma de cuadrados del modelo lineal es
H ) (y X
H )
R12 = (y X
El siguiente teorema es conocido como Teorema Fundamental del Anlisis

de la Varianza.
12.5. HIPTESIS LINEALES
205
Theorem 12.5.1 Sea y Nn (X, 2 Ip ) el modelo lineal normal y H0 : H = 0

una hiptesis lineal demostrable de rango t. Consideremos los estadsticos
(y X),

H ) (y X
H ).
R02 = (y X)
R12 = (y X
Se verifica:
1. R02 / 2 2nr .
2. Si H0 es cierta
R12
2nr ,
2
R12 R02
2t ,
2
siendo r = r t.
3. Si H0 es cierta, los estadsticos (R12 R20 ) y R02 son estocsticamente
independientes.
Demost.: Observemos primero que bajo el modelo lineal normal, y1 , . . . , yn
son normales independientes, y z1 , . . . , zn (vase Teorema 12.3.3) son tambin
normales independientes.
1. Cada zi es N(0, 2 ) para i > r. Luego R02 / 2 es suma de (n r) cuadrados de N(0, 1) independientes.
2. Si la hiptesis lineal es cierta, la matriz de diseo X se transforma en
XC, es decir, las columnas de XC son combinacin lineal de las
X=
columnas de X. Podemos encontrar una matriz ortogonal
T = [t1 , . . . , tr , tr +1 , . . . , tr , tr+1 , . . . , tn ]
tal que
Cr (XC) = [t1 , . . . , tr ] Cr (X) = [t1 , . . . , tr ].
Siguiendo los mismos argumentos del Teorema 12.3.3, tenemos que

R12
n

zi2
i=r +1
y R12 / 2 sigue la distribucin 2nr . Por otro lado

R12 R02 =
r

zi2
i=r +1
y (R12 R02 )/ 2 sigue la distribucin 2t , donde t = r r .
206
3. Las sumas de cuadrados que intervienen en R02 y en R12 R20 no tienen

trminos en comn, por tanto son independientes.
Consecuencia inmediata y muy importante de este resultado es que, si H0
es cierta, entonces el estadstico
F =
(R12 R02 )/t 2

(R12 R02 ) n r
t
=
Fnr
.
R02 /(n r) 2
R02
t
(12.11)
Es decir, F sigue la distribucin F con t y n r grados de libertad y no

depende de la varianza (desconocida) del modelo.
12.6
Inferencia en regresin mltiple
Consideremos el modelo de regresin mltiple (12.5). El rango del modelo es

rang(X) = m + 1. La hiptesis ms interesante en las aplicaciones es
H0 : 1 = . . . = m = 0,
que equivale a decir que la variable respuesta Y no depende de las variables
explicativas X1 , . . . , Xm . La matriz de la hiptesis lineal es
0 1 0
0
0 0 1
0
, rang(H) = m.
H=
0 0 0
1
0H = y
Si H0 es cierta, solamente interviene el parmetro 0 , evidentemente
(media muestral) y las sumas de cuadrados residuales son
R02
n

=
(yi yi )2 ,
i=1
R12
n

=
(yi y)2 ,
i=1
0 ,
1 , . . . ,
m son los estimadores LS bajo el modelo no restringido y
donde

m . Aplicando (12.11), bajo H0 tenemos que
yi = 0 + xi1 1 + . . . + xim
F =
(R12 R02 ) n m 1
m
Fnm1
.
2
R0
m
12.7. COMPLEMENTOS
207
El test F se suele expresar en trminos de la correlacin mltiple. Se demuestra que

n
n

2
2
2
R0 =
(yi yi ) = (1 R )
(yi y)2 ,
i=1
i=1
donde R es el coeficiente de correlacin mltiple muestral entre Y y X1 , . . . , Xm

(Teorema 4.2.2). Por tanto, si H0 es cierta, es decir, si la correlacin mltiple
poblacional es cero, entonces
F =
R2 n m 1
m
Fnm1
.
1 R2
m
Rechazaremos H0 si F es significativa.
12.7
Complementos
Hemos visto los aspectos fundamentales del modelo lineal. Un estudio ms

completo incluira:
a) anlisis grfico de los residuos, b) efectos de la colinealidad, c) mnimos cuadrados ponderados, d) errores correlacionados, e) seleccin de las
variables, etc. Ver Pea (1989), Chatterjee y Price (1991).
Para tratar variables explicativas mixtas, podemos definir un modelo lineal considerando las dimensiones principales obtenidas aplicando anlisis de
coordenadas principales sobre una matriz de distancias entre las observaciones. Consultar Cuadras y Arenas (1990), Cuadras et al. (1996).
208
Captulo 13
ANLISIS DE LA VARIANZA
(ANOVA)
El anlisis de la varianza comprende un conjunto de tcnicas estadsticas que
permiten analizar como operan diversos factores, estudiados simultneamente
en un diseo factorial, sobre una variable respuesta.
13.1
Diseo de un factor
Supongamos que las observaciones de una variable Y solamente dependen de

un factor con k niveles:
Nivel 1 y11
Nivel 2 y21
Nivel k yk1
y12 y1n1
y22 y2n2
yk2 yknk
Si escribimos i = + i , en el modelo (12.6) tenemos

yih = i + eih ,
i = 1, . . . ,k; h = 1, . . . ,ni ,
donde i es la media de la variable en el nivel i. Indiquemos:

Media nivel i :
yi
Media general:
y
No. total de observaciones: n
209

= (1/ni ) h
yih
= (1/n) i h yih
= n1 + . . . + nk
210
CAPTULO 13. ANLISIS DE LA VARIANZA (ANOVA)
Tambin indiquemos:
Suma de cuadrados entre grupos:
QE
Suma de cuadrados dentro de grupos: QD
Suma de cuadrados total:
QT
Se verifica la relacin fundamental:

= i
ni (yi y)2
= i h(yih yi )2
= i h(yih y)2
QT = QE + QD .
Las estimaciones LS de las medias i son
i = yi ,
i = 1, . . . , k,
y la suma de cuadrados residual es R20 = QD .

La hiptesis nula de principal inters es la que establece que no existen
diferencias entre los niveles de los factores:
H0 : 1 = . . . = k ,
y tiene rango 1. Bajo H0 solamente existe una media y su estimacin es
= y. Entonces la suma de cuadrados residual es R12 = QT y adems se

verifica
R12 R02 = QE
Por tanto, como una consecuencia del Teorema 12.5.1, tenemos que:
1. QD /(n k) es un estimador centrado de 2 y QD / 2 2nk .
2. Si H0 es cierta, QE /(k 1) es tambin estimador centrado de 2 y
QT
2n1 ,
2
QE
2k1 .
2
3. Si H0 es cierta, los estadsticos QE y QD son estocsticamente independientes.

Consecuencia inmediata es que, si H0 es cierta, entonces el estadstico
F =
QE /(k 1)
k1
Fnk
.
QD /(n k)
13.2. DISEO DE DOS FACTORES
13.2
211
Diseo de dos factores
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores fila y columna, con a y b niveles A1 , . . . ,Aa
y B1 , . . . ,Bb , y que disponemos de una observacin para cada combinacin
de los niveles de los factores:
A1
A2
..
.
Aa
B1
y11
y21
..
.
B2
y12
y22
..
.
...
Bb
y1b
y2b
..
.
y1
y2
..
.
ya1
y1
ya2
y2
yab
yb
ya
y
siendo
b
yi =
1
yij ,
b j=1
yj =
1
yij ,
a i=1
y = y =
1
yij ,
ab i=1 j=1
las medias por filas, por columnas y general. Supongamos que los datos se
ajustan al modelo (12.7) con las restricciones (12.8), donde es la media
general, i es el efecto del nivel Ai del factor fila, j es el efecto del nivel Bj
del factor columna. El rango del diseo y los g.l. del residuo son
r = 1 + (a 1) + (b 1) = a + b 1, n r = ab (a + b 1) = (a 1)(b 1).
Las estimaciones de los parmetros son
= y,
i = yi y,
y la expresin de la desviacin aleatoria es
= yj y,
j = (yij yi yj + y).
eij = yij

i
La suma de cuadrados residual del modelo es

R02 =
a
b

(yij yi yj + y)2 .
i=1 j=1
212
Tambin consideramos las cantidades:

Suma
Suma
Suma
Suma
de
de
de
de
cuadrados
cuadrados
cuadrados
cuadrados
entre filas:
entre columnas:
residual:
total:
Se verifica la siguiente identidad:
QA
QB
QR
QT

= b i (yi y)2
= a j (yj y)2

= i,j (yij yi yj + y)2

= i,j (yij y)2
QT = QA + QB + QR .
En el modelo de dos factores, las hiptesis de inters son:
H0A : 1 = = a = 0 (no hay efecto fila)
H0B : 1 = = b = 0 (no hay efecto columna)
Supongamos H0B cierta. Entonces el modelo se transforma en yij = + i +
eij , es decir, acta solamente un factor, y por tanto
R12
b
a

(yij yi )2 .
=
i=1 j=1
Ahora bien, desarrollando (yij yi )2 = ((yj y)+(yij yi yj +y))2 resulta

que
R12 = QB + QR .
Anlogamente, si H0F es cierta, obtendramos R12 = QA + QR . Por el Teorema
12.5.1 se verifica:
1. QR /(a1)(b1) es un estimador centrado de 2 y QR / 2 2(a1)(b1) .
2. Si H0A es cierta, QA /(a 1) es tambin estimador centrado de 2 ,
QA / 2 2(a1) y los estadsticos QA y QR son estocsticamente independientes.
3. Si H0B es cierta, QB /(b 1) es tambin estimador centrado de 2 ,
QB / 2 2(b1) y los estadsticos QB y QR son estocsticamente independientes.
13.3. DISEO DE DOS FACTORES CON INTERACCIN
213
Por lo tanto tenemos que para decidir H0A utilizaremos el estadstico

FA =
QA (a 1)(b 1)
a1
F(a1)(b1)
,
QR
(a 1)
y para decidir H0B utilizaremos

FB =
13.3
QB (a 1)(b 1)
b1
F(a1)(b1)
.
QR
(b 1)
Diseo de dos factores con interaccin
Supongamos que las observaciones de una variable Y dependen de dos factores A, B, denominados factores fila y columna, con a y b niveles A1 , . . . .Aa
y B1 , . . . ,Bb , y que disponemos de c observaciones (rplicas) para cada combinacin de los niveles de los factores:
A1
A2
..
.
Aa
siendo
B1
y111 , . . . , y11c
y211 , . . . , y21c
..
.
B2
y121 , . . . , y12c
y221 , . . . , y22c
..
.
...
Bb
y1b1 , . . . , y1bc
y2b1 , . . . , y2bc
..
.
y1
y2
..
.
ya11 , . . . , ya1c
y1
ya22 , . . . , ya2c
y2
yab1 , . . . , yabc
yb
ya
y
b,c
1
yi =
yijh,
bc j,h=1
c
yij
1
=
yijh ,
c h=1
yj
a,c
1
=
yijh ,
ac i,h=1
a,b,c
1
y = y =
yij .
abc i,j,h=1
El modelo lineal del diseo de dos factores con interaccin es

yijh = + i + j + ij + eijh ,
i = 1, . . . , a; j = 1, . . . , b; h = 1, . . . , c,
siendo la media general, i el efecto del nivel Ai del factor fila, j el
efecto del nivel Bj del factor columna, ij la interaccin entre los niveles
Ai ,Bj . El parmetro ij mide la desviacin del modelo aditivo E(yijh ) =
214
+ i + j y solamente es posible estimar si hay c > 1 rplicas. Se suponen

las restricciones
a

i =
i=1
b

j =
j=1
a

b

ij =
i=1
ij = 0.
j=1
As el nmero de parmetros independientes del modelo es

1 + (a 1) + (b 1) + (a 1)(b 1) = ab
y los g.l. del residuo son abc ab = ab(c 1).
Las estimaciones de los parmetros son
= y,
i = yi y,
j = yj y,
y la expresin de la desviacin aleatoria es
ij = yij yi yj + y,
j
eijh = yijh

i
ij = (yij y).
La suma de cuadrados residual del modelo es

R02
a,b,c

(yijh yi )2 .
i,j,h=1
Tambin debemos considerar las cantidades:

Suma
Suma
Suma
Suma
Suma
de
de
de
de
de
cuadrados
cuadrados
cuadrados
cuadrados
cuadrados
entre filas:
entre columnas:
de la interaccin:
residual:
total:
Se verifica la siguiente identidad
QA
QB
QAB
QR
QT

= bc i (yi y)2
= ac j (yj y)2

= c i,j (yij yi yj + y)2

= i,jh (yijh yi )2

= i,j (yijh y)2
QT = QA + QB + QAB + QR .
Las hiptesis de inters son:
H0A : 1 = = a = 0 (no hay efecto fila)
H0B : 1 = = b = 0 (no hay efecto columna)
H0AB : 11 = = ab = 0 (no hay interaccin)
13.4. DISEOS MULTIFACTORIALES
215
Como en los casos anteriores, podemos ver que la aceptacin o rechazo de

las hiptesis se decide mediante el test F:
FA
FB
FAB
13.4
QA ab(c 1)
a1
Fab(c1)
QR a 1
QB ab(c 1)
b1
=
Fab(c1)
QR b 1
QAB ab(c 1)
(a1)(b1)
Fab(c1)
=
QR (a 1)(b 1)
Diseos multifactoriales
Los diseos de dos factores se generalizan a un nmero mayor de factores.

Cada factor representa una causa de variabilidad que acta sobre la variable
observable. Si por ejemplo, hay 3 factores A, B, C, las observaciones son
yijkh , donde i indica el nivel i-simo de A, j indica el nivel j-simo de B, k
indica el nivel k-simo de C, y h indica la rplica h para la combinacin ijk
de los tres factores, que pueden interactuar. Un modelo tpico es
B
C
AB
AC
BC
ABC
yijkh = + A
i + j + k + ij + ik + jk + ijk + eijkh ,
siendo:
=
=
=
=
eijkh =
B
C
A
i , j , k
AC
BC
AB
ij , ik , jk
ABC
ijk
media general,
efectos principales de A,B,C,
interacciones entre A y B, A y C, B y C,
interaccin entre A,B y C,
desviacin aleatoria N(0, 2 ).
Son hiptesis de inters: H0A : A

i = 0 (el efecto principal de A no es significativo), H0AB : AB
=
0
(la
interaccin
entre A y B no es significativa),
i
etc. Los tests para aceptar o no estas hiptesis se obtienen descomponiendo
la variabilidad total en sumas de cuadrados

(yikjh y)2 = A + B + C + AB + AC + BC + ABC + R,
i,j,k,h
donde R es el residuo. Si los factores tienen a, b, c niveles, respectivamente, y

hay d rplicas para cada combinacin de los niveles, entonces A tiene (a 1)
216
g.l., AB tiene (a 1)(b 1) g.l. Si interpretamos las rplicas como un factor

D, el residuo es
R = D + AD + BD + CD + ABD + ACD + BCD + ABCD
con
q = (d 1) + (a 1)(d 1) . . . + (a 1)(b 1)(c 1)(d 1) = abc(d 1)
g.l. Entonces calcularemos los cocientes F
F =
A/(a 1)
,
R/q
F =
AB/(a 1)(b 1)
,
R/q
que sirven para aceptar o rechazar H0A y H0AB , respectivamente.

En determinadas situaciones experimentales puede suceder que algunos
factoros no interacten. Entonces las sumas de cuadrados correspondientes
se suman al residuo. Por ejemplo, si C no interacta con A,B, el modelo es
B
C
AB
yijkh = + A
i + j + k + ij + eijkh
y la descomposicin de la suma de cuadrados es

(yikjh y)2 = A + B + C + AB + R ,
i,j,k,h
donde R = AC + BC + ABC + R es el nuevo residuo con g.l.

q = (a 1)(c 1) + (b 1)(c 1) + (a 1)(b 1)(c 1) + q.
Los cocientes F para las hiptesis anteriores son ahora
F =
13.5
A/(a 1)
,
R /q
F =
AB/(a 1)(b 1)
.
R /q
Modelos log-lineales
Supongamos que tenemos dos variables categricas A,B con a,

b categoras
respectivamente, y hemos observado las ab categorias n =
ij fij veces,
13.5. MODELOS LOG-LINEALES
217
donde fij es el nmero de veces en que apareci la interseccin Ai Bj , es

decir, tenemos la tabla de contingencia a b :
A1
A2
..
.
Aa
B1
f11
f21
B2
f12
f22
..
.
Bb
f1b
f2b
fa1
f1
fa2
f2
fab
fb
f1
f2
fa
n

donde fi = j fij , fj = i fij son las frecuencias de Ai ,Bj respectivamente.
Indiquemos las probabilidades
pij = P (Ai Bj ),
pi = P (Ai ),
pj = P (Bj ).
Existe independencia estocstica entre A y B si pij = pi pj , es decir, si

ln pij = ln pi + ln pj .
Si introducimos las frecuencias tericas
Fij = npij ,
Fi = npi ,
Fj = npj ,
la condicin de independencia es
ln Fij = ln Fi + ln Fj ln n,
que podemos escribir como
B
ln Fij = + A
i + j ,
siendo

= ( ai=1 bj=1 ln Fij )/ab,

A
= ( bj=1 ln Fij )/b ,
i

B
= ( ai=1 ln Fij )/a .
j
(13.1)
El modelo (13.1) es un ejemplo de modelo log-lineal.

Generalmente no podemos aceptar la independencia estocstica. Por
tanto, hemos de aadir un trmino a (13.1) y escribir
B
AB
ln Fij = + A
i + j + ij ,
218
B
donde AB
= ln Fij A
ij
i j es la desviacin del modelo lineal. La
similitud con el modelo anova de dos factores es clara.
En las aplicaciones no conocemos las frecuencias esperadas Fij , sino las
frecuencias observadas fij . Entonces la estimacin de los parmetros es muy
semejante al modelo anova, pero los tests de hiptesis se resuelven mediante
ji-cuadrados.
La hiptesis de inters es la independencia entre A,B
H0 : AB
ij = 0,
que equivale a decir que los datos se ajustan al modelo (13.1). Sean
Fij = nfi fj
las estimaciones mximo-verosmiles de las frecuencias esperadas. El test

ji-cuadrado clsico consiste en calcular

(fij Fij )2 /Fij
i,j
y el test de la razn de verosimilitud se basa en

2
fij log(fij /Fij ),
i,j
que tambin sigue la distribucin ji-cuadrado con (a 1)(b 1) g.l.

El tratamiento de 3 variables categricas A, B, C es semejante. Partiendo
de una tabla de contingencia a b c, puede interesar saber si A, B, C son
mtuamente independientes
B
C
ln Fijk = + A
i + j + k ,
si hay dependencia entre A y B, entre A y C, entre B y C

B
C
AB
AC
BC
ln Fijk = + A
i + j + k + ij + ik + jk ,
si adems hay dependencia entre A, B, C

B
C
AB
AC
BC
ABC
ln Fijk = + A
i + j + k + ij + ik + jk + ijk ,
y si A es independiente de B, C, que son dependientes, el modelo es

B
C
BC
ln Fijk = + A
i + j + k + jk .
13.6. COMPLEMENTOS
219
En cada caso, el test ji-cuadrado o el de razn de verosimilitud nos permiten

decidir si los datos se ajustan al modelo. Conviene observar que obtendramos
2 = 0 en el tercer modelo, ya que los datos se ajustan exactamente al modelo.
Ejemplo. Las frecuencias de supervivientes, clasificadas por gnero (A),
supervivencia (B) y clase (C), del hundimiento del vapor Titanic son:
Gnero Sobrevivi 1
2
3
Hombre SI
118 154 422
Mujer
4 13 106
Hombre NO
62 25 88
Mujer
141 93 90
Los resultados del anlisis log-lineal son:
Modelo para ln Fijk
S
C
= + G
i + j + k
GC
SC
+ GS
ij + ik + jk
GC
SC
GSC
+ GS
ij + ik + jk + ijk
+ GC
jk
Interpretacin
GSC
GSGCSC
dependencia
SGC
Smbolo
2
g.l.
[G][S][C]
540.7
7
[GS][GC][SC] 61.5
2
[GSC]
0
[S][GC]
511.1
5
Salvo el modelo de dependencia completa, ningn modelo se ajusta a los

datos. Hemos de aceptar que la supervivencia dependa del gnero y la clase.
13.6
Complementos
El Anlisis de la Varianza fue introducido por R. A. Fisher en 1938, para

resolver problemas de diseo experimental en agricultura. Hemos visto que
es una aplicacin del modelo lineal. Existen muchos diseos diferentes, cuyo
estudio dejamos para otro momento.
Los primeros estudios y aplicaciones consideraban factores de efectos fijos. En 1947, C. Eisenhart consider que algunos efectos podan ser aleatorios. Ciertamente, los efectos que actan sobre los modelos pueden ser fijos,
aleatorios o mixtos, y cuando hay interacciones el clculo de los cocientes F
es diferente. Ver Cuadras (2000), Pea (1989).
220
Captulo 14
ANLISIS DE LA VARIANZA
(MANOVA)
14.1
Modelo
El anlisis multivariante de la varianza (MANOVA) es una generalizacin en

p > 1 variables del anlisis de la varianza (ANOVA).
Supongamos que tenemos n observaciones independientes de p variables
observables Y1 , . . . , Yp , obtenidas en diversas condiciones experimentales, como
en el caso univariante. La matriz de datos es
y11 y12 y1p

y21 y22 y2p
y1 ,
y2 , . . . ,
yp ],
Y = ..
.. . .
.. = [
.
. .
.
yn1 yn2 ynp
j = (y1j , y2j , . . . , ynj ) son las n observaciones de la variable Yj , que

donde y
j = X j + ej .
suponemos siguen un modelo lineal y
El modelo lineal multivariante es
(14.1)
Y = XB + E
siendo
X =
x11 x12 x1m

x21 x22 x2m
..
..
..
...
.
.
.
xn1 xn2 xnm
221
222
CAPTULO 14. ANLISIS DE LA VARIANZA (MANOVA)
la matriz de diseo,
B =
..
.
1p
2p
..
.
m1 m2
mp
11
21
..
.
12
22
..
.
la matriz de parmetros de regresin,
e11 e12 e1p

e21 e22 e2p
E = ..
.. . .
.
.
. ..
.
en1 en2 enp
la matriz de desviaciones aleatorias. Las matrices Y y X son conocidas.

Suponemos que las filas de E son independientes Np (0,).
14.2
Estimacin
En el modelo MANOVA hemos de estimar los mp parmetros de regresin y

la matriz de covarianzas .
= (X X) X y
En el modelo univariante y = X + e, la estimacin LS
(y X).
En el caso multivariante, el estimador
minimiza
e
e= (y X)
tal que minimiza la traza
LS de B es B
Se demuestra que:
E)
= tr((Y XB)
(Y XB)).

tr(E
1. Las estimaciones LS de los parmetros de regresin B son

= (X X)1 X Y
B
cuando el diseo es de rango mximo r = rang(X) =m, y
cuando r < m.
= (X X) X Y
B
14.3. TESTS DE HIPTESIS LINEALES
223
2. La matriz de residuos es la matriz R0 = (R0 (i, j)) de orden p p
(Y XB),

R0 = (Y XB)
donde R0 (j, j) es la suma de cuadrados residual del modelo univariante

yj = X j + ej .
3. Una estimacin centrada de la matriz de covarianzas es
= R0 /(n r).
Theorem 14.2.1 Sea Y = XB + E el model lineal multivariante donde las

filas de E son Np (0,) independientes. Sea R0 la matriz de residuos. Se
verifica:
1. R0 = Y [I X(X X) X ]Y.
2. La distribucin de R0 es Wishart Wp (, n r).
Demost.: Sea T = [t1 , . . . , tr , tr+1 , . . . , tn ] una matriz ortogonal tal que sus
columnas formen una base ortonormal de Rn , de manera que las r primeras
generen el subespacio Cr (X) y por tanto las otras n r sean ortogonales a
Y XB
y definamos Z = T Y. Como en el modCr (X). Consideremos E=
elo lineal (ver Teorema 12.3.3), se verifica
!
0

TE=
,
Znr
donde Znr es una matriz (n r) p con filas Np (0,) independientes. En

consecuencia
14.3
E
=E
TT E
= Znr Znr Wp (, n r).
R20 = E
Tests de hiptesis lineales
Una hiptesis lineal demostrable de rango t y matriz H es

H0 : HB = 0
donde las filas de H son combinacin lineal de las filas de X.
224
Como en el caso univariante (Seccin 12.5), si H0 es cierta, el modelo se

transforma en

Y =X+E,
la estimacin de los parmetros B restringidos a H0 viene dada por
H = B(X

B
X) H (H(X X) H )1 HB
y la matriz residual es
H ) (Y XB
H ).
R1 = (Y XB
Theorem 14.3.1 Sea Y = XB + E el modelo lineal multivariante, donde

las filas de E son Np (0,) independientes, R0 la matriz de residuos, H0 :
HB = 0 una hiptesis lineal demostrable y R1 la matriz de residuos bajo H0 .
Se verifica:
1. R0 Wp (, n r).
2. Si H0 es cierta,
R1 Wp (, n r ),
R1 R0 Wp (, t),
siendo t = ran(H), r = r t.
3. Si H0 es cierta, las matrices R0 y R1 R0 son estocsticamente independientes.
Demost.: Si la hiptesis H0 es cierta, la matriz de diseo X se transforma
en XC, donde las columnas de XC son combinacin lineal de las columnas
de X. Podemos encontrar una matriz ortogonal
T = [t1 , . . . , tr , tr +1 , . . . , tr , tr+1 , . . . , tn ]
tal que
Cr (XC) = [t1 , . . . , tr ] Cr (X) = [t1 , . . . , tr ].
Siguiendo los mismos argumentos del teorema anterior, tenemos que

!
0

TE=
Znr
14.4. MANOVA DE UN FACTOR
225
donde las n r filas de Znr son Np (0,) independientes. Por tanto R21 =
Znr Znr es Wishart Wp (, n r ). Por otro lado podemos escribir
!
Zt
Znr =
Znr
donde las t = r r filas de Zt son independientes de las n r filas de Znr .
Entonces es fcil ver que
R1 R0 = Zt Zt ,
es decir, R1 R0 es Wishart Wp (, n r ) e independiente de R0 .

La consecuencia ms importante de este teorema es que, si H0 es cierta,
entonces
|R0 |
|R0 |
=
=
(p, n r, t),
|(R1 R0 ) + R0 |
|R1 |
es decir, 0 1 sigue la distribucin de Wilks. Aceptaremos H0 si no

es significativo y rechazaremos H0 si es pequeo y significativo.
Tabla general MANOVA
g. l.
matriz Wishart lambda de Wilks
Desviacin hiptesis
t
R1 R0
= |R0 |/|R1 |
Residuo
nr
R0
Criterio decisin: Si < es rechazada H0 , donde P ((p, n r, t) < ) = .
14.4
Manova de un factor
El modelo del diseo de un nico factor o causa de variabilidad es

yih = + i + eih,
i = 1, . . . ,k; h = 1, . . . ,ni ,
donde es un vector de medias general, i es el efecto del nivel y del factor, yih es la observacin multivariante h en la situacin (o poblacin) i,
correspondiendo a la misma situacin experimental del anlisis cannico de
poblaciones (Captulo 7), con n = n1 + . . . + nk . Por tanto
W = R0 ,
B = R1 R0 ,
T = R1 = B + W,
son las matrices de dispersin dentro grupos, entre grupos y total,

respectivamente (Seccin 3.3.3).
226
MANOVA de un factor
g. l.
matriz Wishart lambda de Wilks
Entre grupos
k1
B
= |W|/|W + B|
Dentro grupos n k
W
(p, n k, k 1)
Total
n1
T
14.5
Manova de dos factores
Si suponemos que las n = a b observaciones multivariantes dependen de

dos factores fila y columna, con a y b niveles respectivamente, el modelo es
yij = + i + j + eij ,
i = 1, . . . , a; j = 1, . . . , b,
donde es la media general, i es el efecto aditivo del nivel i del factor fila,
j es el efecto aditivo del nivel j del factor columna. Como generalizacin del
caso univariante, intervienen las matrices A = (auv ), B =(buv ), T = (tuv ), R0 =
(ruv ) con elementos

auv = a j (yju y u )(yjv y v )

buv = b i (yiu y u )(yiv y v )
ruv = ij (yiju yiu yju + y u )(yijv yiv yjv + y v )

tuv = ij (yiju y u )(yijv y v ),
u, v = 1, . . . , p,
siendo, para cada variable Yu , y u la media, yju la media fijando el nivel j del
factor columna, etc. Se verifica
T = A + B + R0 .
Indicando q = (a 1)(b 1), obtenemos la tabla
MANOVA de dos factores
matriz
lambda
g. l. Wishart
de Wilks
Filas
a1
A
|A|/|T| (p, q, a 1)
Columnas b 1
B
|B|/|T| (p, q, b 1)
Residuo
q
R0
Total
ab 1
T
14.6. MANOVA DE DOS FACTORES CON INTERACCIN
14.6
227
Manova de dos factores con interaccin
En el diseo de dos factores con interaccin suponemos que las n = a b c

observaciones multivariantes dependen de dos factores fila y columna, con a
y b niveles respectivamente, y que hay c observaciones (rplicas) para cada
una de las a b combinaciones de los niveles. El modelo lineal es
yijh = + i + j + ij + eijh ,
i = 1, . . . , a; j = 1, . . . , b; h = 1, . . . , c,
donde es la media general, i es el efecto aditivo del nivel y del factor fila,
j es el efecto aditivo del nivel j del factor columna, ij es la interaccin,
parmetro que mide la desviacin de la aditividad del efecto de los factores,
e yijh = (yijh1 , . . . , yijhp ) es la rplica multivariante h de las variables observables. Tambin, como en el caso univariante, intervienen las matrices
A = (auv ), B = (buv ), AB = (cuv ), R0 = (ruv ), T = (tuv ), donde

auv = bc i (yiu y u )(yiv y v )
buv = ac j (yju y u )(yjv y v )

cuv = c i,j (yiju yiu yjv + y u )(yijv yiv yjv + y v )

ruv = i,jh (yijhu yiu )(yijhv yiv )

tuv = i,j (yiju y u )(yiju y u ),
u, v = 1, . . . , p,
que verifican
T = A + B + AB + R0 .
Obtenemos la tabla:
MANOVA de dos factores con interaccin
matriz
lambda
g. l.
Wishart
de Wilks
Filas
a1
A
|A|/|T| (p, r, a 1)
Columnas
b1
B
|B|/|T| (p, r, b 1)
Interaccin (a 1)(b 1) = q
AB
|AB|/|T| (p, r, q)
Residuo
ab(c 1) = r
R0
Total
abc 1
T
14.7
Ejemplos
Example 14.7.1 Ratas experimentales.
228
En un experimento para inhibir un tumor, se quiere investigar el efecto

del sexo (S) y de la temperatura ambiental (T). Se consideran las variables:
Y1 =peso inicial, Y2 =peso final, Y3 =peso del tumor.
Machos
Temp
Y1 Y2 Y3
4
18.15 16.51 0.24
18.68 19.50 0.32
19.54 19.84 0.20
20
21.27 23.30 0.33
19.57 22.30 0.45
20.15 18.95 0.35
34
20.74 16.69 0.31
20.02 19.26 0.41
17.20 15.90 0.28
Hembras
Y1 Y2 Y3
19.15 19.49 0.16
18.35 19.81 0.17
20.58 19.44 0.22
18.87 22.00 0.25
20.66 21.08 0.20
21.56 20.34 0.20
20.22 19.00 0.18
18.38 17.92 0.30
20.85 19.90 0.17
Los resultados MANOVA son:

g. l. matriz dispersin
4.81 9.66 .284
32.5 .376
T
2
.019
.642 1.27 .19
2.51 .38
S
1
.006
.275 .816 .038
32.5 .088
TS
2
.006
19.3 7.01 .19

26.7 .208
Residuo 12
.039
25.0 18.7 .06

32.5 .284
Total
17
.125
lambda
g.l.
.261
3.18 6,20
.337
6.55 3,10
.772
0.46 6,20
Son significativos los efectos S y T, pero la interaccin no es significativa.

Una representacin cannica de los 3 2 = 6 grupos (Figura 14.1) ayuda
a visualizar las diferencias. Podemos ver que la pequea diferencia entre la
representacin de las tres temperatures de los machos y de las hembras es
indicio de una cierta interaccin, aunque no significativa.
14.7. EJEMPLOS
229
Figura 14.1: Representacin cannica de los datos de las ratas hembras

(izquierda) y machos (derecha).
Example 14.7.2 Colepteros.
Continuando con el ejemplo 7.5.1, vamos a estudiar 8 especies (factor E)
de colepteros del gnero Timarcha, pero teniendo en cuenta el sexo, machos
y hembras (factor S), en relacin a 5 variables biomtricas.
Las matrices de dispersin entre especies, entre sexos, debidas a la interaccin, residual y los estadsticos y F son:
14303 24628 17137 48484 36308
43734 31396 85980 64521
= .0068
23610 61519 46405
E=
F35,2353 = 152.8
169920 126980
95395
675.94 1613.0 1644.5 4520.0 3270.6
3849.3 3924.4 10786. 7804.9
= .1944
4001.0 10997. 7957.2
S=
F5,559 = 463.2
30225. 21871.
15825.
96.470 81.532 63.559 92.035 20.554
97.205 85.554 157.28 102.31
= .7692
86.405 127.66 108.25

ES=
F35,2353 = 4.329
428.97 236.53
282.30
230
1546.7 1487.8 1346.4 2452.6
3498.5 3078.4 4206.6
3082.9 3888.2
R0 =
9178.6
14.8
1924.0
3415.6
3159.4
6038.0
5950.3
Otros criterios
Sea 1 . . . p los valores propios de R0 respecto de R1 . Podemos expresar

el criterio de Wilks como
|R0 |
= 1 . . . p .
=
|R1 |
Este criterio es especialmente interesante, teniendo en cuenta que si es la

razn de verosimilitud en el test de hiptesis, entonces = n/2 .
Se demuestra que cualquier estadstico que sea invariante por cambios de
origen y de escala de los datos, debe ser funcin de estos valores propios. As
otros tests propuestos son:
1. Traza de Hotelling:
tr((R1 R0 )R1
o )
p

1 i
i=1
2. Traza de Pillai:
tr((R1 R0 )R1
1 )
p

i=1
1 i .
3. Raz mayor de Roy: (1 p )/p .

En el ejemplo 14.7.2, para contrastar las diferencias entre localidades,
obtenemos los siguientes valores de los estadsticos de Wilks, Hotelling, Pillai
y Roy, y sus transformaciones a una F:
Wilks
Hotelling
Pillai
Roy
0.007
28.02
2.090
24.90
F
152.8
446.2
57.78
2002
g.l.
35
35
35
7
g.l.
2354
2787
2815
563
14.9. COMPLEMENTOS
14.9
231
Complementos
El Anlisis Multivariante de la Variancia es muy similar al Anlisis de la Variancia, slo que interviene ms de una variable cuantitativa observable. Esta
extensin multivariante se inicia en 1930 con los trabajos de H. Hotelling, J.
Wishart y S.S. Wilks. Posteriormente S.N. Roy propuso un planteo basado
en el principio de unin-interseccin.
Los cuatro criterios que hemos visto son equivalentes para p = 1, y diferentes para p > 1. No est claro cual es el mejor criterio, depende de la
hiptesis alternativa. Por ejemplo, en el diseo de un factor, si los vectores
de medias estn prcticamente alineados, entonces el criterio de Roy es el
ms potente. Ver Rencher (1998).
232
Captulo 15
FUNCIONES ESTIMABLES
MULTIVARIANTES
15.1
Funciones estimables
En el modelo lineal univariante y = X + e, adems de la estimacin de

los parmetros de regresin , tiene tambin inters la estimacin de ciertas
combinaciones lineales de los parmetros .
Definition 15.1.1 Una funcin paramtrica es una combinacin lineal de
los parmetros = ( 1 , . . . , m )
= p1 1 + + pm m = p ,
donde p = (p1 , . . . , pm ) . Una funcin paramtrica es estimable si existe
de y = (y1 , . . . , yn )
una combinacin lineal
= a1 y1 + + an yn = a y,
donde a = (a1 , . . . , an ) , tal que
= .
E()
La caracterizacin de que una funcin paramtrica es estimable es la

siguiente
Proposition 15.1.1 Una funcin paramtrica = p es estimable si y
slo si el vector fila p es combinacin lineal de las filas de la matriz de
diseo X.
233
234
CAPTULO 15. FUNCIONES ESTIMABLES MULTIVARIANTES
= E(a y) = a E(y) = a X = p , que vale para todo .

Demost.: E()
Por lo tanto a X = p , es decir, p es combinacin lineal de las filas de X.
15.2
Teorema de Gauss-Markov
La estimacin ptima de una funcin paramtrica estimable = p se

Esto es el famoso teorema
obtiene sustituyendo por la estimacin LS .
de Gauss-Markov.
Theorem 15.2.1 Sea = p

verifica:
una funcin paramtrica estimable. Se
es estimador LS de , entonces
= p
es nico.
1. Si
= p
es estimador lineal insesgado de y, dentro de los estimadores
2.
lineales insesgados de , tiene varianza mnima.
= a y de = p . Sea Cr (X) el
Demost.: Existe un estimador insesgado
subespacio generado por las columnas de X. Entonces a =
a+b, donde
a
Cr (X) y b es ortogonal a Cr (X). Consideremos al estimador
a y. Tenemos
= E(a y) =E(
E()
a y + b y) =E(
a y) + b X =E(
a y) =,
y es estimador centrado. Si a1 y es otro estipuesto que b X = 0. Luego a

mador centrado con a1 Cr (X), entonces E(
a y)E(a y) = (
a a )X = 0

a = a1 , es decir,
a y es nico.
es ortogonal a Cr (X) y
=0
Por otro lado,
e= y X
a e =
a y
a X
= p .
As
=
es nico y centrado.

a y =
a X
a y = p
Finalmente, indicando
a2 = a21 + . . . + a2n ,
tenemos que
var(a y) = a2 2 = (
a2 + b2 ) 2
a2 2 = var(
a y),
= p
tiene varianza mnima.
que prueba que
Un criterio para saber si p es funcin paramtrica estimable es
p (X X) X X = p .
15.3. FUNCIONES ESTIMABLES MULTIVARIANTES
15.3
235
Funciones estimables multivariantes
En el modelo lineal multivariante (14.1), tambin tiene inters la estimacin

de ciertas combinaciones lineales de los parmetros B. Indiquemos por y1 , . . . , yn
los vectores fila de Y, y 1 , . . . , m los vectores fila de B,es decir:
y1
1
Y = ... , B = ... .
yn
m
Definition 15.3.1 Una funcin paramtrica multivariante es una combinacin lineal de las filas de B,
= p1 1 + + pm m = p B,
donde p = (p1 , . . . , pm ) . Una funcin paramtrica multivariante es es de las filas de Y
timable (fpem) si existe una combinacin lineal
= a1 y1 + + an yn = a Y,
donde a = (a1 , . . . , an ) , tal que
= .
E()
La caracterizacin de que una funcin paramtrica es fpem es la siguiente:

Proposition 15.3.1 Una funcin paramtrica = p B es estimable si y
slo si el vector fila p es combinacin lineal de las filas de la matriz de diseo
X.
La demostracin es similar al caso univariante. La estimacin ptima de
una fpem = p B viene dada por
= p B.

Slo hay que sustituir B por sus estimaciones LS B.
Theorem 15.3.2 Sea = ( 1 , . . . , p ) = p B una funcin paramtrica

estimable. Se verifica:
236
= (
,...,
) = p B
es estimador LS de B, entonces
es nico.
1. Si B
1
p
es estimador lineal insesgado de y de varianza mnima

2. Cada
j
j
entre los estimadores lineales insesgados de j .
Observemos que este teorema vale sin necesidad de una hiptesis de normalidad. El estimador LS de es
= p B
= p (X X) X Y =g1 y1 + + gn yn
donde y1 , . . . , yn son las filas de la matriz de datos Y. El vector g = (g1 , . . . , gn )

que es mnima, como la canes nico, y podemos definir la dispersin de ,
tidad
2 = g12 + + gn2 .
(15.1)
La versin del Teorema 14.3.1 para fpem es:
= p B
es la estiTheorem 15.3.3 En el modelo MANOVA normal, si
macin LS de , entonces:
es la de una combinacin lineal de variables nor1. La distribucin de
males independientes.
2. La distribucin de R0 es Wp (, n r).
y R0 son estocsticamente independientes.

3.
15.4
Anlisis cannico de fpem
Supongamos que 1 = p1 B, . . . , s = ps B es un sistema de s fpem. Podemos

plantear la representacin cannica del sistema como una generalizacin del
anlisis cannico de poblaciones.
15.4.1
Distancia de Mahalanobis
1 , . . . ,
s las estimaciones LS de los fpem,
= R0 /(nr) la estimacin
Sean
de la matriz de covarianzas. Podemos definir la distancia de Mahalanobis
(estimada) entre las funciones i , j como
i
j )
i
j ).
1 (
M (i, j)2 = (
15.4. ANLISIS CANNICO DE FPEM
237
= g Y es independiente de
= g Y y se verifica
Observemos que si
i
i
j
j
1

la hiptesis H0 : i = j , entonces ij ( i j ) es Np (0, ), donde ij =
es Wp (, n r), por lo tanto 1 M (i, j) es Hotelling
gi gj , y (n r)
ij
T 2 (p, n r) y
n r p + 1 1
p
ij M (i, j)2 Fnrp+1
.
(n r)p
Anlogamente vemos que la distribucin de
nrp+1 1
1
2 ( i i ) ( i i )
(n r)p
p
es tambin Fnrp+1
, donde 2 es la dispersin mnima (15.1).
15.4.2
Coordenadas cannicas
i = (
i1 , . . . ,
ip ) , i = 1, . . . , s, consideremos las medias
Si
s
y la matriz
1
j =
,
s i=1 ij
j = 1, . . . , s,
11 1
1p p
..
..
...
U =
.
.
.
sp p
1
s1
con
Sea V = [v1 , . . . , vp ] la matriz de vectores propios de U U respecto de ,
j = 1, es decir,
la normalizacin vj v

U UV =VD
,
= I,
V V
donde D =diag(1 , . . . , p ) es la matriz diagonal con los valores propios. Las

1 , . . . ,
s son las filas w , . . . , w de la matriz
coordenadas cannicas de
1
s
W = UV.
La distancia eucldea entre las filas coincide con la distancia de Mahalanobis

entre las fpem
i
j )
i
j ).
1 (
(wi wj ) (wi wj ) = (
238
De manera anloga podemos definir la variabilidad geomtrica de las fpem,

probando que es
p
s
1
1
2
V = 2
M(i, j) =
i ,
2s i,j=1
s i=1
y que es mxima en dimensin reducida q. El porcentaje de variabilidad

explicada por las q primeras coordenadas cannicas es
Pq = 100
15.4.3
V (Y)q
1 + + q
= 100
.
V
1 + + p
Regiones confidenciales
V, i = 1, . . . , s, las proyecciones cannicas de las estimaciones

Sean wi =
i
de las fpem. Podemos entender wi como una estimacin de

i = i V, la
proyeccin cannica de i . Podemos tambin encontrar regiones confidenciales para las i , i = 1, . . . , g.
Sea 1 el coeficiente de confianza, F tal que P (F > F ) = , donde
F sigue la distribucin F con p y (n g p + 1) g.l., y consideremos:
R2 = F
(n r)p
.
(n r p + 1)
Luego las proyecciones cannicas i de las fpem pertenecen a regiones confidenciales que son hiperesferas (esferas en dimensin 3, crculos en dimensin
2) de centros y radios
(wi , i R )
donde i es la dispersin mnima (15.1) de la estimacin LS de i .
15.5
Ejemplos
Ejemplo 1. Se quiere hacer una comparacin de dos frmacos ansiolticos

(Diazepan y Clobazan) con un placebo, que indicaremos D, C, P. Las variables observables son efectos secundarios en la conduccin de autombiles:
Y1 =tiempos de reaccin (segundos) a la puesta en rojo de un semforo,
Y2 =distancia mnima (cm.) entre dos puntos que el conductor necesitaba
15.5. EJEMPLOS
239
para poder pasar por el medio. Los datos sobre 8 individuos (media de varias
pruebas) eran:
Ind.
1
2
3
4
5
6
7
8
Placebo
Y1
Y2
.548 177.8
.619 184.4
.641 247.2
.628 163.4
.846 173.6
.517 167.2
.876 174.0
.602 158.6
Clobazan
Y1
Y2
.519 203.0
.776 164.8
.678 215.8
.595 153.6
.858 171.6
.493 166.0
.741 170.2
.719 157.2
Diazepan
Y1
Y2
.637 194.8
.818 175.2
.701 205.8
.687 152.2
.855 189.2
.618 181.0
.849 189.0
.731 184.6
Los datos se ajustan a un diseo de dos factores sin interaccin:

yij = + i + j +eij .
Interesa estudiar si hay diferencias significativas entre los frmacos, y si las
hay, representarlos y compararlos. Es decir, queremos hacer un test sobre la
hiptesis H0 : 1 = 2 = 3 y representar las funciones estimables
1 = + 1 ,
2 = + 2 ,
3 = + 3 .
La tabla MANOVA es:

g. l.
Frmacos
Individuos
Residuo
14
matriz
dispersin
F
g.l.

lambda
.0275 1.97
.482
2.86 4,26
309

.258 1.23
.025
9.84 14,26
8474

.037 1.96
2221
Las diferencias entre frmacos y entre individuos son significativas

Las estimaciones LS son:
1 = (.659, 180.8) ,
2 = (.672, 175.3) ,
3 = (.737, 184.0) ,

con dispersin (15.1): 1 = 2 = 3 = 1/8 = 0.354. Los dos valores propios
son 1. 684, 0.108 y explican el 100% de la variabilidad
de U U respecto de
240
Figura 15.1: Representacin canonica de tres frmacos en un diseo de dos

factores.
geomtrica en dimensin 2. Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables Y1 , Y2 , Y3
y cannicas W1 , W2 (derecha) son:
Frmaco
Y1
Y2 radio
Placebo
19.73 8.91 0.86
Clobazan 19.75 8.44 0.86
Diazepan 21.32 8.68 0.86
Y1
Y2
W1
W2
.869 -.494
.296 .955
La representacin cannica indica que no hay diferencias entre P y C. En

cambio D se diferencia significativamente de P. Puesto que las variables miden
efectos secundarios, resulta que C no los tiene, pero D s (Fig. 15.1).
Ejemplo 2. Continuando con el ejemplo 14.7.1, queremos hacer la representacin cannica de los tres niveles de la temperatura. Los valores propios
son 2.529, 1.375, que explican el 100% de la variabilide U U respecto de
dad geomtrica (Fig. 15.2). Las coordenadas y los radios de la representacin
cannica (izquierda) y las correlaciones entre variables observables Y1 , Y2 , Y3
y cannicas W1 , W2 (derecha) son:
temp W1
W2 radio
4
-.539 -.871 1.29
20
1.29 .091 1.29
34
-.753 .779 1.29
Y1
Y2
Y3
W1
W2
.395 .278
.961 -.276
.405 .653
Ejemplo 3. Continuando con el ejemplo 14.7.2, podemos hacer la representacin cannica de las ocho especies, eliminando el efecto del sexo y
15.6. COMPLEMENTOS
241
Figura 15.2: Representacin cannica de los efectos principales de las temperaturas.

de la interaccin. Los dos primeros valores propios de U U respecto de
son 201.67, 28.054, que explican el 98.2% de la variabilidad geomtrica (Fig.
13.3). Las coordenadas y los radios de la representacin cannica (izquierda)
y las correlaciones entre variables observables y cannicas (derecha) son:
Especie
1
2
3
4
5
6
7
8
W1
-4.567
-3.760
-1.944
-2.613
-2.299
-1.705
6.828
10.06
W2
-1.164
-.5129
-1.031
1.536
1.731
.6381
-3.671
2.475
radio
.342
.342
.418
.342
.342
.342
.503
.342
Y1
Y2
Y3
Y4
Y5
W1
.600
.661
.453
.804
.748
W2
.115
.450
.698
.522
.522
Esta representacin permite visualizar las diferencias entre las especies, sin
la influencia del dimorfismo sexual y de la interaccin especiesexo.
15.6
Complementos
El teorema de Gauss-Markov se puede generalizar de diversas maneras al

caso multivariante. Ver Mardia et al. (1979), Rencher (1998).
La representacin de funciones paramtricas estimables multivariantes fue
propuesta por Cuadras (1974). Ver Cuadras et al. (1996) y otras generalizaciones en Lejeune y Calinski (2000), Arenas y Cuadras (2003).
242
Figura 15.3: Representacin canonica de 8 especies de colepteros, eliminando el efecto del dimorfismo sexual y de la interaccin.
Bibliografia
[1] Anderson, T.W. (1958) An introduction to multivariate analysis. J. Wiley, N. York.
[2] Anderson, T.W. and H. Rubin (1956) Statistical inference in factor
analysis. Proc. of the Third Berkeley Symposium on Math. Stat. and
Prob., vol. 5, 111-150.
[3] Arenas, C. and Cuadras, C. M. (2004) Comparing two methods for
joint representation of multivariate data. Comm. Stat. Comp. Simul.,
33, 415-430.
[4] Batista, J.M. and G. Coenders (2000) Modelos de Ecuaciones Estructurales. La Muralla, Madrid.
[5] Benzecri, J.P. (1976) LAnalyse des Donnes. I. La Taxinomie. II.
LAnalyse des Correspondances. Dunod, Paris.
[6] Cailliez, F. (1983) The analytical solution of the additive constant problem. Psychometrika, 48, 305-308.
[7] Cooley, W.W. and P.R. Lohnes (1971) Multivariate data analysis. J.
Wiley, N. York.
[8] Cox, T.F. and M.A.A. Cox (1964) Multidimensional Scaling. Chapman
and Hall, London.
[9] Critchley, F. and W. Heiser (1988) Hierarchical trees can be scaled perfectly in one dimension. J. of Classification, 5, 5-20.
[10] Cuadras, C.M. (1974) Anlisis discriminante de funciones paramtricas
estimables. Trab. Esta. Inv. Oper., 25, 3-31.
243
244
BIBLIOGRAFIA
[11] Cuadras, C.M. (1981) Mtodos de Anlisis Multivariante. Eunibar,

Barcelona. 3a Ed. EUB, Barcelona, 1996.
[12] Cuadras, C.M. (1988) Distancias estadsticas (con discusin) . Estadstica Espaola, 30, 295-378.
[13] Cuadras, C.M. (1989) Distance analysis in discrimination and classification using both continuous and categorical variables. In: Y. Dodge
(Ed.), Statistical Data Analysis and Inference, pp. 459473. Elsevier
Science Publishers B. V. (NorthHolland), Amsterdam.
[14] Cuadras, C.M. (1991) Ejemplos y aplicaciones inslitas en regresin y
correlacin. Qesti, 15, 367-382.
[15] Cuadras, C.M. (1992a) Probability distributions with given multivariate
marginals and given dependence structure. J. Multivariate Analysis, 42,
51-66.
[16] Cuadras, C.M (1992b) Some examples of distance based discrimination.
Biometrical Letters, 29, 3-20.
[17] Cuadras, C.M. (1993) Interpreting an inequality in multiple regression.
The American Statistician, 47, 256-258.
[18] Cuadras, C.M. (1998) Multidimensional dependencies in ordination and
classification. In: K. Fernndez and E. Morinneau (Eds.), Analyses Multidimensionnelles des Donnes, pp.15-26, CISIA-Ceresta, Saint Mand
(France).
[19] Cuadras, C.M. (2000) Problemas de probabilidades y estadstica. Vol.
2. EUB, Barcelona.
[20] Cuadras, C.M. (2002a) On the covariance between functions. J. of Multivariate Analysis, 81, 19-27.
[21] Cuadras, C.M. (2002b) Correspondence analysis and diagonal expansions in terms of distribution functions. J. of Statistical Planning and
Inference, 103, 137-150.
[22] Cuadras, C. M. (2005) Continuous canonical correlation analysis. Research Letters in Information and Mathematical Sciences, 8, 97-103.
BIBLIOGRAFIA
245
[23] Cuadras, C. M. (2006) The importance of being the upper bound in the
bivariate family. SORT, 30, 55-84.
[24] Cuadras, C.M. and C. Arenas (1990) A distance based regression model
for prediction with mixed data. Comm. Stat.-Theor. Meth., 19, 22612279.
[25] Cuadras, C.M., Atkinson, R.A. and J. Fortiana (1997) Probability densities from distances and discriminant analysis. Statistics and Probability
Letters, 33, 405-411.
[26] Cuadras, C.M. and J. Aug (1981) A continuous general multivariate
distribution and its properties. Commun. Stat.-Theor. Meth, A10, 339353.
[27] Cuadras. C. M., Cuadras, D. (2006) A parametric approach to correspondence analysis. Linear Algebra and its Applications, 417, 64-74.
[28] Cuadras, C.M., Arenas, C. and J. Fortiana (1996) Some computational
aspects of a distance-based model for prediction. Comm. Stat.-Simul.
Comp., 25, 593-609.
[29] Cuadras, C.M. and J. Fortiana (1993a) Continuous metric scaling and
prediction. In: C.M. Cuadras and C.R. Rao (Eds.), Multivariate Analysis, Future Directions 2, pp. 4766. Elsevier Science Publishers B. V.
(NorthHolland), Amsterdam.
[30] Cuadras, C. M. and J. Fortiana (1993b) Aplicacin de las distancias en
estadstica. Questi, 17, 39-74.
[31] Cuadras, C. M. and J. Fortiana (1994) Ascertaining the underlying distribution of a data set. In: R. Gutierrez and M.J. Valderrama (Eds.),
Selected Topics on Stochastic Modelling, pp. 223-230. World-Scientific,
Singapore.
[32] Cuadras, C. M. and J. Fortiana (1995) A continuous metric scaling
solution for a random variable. J. of Multivariate Analysis, 52, 114.
[33] Cuadras, C. M. and J. Fortiana (1996) Weighted continuous metric scaling. In: Gupta, A. K. and V. L. Girko (Eds.), Multidimensional Statistical Analysis and Theory of Random Matrices, pp. 2740. VSP, Zeist,
The Netherlands.
246
BIBLIOGRAFIA
[34] Cuadras, C.M. and J. Fortiana (1998) Visualizing categorical data with
related metric scaling. In: J. Blasius and M. Greenacre, (Eds.), Visualization of Categorical Data, pp. 365-376. Academic Press, N. York.
[35] Cuadras, C.M. and J. Fortiana (2000) The Importance of Geometry
in Multivariate Analysis and some Applications. In: C.R. Rao and
G. Szekely, (Eds.), Statistics for the 21st Century, pp. 93-108. Marcel
Dekker, N. York.
[36] Cuadras, C. M., Fortiana, J. and M.J. Greenacre (2000) Continuous
extensions of matrix formulations in correspondence analysis, with applications to the FGM family of distributions. In: R.D.H. Heijmans,
D.S.G. Pollock and A. Satorra, (Eds.), Innovations in Multivariate Statistical Analysis, pp. 101-116. Kluwer Ac. Publ., Dordrecht.
[37] Cuadras, C. M., Cuadras, D., Greenacre, M. A. (2006) Comparison of
different methods for representing categorical data. Communications in
Statistics-Simul. and Comp., 35 (2), 447-459.
[38] Cuadras, C. M., Fortiana, J. and F. Oliva (1996) Representation of statistical structures, classification and prediction using multidimensional
scaling. In: W. Gaul, D. Pfeifer (Eds.), From Data to Knowledge, pp.
20-31. Springer, Berlin.
[39] Cuadras, C. M., Fortiana, J. and F. Oliva (1997) The proximity of an
individual to a population with applications in discriminant analysis. J.
of Classification, 14, 117-136.
[40] Cuadras, C.M. and Y. Lahlou (2000) Some orthogonal expansions for
the logistic distribution. Comm. Stat.-Theor. Meth., 29, 2643-2663.
[41] Cuadras, C.M. and J. M. Oller (1987) Eigenanalysis and metric multidimensional scaling on hierarchical structures. Questio, 11, 37-57.
[42] Cuadras, C.M. and M. Snchez-Turet (1975) Aplicaciones del anlisis
multivariante cannico en la investigacin psicolgica. Rev. Psicol. Gen.
Aplic., 30, 371-382.
[43] Chatterjee, S. and B. Price (1991) Regression analysis by example. Wiley,
N. York.
BIBLIOGRAFIA
247
[44] Everitt, B.S. (1993). Cluster analysis. Edward Arnold, London.

[45] Flury, B. (1997) A first course in multivariate statistics. Springer, N.
York.
[46] Fortiana, J. and C. M. Cuadras (1997) A family of matrices, the discretized Brownian Bridge and distance-based regression. Linear Algebra
and its Applications, 264, 173-188.
[47] Gittings, R. (1985) Canonical Analysis. A Review with Applications in
Ecology. Springer-Verlag, Berlin.
[48] Gordon, A.D. (1999) Classification. Chapman and Hall, London.
[49] Gower, J.C. (1966) Some distance properties of latent roots and vector
methods in multivariate analysis. Biometrika, 53, 315-328.
[50] Greenacre, M.J. (1984) Theory and Applications of Correspondence
Analysis. Academic Press, London.
[51] Hastie, T. and R.J. Tibshirani (1990) Generalized Additive Models.
Chapman and Hall, London.
[52] Harman, H. H. (1976) Modern Factor Analysis. The Univ. Chicago
Press, Chicago, 3a edic.
[53] Hill, M.O. (1973) Reciprocal averaging: an eigenvector method of ordination. J. of Ecology, 61, 237-249.
[54] Holman, E.W. (1972) The relation between Hierarchical and Euclidean
models for psychological distances. Psychometrika, 37, 417-423.
[55] Hutchinson, T.P. and C.D. Lai (1991) The Engineering Statisticians
Guide to Continuous Bivariate Distributions. Rumsby Scientific Pub.,
Adelaide.
[56] Joe, H. (1997) Multivariate Models and Dependence Concepts. Chapman
and Hall, London.
[57] Joreskog, K. (1967) Some contributions to maximum likelihood factor
analysis. Psychometrika, 32, 443-482.
248
BIBLIOGRAFIA
[58] Joreskog, K. (1969) A general approach to confirmatory maximum likelihood factor analysis. Psychometrika, 34, 183-202.
[59] Joreskog, K. (1970) A general method for analysis of covarianvce structures. Biometrika, 57, 239-251.
[60] Joreskog, K, Sorbom, D. (1999) LISREL 8: A Guide to the Program
and Applications. Scientific Sotware International, Inc., Chicago.
[61] Krzanowski, W.J. and D. Radley (1989) Nonparametric confidence and
tolerance regions in canonical variate analysis. Biometrics, 45, 11631173.
[62] Lancaster, H.O. (1969) The Chi-Squared Distribution. J. Wiley, N. York.
[63] Lebart, L., Morineau, A. and Tabard, N. (1977) Techniques de la description statistique. Dunod, Paris.
[64] Lawley, D.N. and A.E. Maxwell. (1971) Factor analysis as a statistical
method. Butterworth, London.
[65] Leujene, M. and Calinski, T. (2000) Canonical analysis applied to multivariate analysis of variance. J. of Multivariate Analysis, 72, 100-119.
[66] Mardia, K.V., Kent, J.T. and J.M. Bibby (1979) Multivariate Analysis.
Academic Press, London.
[67] Muirhead, R.J. (1982) Aspects of multivariate statistical theory. Wiley,
N. York.
[68] McLachlan, G.J. (1992) Discriminant analysis and pattern recognition.
Wiley, N. York.
[69] Oller, J.M. (1987) Information metric for extreme values and logistic
distributions. Sankhya, 49 A, 17-23.
[70] Oller, J.M. and C.M. Cuadras (1985) Raos distance for negative
multinomial distributions. Sankhya, 47 A, 75-83.
[71] Pea, D. (1989) Estadstica Modelos y Mtodos 2. Modelos lineales y
series temporales. Alianza Universidad Textos, 2a Ed., Madrid.
BIBLIOGRAFIA
249
[72] Pea, D. (2002) Anlisis de Datos Multivariantes. McGraw Hill Interamericana, Madrid.
[73] Rao, C.R. (1952) Advanced statistical methods in biometric research.
Wiley, N. York.
[74] Rao, C.R. (1973) Linear statistical inference and their applications. Wiley, N. York.
[75] Rao, C. R. (1995) A review of canonical coordinates and an alternative
to correspondence analysis using Hellinger distance. Qestii, 19, 23-63.
[76] Rencher, A.C. (1998) Multivariate statistical inference and applications.
Wiley, N. York,.
[77] Rummel, R. J. (1963) The dimensions of conflict behavior within and
between nations. General Systems Yearbook, 8, 1-50.
[78] Snchez.-Turet, M. and Cuadras, C. M. (1972) Adaptacin espaola del
cuestionario E.P.I. de Eysenck. Anuario de Psicologa, 6, 31-59.
[79] Satorra, A. (1989) Alternative test criteria in covariance structure analysis: A unified approach. Psychometrika, 54, 131-151.
[80] Seal, H.L. (1964) Multivariate Statistical Analysis for Biologists.
Methuen and Co. Ltd., London.
[81] Seber, G.A.F. (1977) Linear Regression Analysis. J. Wiley, N. York.
[82] Spearman, Ch. (1904) General intelligence objetively determined and
measured. American Journal of Psychology, 15, 201-293.
[83] Tibshirani, R., Walther, G. and Hastie, T. (2001) Estimating the number
of clusters in a data set via the gap statistic. J. R. Stat. Soc. B, 63, 411423.
[84] Torrens-Ibern, J. (1972) Modles et mthodes de lanalyse factorielle.
Dunod, Paris.
[85] van der Heijden, PG.M. and J. de Leuw (1985) Correspondence analysis
used complementary to loglinear analysis. Psychometrika, 50, 429-447.

CuadrasCM MetodosAMultivariante PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CuadrasCM MetodosAMultivariante PDF

Uploaded by

Copyright:

Available Formats

NUEVOS MTODOS DE ANLISIS

4 ANALISIS DE CORRELACION CANONICA

5 ANALISIS DE COMPONENTES PRINCIPALES

7 ANLISIS CANNICO DE POBLACIONES

10.10Nmero de clusters . . . . . . . . . . . . . . . . . . . . . . . . 178

13 ANLISIS DE LA VARIANZA (ANOVA)

14 ANLISIS DE LA VARIANZA (MANOVA)

15 FUNCIONES ESTIMABLES MULTIVARIANTES

Cmo citar este libro:

El anlisis multivariante (AM) es la parte de la estadstica y del anlisis de

Supongamos n individuos 1 , . . . , n y p variables X1 , . . . , Xp . Sea xij =

CAPTULO 1. DATOS MULTIVARIANTES

la covarianza entre las variables j, j . Naturalmente, x y S son medidas

Si 1 =(1, . . . , 1) es el vector columna de unos de orden n 1, y J = 11 es la

1.4. MEDIAS, COVARIANZAS Y CORRELACIONES

Medias, covarianzas y correlaciones

El vector de medias, la matriz de covarianzas, etc., tienen expresiones matriciales simples.

donde rij =cor(Xi , Xj ) es el coeficiente de correlacin (muestral) entre las

siendo D la matriz diagonal con las desviaciones tpicas de las variables.

CAPTULO 1. DATOS MULTIVARIANTES

Algunos mtodos de AM consisten en obtener e interpretar combinaciones

Sea T una matriz p q. Una transformacin lineal de la matriz de datos es

1.7. TEOREMA DE LA DIMENSIN

La matriz de covarianzas S es (semi)definida positiva, puesto que:

Sea Xj , j > r. Las covarianzas entre Xj y X1 , . . . , Xr verifican:

donde c es una constante.

CAPTULO 1. DATOS MULTIVARIANTES

Medidas globales de variabilidad y dependencia

Una medida de la variabilidad global de las p variables debe ser funcin de

y por lo tanto 0 det(R) 1.

Algunos mtodos de AM estn basados en criterios geomtricos y en la nocin

es una matriz de datos, con matriz de covarianzas S, las tres definiciones ms

donde shh es la covarianza de la variable Xh .

CAPTULO 1. DATOS MULTIVARIANTES

dP (i, j)2 = (xi xj ) [diag(S)]1 (xi xj ).

La distancia de Mahalanobis (al cuadrado) puede tener otras versiones:

Tabla 1.1: Depsitos de corcho (centigramos) de 28 alcornoques en las cuatro

280.03 215.76 278.13 218.19

212.07 220.88 165.25

CAPTULO 1. DATOS MULTIVARIANTES

1 0.885 0.905 0.883

Figura 1.1: Distribucin de las variables N, E, S, W y relaciones entre cada

CAPTULO 1. DATOS MULTIVARIANTES

Los datos en AM suelen provenir de una poblacin caracterizada por una

Como en el caso de una matriz de datos, es importante el vector de medias

donde E(Xj ) es la esperanza de la variable marginal Xj , y la matriz de

CAPTULO 2. NORMALIDAD MULTIVARIANTE

Distribucin normal multivariante

Sea X una variable aleatoria con distribucin N (, 2 ), es decir, con media

donde Y N(0, 1).

Vamos a introducir la distribucin normal mutivariante Np (, ) como

siendo x = (x1 , . . . , xp ) , = (1 , . . . , n) y = ( ij ) una matriz definida

donde A = (aij ) es una matriz p q que verifica AA = .

2.2. DISTRIBUCIN NORMAL MULTIVARIANTE

Demost.: Segn la frmula del cambio de variable

Pero 1 = (A1 ) (A1 ) y por lo tanto

Substituyendo (2.7) en (2.6) y de |A1 |2 = ||1 obtenemos (2.3).

1. De (2.5) es inmediato que E(X) = y que la matriz de covarianzas es

Es consecuencia de la definicin (2.4).

CAPTULO 2. NORMALIDAD MULTIVARIANTE

siendo 1 < < +1. (Figura 2.1). Se verifica:

densidad de la distribucin normal N (2 +( 2 / 1 )(x1 1 ), 22 (12 )).

2.3. DISTRIBUCIN DE WISHART

n obtenido a partir de una muestra

W = i=1 =1 (xi xi )(xi xi ) (dispersion dentro grupos)