You are on page 1of 82

Índice general

1. Análisis Factorial 3
1.1. Introducción: El modelo teórico básico de Análisis Factorial. Generalidades. . . . . . . . . . . . 3
1.1.1. Modelo de Análisis Factorial no-restringido y aleatorio . . . . . . . . . . . . . . . . . . . 3
1.1.2. Algunos resultados sobre el Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3. Análisis Factorial, oblicuo, ortogonal y normal (Lawley) . . . . . . . . . . . . . . . . . . 6
1.2. Problemas básicos inherentes al modelo de Análisis Factorial . . . . . . . . . . . . . . . . . . . 7
1.2.1. El problema de la identificación en el Análisis Factorial: existencia y unicidad de solución 7
1.2.2. Un problema de “ambigüedad” en el Análisis Factorial. Rotación de factores e interpre-
tación en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.3. Cambio de unidades de medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3. Métodos de estimación en el Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.2. El método de las componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.3.3. La “Principal Factor Solution” como modificación del método de las Componentes Prin-
cipales en estimación en Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3.4. El método de Máxima Verosimilitud en el Modelo de Análisis Factorial (Modelo de
Lawley-Maxwell) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3.5. Ejemplo Stock-prices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4. La rotación de factores en el Análisis Factorial. Criterios gráficos y analı́ticos (Kaiser-Varimax) 24
1.4.1. Métodos gráficos en la rotación de factores . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.4.2. Métodos analı́ticos: el criterio de Kaiser (Criterio Varimax) . . . . . . . . . . . . . . . . 26
1.5. Rotación de factores. Criterios analı́ticos generales . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5.1. Métodos de rotación ortogonal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.5.2. Ejemplo Stock-prices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.6. Puntuaciones en los factores (Factor Scores) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.1. El método de mı́nimos cuadrados ponderados . . . . . . . . . . . . . . . . . . . . . . . . 30
1.6.2. El método de regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.6.3. Comparación de los “factor scores” dados por los dos métodos . . . . . . . . . . . . . . 33
1.6.4. Los “scatterplots” bivariantes de los factor scores . . . . . . . . . . . . . . . . . . . . . . 34
1.6.5. Ejemplo Stock-prices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
1.7. Contrastes de Hipótesis en Análisis Factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.1. Test asintótico (Bartlett) sobre la adecuación de un modelo factorial ortogonal con m
factores comunes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.7.2. Ejemplo Stock-prices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.7.3. Criterios basados en la información estadı́stica. El criterio de Akaike (AIC) para la elec-
ción de un modelo factorial con r-factores comunes . . . . . . . . . . . . . . . . . . . . . 39

2. Aplicación mediante R 42
2.1. Paquete Factanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2. Paquete prcomp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.3. Ejemplo de aplicación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

1
Análisis Factorial 2

A. Rotaciones Oblicuas en el Análisis Factorial. Estructuras factorial y de referencia. Criterios


analı́ticos 54
A.1. Métodos oblimin directos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.2. Estructura factorial y estructura de referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
A.3. Aplicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

B. El Modelo de Análisis Factorial ortogonal de Lawley-Maxwell: Estimación máximo-verosı́mil


y contrastes de hipótesis 57
B.1. Estimadores de Máxima Verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
B.1.1. Estimador de µ y de Σ de una Np (µ; Σ) . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
B.1.2. Estimadores de Máxima Verosimilitud de Σ, según el Análisis Factorial . . . . . . . . . 60
B.1.3. Obtención de las ecuaciones cuya solución son los E.M.V. . . . . . . . . . . . . . . . . . 63
B.2. Cálculos sobre las ecuaciones de B.1.3 y obtención de la verosimilitud maximizada . . . . . . . 65
B.3. Notas sobre la resolución de las ecuaciones de Máxima Verosimilitud . . . . . . . . . . . . . . . 67
B.4. Test de hipótesis para el modelo de factores ortogonales . . . . . . . . . . . . . . . . . . . . . . 68
B.4.1. Test de Bartlett-Lawley . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
B.4.2. Otra forma de expresar el contraste de hipótesis de Bartlett (Lawley-Maxwell, 1971) . . 70

C. Distribución asintótica de los estimadores máximo verosı́miles bajo condiciones generales


(modelos de relaciones lineales funcionales; de relaciones estructurales y factoriales) 73
C.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
C.2. Definición del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
C.3. Teoremas básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
C.3.1. Corolarios e implicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

R. Gutiérrez-Sánchez, A. González
Tema 1

Análisis Factorial

1.1. Introducción: El modelo teórico básico de Análisis Factorial.


Generalidades.
En primer lugar vamos a definir el modelo teórico básico que vamos a considerar a lo largo del desarrollo del
tema. Hay muchos tipos de modelo de Análisis Factorial, según las hipótesis adoptados sobre los elementos con
los que se define el Modelo u otras circunstancias, como el tipo de datos (continuos, discretos, incorrelados o
correlados). El modelo inicial del que partiremos es un Modelo no-restringido (“unrestricted”) y aleatorio.
El significado de estos términos, como el de otros como Análisis Factorial oblicuo u ortogonal; Análisis Factorial
exploratorio o confirmatorio; Análisis Factorial normal, etc., irá apareciendo secuencialmente a la medida que
se vaya desarrollando el tema.

1.1.1. Modelo de Análisis Factorial no-restringido y aleatorio


i) Elementos del Modelo:
- X el vector (p × 1) de variables Xi i = 1, . . . , p, de la población.
- F designa un vector (m × 1) constituido por las variables latentes o “factores comunes”, Fi , i =
1, . . . , m, m < p. F es el vector de factores comunes.
- , vector (p×1), con componentes i , i = 1, . . . , p, que designa los “errores” asociados a cada variable
Xi . Es el llamado “vector de errores” o “vector de factores especı́ficos” ei .
- Una matriz L, (p × m), de rango m, llamada “matriz de factor loadings”. Sus elementos, lij ,
son los “loadings” de la variable Xi respecto del factor común Fj .
ii) Caracterı́sticas de los elementos del Modelo.

Los vectores X, F y  son aleatorios y la matriz L es no aleatoria (modelo de Análisis Factorial


aleatorio). Hay modelos de Análisis Factorial que no asignan a F un carácter aleatorio, interpretando el
vector F como un vector de componentes Fi no aleatorias, de meros parámetros que cambian “indivi-
duo a individuo”. Esta consideración propia especialmente del Análisis Factorial en la Sicometrı́a, hace
no-aleatorio al correspondiente Modelo de Análisis Factorial. Es posible adaptar a este caso los principa-
les resultados del correspondiente modelo aleatorio (véase, por ejemplo, Basilewsky (1994), sección 6.8.2).

Por otra parte no se impone ninguna restricción a los elementos de L. Por ejemplo no se asigna valor 0
a determinados factor-loadings lij . En este sentido se dice que el modelo es no restringido (“unrestric-
ted”). Más adelante introduciremos los Análisis Factorial exploratorio y confirmatorio lo que está en
relación con el carácter no-restringido o restringido antes formulado.

3
Análisis Factorial 4

Finalmente, X es observable y F y  son no observables.


iii) Hipótesis probabilı́sticas sobre los elementos del Modelo.

Supondremos que los elementos aleatorios antes citados, verifican:

- E[X] = µ vector media poblacional (p × 1).


- Cov[X] = Σ, p × p, matriz definida positiva de covarianzas de la población.
- E[F ] = 0; E[] = 0; Cov[F ] = E[F F 0 ] = Φ, m × m.
- Cov[] = Ψ, p × p con Ψ = diag (ψ1 , . . . , ψp ), siendo ψi , i = 1, . . . , p, las varianzas especı́ficas o
unicidades.

- Cov[F ; ] = E[F 0 ] = 0.

Es decir, que los vectores F y  son incorrelados, centrados y tienen, respectivamente, matrices de cova-
rianzas Φ y Ψ, ésta última diagonal, lo que implica que los errores i son heterocedásticos e incorrelados.
En principio, Φ = Cov(F ) es una matriz no necesariamente diagonal, es decir, que en general, los Fi son
correlados.

iv) Finalmente, los elementos X, F ,  y L con las caracterı́sticas e hipótesis probabilı́sticas antes indicadas
se integran en un modelo lineal del tipo

X = µ + LF + 
modelo que es el adoptado en este Tema.

Nota 1. El modelo de Análisis Factorial es pues un conjunto de relaciones lineales del tipo:

 X1 = l11 F1 + l12 F2 + . . . + l1m Fm + 1

..
 .
Xp = lp1 F1 + lp2 F2 + . . . + lpm Fm + p

en el que los factores comunes (F1 , . . . , Fm ) explican conjuntamente una parte de todas las variables
Xi , i = 1, . . . , p, y la parte no explicada de cada Xi mediante los factores es explicada por los i , que están
asociados cada i a la respectiva Xi . Los i son incorrelados e inobservables y los Fj , que son aleatorios
y no observables, son correlados entre si, en general.

Formalmente, el modelo de Análisis Factorial como conjunto de ecuaciones lineales antes indicado podrı́a
ser considerado, por ejemplo, como un modelo de regresión lineal múltiple multivariante (multiple por
haber m “regresores” Fj , j = 1, . . . , m; multivariante al haber p variables Xi , i = 1, . . . , p “dependientes”).
Pero hay una diferencia sustancial: los Fj son aleatorios y no observables, lo que diferencia de raı́z ambos
tipos de modelos (Análisis Factorial y Regresión Lineal). •

1.1.2. Algunos resultados sobre el Modelo


Ecuación estructural de Σ en el Modelo de Análisis Factorial
h 0 i h i h i
E X − µ X − µ = Σ = E (LF + )(LF + )0 = E LF F 0 L0 + LF 0 + F 0 L0 + 0 =


h i h i h h i
LE F F 0 L + LE F 0 + E F 0 ]L0 + E 0 = dadas las condiciones de i)-iv) =

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 5

LΦL0 + Ψ

Ası́ pues, Σ = LΦL0 + Ψ, es decir, que el modelo estadı́stico Factorial supuesto, estructura la matriz de
covarianzas de la población, Σ, en términos del triple (L; Φ; Ψ), mediante dicha ecuación.

Por tanto, técnicamente hablando, modelizar la población X = (X1 , . . . , Xp ), mediante en Análisis Fac-
torial, es equivalente a encontrar las matrices L, Φ y Ψ con las condiciones exigidas en el Modelo, de tal
forma que la Σ poblacional se “explica” mediante dicha ecuación.

En este sentido cabe clarificar al Análisis Factorial como técnica estadı́stica multivariante del tipo “mo-
delos de estructura de covarianzas” tipo integrado en la literatura estadı́stica actual por técnicas como
Análisis de Componentes Principales; modelos lineales estructurales (LISREL) y otras más especı́ficas.

Por otra parte la matriz (p × m) de covarianzas entre la población y los factores es:

Cov X; F = E (X − µ)F 0 = E (LF + )F 0 = E LF F 0 + E F 0 =


         

por las condiciones i)-iv) = LE F F 0 = LΦ


 

También se verifica lo siguiente. Supongamos que en efecto Σ se estructura en la forma:

Σ = LΦL0 + Ψ
mediante el triple (L; Φ; Ψ). Es claro que si C es una matriz cualquiera m × m, no singular, es cierto que
0
el triple (LC; C −1 ΦC −1 ), también estructura Σ de la manera equivalente. En efecto:

0 0
Σ = LΦL0 + Ψ = LCC −1 ΦC −1 C 0 L0 + Ψ = (LC)(C −1 ΦC −1 )(C 0 L0 ) + Ψ =

0 0
(LC)(C −1 ΦC −1 )(LC)0 + Ψ = L∗ Φ∗ L∗ + Ψ
0
Además, LC y C −1 ΦC −1 cumplen todas las condiciones exigidas a L y Φ. Por ejemplo: (LC) es p × m;
0
C −1 ΦC −1 es m × m y es la matriz de covarianzas de F ∗ = C −1 F , m × m.

0 0
En efecto, E C −1 F = C −1 E[F ] = 0; y Cov C −1 F = E C −1 F F 0 C −1 = C −1 E F F 0 C −1 =
      
0
C −1 ΦC −1
Lo anterior es equivalente a decir, en términos de la ecuación del Modelo que en lugar de tomar el Modelo

X − µ = LF + ; (L; F ; )
podemos siempre considerar uno equivalente

X − µ = LCC −1 F +  = (LC)(C −1 F ) + 
y los “nuevos factor-loadings” (LC) y los “nuevos factores” (C −1 F ), factorizan a Σ de manera equivalente.

De hecho pues, si existe un modelo factorial con (L; F ) cualquier otro definido en la forma (L∗ = LC; F ∗ =
C −1 F ; ) estructura Σ de manera equivalente, es decir, (L∗ ; F ∗ ; ) también serı́a una solución equivalente.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 6

1.1.3. Análisis Factorial, oblicuo, ortogonal y normal (Lawley)


El modelo de Análisis Factorial antes definido, tiene dos casos particulares especialmente importantes. En
primer lugar, consideramos la situación particular definida por la condición Cov[F ] = Im×m . Cuando el vector
de factores comunes, F es tal que además de estar centrado (E[F ] = 0), tiene una matriz de covarianzas

Cov(F ) = E[F F 0 ] = Im×m


se habla de Análisis Factorial Ortogonal, dado que los factores son ortogonales en términos estadı́stico-
geométricos.

Para un Análisis Factorial ortogonal se particularizan algunos resultados vistos antes. Por ejemplo,
0
la ecuación
  estructural se simplifica, siendo Σ = LL + Ψ, en la base al par (L; Ψ). Y por otro lado,
Cov X; F = L, lo que permite hacer una interpretación en este caso muy clara de la matriz de factor-
loadings:
 Sus
 elementos son las covarianzas de X (población) con F (factores), de tal manera que los lij =
cov Xi ; Fj ; i = 1, . . . , p; j = 1, . . . , m. En un Análisis Factorial ortogonal, además, se tiene sin mas que tener
en cuenta la ecuación estructural correspondiente:
1. σii = varianza de Xi = elemento (i, i) de LL0 más elemento (i, i) de Ψ = li1 2 2 2

+ li2 + . . . lim + ψi . Ası́
2 2 2
pues, la parte de la V ar(Xi ) explicada por los factores comunes es li1 + li2 + . . . lim que se denomina
comunalidad de Xi ; el resto, ψi , es la parte de la varianza especı́fica, propia de cada Xi de cada Xi , es
decir la unicidad de Xi .
2. Cov Xi ; Xk =covarianza de Xi con Xk , es decir σik =elemento (i, k) de LL0 +elemento (i, k) de Ψ =
 

li1 + lk1 + li2 + lk2 + . . . + lim + lkm .


A su vez a lo largo de este tema (en extracción o estimación del modelo; en los giros de factores y en los
“factor loadings”) consideraremos el “modelo normal de Lawley” de Análisis Factorial. Este tipo de
Análisis Factorial, está caracterizado por la hipótesis de distribución normal multivariante de X (población);
F (factores) y  (errores). Este tipo especial de Análisis Factorial introducido por Lawley and Maxwell (1971),
tiene implicaciones en los resultados vistos antes, derivados de la teorı́a de la Normal multivariante. Por ejemplo
analicemos la distribución condicionada de X, dado F , es decir, X/F . Para ello, consideremos que F N (0, I),
de acuerdo con las exigencias del modelo, E[F ] = 0 y Cov[F ] = I, y veamos cual es la distribución conjunta
de (X; F ); como X µ; Σ), se tendrá:

LL0 + Ψ L
       
µ Cov(X; X) Cov(X; F ) Σ L
(X; F ) Np+m ; = =
0 Cov(F ; X) Cov(F ; F ) L0 I L0 I
Por tanto (véase Gutiérrez and Gónzalez (1991), proposición 1.5), la distribución condicionada será:

Np LF ; Σ − LL0 ≡ Np LF ; Ψ
   
(X/F )
y como Ψ es diagonal, ello es N. y S. para que X y F sean condicionalmente independientes.

Por tanto en este modelo ortogonal normal, el vector F de factores, con sus factor loadings L, reproduce
todas las covarianzas de X, excepto en lo que se refiere a las varianzas de X, que tan sólo reproduce una parte
de ellas, la parte restante lo será por la matriz Ψ de unicidades.

Esto marca una diferencia sustancial entre el Análisis Factorial y el Análisis de Componentes Principales,
porque al contrario, el Análisis de Componentes Principales explica (sus p componentes principales) las varian-
zas de la población pero nada de sus covarianzas.

Más adelante, al analizar el tema de los “factor-scoring”, consideraremos en el contexto anterior, la distri-
bución condicionada de F/X.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 7

 
19 30 2 12
 30 57 5 23 
Ejemplo 1. Sea Σ = 
 2
 ; puede comprobarse que
5 38 47 
12 23 47 68
   
4 1   2 0 0 0
 7 2  4 7 −1 8  0 4 0 0 
Σ=  +  ; (Σ = LL0 + Ψ)
−1 6  1 2 6 8  0 0 1 0 
1 8 0 0 0 3
Por tanto:
1. Existen dos factores (m = 2), ortogonales, no observables.

2. La comunalidad de X1 , por ejemplo, es h21 = l11


2 2
+ l12 = 42 + 12 = 17.
3. V ar[X1 ] = 19 = 42 + 12 + 22 (igualmente se puede hacer para X2 ).

1.2. Problemas básicos inherentes al modelo de Análisis Factorial


1.2.1. El problema de la identificación en el Análisis Factorial: existencia y uni-
cidad de solución
Consideramos en primer lugar un Análisis Factorial ortogonal. En este modelo se supone que las p+ p(p−1)
2 =
p(p+1)
2 varianzas y covarianzas del vector X pueden ser reproducidas a partir de los (pm “factor loadings” l ij
y las p varianzas especı́ficas ψi ).

Si m = p, entonces sabemos que Σ es factorizable exactamente como LL0 y entonces Ψ se puede tomar
como una matriz nula. Este es el caso del Análisis de Componentes Principales, previamente estudiado.

Sin embargo, en general, en el Análisis Factorial, m < p, entre otras cosas porque cuando ello ocurre la utili-
dad del Análisis Factorial es mayor. En realidad, que m < p es sustancial para que se tenga un Análisis Factorial.

Entonces las cosas ocurren de la siguiente manera: Por ejemplo, si X contiene p = 12 variables, y hubiera
un modelo de Análisis Factorial con m = 2 factores, entonces, los 12·13
2 = 78 elementos de Σ son descritos en
términos de m · p + p = 12 · 2 + 12 = 36 parámetros lij y ψi del Análisis Factorial.

Desgraciadamente, no toda matriz de covarianzas puede ser factorizada en la forma LL0 +Ψ, con un número
menor de factores que la dimensión p, e incluso, aunque a veces ello sea técnicamente posible, puede ocurrir
que la solución no cumple los requisitos probabilı́sticos-estadı́sticos que exige el modelo Factorial estadı́stico.

 
1 0,9 0,7
Ejemplo 2. Sea p = 3 y m = 1, en un vector aleatorio (X1 , X2 , X3 ) con Σ =  0,9 1 0,4  > 0,
 0,7 0,4 1
X1 − µ = l11 f1 + 1 
entonces: X2 − µ = l21 f1 + 2 (como m = 1 ⇒ F1×1 = f1 ); Σ = LL0 + Ψ se tiene que cumplir que:
X3 − µ = l31 f1 + 3

2 2 2
1 = l11 + ψ1 ; 1 = l21 + ψ2 ; 1 = l31 + ψ3
0,9 = l11 · l21 ; 0,4 = l21 · l31
0,7 = l11 · l13
l = 0,4
 
0,7 = l11 · l31 0,7 l11
de donde 7−→ 21 2
7−→ l11 = 1,575 7−→ l11 = ±1,255.
0,4 = l21 · l31 0,9 = l11 l21

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 8

Ahora bien, V ar[f1 ] = 1; V ar[X1 ] = 1; l11 = Cov[X1 ; F1 ] = Corr[X1 F1 ] y como quiera que el coeficiente
de correlación ha de ser en valor absoluto menor o igual que 1, la solución técnica a la que hemos llegado que
es |l11 | = 1,255 no es estadı́sticamente aceptable.

2 2
Por otra parte, como 1 = l11 + ψ1 ⇒ ψ1 = 1 − l11 = 1 − 1,575 = −0,575, nos conduce a otro contrasentido
ya que ψ1 es una varianza que no puede ser negativa.

Ası́ que es posible obtener, para este ejemplo con m = 1, una solución numérica única de la ecuación
Σ = LL0 + Ψ pero esta solución no es consistente con la interpretación estadı́stica requerida, es decir, no es
propia. •
A continuación analizamos con más profundidad este problema de la existencia y unicidad de solución fac-
torial. Nos situamos en un modelo Factorial oblı́cuo, en general.

Dada la matriz Σ y un cierto número “m” de factores comunes, sabemos que en nuestro modelo teórico:
1. Σ = LΦL0 + Ψ, ecuación estructural.
2. Ψ es diagonal y definida positiva, p × p.
3. Φ es definida no negativa en general, m × m.
4. L es una matriz m × p.
La cuestión puede formularse ası́:

¿Cuando existirán L, Φ y Ψ de tal manera que se cumpla la igualdad estructural? ¿Cuando habrá una
solución única?

Para enfocar la solución a estas cuestiones, es decir, al problema de la identificación del Análisis Factorial
(existencia y unicidad), hay que recordar en primer lugar que los triples

(L; Φ; Ψ) ; L∗ = LC; Φ∗ = C −1 ΦC 0−1 ; Ψ , C m × m no singular.




conducen a modelos equivalentes (verifican ambos la ecuación estructural). Por tanto para que desaparezca la
indeterminación habrá que exigir m2 condiciones sobre Φ y L (ya que C es una matriz m × m no singular).
Como Σ es observable, y es simétrica y tiene 21 p(p
 1 + 1) elementos
2
 diferentes, que junto a las m condiciones
2
antes dichas para la unicidad, hacen un total de 2 p(p + 1) + m cantidades observadas. Por otra parte L, Φ
y Ψ tienen un total de pm + 12 m(m + 1) + p parámetros. Luego el signo de la diferencia:


1
(p − m)2 − p − m

2
marcará la situación sobre la existencia y unicidad; el hecho que sea mayor o menor que 0 nos indicará la posibi-
lidad de existencia y unicidad de solución. Si la diferencia es positiva puede esperarse un problema de existencia
de solución factorial aunque hubiera unicidad en el sentido de que existiera un conjunto de parámetros. Si es
negativa, puede esperarse la existencia de solución pero posiblemente no haya unicidad en la determinación
de los parámetros en L y Ψ. Si esa cantidad es cero puede esperarse la identificación del modelo de Análisis
Factorial (existencia y unicidad), o al menos la existencia de un número finito de soluciones.

En general, el problema de la existencia de solución, se puede enunciar en términos de matrices ası́:

¿Cuando existe una matriz diagonal Ψ con diagonal de elementos no negativos tal que (Σ − Ψ) es una
matriz, LΦL0 , p × p semidefinida positiva de rango m ?

Para este problema de existencia de solución, interpretado en términos algebráicos, se han dado diversos
resultados. Anderson and Rubin (1956) recogieron y aportaron resultados clásicos al respecto (entre ellos el
primer resultado que se demostró por Reiersol (1950)). Un compendio de estos resultados, junto con otros más

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 9

recientes, por ejemplo los obtenidos por Takeuchi, Yanai, and Mukherjee (1982), entre otros, puede verse en
Basilewsky (1994) pp 356-359.

Si existe una solución y es única el modelo se dice identificado. Ya se ha dicho que han de ponerse m2 con-
diciones sobre L y Φ para eliminar la indeterminación dada por la matriz C tal que L∗ = LC y Φ∗ = C −1 ΦC 0−1 .
Algunas soluciones parciales son las siguientes:

Una solución ası́ es la que exigimos en el caso ortogonal Φ = I, que obliga a que C sea ortogonal.
Obsérvese que al exigir Φ = I, obligamos a que se cumplan m(m+1)
2 ecuaciones.
Para otras cuestiones, por ejemplo en el método de máxima verosimilitud asociado al modelo Lawley-
Maxwell, se obliga además a que se cumpla la restricción que Γ = L0 Ψ−1 L sea diagonal. En este caso,
si los elementos de la diagonal Γ, son distintos y ordenados [γ11 > γ22 > . . . > γmm ], entonces L está
unı́vocamente determinada (ver sección posterior 1.3.4).

Hay otros tipos de restricciones (véase Anderson (1984) pp. 554-556 ) para procurar la identificación y unicidad,
por ejemplo imponiendo “ceros” en la matriz L de factor-loadings. Veamos los casos de Estructura Simple y
de ceros en posiciones especı́ficas.

Estructura simple.

Hay condiciones propuestas por Thurstone (1945), pp 335, para escoger una matriz fuera de las LC que
tienen un particular interés en Sicometrı́a. Si λiα = 0, entonces el factor α-ésimo no afecta al i-ésimo test.
La idea de la “estructura simple” es que algunos test no dependerán de todos los factores cuando estos
tengan un significado psicológico real. Esto sugiere que dada una L considerarı́amos todas las rotaciones
posibles, es decir, todas las matrices LC con C ortogonal, y elegirı́amos la que tenga un mayor número de
coeficientes cero. Esta matriz puede ser considerada como la que proporciona la estructura más simple; y,
presumiblemente la de mayor significado en una interpretación sicométrica (ver apartado 1.2.2 posterior
sobre rotaciones en un Análisis Factorial ortogonal).

Las posiciones de los ceros no se escogen de antemano, pero las rotaciones C se aplican hasta encontrar
un L que satisfaga esas condiciones en la medida de que tengan el mayor número posible de “ceros”.
Elementos cero en posiciones especı́ficas. Análisis Factorial confirmatorio y Análisis Facto-
rial exploratorio.

Hay otra forma de abordar la existencia de ceros en L. Consideraremos un conjunto de condiciones que
requiera del investigador una mayor información a priori. Éste debe conocer que algunos test particulares
no dependen de algunos factores especı́ficos. En tal caso no asumimos que E[f f 0 ] = I. Esas condiciones
son similares a algunas usadas en modelos econométricos. Los coeficientes de la α-ésima columna están
identificados, excepto por la multiplicación por un factor de escala si hay al menos m − 1 elementos cero
en esa columna y si el rango de Lα es m − 1, donde Lα es la matriz compuesta por las filas que contienen
los ceros asignados en la α-ésima columna, con esos ceros asignados borrados. La multiplicacı́ón de una
columna por una escala constante puede ser eliminada por una normalización, tal como φαα = 1 o λiα = 1
para algún i para cada α. Si φαα = 1, α = 1, . . . , m, entonces Φ es una matriz de correlaciones.

Veremos que hay m normalizaciones y un mı́nimo de m(m − 1) condiciones cero. Esto es igual al número
de elementos de C. Si hay más de m − 1 elementos cero especificados en una o más columnas de L,
entonces puede haber más condiciones que las requeridas para acabar con la indeterminación en LC en
cuyo caso las condiciones pueden restringir LΦL0 .

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 10

Por ejemplo, podemos considerar el siguiente modelo:


   
1 0 v 0
 λ21 0    λ21 v 0 
  v  
X =µ+  λ31 λ32  a + U = µ +  λ31 v λ32 a 
+U
 
 0 λ42   λ42 a 
0 1 a

para las puntuaciones de 5 test, donde v y a son medidas de habilidad verbal y numérica. Es decir, X es
el vector de puntuaciones en cinco test y suponemos un modelo factorial con m = 2 factores (v y a).

Los dos primeros test dependen únicamente de la habilidad verbal, mientras que los dos últimos lo hacen
solo de la numérica. Las normalizaciones ponen la verbal en la escala del primer test y la aritmética en la
escala del quinto test. Reiersol (1950) y Howe (1955) sugirieron el uso de ceros preasignados para la iden-
tificación y desarrollaron la estimación bajo normalidad para ese caso. Jöreskog (1969) llamó al Análisis
Factorial bajo esas condiciones de identificación “Análisis Factorial Confirmatorio”; bajo condiciones
arbitrarias o con “rotación de estructura simple” lo denominó “Análisis Factorial Exploratorio”.

1.2.2. Un problema de “ambigüedad” en el Análisis Factorial. Rotación de fac-


tores e interpretación en el Análisis Factorial
Por otra parte, existe siempre una ambigüedad asociada al Análisis Factorial ortogonal. Esta es la siguiente:
Sea T una matriz ortogonal (m × m) cualquiera, es claro que:

X − µ = LF +  = L0 T T 0 F +  = L∗ F ∗ + 

con L∗ = LT y F ∗ = T 0 F . Entonces, puesto que:

E[F ∗ ] = T 0 E[F ] = 0


Cov[F ] = T 0 Cov[F ]T = T T 0 = Im×m


es imposible sobre la base de las observaciones de X distinguir los factores loadings L y L∗ . O dicho de otra
manera, los factores F y F ∗ tienen las mismas propiedades estadı́sticas y aunque sus factor loadings respectivos
L y L∗ son en general diferentes, generan ambos la misma matriz de covarianzas Σ del X, ya que en efecto:
0
Σ = LL0 + Ψ = LT T 0 L0 + Ψ = L∗ L∗ + Ψ.

Nótese que las matrices ortogonales corresponden a rotaciones y reflexiones del sistema de ejes coordenados
para el X.

Es fácil probar también que las comunalidades, dadas por los elementos diagonales de LL0 no cambian ya
0
que LL0 = L∗ L∗ .

La conclusión que se obtiene de lo anterior es que, aunque exista una solución (L; Ψ) para el Análisis Fac-
torial ortogonal, ésta no es única.

Como ya se ha indicado, los “factor loadings” obtenidos por cualquier transformación ortogonal a partir de
unos iniciales, reproducen la covarianza (o matriz de correlaciones). Como técnicamente hablando, una trans-
formación ortogonal equivale a una rotación rı́gida (o reflexión) de los ejes coordenados, se habla de “rotación
de factores”.

Supongamos que por algún método (máxima verosimilitud, componentes principales, etc.) que en la sección
1.3 posterior se estudiarán, se han obtenido estimaciones L̂p×m y Ψ̂. Entonces:

L̂∗ = L̂T con T 0 T = T T 0 = I

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 11

es una matriz de “loading rotados”. Además a:

L̂L̂0 + Ψ̂

que es la estimación de Σ, le ocurre que:


0
Σ̂ = L̂L̂0 + Ψ̂ = L̂T T 0 L̂0 + Ψ̂ = L̂∗ L̂∗ + Ψ̂

es decir, que la estimación de Σ, no se altera cuando “se giran los factores”.

Además si Sn es la estimación “directa” de Σ en base a la muestra; L̂L̂0 + Ψ̂ es la estimación de Σ a través


del Análisis Factorial; y Sn − L̂L̂0 − Ψ̂ es la matriz residual, que desempeñará un importante papel posterior-
mente en el método de estimación de las componentes principales, ocurre que dicha matriz residual es igual a
0
Sn − L̂∗ L̂∗ − Ψ̂. Tampoco cambian las comunalidades ĥ2i estimadas, ni las varianzas especı́ficas ψ̂i .

Precisamente, esta rotación de factores, se utiliza en la practica para obtener a partir de unos “factor loa-
dings” iniciales, otros rotados para los que la interpretación sea de una estructura más simple. La situación
podrı́a ser comparable a lo que ocurre al mirar por un microscopio cuando se enfoca de distintas maneras hasta
conseguir ver con más detalle.

¿Cuál es la situación ideal que podrı́amos tener?¿Qué podrı́amos entender por una “estructura simple”
de fácil interpretación? Pues por ejemplo, que cada variable estuviera ligada, “pesada”, con un solo factor
fuertemente y con los demás moderadamente pesada o poco pesada.

Conseguir por rotaciones esta estructura simple, no siempre es posible. En la sección posterior (1.4), anali-
zaremos más pormenorizadamente esta cuestión de rotación de factores.

1.2.3. Cambio de unidades de medida


1. En primer lugar nos planteamos la siguiente cuestión: ¿qué ocurre en el modelo de Análisis Factorial or-
togonal u oblicuo, si se efectúa un cambio en las unidades de medida? Obsérvese que esta primer cuestión
es previa y más general que el problema de estimación o extracción de factores por algún método (ver
más adelante, sección 1.3, distintos métodos para la estimación).

Un cambio en las unidades de media en que se miden las variables Xi de X, equivalente a multiplicarlas
por una cantidad constante. La cuestión que queremos analizar es si esta transformación alterará la matriz
de “factor loadings”. Veamos:

X = LF +  + µ 7−→ DX = DLF + D + Dµ

siendo D una matriz diagonal con elementos positivos en la diagonal principal. Es claro que si

DL = L∗ ; D = ∗ ; Dµ = µ∗

el modelo de Análisis Factorial inicial se transforma en este

X ∗ = L∗ F + ∗ + µ∗

de modo que los “factor loadings” quedan multiplicados por D.

Por otra parte la ecuación estructural de Σ se transforma ası́:

Σ = LΦL0 + Ψ → E (X ∗ − µ∗ )(X ∗ − µ∗ )0 = E (L∗ F + )(L∗ F + ) =


   

0
L∗ ΦL∗ + Ψ∗ = Σ∗

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 12

en donde Ψ∗ = DΨD0 = DΨD y Φ = E[F F 0 ] (en el caso oblicuo Φ 6= I).

Por otra parte Σ∗ = Cov[X ∗ ] = DΣD, por lo que


0
Σ∗ = DΣD = L∗ ΦL∗ + Ψ∗ .

Por lo tanto la conclusión es clara, un cambio en las unidades, mantiene los factores comunes, pero altera
los respectivos “factor loadings”.

También es digno de notarse una propiedad que goza el cambio de unidades analizado, que es que supuesto
que hayamos exigido condiciones especı́ficas para la identificación-unicidad de estimadores, es decir, por
ejemplo 
Φ = I(caso ortogonal)
L0 Ψ−1 L = ∆ matriz diagonal
¿seguirá siendo identificado-único el modelo de Análisis Factorial transformado por D? La respuesta es
si. En primer lugar, hemos visto que un cambio tal no altera los factores, luego si el modelo es ortogonal,
lo es el transformado. Respecto a la unicidad de los estimadores, sigue siendo válida. En efecto:
0 −1
L∗ Ψ∗ L∗ = L0 D(DΨD)−1 DL = L0 Ψ−1 L
0 −1
luego si L0 Ψ−1 L es diagonal, ası́ lo es también L∗ Ψ∗ L∗ .

Puede comprobarse que si se utilizan otras formas de identificación (por ejemplo haciendo ceros algu-
nos términos especı́ficos de L y Φ es una matriz de correlaciones) entonces L∗ = DL esta igualmente
identificada.
2. El cambio dado por D, tiene un caso particular notable en la práctica. Sea dii = √1 ,
σii es decir D = V −1/2
en donde V es una matriz diagonal constituida por las σii de Σ. En este caso:
X ∗ − µ∗ = DX − Dµ = L∗ F + ∗ = DLF + D
en donde Σ∗ = DΣD = R, con R la matriz de correlaciones de X.

Por tanto 0
Σ∗ = DΣD = R = L∗ ΦL∗ + Ψ∗ con Ψ∗ = DΨD
es decir
Σ∗ = R = V −1/2 LΦL0 V −1/2 + V −1/2 ΨV −1/2 .

1.3. Métodos de estimación en el Análisis Factorial


Hay distintos métodos para estimar (extraer) los factores comunes en un modelo de Análisis Factorial or-
togonal, es decir para estimar los “factor loadings” (L) y la matriz Ψ de unicidades.

En el desarrollo del presente tema, hemos elegido dos métodos para su estudio detallado, que son paradig-
mas de la metodologı́a de estimación según se suponga o no se suponga normalidad en el modelo. Cuando no
se supone explı́citamente normalidad de los elementos aleatorios del modelo básico X, F y , la metodologı́a
de “extracción por Componentes Principales” (y del factor principal asociado) es tı́pica al respecto. En cambio
cuando se supone normalidad multivariante (modelo factorial de Lawley-Maxwell) el método de “estimación
por Máxima Verosimilitud” está ligado de manera natural a la situación y es el método idóneo al respecto.

Analizamos a continuación estos dos métodos. Hay por supuesto otros métodos de estimación, por ejemplo,
los métodos, del centroide, o de mı́nimos cuadrados que también pueden se útiles en la práctica en determinados
enfoques de análisis factoriales propios en ciertos campos de aplicación (ver por ejemplo Basilewsky (1994);
Harman (1967))

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 13

1.3.1. Introducción
La cuestión que se plantea en la práctica y que se intenta resolver por la técnica del Análisis Factorial es la
siguiente: Tenemos observaciones X1 . . . , XN de p variables, correlacionadas en general, y se quiere representar
adecuadamente esos datos usando un modelo del tipo X = µ + LF +  (con las condiciones exigidas sobre
él, antes especificadas), de tal manera que este modelo “reproduzca” los datos con un número pequeño de
factores. En términos estructurales y con una visión “exploratoria” se trata de establecer las relaciones propias
del Análisis Factorial ortogonal:
1. Cov X = LL0 + Ψ, es decir:
 
2 2
 
V ar Xi = li1 + . . . + lim + ψi
 
Cov Xi ; Xj = li1 lj1 + . . . + lim ljm .
   
2. Cov X; F = L, es decir, Cov Xi ; Fj = lij
en términos estadı́sticos.

Ası́ pues, es claro que la versión muestral del Análisis Factorial ha de basarse en la matriz de covarianzas
A
muestrales S = N , como estimador de la matriz de covarianzas teóricas poblacionales Σ. Es obvio, por otra
parte que si S es de tal naturaleza que “tiende” a ser una matriz diagonal (o lo que es lo mismo la matriz
de correlaciones muestrales R “tiende” a ser la identidad), entonces las variables son incorreladas; en este ca-
so el Análisis Factorial es irrelevante, siendo los “factores especı́ficos” dominantes en la explicación de los datos.

Por contra, si Σ es claramente una matriz no diagonal, entonces en el Análisis Factorial hay que, inicial-
mente, estimar los “factor loadings” y las “varianza especı́ficas” (los lij y ψi respectivamente).

Ahora bien, ¿qué métodos se emplean para conseguir estas estimaciones? Hay diversos métodos al respecto,
dentro de los cuales, los más utilizados son:
a) El método de las componentes principales (y del factor principal).
b) El método de máxima verosimilitud (Lawley-Maxwell).
Como advertencia general y a la vista de lo antes comentado sobre la determinación de la matriz de factor
loadings, es claro que las soluciones de estos métodos, pueden rotarse de modo que se consiga una mejor
interpretación de los factores. Como recomiendan los autores, es aconsejable en todos los casos prácticos,
emplear más de un método, porque del análisis de la coherencia de los resultados proporcionados por ellos, en
vista de su consistencia, podremos deducir el grado de adecuación de un modelo de Análisis Factorial al caso
en cuestión.

1.3.2. El método de las componentes principales


Aspectos teóricos
Es sabido que dada una matriz de covarianzas Σ, teórica, con autovalores λ1 ≥ λ2 ≥ . . . ≥ λp ≥ 0 y
autovectores e1 , e2 , . . . , ep es posible establecer la descomposición espectral de Σ de tal manera que
 √ 0 
λ 1 e1
..
p 
0 0
= LL0 .
p
Σp×p = λ1 e1 e1 + . . . + λp ep ep = λ1 e1 ; . . . ; λp ep
 
p. 0
 
p×p
λp ep p×p

Obsérvese que en el Análisis de Componentes Principales, Σ = PΛP0 ,con PP0 = I y por lo tanto Σ =
1/2 0 0
1/2 1/2

PΛ Λ P = LL , con L = PΛ , Λ = diag λ1 , . . . , λp y P = e1 ; . . . , ep .

Lo cual significa que la estructura buscada para factorizar Σ se consigue de la forma:

Σ = LL0 + 0 = LL0

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 14

de tal manera que existen tantos factores como variables (m = p), y se obtiene p un “Análisis Factorial” con las
ψi = 0, ∀i = 1, . . . , p. En este caso los factor loadings son tales que valen λj ej , los situados en la columna
p
j-ésima de la matriz de loadings L. En definitiva, salvo el factor λj , los factor loadings del j-ésimo factor
son los coeficientes de la componente principal, j-ésima, dado que, en efecto, los coeficientes de la componente
principal j-ésima es el vector ej (ver tema Análisis Componentes Principales).

Ası́ pues, cuando m = p, se obtiene una representación exacta Σ = LL0 de tipo factorial, con tantos factores
como variables. Pero esto no es en general el objeto del Análisis Factorial, en el que se pretende fundamen-
talmente explicar la correlación entre variables con un número significativamente menor de factores que de
variables. Obsérvese que además, la representación exacta de Σ = LL0 , hace desaparecer los factores especı́ficos
o errores  en el modelo básico X = µ + LF +  de Análisis Factorial.

Ante esta situación, cabe adoptar la estrategia siguiente: Despreciar las p − m contribuciones debidas a los
p − m “últimos” autovalores λm+1 ≥ λm+2 ≥ . . . ≥ λp , es decir, despreciar la contribución de λm+1 em+1 e0m+1 +
. . . + λp ep e0p a la explicación estructural de la matriz Σ. Por tanto:
 √
λ1 e01

. p ..
 p 
Σ= λ1 e1 ; . . . ; λm em = Lp×m L0m×p
 
√ . 0
 
p×m
λm em m×p

es una aproximación de la representación exacta de Σ, que en principio sigue ignorando el factor especı́fico 
en cuanto a la estructuración factorial de Σ. Y decimos en principio porque desde luego cabe la posibilidad de
perfeccionar esta aproximación incluyendo las unicidades ψi . Ası́:

 
 √ ψ1 0 ··· 0
λ1 e01

 0 ψ2 0 
..
p p 
0
 
Σp×p = LL + Ψ = λ 1 e1 ; . . . ; λm em
 
+ .. ..
√ . 0

p×m
   0 ··· . . 
λm em
 
m×p ..
. 0 0 ψp p×p

m
X
2
siendo obviamente ψi = σii − lij ; i = 1, . . . , p.
j=1

En definitiva el Análisis Factorial es aproximado mediante la metodologı́a del Análisis de Componentes


Principales.
m
X
2
Nota 2. Recuérdese que en el Análisis Factorial, las comunalidades (para un i, valen lij ) son los elementos
j=1
√ √
de la diagonal principal de LL0 , siendo, en este caso L dado por

λ 1 e1 ; . . . ; λm em . •

Aspectos muestrales
Veamos a continuación como se aplica la aproximación descrita en términos teóricos, a datos. Sean X1 , . . . , XN
los datos correspondientes a p variables, que tipificados son en definitiva:
 X1j −X̄1 

s11
 .. 
Z1 , . . . , ZN , con Zj = 
 .
 ; j = 1, . . . , N

Xpj −X̄p

spp

en donde X̄i son las medias en cada variable i = 1, . . . , p; y sii son los elementos de la diagonal principal de S,
es decir, las varianzas muestrales.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 15

Este conjunto (Z1 , . . . , ZN ) tiene como matriz de covarianzas la matriz de correlaciones muestrales R. En-
tonces se puede aplicar la representación dada por la segunda aproximación de Σ vista antes, a la matriz S
o a la R, originándose lo que se llama la solución de componentes principales, que se llama ası́ porque, como
antes decı́amos, los factor loadings son, salvo un factor de escala, los coeficientes de las componentes principales
primeras muestrales.

En definitiva, este procedimiento de estimación de Análisis Factorial, denominado de componentes princi-


pales, sigue los pasos siguientes:
1. Dada la matriz de covarianzas muestrales S, se calculan los autovalores-autovectores muestrales, como
soluciones, respectivamente, de |S − λI| = 0 y (S − λI)e = 0. Se obtienen ası́ los pares (λ̂i ; êi ), con
λ̂1 ≥ λ̂2 ≥ . . . ≥ λ̂p , i = 1, . . . , p.

2. Se toman, cuando m < p, los primeros λ̂1 , . . . , λ̂m y se construye:


q q 
L̂ = λ̂1 ê1 , . . . , λ̂m êm .
p×m

3. Las varianzas especı́ficas muestrales, estimaciones de las ψi , se construyen mediante las relaciones
m
X
ψ̂i = sii − ˆl2 ; i = 1, . . . , p;
ij
j=1

es decir, la diagonal principal de la matriz S − L̂L̂0 .

Por tanto Ψ̂ = diag(ψ1 , . . . , ψp ), es la matriz estimada de unicidades.

4. Las comunalidades estimadas ĥ2i se construyen entonces como:

ĥ2i = ˆli1
2
+ . . . + ˆlim
2
.

Nota 3. Si se actúa con la matriz R, se realiza todo igual actuando con R en lugar de S.•
Este procedimiento de solución del problema de estimación en Análisis Factorial, tiene las siguientes carac-
terı́sticas:
i) Si el número de factores (m) crece, los factor loadings correspondientes a factores ya utilizados, no
cambian. Sólo hay que ir añadiendo los correspondientes a los nuevos factores adicionales.
ii) Por otro lado, del procedimiento empleado se deduce que los elementos diagonales de S deben ser iguales
a los diagonales de L̂L̂0 + Ψ̂.
Con los elementos que no están en la diagonal de S, lo normal en la práctica es que L̂L̂0 + Ψ̂ no reproduzca
esos elementos no diagonales. Entonces se plantea la siguiente cuestión, ¿como seleccionar el número de
factores para conseguir una adecuada representación que reproduzca la matriz S con el menor “error”
posible?

La manera de actuar es análoga a la que se emplea en las componentes principales:

Sea la “matriz residual”: S − (L̂L̂0 + Ψ̂), que resulta de aproximar S por la solución de componentes
principales dada por los pasos 1 y 2 anteriores.

Se sabe que si consideramos la suma de cuadrados “entries”, SCE, de S −(L̂L̂0 + Ψ̂) = tr (S − L̂L̂0 − Ψ̂)(S −


L̂L̂0 − Ψ̂)0 se verifica que SCE S − (L̂L̂0 + Ψ̂) ≤ λ̂2m+1 + . . . + λ̂2p de tal manera que si λ̂2m+1 + . . . + λ̂2p
  

es pequeño entonces la suma de cuadrados de los errores es pequeña.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 16

En efecto, sea la matriz residual S − (L̂L̂0 + Ψ̂) que resulta de aproximar S por la solución de com-
ponente principal. Se sabe que, puesto que S − L̂L̂0 − Ψ̂ tiene ceros en la diagonal principal, la su-
ma de cuadrados “entries” de S − L̂L̂0 − Ψ̂ es menor o igual a la suma de cuadrados de “entries” de
S − L̂L̂0 . Pero, S − L̂L̂0 = λ̂m+1 êm+1 ê0m+1 + . . . + λ̂p êp ê0p = P̂(2) L̂(2) P̂(2)
0
, donde P̂(2) = êm+1 , . . . , êp y
L̂(2) = diag(λ̂m+1 . . . λ̂p ). Ahora bien: la suma de cuadrados “entries” de A es igual a tr(AA0 ) de donde
0
tr[P̂(2) L̂(2) P̂(2) P̂(2) L̂0(2) P̂(2)
0
] = tr[P̂(2) L̂(2) L̂0(2) P̂(2)
0 0
] = tr[L̂(2) P̂(2) P̂(2) L̂(2) ] = tr[L̂(2) L̂(2) ].

De manera ideal, si la contribución de unos pocos primeros factores a la varianza total es grande, el
Análisis Factorial “funcionara” adecuadamente.

La contribución del primer factor a la varianza muestral es ˆli1


2
. Dada la varianza total

s11 + . . . + spp = tr(S)

la contribución a ella del primer factor será:


q 0 q 
ˆl2 + . . . + ˆl2 = λ̂1 ê1 λ̂1 ê1 = λ̂1 .
i1 ip
1×p 1×p

λ̂j
Y en general, la proporción de la varianza total debida al factor j-ésimo será (sobre S) o
s11 + . . . + spp
λ̂j
(sobre R).
p

Y en base a esta expresión se decide heurı́sticamente el número de factores a usar, haciendo el error lo
suficientemente pequeño, es decir, contentándonos con una proporción de varianza explicada suficiente-
mente alta o lo que es equivalente, tomando un modelo de Análisis Factorial con un número de factores
m en la metodologı́a de Análisis de Componentes Principales utilizada.

Nota 4. Otra convención que suele hacerse, es tomar m igual al número de autovalores de R mayores que
1; o igual al número de autovalores de S que son positivos. Pero no debe aplicarse indiscriminadamente,
pues, por ejemplo, para grandes muestras, es esperable que todos los autovalores de S sean positivos y
entonces m serı́a p y no hay en tal caso, Análisis Factorial en sentido estricto. •
 
1 0,02 0,96 0,42 0,01

 0,02 1 0,13 0,71 0,85 

Ejemplo 3. Sea R = 
 0,96 0,13 1 0,5 0,11 
.
 0,42 0,71 0,5 1 0,79 
0,01 0,85 0,11 0,79 1
λ̂1 +λ̂2
Los dos únicos autovalores de R mayores de 1, son λ̂1 = 2,85 y λ̂2 = 1,81. Entonces, p = 0,93.

Variable Estimación de los factor loading Comunalidades Varianzas especı́ficas


F1 F2 ĥ2i ψ̂i = 1 − h2i
1 0.56 0.82 0.98 0.02
2 0.78 -0.53 0.88 0.12
3 0.65 0.75 0.98 0.02
4 0.94 -0.11 0.89 0.11
5 0.80 -0.54 0.93 0.07
Autovalores 2.85 1.81
Proporción acumulada de la varianza total 0.571 0.932

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 17

Y  
0,56 0,82
 0,78 −0,53 
 0,56 0,78

0
 0,65 0,94 0,80
L̂L̂ + Ψ̂ =  0,65 0,75 
 0,82 −0,53 +
 0,75 −0,11 −0,54
 0,94 −0,11 
0,80 −0,54
   
0,02 0 0 0 0 1 0,01 0,97 0,44 0,00

 0 0,12 0 0 0  
  0,01 1 0,11 0,79 0,91 


 0 0 0,02 0 0 =
  0,97 0,11 1 0,53 0,11 
 .•
 0 0 0 0,11 0   0,44 0,79 0,53 1 0,81 
0 0 0 0 0,07 0,00 0,91 0,11 0,81 1

1.3.3. La “Principal Factor Solution” como modificación del método de las Com-
ponentes Principales en estimación en Análisis Factorial
Describimos el método en términos de R, matriz de correlaciones muestrales, aunque se puede hacer igual-
mente a partir de la matriz S. Como ya se ha dicho en el método teórico del método de Componentes Principales,
la matriz de correlación teórica ρ queda estructurada de la forma:

ρ = LL0 + Ψ.
Si la especificación del Modelo es correcta, los m factores harán que:

ρij = 1 = h2i + ψi

siendo h2i , i = 1, . . . , p, las comunalidades de las variables Xi .

Por tanto
ρ − Ψ = LL0 .
Supongamos que se tienen estimaciones iniciales ψi∗ de las varianzas especı́ficas. Entonces reemplazando los
2
elementos de la diagonal de R por h∗i = 1 − ψi∗ , obtenemos una matriz de correlaciones muestrales llamada
reducida:  2 
h∗1 r12 · · · · · · r1p
2
 r12 h∗2 r13 · · · r2p 
 
Rr =  .
 .. .. .. .. .
 .. . . . . 
2
r1p · · · · · · · · · h∗p
Entonces se aplica el método de componentes principales a:
0
Rr = L∗r L∗r

en donde L∗r = lij


∗ ∗

, con lij los factor loadings estimados, es decir:
q q q 
∗ ∗ ∗ ∗ ∗ ∗ ∗
Lr = λ̂1 ê1 ; λ̂2 ê2 , . . . , λ̂m êm
m
X
ψi∗ = 1 − ∗2
lij
j=1

siendo (λ̂∗i , ê∗i ), i = 1, . . . , m; los m mayores autovalores-autovectores de Rr . Se puede entonces, re-estimar las
comunalidades
m
X
ĥ∗i = ∗2
lij
j=1

que puede utilizarse, reiteradamente, como una estimación no inicial, en lugar de h∗2
i .

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 18

Igual que en el método anterior de Componentes Principales, las consideraciones sobre λ̂∗1 , . . . , λ̂∗p , sirven
para determinar los factores comunes a retener.

Hay una complicación en este método: algunos autovalores pueden ser negativos debido al uso inicial de
una estimación de las comunalidades. Idealmente, se toman tantos factores como rango tenga Rr , pero en todo
caso debe procederse con precaución.

Por otra parte cabe hacer algunas consideraciones sobre como hacer la elección de las estimaciones iniciales
de las comunalidades. La forma más popular de hacer esta elección es tomar las estimaciones iniciales citadas
1
ası́: ψi∗ = ii , con rii el elemento (i, i) de R−1 , es decir:
r
1
h∗2 ∗
i = 1 − ψi = 1 − .
rii
Obsérvese que esto equivale a tomar h∗2i como el cuadrado del coeficiente de correlación múltiple entre Xi y
las p − 1 variables restantes. Obsérvese también, que el método de las Componentes Principales para R puede
ser considerado como un método de factor principal con estimaciones iniciales de comunalidades igual a uno
o varianzas especı́ficas iguales a cero. Ambas aproximaciones son filosófica y geométricamente diferentes (el
método de componentes principales y el método del factor principal). En la práctica, ambos procedimientos
conducen a factor loadings similares, si el número de variables es grande y el número de factores pequeño.

1.3.4. El método de Máxima Verosimilitud en el Modelo de Análisis Factorial


(Modelo de Lawley-Maxwell)
Revisemos los aspectos generales que el método de Máxima Verosimilitud tiene en cuanto a la estimación
del Modelo. Otros aspectos, como los contrastes hipótesis útiles en la Inferencia sobre el Modelo de Análisis
Factorial que estamos considerando, serán estudiados en una sección posterior (1.7).

Estimación de parámetros del Modelo de Análisis Factorial (ortogonal y oblicuo)


Modelo de Análisis Factorial ortogonal
Supongamos el Modelo de Factores ortogonales, en primer lugar. En este caso la estructuración de la
matriz de covarianza es:
X = µ + LF + ; Σ = LL0 + Ψ
de tal manera que X se supone distribuida Normal Multivariante, ası́ como el vector de error . Por tanto,

Xp×1 Np [µ; Σ = LL0 + Ψ]

Supongamos que disponemos de observaciones:


0
{Xα = (Xα1 , . . . , Xαp ) ; α = 1, . . . , N }

que constituyen una muestra aleatoria independiente del vector poblacional X.

Supongamos los estadı́sticos muestrales:


N N
1 X s 1 X  0 A
X̄ = µ̂ = Xα = Σ̂ = Xα − X̄ Xα − X̄ ≡
N α=1 N N α=1 N

que, en las hipótesis de normalidad tomadas, son los estimadores máximo-verosı́miles de los parámetros
µ y Σ de la Normal Multivariante con la que se distribuye el vector X.

Obviamente, esta hipótesis de normalidad equivale a la normalidad del vector F y del , que según las
hipótesis generales del Modelo de Análisis Factorial, por otra parte, son incorreladas y, en virtud de la

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 19

normalidad, independientes.

Recuérdese también, que en el Análisis Factorial ortogonal, la matriz Cov(F ) = I. En estas circunstancias,
la función de verosimilitud adopta la siguiente forma:
Np N
 1   
L(L; Ψ; µ) = (2π)− 2 |LL0 + Ψ|− 2 exp − tr (LL0 + Ψ)−1 s + N (X̄ − µ)(X̄ − µ)0
2
(véase por ejemplo Gutiérrez and Gónzalez (1991)).

Dada esta verosimilitud, lo primero que cabe observar es que si se cambia L por LO (siendo O una matriz
ortogonal p × p) dicha verosimilitud no cambia. Ello implica que si L̂ es la matriz de estimación máximo-
verosı́mil de L, también es una matriz estimadora máximo-verosı́mil de L la matriz L̂O. Se impone pues
exigir la unicidad de la matriz estimadora, para lo que es habitual exigir que:

L0 Ψ−1 L = ∆ con ∆ una matriz (m × m) diagonal

(ver Anexo B, para la justificación teórica).

En segundo lugar, la función de verosimilitud anterior puede escribirse ası́:


 

(N −1)p
0 1 
−(N −1)
0 −1

L(L; Ψ; µ) = (2π) |LL + Ψ|
2 exp − tr (LL + Ψ) s ×
2
2
 
p 1 N
(2π)− 2 |LL0 + Ψ|− 2 exp − (X̄ − µ)0 Σ−1 (X̄ − µ)
2
El último factor puede escribirse además ası́:
 i
−p 0 − 21 1 h 0 −1 0
(2π) 2 |LL + Ψ| exp − tr N (LL + Ψ) (X̄ − µ)(X̄ − µ)
2
y este factor, al maximizar L, y hacerse cero, es claro que permite concluir que µ̂ = X̄. Por tanto el
problema queda reducido a
M ax L(L; Ψ; µ) = M ax L(L; Ψ; X̄)
L,Ψ L,Ψ

o bien (ver Gutiérrez and Gónzalez (1991)), M ax ln L(L; Ψ; µ).


L,Ψ

Puede demostrarse (utilizando el cálculo de Neudecker) que esta maximización conduce al siguiente
resultado:
Teorema 1. Los estimadores de máxima-verosimilitud de L y Ψ, denotados L̂ y Ψ̂, en el modelo de
Análisis Factorial ortogonal supuesto, con la condición de unicidad, obedecen al siguiente sistema:
s
Diag(L̂L̂0 + Ψ̂) = diag
N
s −1
Ψ̂ L̂ = L̂(I + L̂0 Ψ̂−1 L̂)
N
(ver Anexo B.1.3 para la demostración detallada).

Modelo Análisis Factorial oblicuo


En este caso la Cov(F ) = Φ en lugar de Cov[F ] = I. Existe pues una correlación entre los factores. En
este caso la ecuación estructural toma el aspecto siguiente:

Σ = LΦL0 + Ψ.

Puede demostrarse que en este caso, el método de Máxima-Verosimilitud conduce al siguiente resultado:

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 20

Teorema 2. Los estimadores de máxima verosimilitud de L , Φ y Ψ, vienen dados, en el modelo de


Análisis Factorial oblicuo, como soluciones del sistema siguiente:
hs i
Ψ̂ = diag − L̂Φ̂L̂0
N
 −1  s 
Φ̂L̂Ψ̂−1 L̂0 + I = L̂Ψ̂−1 L̂0 L̂0 Ψ̂−1 Ψ̂−1 L̂
N
  s  h s i −1
Φ̂L̂ L̂L̂0 + Ψ̂−1 I − (L̂L̂0 + Ψ̂)−1 = Φ̂L̂0 I − (L̂L̂0 + Ψ̂)−1 Ψ̂ .
N N

Obtención de los estimadores


La resolución de los sistemas dados para el caso ortogonal y oblicuo, se hace por medio de métodos numéricos.
Son en definitiva la solución que maximiza L(L, Ψ, µ) o L(L, Ψ, Φ, µ), sujeto a la restricción de unicidad antes
impuesta: que L̂0 Ψ̂−1 L̂ sea diagonal. Obsérvese que obtenidos los estimadores L̂, Ψ̂ y µ̂, en el caso ortogonal
por ejemplo, las comunalidades (en virtud del teorema de Zehna o principio de invarianza de los estimadores
de máxima verosimilitud) serán estimadas máximo-verosimilmente mediante la correspondiente función de los
estimadores, es decir:
ĥ2i = ˆli1
2
+ ˆli2
2
+ . . . + ˆlim
2
; i = 1, 2, . . . , p
de modo que la estimación de la proporción de la varianza total “explicada” o “debida” al factor j-ésimo será:
ˆl2 + ˆl2 + . . . + ˆl2
1j 2j pj
.
s11 + s22 + . . . + spp

Notas sobre la Estimación Máximo-Verosı́mil en el Análisis Factorial ortogonal


Analizamos a continuación la repercusión en el método de Máxima Verosimilitud de lo visto en la sección
1.2.3 anterior. En particular veamos que ocurre con el método de máxima-verosimilitud de estimación del mo-
delo de Análisis Factorial ortogonal cuando se efectúa un cambio de unidades dado por una matriz D, como la
antes definida (y en particular con un D = V −1/2 ).

Sea en efecto un cambio de tipificación poblacional, de tal manera que el vector X se transforma en el
Z = V −1/2 (X − µ) (como caso particular de D(X − µ) = DX − Dµ).

Como ya hemos estudiado (ver sección 1.2.3), el nuevo vector Z tiene entonces la covarianza R

R = ρ = V −1/2 ΣV −1/2 = V −1/2 LL0 V −1/2 + V −1/2 ΨV −1/2

lo que implica que Z es tal que su matriz de covarianzas R se factoriza de la forma:

R = LZ L0Z + ΨZ con LZ = V −1/2 L; ΨZ = V −1/2 ΨV −1/2

Entonces, aplicando de nuevo el principio de invarianza de Zehna, si L̂ y Ψ̂ son estimadores de máxima-


verosimilitud de L y Ψ en el modelo X = µ + LF + , entonces L̂Z = V̂ −1/2 L̂; Ψ̂Z = V̂ −1/2 Ψ̂V̂ −1/2 son
estimadores de máxima verosimilitud de LZ y ΨZ respectivamente, es decir, el estimador máximo verosı́mil de
R, R̂, es
R̂ = L̂Z L̂0z + Ψ̂Z .
En consecuencia las comunalidades son estimadas por
2
∗2 ∗2
ĥ∗i = ˆli1 + . . . + ˆlim , i = 1, . . . , p

denotando L̂z = ˆlij




.

La proporción de varianza muestral (estandarizada) correspondiente (o explicada) por el j-ésimo factor


viene dada por:

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 21

ˆl∗2 + . . . + ˆl∗2
1j pj
p
en donde ˆlij

designa los elementos de L̂z .
Nota 5. En la práctica generalmente se actúa sobre los datos tipificados, es decir, que se hace Análisis Factorial
sobre la matriz de correlaciones. Puede reconstruirse la estimación máximo-verosı́mil para R en lugar de para
Σ. Se actúa pues con la matriz de correlaciones muestrales R que se “inserta” en L(L, Ψ, µ) mediante la
relación:
N
1 X (N − 1)S s A
S= (Xα − X̄)(Xα − X̄)0 ; = = .•
N − 1 α=1 N N N

1.3.5. Ejemplo Stock-prices


Consideramos un ejemplo recogido por Johnson and Wichern (1998) que va a ir resolviendo secuencialmen-
te en cada sección del desarrollo teórico del tema, mostrándose la aplicación de cada método que se propone
(extracción de factores, giros, contrastes de hipótesis, etc.).

Se considera la tasa de rendimiento semanal para las acciones de cinco compañı́as (Allied Chemical, DuPont,
Union Carbide, Exxon y Texaco) de la bolsa de Nueva York, estudiada desde Enero de 1975 hasta Diciembre de
1976. La tasa de rendimiento semanal se define como el cociente de la diferencia del precio (cotización) al cierre
en el viernes actual menos el precio al cierre el viernes anterior, entre el precio al cierre el viernes anterior. Las
observaciones en 100 semanas sucesivas, aparentemente, deben estar distribuidas independientemente, pero la
tasa de rendimiento están correlacionadas, como es sabido, las tendencias de las acciones se mueven junto con
las condiciones económicas generales.

El problema es 5-dimensional, con las variables aleatorias Xi ; i = 1, . . . , 5 que significan respectivamente,


el ı́ndice de rendimiento semanal de las 5 empresas citadas. Y sean (x1 , . . . , x5 )0α ; α = 1, . . . , 100; las 100
observaciones (N = 100) de la tasa de rendimiento semanal para las acciones de Allied Chemical, DuPont,
Union Carbide, Exxon y Texaco respectivamente. Las tres primeras pertenecen al sector industrial quı́mico y
las dos últimas al sector petrolı́fero. El vector de medias muestrales es:

x̄ = [0,0054; 0,0048; 0,0057; 0,0063; 0,0037]0 .

Para homogeneizar los datos, se consideraran los datos tipificados, dados por:
 0
x1 − x̄1 x2 − x̄2 x5 − x̄5
z = z1 = √ , z2 = √ , . . . , z5 = √ .
s11 s22 s55

La matriz de covarianzas muestrales de los datos tipificados, es decir, la matriz de correlaciones muestrales
R, tiene la forma  
1 0,577 0,509 0,387 0,462
 0,577 1 0,599 0,389 0,322 
 
R=  0,509 0,599 1 0,436 0,426 
.
 0,387 0,389 0,436 1 0,523 
0,462 0,322 0,426 0,523 1
Los autovalores y autovectores normalizados correspondientes de R son:

λ̂1 = 2,857; ê01 = [0,464; 0,457; 0,470; 0,421; 0,421].

λ̂2 = 0,809; ê02 = [−0,240; −0,590; −0,260; 0,526; 0,582].


λ̂3 = 0,540; ê03 = [−0,612; 0,178; 0,335; 0,541; −0,435].
λ̂4 = 0,452; ê04 = [0,387; 0,206; −0,662; 0,472; −0,382].

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 22

Cuadro 1.1: Análisis factorial por componentes principales


Solución con un factor Solución con dos factores
Estimación del Varianzas Estimación de los Varianzas
factor loading especı́ficas factor loadings especı́ficas
Variable F1 ψ̂i = 1 − ĥ2i F1 F2 ψ̂i = 1 − ĥ2i
Allied Chemical 0,783 0,39 0,783 -0,217 0,34
DuPont 0,773 0,40 0,773 -0,458 0,199
Union Carbide 0,794 0,37 0,794 -0,234 0,31
Exxon 0,713 0,49 0,713 0,472 0,27
Texaco 0,712 0,49 0,712 0,524 0,22
Proporción acumulada
del total de la
varianza explicada 0,571 0,571 0,733

λ̂5 = 0,343; ê05 = [−0,451; 0,676; −0,400; −0,176; 0,385].


Como hemos visto el ejemplo contiene la tasa de rendimiento semanal 100 semanas (n=100) para 5 empre-
sas distintas (p=5). En primer lugar presentamos los factor loadings obtenidos por el método de componentes
principales. Tomaremos m=1 y m=2 para obtener la solución por componentes principales para el mo-
delo factorial ortogonal. Especı́ficamente, las estimaciones de los factor loadings son los coeficientes de las
componentes principales (autovectores de R) escalados por la raı́z cuadrada de correspondientes autovalor. Los
factor loadings estimados, comunalidades, varianzas especı́ficas y la proporción real de varianza explicada por
cada factor para m = 1 y m = 2 están en la tabla 1.1. Por ejemplo, para m = 2, la comunalidad asociada a la
primera variable (Allied Chemical), ĥ21 , es: ĥ21 = ˆl11
2
+ ˆl12
2
= 0,7832 + (−0,217)2 = 0,66.

La matriz residual de este ejemplo, para m = 2, es:


 
0 −0,127 −0,164 −0,069 0,017
 −0,127 0 −0,122 −0,055 0,012 
R − L̂L̂0 − Ψ̂ = 
 
 −0,164 −0,122 0 −0,019 −0,017 

 −0,069 0,055 −0,019 0 −0,232 
0,017 0,012 −0,017 −0,232 0

Evidentemente, la proporción de varianza total explicada por el modelo con dos factores es bastante mayor
que el modelo con un factor, 0,733 frente a 0,571. Sin embargo, para m = 2, L̂L̂0 produce valores relativamente
grandes de algunos elementos de la matriz residual, especialmente (r45 = −0,232).

Parece bastante claro que el primer factor, F1 representa las condiciones económicas generales y podrı́a ser
llamado el “factor de mercado”. Todas las empresas tienen cargas altas en este factor y relativamente pareci-
das. El segundo factor, contrasta las empresas quı́micas de las petrolı́feras (las quı́micas están relativamente
cargadas negativamente y las petrolı́feras positivamente). Por ello, F2 parece diferenciar el tipo de industria,
serı́a un “factor industrial”.

A continuación vamos a estimar (extraer) los factores por el método de máxima verosimilitud. En este
caso vamos a realizarlo únicamente para m = 2. Los resultados se recogen en tabla 1.2.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 23

Cuadro 1.2: Análisis factorial por máxima verosimilitud


Estimación de los Varianzas
factor loadings especı́ficas
Variables F1 F2 ψ̂i = 1 − ĥ2i
Allied Chemical 0,684 0,189 0,50
DuPont 0,694 0,517 0,25
Union Carbide 0,681 0,248 0,47
Exxon 0,621 -0,073 0,61
Texaco 0,792 -0,442 0,18
Proporción acumulada
del total de la
varianza explicada 0,485 0,598

La matriz residual correspondiente, es:


 
0 0,005 −0,004 −0,024 −0,004
 0,005 0 −0,003 −0,004 0,000 
R − L̂L̂0 − Ψ̂ = 
 
 −0,004 −0,003 0 0,031 −0,004 .

 −0,024 −0,004 0,031 0 −0,000 
−0,004 0,000 −0,004 −0,000 0

En este caso los elementos de R − L̂L̂0 − Ψ̂ son mucho más pequeños que los mismos de la matriz corres-
pondiente al método de componentes principales. Por esto, preferiremos el método de máxima verosimilitud.

Obsérvese que la proporción acumulada del total de la varianza explicada por dos factores, es mayor en
el método de componentes principales (0,733) que en el de máxima verosimilitud (0,598). Esto no es una
sorpresa, ya que este criterio suele ser favorable en componentes principales. Este hecho no es nada extraño,
porque sabemos que si se actúa en Análisis Factorial mediante la metodologı́a de Componentes Principales, se
está primando la “explicación” de las varianzas sobre la explicación de todas las varianzas-covarianzas que es
objetivo más propio del Análisis Factorial, que es mejor recogida en el método de máxima-verosimilitud.

Prestando atención a la solución de máxima verosimilitud, vemos que todas las variables tienen cargas
positivas en el primer factor F1 . Al igual que en el caso anterior, interpretaremos este factor como el “factor de
mercado”. La interpretación del segundo factor, sin embargo, no es tan clara como en la solución del método de
componentes principales; parece que indica un factor de “tipo de industria”, pero en este caso las magnitudes
de los factores son pequeñas y se podrı́a identificar este factor como comparación (enfrentadas) de DuPont
frente a Texaco. Por tanto, para obtener una interpretación más clara de este segundo factor tendremos que
rotarlos. Recuérdese además, que cuando se utiliza el método de máxima-verosimilitud, hemos tenido que im-
poner la restricción de ser diagonal la matriz L̂0 Ψ̂−1 L̂. Esta restricción hace que la solución inicial obtenida por
máxima-verosimilitud, en la práctica “enmascare” los factores, por lo que es prácticamente obligatoria rotarlos
para poner en evidencia factores rotados que conduzcan a una interpretación más clara (ver posteriormente la
sección de rotaciones).

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 24

Figura 1.1: Rotación

1.4. La rotación de factores en el Análisis Factorial. Criterios gráfi-


cos y analı́ticos (Kaiser-Varimax)
La “propiedad” del Análisis Factorial, consistente en el hecho de que una matriz de factor loadings L y una
matriz de factor loading “rotada” mediante una matriz ortogonal cualquiera T , reproducen la misma estructura
factorial, con dos representaciones estructurales de Σ indistinguibles, va a ser utilizada, paradójicamente como
elemento práctico de gran interés a la hora de “aclarar” la estructura factorial de un conjunto de datos.

En efecto, cuando m > 1, si T es tal que T T 0 = T 0 T = I,

X − µ = LF +  = LT T 0 F +  = L∗ F ∗ + , con L∗ = LT ; F ∗ = T 0 F

y se tiene que:
E[F ∗ ] = T 0 E[F ] = 0 y Cov[F ∗ ] = T 0 Cov[F ]T = T 0 T = I
de modo que, en efecto es imposible sobre la base de las observaciones del X distinguir L de L∗ . O dicho de
otra manera, los factores F y F ∗ son estadı́sticamente iguales (en sus propiedades) y estructuran o generan la
misma matriz de covarianzas Σ ya que:
0
Σ = LL0 + Ψ = LT T 0 L + Ψ = L∗ L∗ + Ψ.

Ahora bien, ¿qué ocurre con las estimaciones cuando se giran los factores, es decir, cuando la matriz de
factor loading se rota mediante una matriz ortogonal T ? Si, por cualquier método (componentes principales,
máxima verosimilitud, etc.) se ha estimado la matriz de factor loading L̂, entonces L̂T = L̂∗ con T T 0 = I, es
la matriz rotada de factor loadings. Cuando esta operación se efectúa permanecen invariantes las herramientas
fundamentales del Análisis Factorial, resumidas en la siguiente tabla:
L̂→L̂T 0
Matriz estimada de covarianza L̂L̂0 + Ψ̂ −−−−−−−→ L̂∗ L̂∗ + Ψ̂
| {z } L̂T T 0 L̂0 +Ψ̂ | {z }
Σ̂ Σ̂
L̂→L̂T 0
Matriz residual Sn − L̂L̂ − Ψ̂ −−−−→ Sn − L̂∗ L̂∗ − Ψ̂
0

L̂→L̂T
Varianza especı́ficas Ψ̂i −−−−→ Ψ̂i
0
L̂L̂0 =L̂T T 0 L̂0 =L̂∗ L̂∗
Comunalidades ĥ2i −−−−−−−−−−−−−−→ ĥ∗2 2
i = ĥi
L̂→L̂T

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 25

Estas “cualidades” de la rotación de los factores y de las matrices de los loadings, son aprovechables para
obtener una “estructura de factores más simple” que sea más fácilmente interpretable.

¿Qué podemos entender por una estructura más simple o un modelo simple de loadings (pattern-loadings)?
Pues una estructura de factores que tienda a parecerse a la situación ideal en la que cada variable esté muy
pesada con un solo factor y con los restantes está poco o moderadamente ponderada.

El problema que surge entonces es el siguiente ¿cómo determinar el giro que conduce a una estructura
factorial, con un modelo de loadings asociado, lo más simple posible en cada caso concreto? Pues hay métodos
gráficos y analı́ticos para resolver esta cuestión.

1.4.1. Métodos gráficos en la rotación de factores


Cuando m = 2 o los factores comunes se consideran dos a dos, la transformación ortogonal mas adecuada
se puede obtener gráficamente. Si interpretamos los factores comunes incorrelados como vectores unitarios a
lo largo de ejes perpendiculares, y dibujamos los factor loadings respecto de un factor (ˆli1 ; ˆli2 ), obtendremos p
puntos, y cada uno de estos puntos corresponde a una variable

Xi −→ (ˆli1 ; ˆli2 )

Figura 1.2: Variables vs factores

Entonces, en muchos casos es posible elegir un ángulo φ de rotación adecuado de modo que los nuevos factor
loadings ˆlij

se obtendrán ası́: L̂∗p×2 = L̂p×2 T2×2 con T de la forma:
 
cos φ sen φ
T = , (sentido del reloj)
− sen φ cos φ
 
cos φ − sen φ
T = , (sentido contrario al del reloj.)
sen φ cos φ
Estos métodos gráficos, con el cálculo de T , no suelen considerarse. Se actúa “a ojo” normalmente, defi-
niendo agrupamientos (cluster) de variables que tengan claramente un factor común.

Si m > 2, por otra parte, el cálculo de φ no es fácil de visualizarse.

Hay casos en que las propias gráficas sugieren cambios de ejes que pasen a ejes oblicuos (no perpendiculares)
de tal manera que si esto se hiciera, la interpretación, cabe esperar, que fuese mucho más clara. En Anexo A se
analizan más detalladamente los criterios analı́ticos para determinar los giros oblicuos a partir de unos factors

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 26

loadings previamente estimados.

En general, dados m factores, el punto de coordenadas


 
ˆli1 , ˆli2 , . . . , ˆlim

representa la posición de la i-ésima variable en un espacio de factores. Definidos cluster de variables, no


superpuestos, es posible que un giro no rı́gido, oblicuo, hiciera pasar por los cluster a los ejes factoriales, con-
seguiéndose, previsiblemente, una mejor interpretación de los factores resultantes.

Figura 1.3: Factor scores y variables

1.4.2. Métodos analı́ticos: el criterio de Kaiser (Criterio Varimax)


Veamos un primer ejemplo de criterio para encontrar analı́ticamente una matriz T ortogonal adecuada pa-
ra obtener unos factores interpretables. Posteriormente, en sección 1.5 se tratarán pormenorizadamente otros
criterios analı́ticos de búsqueda del giro adecuado. Suponemos pues, giros ortogonales (es decir, T ortogonal).

Un método sugerido por Kaiser (1958), para elegir una matriz T con criterios analı́ticos se basa en lo
siguiente. Definimos:
ˆl∗
˜l∗ = ij
ij
ĥi
como los factor loading rotados, escalados por las raı́ces cuadradas de las comunalidades. Y se construye la
cantidad:  !2 
Xp
˜l∗2 
m
 p ij
1 X X
˜l∗4 − i=1

V =
 
p j=1  i=1 ij p
 

 

que según Kaiser (criterio Kaiser-Varimax) debe ser maximizada por los factor loadings girados.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 27

Salvo constante de proporcionalidad, V admite una interpretación clara: V es proporcional a la suma desde
j=1 hasta m de la varianza de los loadings al cuadrado, para el factor j; por tanto, maximizar V consiste
en “separar” lo más posible los cuadrados de los loadings, de tal manera que la estructura final rotada hace
máxima dicha “separación”, de manera que en cada columna de la matriz de loadings exista una separación
“grande” entre algunos loadings de esa columna, con otros de la misma.

ˆl∗
ij
Nota 6. El “escalamiento” previo se hace (se parte de ˜lij

= ) con objeto de dar a las variables con
ĥi
menores comunalidades un peso relativo mayor en la determinación de la estructura final. Una vez que se ha
determinado T , los loadings ˜lij

son multiplicados por las comunalidades ĥi de modo que los comunalidades
originales se mantienen. •
Nota 7. Como cabe esperar, los factor loadings obtenidos por el criterio Kaiser-Varimax aplicado a factor
loadings obtenidos por métodos diferentes de estimación (componentes principales, máxima verosimilitud ...)
no coinciden en general. También ocurre que el modelo de loadings rotado cambia considerablemente cuando se
añade un factor en la rotación. Por ejemplo suele ocurrir que exista un factor dominante simple el cual será
“obscurecido” en cualquier rotación ortogonal; en este caso se le puede dejar fijo y rotar los restantes factores.

Nota 8. Se recomienda especialmente la rotación de factores cuando se ha utilizado el método de máxima


verosimilitud en la estimación, puesto que se habrá utilizado la condición de unicidad L̂0 Ψ̂−1 L̂ = ∆ diagonal
que tiene su justificación teórica (ver anexo B.1) pero que probablemente conduzca a factores difı́cilmente
interpretable. •

1.5. Rotación de factores. Criterios analı́ticos generales


En lo que sigue tratamos la cuestión de búsqueda de una rotación de factores adecuada para conseguir
una estructura factorial interpretable óptimamente. Realizamos el análisis a partir de una solución inicial que
denotamos (L, Ψ) obtenida por algún método de estimación (por ejemplo los vistos en las secciones 1.3.2 y
1.3.4 anteriores).

Una vez que se han estimado los factores comunes el Análisis Factorial entra en una fase de interpretación
y explotación de los resultados. Como ya hemos indicado, la “indeterminación de la solución factorial” en el
sentido de que si (L; Ψ) es una solución, también lo es el par (LT ; Ψ), es decir:

X = µ + LF +  −→ X = µ + LT T 0 F +  = µ + L∗ F ∗ + 
0
Σ = LL0 + Ψ −→ Σ = LT T 0 L + Ψ = L∗ L∗ + Ψ.
L→LT
(R) (R)
De modo que dicho en otras palabras, podemos encontrar factores comunes “nuevos”, denotados F1 , . . . , Fm
que son combinaciones lineales de F1 , . . . , Fm componentes del vector F = (F1 , . . . , Fm )0 ; estos nuevos fac-
tores son ortogonales, puesto que son F ∗ = T 0 F , con T ortogonal y tienen varianza unidad (ortogona-
les=incorrelados).

Cuando T es ortogonal se habla de rotación ortogonal de factores, para referirse al proceso de obtención de
(R)
un conjunto de nuevos factores Fi a partir de los antiguos Fi , i = 1, . . . , m.

El nuevo modelo desarrollado será:

X = µ + L∗ F ∗ +  = µ + (LT )(T 0 F ) + 
m
(R)
X
Xi = µi + cij Fj + i i = 1, . . . , p
j=1

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 28

siendo cij los elementos de una nueva matriz rotada L∗ = LT . Un cambio ortogonal (rotación sólida) como el
aquı́ hecho, no cambia las comunalidades de las variables ya que
m
X m
X
h2i = c2ij = 2
lij ; i = 1, . . . , p
j=1 j=1

siendo lij los elementos de la matriz “inicial” de factor loadings.

Por otro lado, la expresión matricial de la transformación de la matriz de factor loadings


L −→ L∗ = LT
se escribe desglosada y con la notación anterior, como:
m
X
cij = lik qkj , i = 1, . . . , p; j = 1, . . . , m; cij ∈ L∗ ; lik ∈ L; qkj ∈ T.
k=1

Siendo qkj números, con k = 1, . . . , m; j = 1, . . . , m y siendo la matriz ortogonal T de dimensión m × m. A


efectos de interpretación de los nuevos factores, las constantes qkj se toman de manera que los loadings rotados
sean “simples” respecto de algún criterio.

La siguiente cuestión, es cómo elegir la matriz T . El criterio que se utiliza es seleccionar una matriz T
ortogonal, tal que los loadings cij sean “simples”, en el sentido que “el mayor número posible de ellos, sean
próximos a cero y los restantes relativamente grandes”.

La estrategia pues, es buscar una matriz T ortogonal tal que se obtenga una representación de Xi , i =
m
(R)
X
1, . . . , p (las variables respuestas), es decir, una representación del tipo Xi = cij Fj + i , tal que los pesos
j=1
en pocos factores sean grandes y pequeños en los restantes (Thurstone (1945)). La razón que justifica esta
estrategia, es que en la medida en que, en efecto, consigamos una estructura simple, y dado que los loadings
expresan, en el Análisis Factorial ortogonal, las correlaciones entre variable y factor, podremos interpretar más
fácilmente la estructura factorial obtenida.

1.5.1. Métodos de rotación ortogonal


Se han ideado muchos métodos analı́ticos y gráficos para obtener, mediante rotaciones adecuadas, estructu-
ras más simple a partir de una matriz inicial de factor loadings. Los métodos analı́ticos, se pueden sistematizar
como lo hacen Harman (1967), Afifi and Azen (1979), entre otros, en base al siguiente criterio analı́tico: Mini-
mizar la función objetivo G, dada ası́:
m m
" p p
! p !#
X X X
2 2 γ X 2 X
2
G= cij cik − c cik
j=1 i=1
p i=1 ij i=1
k=1
j=k;j6=K

con γ ∈ [0, 1].

1. Cuando γ = 0 la rotación se dice Cuartimax. En este caso se puede comprobar que minimizar G, es
equivalente a maximizar:
m p m p
1 XX 2 2
 1 XX 2
c − c̄.. ; c̄.. = c .
pm j=1 i=1 ij pm j=1 i=1 ij

Obsérvese que la expresión anterior a maximizar es la varianza de los cuadrados de todos los factor loadings
implicados en el problema de Análisis Factorial. Si se maximiza esa varianza quiere decir que dispersamos
al máximo los valores posibles de los factor loadings, aumentando los mayores y disminuyendo los más
próximos a cero, en cumplimiento de la estrategia antes formulada para llegar a “estructuras simples”.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 29

2. Otro criterio es tomar γ = 1. Este criterio se denomina Varimax y en este caso puede comprobarse que
la minimización de G es equivalente a maximizar
m p p
1 XX 2 2 1X 2
cij − c̄2.j ; c̄2.j = c ; j = 1, . . . , m.
p j=1 i=1 p i=1 ij

La diferencia con el cuartimax es la siguiente: Este actúa sobre todos los loadings, en bloque. En cambio
el varimax actúa por columnas de loadings (c̄2.j es la media de los loadings de cada columna j = 1, . . . , m
correspondiente a cada factor). En el varimax se hace máxima la dispersión de los loadings para cada
factor separadamente. Este es el criterio más utilizado.

Nota 9. A veces se utiliza la normalización de Kaiser (1958) al aplicar los criterios, en particular el
varimax en el caso de rotación ortogonal. Esta normalización consiste en considerar a los loadings cij ,
normalizados respecto de las comunalidades a través de la raı́z cuadrada de ellas. Es decir, considerar:
cij
c∗ij = ; i = 1, . . . , p; j = 1, . . . , m; con hi la raı́z cuadrada de la comunalidad i-ésima,
hi
normalizando cada cij respecto de la comunalidad i-ésima de la variable Xi .

La idea que persigue esta normalización es conseguir que cada variable-respuesta Xi esté contribuida
por unos loadings “conmensurados” con la comunalidad total de dicha variable Xi , para i = 1, . . . , p. Se
origina, entonces el criterio Varimax Normalizado (o de Kaiser) que maximiza la expresión:
  #
∗ 2
m
" p Pp
1 X X i=1 cij
M axV = M ax  c∗4 − .
p j=1 i=1 ij p

Este criterio Varimax-Kaiser, ya fue considerado en la sección 1.4.2 •

1.5.2. Ejemplo Stock-prices


Los métodos descritos de rotación de factores, pueden aplicarse a unos factores comunes estimados “ini-
cialmente” por algún método de estimación (componentes principales o máxima-verosimilitud). A su vez, las
rotaciones pueden realizarse con alguno de los criterios analı́ticos descritos antes. Por ejemplo, tomando el
ejemplo que venı́mos utilizando (stocks prices/ rendimientos semanales), vamos a realizar una rotación de tipo
ortogonal, con criterio Varimax para clarificar la estructura de los factor loadings en el caso del Análisis
Factorial máximo verosı́mil y para m = 2. En este caso los factor loadings (rotados y sin rotar), las varianzas
especı́ficas y proporción acumulada de varianza explicada son recogidas en tabla 1.3.

En el modelo sin rotar, veı́amos clara la existencia de un primer factor, que identificábamos con el “factor
de mercado” y otro segundo factor que no estaba tan claro, ya que podı́a marcar diferencias entre las industrias
petrolı́feras y quı́micas o entre DuPont frente a Texaco. Precisamente por este motivo realizábamos la rotación.
Los factores rotados indican que las empresas quı́micas (Allied Chemical, DuPont y Union Carbide) están
más cargadas en el primer factor mientras que las petrolı́feras (Exxon y Texaco) tienen mayores cargas en el
segundo factor. Por lo tanto, los dos factores rotados nos marcarán diferencias entre los tipos de industrias. Es
difı́cil etiquetar estos factores; el Factor 1 podrı́a representar las fuerzas económicas que causan movimientos
conjuntos en la cotización de las empresas quı́micas. El Factor 2 podrı́a representar las condiciones económicas
que afectan a las empresas petrolı́feras.

Es importante destacar, cómo el factor F1 original, que es un factor general, dado que todas las variables
están ponderadas casi por igual, tiende a“destrozarse” tras la rotación. Esta es la razón por la que en los casos
en que exista un factor “general” es interesante rotar los factores manteniendo fijo uno o varios con dicho
carácter general. Esto posible en el software actual sobre Análisis Factorial.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 30

Cuadro 1.3: Rotación ortogonal


Estimación de los Estimación de los
factor loadings factor loadings Varianzas
Max. Verosimil rotados especı́ficas
Variable F1 F2 F1∗ F2∗ ψ̂i = 1 − ĥ2i
Allied Chemical 0,684 0,189 0,601 0,377 0,50
DuPont 0,694 0,517 0,850 0,164 0,25
Union Carbide 0,681 0,248 0,643 0,335 0,47
Exxon 0,621 -0,073 0,365 0,507 0,61
Texaco 0,792 -0,442 0,208 0,883 0,18
Proporción acumulada
del total de la
varianza explicada 0,485 0,598 0,335 0,598

1.6. Puntuaciones en los factores (Factor Scores)


El interés primordial en el Análisis Factorial es el de estimar los parámetros del Modelo. Pero una vez
estimados estos, se aborda el problema de estimar valores de los factores comunes, llamados “factor scores”,
para cada caso de la muestra observada. Estos valores se utilizan para varios pasos posteriores, por ejemplo
para diagnósticos del Modelo o para “entradas” de análisis estadı́sticos posteriores.

En el Modelo de Análisis Factorial exploratorio que venimos analizando, los factores Fj , ası́ como los errores
i , son inobservables y aleatorios. Por tanto al hablar de su estimación se entiende que ésta es de naturaleza
diferente a la estimación de parámetros.

De hecho por “factor scores” (puntuación en F para el caso j-ésimo de individuo) entenderemos unos valores
fˆj tales que:

fˆj = estimación del valor fj que toma Fj (caso j-ésimo); j=1,2,. . . ,n


en donde fˆj y Fj son vectores (m × 1), siendo m el número de factores comunes.

La dificultad de obtener estas estimaciones reside, además, en el hecho de que las cantidades fj y j , inob-
servables, exceden en número a las observaciones xj .

Para obviar esta dificultad, se han ideado varios métodos como el de Mı́nimos Cuadrados Ponderados
(weighted least squares methods) o el método de Regresión, que son en realidad aproximaciones
heurı́sticas al problema, basadas en planteamientos razonables de tipo estadı́stico-técnico. Estos dos métodos,
tienen dos caracterı́sticas comunes:
1. Los factor loadings, ˆli y las varianzas especı́ficas ψ̂i , estimados, son considerados como los verdaderos
valores.

2. Son métodos “robustos” frente a transformaciones de los datos originales del tipo habi- tualmente utilizado
en Análisis Factorial (rotaciones; tipificación, etc.).
A continuación se describen ambos métodos.

1.6.1. El método de mı́nimos cuadrados ponderados


Versión teórica.
Supongamos el modelo de Análisis Factorial X − µ = LF +  antes manejado, y supon- gamos que
conocemos µ, L y las varianzas especı́ficas Ψ. Sea el vector de errores  = (1 , . . . , p )0 , de modo que
V ar[i ] = ψi ; i = 1, . . . , p. Bartlett (1947) sugirió estimar los factores comunes por el método de mı́nimos

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 31

cuadrados ponderados (“weighted least squares”) dado que no es preciso que los ψi sean iguales (hetero-
cedasticidad), método que se describe a continuación.

La idea es simple: consideramos la suma de los cuadrados de los errores ponderada por el recı́proco de
sus varianzas respectivas:

p
X 2i
= 0 Ψ−1  = (x − µ − Lf )0 Ψ−1 (x − µ − Lf ).
i=1
V ar[i ]

Bartlett propuso estimar f por un fˆ tal que haga mı́nima esa suma ponderada. La solución de este
problema de minimización viene dada por:
−1
fˆj = L0 Ψ−1 L m×m L0m×p Ψ−1
p×p (x − µ)p×1 .

Nota 10. La solución indicada es bien conocida en la teorı́a del Modelo de Regresión mı́nimo-cuadrática
ponderada. •

Versión muestral.
Cuando no se conocen µ, L y Ψ, pueden ser sustituidos por sus estimaciones obtenidas a partir de las
observaciones de X, de donde se obtienen los factor scores para cada caso j = 1, . . . , n (obsérvese que
dado el vector de factores f , los factor scores son “estimaciones” de los valores que dicho vector de factores
toma para cada elemento de la muestra x1 , . . . , xn ). Ası́:
 −1
fˆjm×1 = L̂0 Ψ̂−1 L̂ L̂0m×p Ψ̂−1
p×p (xj − x̄)p×1 ; j = 1, . . . , n
m×m

con x̄ el vector media muestral y xj el elemento j-ésimo de la muestra, es decir, un vector (xj )p×1 .
Obsérvese que lo anterior equivale a tomar como verdaderos valores de L, Ψ y µ, sus respectivos estima-
dores.

El aspecto que toma fˆj varı́a según el método que se haya empleado para ajustar el modelo. Veamos dos
casos:
a) Si se ha empleado el método de máxima verosimilitud, se ha de tener en cuenta la condición
de unicidad que se ha exigido en este método: L̂0 Ψ̂−1 L̂ = ∆ ˆ diagonal. Siendo los factores obtenidos
por Mı́nimos Cuadrados Ponderados, a partir de estimadores máximo verosı́miles:
 −1
fˆj = L̂0 Ψ̂−1 L̂ ˆ −1 L̂0 Ψ̂−1 (xj − x̄) j = 1, 2, . . . , n.
L̂0 Ψ̂−1 (xj − µ̂) = ∆

Si se ha actuado con la matriz de correlación, entonces:


 −1
fˆj = L̂0z Ψ̂−1
z L̂z L̂0z Ψ̂−1 ˆ −1 0 −1
z (zj ) = ∆z L̂z Ψ̂z zj j = 1, 2, . . . , n

siendo zj = D−1/2 (xj − x̄) y ρ̂ = L̂z L̂0z + Ψ̂z .


Nota 11. En lo anterior se tiene en cuenta los resultados vistos en la sección 1.3.4, correspondientes
al Análisis Factorial sobre datos tipificados, para los que Σ se transforma en ρ = R. •
Puede probarse fácilmente que los factor scores generados por este procedimiento, tienen media
muestral cero (vector media cero), covarianzas muestrales cero y varianzas muestrales unidad. Esto
quiere decir que
n n
1Xˆ 1 X ˆ ˆ0
fj = 0; fj fj = Im×m .
n j=1 n − 1 j=1

Por otra parte, si se rotan los factores mediante una matriz ortogonal T de modo que tuviéramos
una matriz de factor loadings rotada L∗ , entonces L → LT = L∗ ⇒ L̂∗ = L̂T y entonces los factor
scores quedan transformados análogamente fˆj → fˆj∗ = T 0 fˆj .

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 32

b) Si se hubiera empleado el método de las componentes principales para la extracción de los


factores, las cosas son más simples. En realidad se supone que las ψi son la unidad o valores próximos
a la unidad. Esto implica que puede emplearse unos mı́nimos cuadrados no ponderados (es decir,
mı́nimos cuadrados ordinarios LQO). En este caso el planteamiento anterior tipo Bartlett (con
Ψ = I) conduce a:

fˆj = (L̂0 L̂)−1 L̂0 (xj − x̄)


o si se actúa con la matriz de correlaciones:

fˆj = (L̂0z L̂z )−1 L̂0z (zj )

en donde zj son los datos tipificados (zj = D−1/2 (xj − x̄), j = 1, . . . , n).

Ahora bien, en este método de componentes principales, como ya se vio;


"q #
q
L̂p×m = λ̂1 ê1 . . . λ̂m êm

p×1 p×1

por lo que :
" #0
1 1
fˆj 0
= (L̂ L̂)−1
L̂ (xj − x̄) = p (xj − x̄)0 ê1 . . . p (xj − x̄)0 êm
0
(m×1) λ̂1 (1×p) (p×1) λ̂m (1×p) (p×1)
puesto que:  1 
λ̂1
0 ··· 0
 0 1
λ̂2
0 
(L̂0 L̂)−1 = 
 
 .. ..

.

 . 0 
1
0 ··· 0 λ̂m m×m

dado que ê1 . . . êm son los primeros autovectores ortogonales y unitarios que proporcionan las m
primeras componentes principales utilizadas en el método de extracción de factores por el método
de componentes principales. Pudiéndose comprobar que:
n n
1Xˆ 1 X ˆ ˆ0
fj = 0; fj fj = I.
n j=1 n − 1 j=1

Nota 12. Obsérvese que los fˆj obtenidos, no son más que los valores de las m primeras componentes
principales evaluadas en xj con el factor de escala √1 . •
λ̂i

1.6.2. El método de regresión


Versión teórica.
Sea otra vez el modelo original de Análisis Factorial X − µ = LF + , con parámetros conocidos. Y
coloquémonos bajo hipótesis de Normalidad. Ello quiere decir que tanto F como , son vectores normales
multivariantes, con medias y matrices de covarianzas las correspondientes. Es decir que F Nm (0; I)
(caso ortogonal);  Np (0; Ψ). Entonces, es claro que:

X − µ = LF +  Np [0; LL0 + Ψ]
dado que: LF Nm (0; LL0 ) y según las hipótesis F y  son incorreladas y por tanto independientes por
ser Normales ambos.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 33

Además, la distribución conjunta de X − µ y F es una Nm+p (0; Σ∗ ) en donde, en virtud de las hipótesis
del modelo de Análisis Factorial ortogonal que estamos considerando:
Σp×p = LL0 + Ψ Lp×m
    
∗ Σ11 Σ12
Σ = = .
L0m×p Im×m (m+p)×(m+p) Σ21 Σ22

Podemos considerar, entonces, en este ambiente normal, la distribución condicionada de los factores al
vector x : F/X = x. Y en particular la correspondiente media condicionada que será:
−1
E [F/X = x] = L0 Σ−1 (x − µ) = L0 (LL0 + Ψ) (x − µ) Σ21 Σ−1

11 (x − µ)

y como también sabemos:

Cov[F/X = x] = I − L0 Σ−1 L = I − L0 (LL0 + Ψ)−1 L (Σ22·1 ).

Nota 13. Esta última es la que al estudiar el modelo de regresión lineal múltiple llamamos Σ22·1 =
Σ22 − Σ21 Σ−1 0 0
11 Σ12 . Como también sabemos de la regresión múltiple, la matriz L (LL + Ψ)
−1
no es otra
cosa que la matriz de coeficientes de regresión en la regresión lineal multiple de los factores F sobre las
variables X (superficie de la regresión lineal múltiple de F sobre X = x). •

Versión muestral.
La idea entonces, a efectos de estimar los factor scores, es aprovechar estos resultados teóricos, vı́a
regresión multiple de F sobre las variables, de modo que si disponemos de estimadores máximo-verosı́miles
de L y Ψ, podemos tomarlos como verdaderos valores y entonces, podemos estimar L0 (LL0 + Ψ)−1 ,
 −1
mediante L̂0 L̂L̂0 + Ψ̂ , y podemos tomar como factor scores los valores dados por la correspondiente
regresión de F sobre X estimada, en definitiva:

fˆj = E[f\
/X = x] = L̂0 (L̂L̂0 + Ψ̂)−1 (xj − x̄) j = 1, . . . , n.

(hiperplano estimado de regresión lineal múltiple de F sobre X).

1.6.3. Comparación de los “factor scores” dados por los dos métodos
Los factor scores dados por estos dos métodos (LS y R) pueden compararse en general, si se tienen en
cuanta lo siguiente:
L̂0 (L̂L̂0 + Ψ)−1 = (I + L̂0 Ψ̂−1 L̂)−1 L̂0 Ψ̂−1
lo que permite simplificar el cálculo de las fˆj en el método de regresión descrito antes (sección 1.6.2). Además
ello permite también comparar los factor scores generados por ambos métodos. Se tiene

fˆj = (L̂0 Ψ̂−1 L̂)−1 L̂0 Ψ̂−1 (xj − x̄) −→ fˆjLS mı́nimos cuadrados

fˆj = (I + L̂0 Ψ̂−1 L̂)−1 L̂Ψ̂−1 (xj − x̄) −→ fˆjR regresión.


Es claro entonces que:

fˆjLS = (L̂0 Ψ̂−1 L̂)−1 (I + L̂0 Ψ̂−1 L̂)fˆjR = I + (L̂0 Ψ̂−1 L̂)−1 fˆjR .


Nota 14. A su vez podemos proceder a analizar esta relación, en función del método que se hubiera seguido
en el caso de mı́nimos cuadrados, de tal forma que si se hubiera adoptado el de máxima verosimilitud, para la
estimación de factores, entonces:
ˆ −1
(L̂0 Ψ̂−1 L̂)−1 = ∆
ya que habrı́amos de utilizar la condición de unicidad L0 Ψ−1 L = ∆ (matriz diagonal). De tal manera entonces
ˆ −1 es tal que sus elementos (de la diagonal principal) fueran próximos a cero, entonces:
que si ∆

fˆjLS → fˆjR .

Es decir, ambos métodos darı́an factor scores “parecidos”. •

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 34

Nota 15. Se suele en la práctica del Análisis Factorial, actuar con la matriz S de covarianzas muestrales
iniciales, en lugar de con Σ̂ = L̂L̂0 + Ψ̂, que es fruto de la estimación del modelo de Análisis Factorial con
un determinado número de factores m. Ası́ se pretende en la práctica, reducir el efecto que pudiera tener una
posiblemente incorrecta determinación del número de factores. Se calcula entonces:

fˆj = L̂0 S −1 (xj − x̄) j = 1, . . . , n.

De modo que resumiendo:


i) Los factor scores obtenidos por regresión, basados en S son:

fˆj = L̂0 S −1 (xj − x̄), j = 1, 2, . . . , n.

ii) Los factor scores obtenidos por regresión y datos tipificados son:

fˆj = L̂0z R−1 (zj ); zj = D−1/2 (xj − x̄)

con zj = D1/2 (xj − x̄) y R la matriz de correlaciones muestrales.


Es evidente, que si se rotan los factores, se rotan los factor scores:

fˆj → fˆj∗ = T 0 fˆj = T 0 L̂0 S −1 (xj − x̄)•


Nota 16. Los autores y prácticos de Análisis Factorial, indican que no existe unas superioridad uniforme de
un método sobre otro (regresión y mı́nimos cuadrados). Cada caso de aplicación debe ser analizado “ad hoc”.

Un procedimiento práctico de efectuar la comparación entre los factor scores proporcionados por los dos
métodos, es calcular numéricamente el coeficiente de correlación muestral entre scores de un mismo factor.

Normalmente, los factor scores se calculan sobre los datos transformados (tipificados) y sobre los rotados
por algún método de rotación de los ejes factoriales. Por cada combinación de un método de estimación de
factores y factor scores, con un método de rotación y con datos tipificados o no, aparece una solución concreta.

1.6.4. Los “scatterplots” bivariantes de los factor scores


En diversos puntos antes desarrollados, la hipótesis de normalidad ha jugado un papel primordial (que origi-
na en particular la posibilidad de aplicación de métodos de máxima verosimilitud sobre poblaciones normales).
Por tanto, comprobaciones de normalidad o grado de normalidad, tanto para las variables X como para los
factores F deben ser hechas.

Cuando el número de variables y factores es grande, ya sabemos que comprobar la normalidad es un proble-
ma difı́cil y teóricamente imposible de resolver exactamente. Una herramienta útil en el análisis de la posible
normalidad de los factores (y de las variables también) es proceder a representaciones gráficas bivariantes mar-
ginales (bivariate scatterplots). Es obvio que contornos elı́pticos son la “traza” de la normalidad, por ejemplo,
de los factores. Lo que se hace pues, es representar dos a dos los factor scores y analizar los contornos elı́pticos
frente a no elı́pticos que se producen en las diferentes parejas.

Hay que tener en cuenta que si los factor scores, van a usarse como “datos de entrada” para otros análisis
multivariantes que exigen normalidad, es de gran interés conocer la posible normalidad de los factor scores.

Por otra parte, quede dicho que estos “bivariate scatterplots” pueden hacerse con los factor scores obtenidos
por dos métodos distintos (máxima verosimilitud o componentes principales).

Los scatterplots también son útiles para la detección de posibles outliers.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 35

1.6.5. Ejemplo Stock-prices


A continuación, obtendremos los factor scores, por los métodos de mı́nimos cuadrados y regresión, para
el ejemplo del stock-prices. En apartados anteriores, actuando con la la matriz R y con el método máximo-
verosı́mil, obtuvimos la estimación de los factor loadings rotados, L̂∗ , y la estimación Ψ̂ que son:
   
0,601 0,377 0,5 0 0 0 0
 0,850 0,164   0 0,25 0 0 0 
L̂∗ = 
   
 0,643 0,335  ; Ψ̂ =  0
  0 0,47 0 0  .
 0,365 0,507   0 0 0 0,61 0 
0,208 0,883 0 0 0 0 0,18
Aplicamos los dos métodos descritos teóricamente antes, es decir, el método de Mı́nimos Cuadrados Pon-

derados y el método de Regresión. En este último caso, por ejemplo, la matriz L̂0 z R−1 es
 
0,187 0,657 0,222 0,050 −0,210
.
0,037 −0,185 0,013 0,107 0,864

Por ejemplo, si se toma la observación tipificada de la segunda semana observada:

z 0 = (0,50; −1,40; −0,20; −0,70; 1,40) .

La “puntuación” (factor score de z) en los dos factores comunes estimados-rotados F1∗ y F2∗ , serı́an, por
componentes principales y máxima verosimilitud, respectivamente:
−1 ∗  
ˆ
 ∗
0 −1 ∗ 0 −1 −1,8
f = L̂ z Ψ̂z L̂z L̂ z Ψ̂z z =
2,0
 
0,50
  −1,40   
∗ 0,187 0,657 0,222 0,050 −0,210 −1,2
fˆ = L̂0 z R−1 z =
 
 −0,20 = .
0,037 −0,185 0,013 0,107 0,864   1,4
 −0,70 
1,40
Se puede observar que las puntuaciones son diferentes según el método de estimación empleado.

Si se partiera de una Análisis Factorial por componentes principales, se utilizarı́an las matrices L̂∗ y Ψ̂∗ ,
de factor loadings y unicidades respectivamente, obtenidas por dicho método. Concretamente, las matrices de
factor loadings, original (L̂) y rotada (L̂∗ ) serı́an:
   
0,784 −0,216 0,746 0,323
 0,773 −0,458   0,889 0,128 

   
L̂ =  0,795 −0,234  y L̂ = L̂T = 
 
 0,766 0,316  .

 0,712 0,473   0,258 0,815 
0,712 0,524 0,226 0,854

R. Gutiérrez-Sánchez, A. González
Factor Scores

X − µ = LF +  −→ Fj ,  = 1, . . . , n; vector de factores para el caso j-ésimo con n el número de casos −→ fj valor de Fj


en el caso j-ésimo e inobservable −→ fˆj estimación de fj . Donde Fj , fj y fˆj son vectores (m × 1).
Análisis Factorial

Métodos de calcular la “estimación”, o “puntuación ”, fj (versión teórica.)

1. Mı́nimos Cuadrados Ponderados (WLSM).


p
X 2i
a) Método de Bartllet: Estimar f por el vector fˆ tal que minimice = (x − µ − Lf )0 Ψ−1 (x − µ − Lf ).
i=1
V ar[i ]
b) Solución analı́tica: estimación del vector de factores F en la población.
−1 
fˆm×1 = L0m×p Ψ−1
p×p Lp×m m×m
L0m×p Ψ−1
p×p (x − µ)p×1 m×1
.

2. Método de Regresión (RM), bajo Normalidad Multivariante de F y  (Maxwell-Lawley).

Caso de µ, L y Ψ desconocidos (versión muestral.)

Hay que sustituir µ, L y Ψ por estimaciones proporcionadas por alguno de los métodos de estimación del Análisis Factorial. Llamaremos µ̂, L̂ y Ψ̂ a
estas estimaciones (independientemente del método por el que se obtengan):

R. Gutiérrez-Sánchez, A. González
fˆj = (L̂0 Ψ̂L̂)−1 L̂0 Ψ̂−1 (xj − x̄), j = 1, . . . , n.

con x̄ el vector de medias muestrales j = 1, . . . , n y xj el vector j-ésimo de la muestra. Entonces fˆj son los factor scores estimados para cada caso
j = 1, . . . , n.

Métodos de obtención de µ̂,L̂ y Ψ̂.

1. Máxima Verosimilitud: bajo la condición de unicidad: L̂0 Ψ̂−1 L̂ = ∆


ˆ diagonal. A su vez puede emplearse con matriz de covarianzas muestrales o
con matriz de correlaciones.
2. Método de Componentes principales: ψi ≈ 1 (WLSM→ LSM) (LSM≡ LQO)≡ Ψ = I → fˆj = (L̂L̂)−1 L̂0 (xj − x̄) o fˆj = (L̂0z L̂z )−1 L̂0z zj con
zj = D−1/2 (xj − x̄), según se empleen datos no tipificados o tipificados respectivamente.
36
Análisis Factorial 37

1.7. Contrastes de Hipótesis en Análisis Factorial


En este apartado vamos a considerar un test clásico del Análisis Factorial ortogonal de Lawley-Maxwell,
es decir en un modelo factorial en el que sus elementos aleatorios X, F y  se distribuyen según normales
d
multivariantes, y en particular X Np (µ; Σ), con Σ = LL0 + Ψ. Esta es la situación en la que en la sección
1.3.4 se ha analizado la estimación (extracción) de factores. Obviamente, la construcción de test de hipótesis
en dicho contexto se basa, en un enfoque clásico, en la “metodologı́a del cociente de verosimilitudes” y su
comportamiento asintótico en distribución bajo conocidas condiciones de regularidad. Esta metodologı́a es
viable bajo la hipótesis de normalidad del modelo Factorial. De esta manera se obtiene a continuación el test
asintótico de Bartlett (o Bartlett-Lawley) sobre la existencia de un Análisis Factorial con un número dado
m de factores comunes ortogonales. También se considera la obtención de un contraste en Análisis Factorial,
basado en la metodologı́a de criterios de información (test de Akaike) que marca una dirección más reciente
en la cuestión. En el Anexo B de este tema, se hace un estudio pormenorizado de los contrastes clásicos en
Análisis Factorial ortogonal (ver Anexo B.4) en el Modelo Lawley-Maxwell, obteniéndose los contrastes de
Bartlet-Lawley y Lawley-Maxwell sobre el número m de factores adecuados.

1.7.1. Test asintótico (Bartlett) sobre la adecuación de un modelo factorial orto-


gonal con m factores comunes
Consideramos aquı́ el contraste asintótico de Bartlett-Lawley en un Análisis Factorial ortogonal de Lawley-
Maxwell. Lo hacemos de manera resumida. Su estudio detallado se realiza en el citado Anexo B, junto con su
expresión alternativa (test de Lawley-Maxwell).

La aceptación de la hipótesis de una población normal nos lleva directamente a los test de hipótesis sobre
la adecuación del modelo. Supongamos que el modelo tiene m factores comunes; en estas circunstancias, Σ =
LL0 + Ψ y el test de adecuación del modelo con m factores comunes es equivalente a contrastar que:

H0 : Σp×p = Lp×m L0m×p + Ψp×p (1.1)

frente a H1 : Σ es otra cualquiera matriz definida positiva. Cuando Σ no tiene ninguna forma especial, el
máximo de la función de verosimilitud (con Σ̂ = NN−1 S = SN = N
A
) es proporcional a
 
−N/2 Np
|Σ̂| exp − .
2

Concretamente, la verosimilitud maximizada, bajo la hipótesis H1 (alternativa) tiene la forma:


    −N/2  
A pN A pN
L X̄; = exp − ln(2π) exp −
N 2 N 2

(ver Anexo B.4.1).

Bajo la hipótesis nula, H0 , Σ está restringida a tener la forma de la ecuación 1.1. En este caso, el máximo
de la verosimilitud (con µ̂ = x̄ y Σ̂ = L̂L̂0 + Ψ̂, donde L̂ y Ψ̂ son los estimadores de máxima verosimilitud de
L y Ψ) es proporcional a
  −N/2  
1  1 
Σ̂ exp − tr Σ̂−1 A = L̂L̂0 + Ψ̂ exp − tr N Σ̂−1 SN =

2 2
−N/2  

0 N  −1 
L̂L̂ + Ψ̂ exp − tr Σ̂ SN .

2
Concretamente (véase Anexo B.4.1) la verosimilitud maximizada es
  −N/2  
pN 0 pN
M ax L = exp − ln(2π) Ψ̂ + L̂L̂ exp − .

A.F actorial 2 2

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 38

En consecuencia, siguiendo la metodologı́a del “cociente de verosimilitudes (multivariante de Wilks)” y calcu-


lados los dos máximos del cociente de verosimilitudes, éste se expresa finalmente ası́:

A N/2  N/2
M ax L A
A.F actorial
= N N/2 = 
N  = W.
M axL 0 Ψ̂ + L̂L̂0
Ψ̂ + L̂L̂

µ;Σ

Por tanto, según el método de construcción de test de hipótesis basado en el cociente de verosimilitudes
(procedimiento habitual en hipótesis nulas y alternativas compuestas con estimadores obtenidos bajo máxima
verosimilitud), “se ha de tender a rechazar H0 (en este caso la existencia de un Análisis Factorial con m
factores) en la medida en que W sea pequeño”. La cuestión es como definir “valores pequeño” de W, en
términos estadı́sticos. Habrı́a que conocer para ello la distribución exacta de W, que no es posible. Como es
sabido, existe un resultado asintótico para la distribución de W en el contexto aquı́ supuesto, de Normalidad
multivariante (test de la χ2 ). Para ello consideraremos −2 ln W es decir:
     
0
N A A Ψ̂ + L̂ L̂
−2 ln W = −2 ln  N  = −N ln  N  = N ln  A 
2 Ψ̂ + L̂L̂0

Ψ̂ + L̂L̂0

N

que es tal que se comporta (test de Bartlett), bajo la H0 de existencia de Análisis Factorial, ası́:
 
Ψ̂ + L̂L̂0
 
2p + 4m + 5
N −1− ln  A  χ2v−v0
6
N
N →∞

en donde se ha sustituido N por la expresión indicada (aproximación sugerida por Bartlett (1947)) y en donde
v − v0 = 21 p(p + 1) − [p(m + 1) − m(m − 1)/2] = 12 [(p − m)2 − p − m] = d es decir: El número de parámetros
(elementos) de Σ, p(p+1)
2 , más el número de restricciones identificadas, m(m−1)
2 , menos el número de parámetros
2
en L y Ψ, pm + p = p (m + 1).

Obsérvese que hemos sustituido: “rechazar H0 para valores pequeños de W, por rechazar H0 para valores
grandes de −2 ln W ”. Por tanto el test final obtenido puede formularse en los siguientes términos:

Se rechaza H0 (existencia de un Análisis Factorial con m factores comunes), al nivel de significación α, si:
 
Ψ̂ + L̂L̂0
 
2p + 4m + 5
N −1− ln  A  > χ2(p−m)2 −p−m (α).
6
N 2

En este test aproximado, como los grados de libertad han de ser positivos en una χ2 , es claro que el número
de factores comunes m, ha de verificar:
1 p 
m < 2p + 1 − 8p + 1
2
es decir, (p − m)2 − p − m > 0.

Nota 17. al implementar el test, estamos contrastando la adecuación de los m factores del modelo comparando
las varianzas generalizadas, |L̂L̂0 +Ψ̂| y |SN |. Si N es grande y m es pequeño en relación a p, la hipótesis H0 será
normalmente rechazada, indicándonos ello la necesidad de tomar más factores. Sin embargo, si Σ̂ = L̂L̂0 + Ψ̂
puede ser aproximarse lo suficiente a SN de tal manera que aumentar el número de factores no produce ninguna
mejora, aunque estos con los que se aumenta, fueran significativos. •
Veamos a continuación la forma que toma el test de Bartlett-Lawley, cuando los datos están “tipificados”.
Ya se vió en la sección 1.3.4 la forma que adoptan los E.M.V., L̂ y Ψ̂ cuando se efectúa un tal cambio de
tipificación. En efecto el estadı́stico del test basado en el cociente de varianzas generalizadas será:
|L̂L̂0 + Ψ̂|
.
|SN |

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 39

Sea V̂ −1/2 la matriz diagonal tal que V̂ −1/2 SN V̂ −1/2 = R. Por las propiedades de los determinantes:
−1/2
|V̂ ||L̂L̂0 + Ψ̂||V̂ −1/2 | = |V̂ −1/2 L̂L̂0 V̂ −1/2 + V̂ −1/2 Ψ̂V̂ −1/2 |

y
|V̂ −1/2 ||L̂L̂0 + Ψ̂||V̂ −1/2 | = |V̂ −1/2 SN V̂ −1/2 |
por tanto
|L̂L̂0 + Ψ̂| |V̂ −1/2 | |L̂L̂0 + Ψ̂| |V̂ −1/2 | |V̂ −1/2 L̂L̂0 V̂ −1/2 + V̂ −1/2 Ψ̂V̂ −1/2 |
= = =
|SN | |V̂ −1/2 | |SN | |V̂ −1/2 | |V̂ −1/2 SN V̂ −1/2 |
|L̂z L̂0z + Ψ̂z |
.
|R|
Para muestras grandes, las varianzas y covarianzas para los estimadores máximo verosı́miles de ˆlij , ψ̂ij
han sido obtenidos cuando estos estimadores han sido determinados por la matriz de covarianzas S. Estas
expresiones son en general bastante complicadas. Un análisis detallado de la Inferencia Estadı́stica sobre L y
Ψ en un modelo de Análisis Factorial y en otros modelos más generales puede verse en el Anexo C.

1.7.2. Ejemplo Stock-prices


Aplicamos el test de Bartlett-Lawley deducido. Teniendo en cuenta que los datos están tipificados aplicamos
dicho test en términos de R (matriz de correlaciones muestrales). Por tanto, utilizaremos los estimadores de
L̂z , Ψ̂z obtenidos antes (véase sección 1.3.5), se tiene:

1

0,572 1

0,513 0,602 1

0,411 0,393 0,405 1

0 0,458 0,322 0,430 0,523 1
|L̂z L̂z + Ψ̂z | 0,194414
= = = 1,0065.
|R| 1
0,193163
0,577 1

0,509 0,599 1

0,387 0,389 0,436 1

0,462 0,322 0,426 0,523 1
Usando el test corregido de Bartlett-Lawley, con SN = R, se tiene:

|L̂L̂0 + Ψ̂|
 
10 + 8 + 5
(N − 1 − (2p + 4m + 5)/6) ln = 100 − 1 − ln 1,0065 = 0,62
|SN | 6

y como 21 [(p − m)2 − p − m] = 21 [(5 − 2)2 − 5 − 2] = 1, entonces, el valor de la χ21;(0,05) = 3,84, por lo que
aceptamos la hipótesis nula. Por lo que concluimos que el modelo con dos factores es aceptable. De hecho,
vemos que P [χ21;(0,05) > 62] = 0,43, lo que implica que no será rechazada la hipótesis para niveles razonables.

1.7.3. Criterios basados en la información estadı́stica. El criterio de Akaike (AIC)


para la elección de un modelo factorial con r-factores comunes
Recientemente, se ha investigado la utilización de criterios basados en estadı́sticos de información basados
en la Entropı́a para estimar el número de factores explicatorios que pueden extraerse de una matriz de cova-
rianzas. La razón principal que motiva la utilización de estos criterios es que la estimación clásica de factores
por máxima verosimilitud tiende frecuentemente a elegir un número mayor de factores (por ejemplo, en Análi-
sis Factorial), es decir en general, a elegir un modelo con un número excesivo de dimensiones que pueden ser
interpretadas. Es decir el criterio de Máxima Verosimilitud, tiende a no ser apropiado para obtener un modelo
(factorial) correcto (en el sentido del número de factores). El problema se presenta también en el contexto
de las series temporales. También, por otra parte, ya hemos comentado antes otros inconvenientes de los test

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 40

basados en máxima verosimilitud en el Análisis Factorial, relacionados con su carácter asintótico y el tamaño
muestral adecuado (ver sección 1.7.1 y Anexo B).

El criterio básico de esta lı́nea de test basados en la Información, es el criterio de Akaike (AIC) que fue ini-
cialmente desarrollado en Series Temporales y en Análisis Factorial máximo verosı́mil (Akaike (1974) y (1987))
y su idea clave es la de penalizar un exceso de parámetros ajustados, cosa que no hace el test de la χ2 asintótico.
Siguiendo a Basilewsky (1994) (sección 6.2.2) que a su vez sigue a Bozdogan (1987), los criterios basados en
Información para seleccionar modelos se basan en el planteamiento general siguiente:

Sea un vector aleatorio X con densidad f (X; θ), con θ un vector paramétrico. Si existe un verdadero valor
θ∗ del parámetro θ, la medida de bondad de ajuste viene dada por la Información de Kullback-Leibler, −I
dada por

E ln f (X; θ) − ln f (X; θ∗ ) = −I.


 
(1.2)

Bajo el principio de “maximización de Entropı́a” se estima f (X; θ ) por medio de f (X; θ) tal que se
maximize la entropı́a media
h i h i
Ex [B] = Ex E[ln f (X; θ)] − E[ln f (X; θ∗ )] = Ex E[ln f (X; θ)] , entropı́a media,
puesto que grandes valores de E[B] implican que el modelo f (X/θ) es un buen ajuste de f (X/θ∗ ). Obsérvese
que en la medida que esto último es cierto, ff(X/θ
(X/θ) f (X/θ)
∗ ) tiende a 1, con lo que ln f (X/θ ∗ ) tiende a 0. Obsérvese

también que maximizar E[B] equivale a minimizar (−I).

En consecuencia, E[B] = E[−I] puede ser considerado como una función riesgo que mide el error medio
de estimación (average estimation error) del modelo ajustado. En tales circunstancias se define el criterio de
Akaike.

Criterio de Akaike
h i
El criterio de Akaike es un estimador muestral de E ln f (X/θ) , esperanza de la log-verosimilitud (o
negantropı́a) que es dada por la expresión general:
AIC(r) = −2 ln L(r) + 2m (1.3)
en donde: L(r) es la verosimilitud del modelo ajustado y m es el número de parámetros “libres” después de
que un modelo ha sido ajustado.

La ecuación 1.3 obtenida por Akaike (1974) para series temporales, puede ser adaptada al caso de la
metodologı́a máximo verosı́mil del Análisis Factorial exploratorio. Supongamos que hemos ajustado
un modelo con r factores comunes. Entonces sabemos que la verosimilitud L(r) es:
p
N X
L(r) = ln θ̂i
2 i=r+1
y el valor de m será el número de parámetros “libres” que será:
1
m = p(r + 1) − r(r − 1)
2
en consecuencia el criterio de Akaike (AIC) toma la forma:
p
N X
AIC(r) = −2 ln θ̂i + [2p(r + 1) − r(r − 1)] (1.4)
2 i=r+1

En lo anterior, como ya se vio, θ̂i ; i = r + 1, . . . , p, son las (p − r) últimas (más pequeñas) raı́ces carac-
terı́sticas. Para más detalles, puede verse el Anexo B, sección B.4.2.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 41

En base al AIC(r), se establece la siguiente metodologı́a para la selección de un modelo factorial de un


mı́nimo de factores, r adecuado. En efecto, se utiliza la ecuación 1.4 para r = 1 y se va variando el número
de factores posibles, seleccionándose el modelo factorial con el r tal que para dicho modelo se minimice AIC(r).

Esta forma de selección de un modelo factorial adecuado no es un test realmente, aunque depende de los
valores de L(r), es decir, las (p − r) raı́ces caracterı́sticas estimadas θ̂i , como, en definitiva, le ocurre al criterio
de Lawley-Maxwell antes visto:
  p
2 2p + 4r + 5 X
χ =− N −1− ln(ηi + 1).
6 i=r+1

Sin embargo, el m del criterio de Akaike no es el número de grados de libertad de una χ2 como ocurre en el
test de hipótesis del criterio de la χ2 , sino que responde al número de parámetros libres del sistema (Basilewsky
(1994), p.388).

Corrección de Schwarz al criterio de AIC


Es curioso observar que el término de penalización (2m) no depende del tamaño muestral N . Esto conduce al
hecho de que el mismo número de parámetros comunes es seleccionado por el AIC(r) para muestras pequeñas
o para muestras grandes, es decir, una misma estructura común. Por tanto, el AIC(r) no es un estimador
consistente del número adecuado (o correcto) de factores comunes. Para evitar en lo posible estos inconvenientes
del AIC(r), Schwarz (1987) introdujo un nuevo criterio que se expresa de la forma:
p
N X m
SIC(r) = − ln θ̂i + ln N (1.5)
2 i=r+1 2

El valor de r es calculado minimizando SIC(r) en r. Puede comprobarse que el criterio SIC(r) selecciona
modelos con un número de factores r más pequeño que los seleccionados por el AIC(r), cuando N > 8. Hay
otros criterios alternativos al AIC(r) y al SIC(r), como los propuestos por Sclove (1987) y Bozdogan (1987).

Ejemplos metodológicos
Un interesante ejemplo metodológico (sobre 32 modelo de automóvil), resuelto mediante los criterios de
Akaike y de Schwarz, con discusión, puede verse en Basilewsky (1994) pp. 388-392, que compara además con
los resultados obtenidos vı́a test de Lawley-Bartlett.

R. Gutiérrez-Sánchez, A. González
Tema 2

Aplicación mediante R

Para realizar un análisis factorial en R, existen varias funciones que podemos usar, las más usuales son las
que comentamos a continuación.

2.1. Paquete Factanal


Este paquete está incluido dentro de la librerı́a stats, por lo que tendremos que cargarlo. Este método
realiza un análisis factorial sobre una matriz de datos o de covarianzas por el método de máxima verosimilitud.
Su sintaxis es:

factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,subset, na.action,


start = NULL,scores = c("none", "regression", "Bartlett"),
rotation = "varimax", control = NULL, ...)

donde:
x: fórmula o matriz de datos u objeto que contenga una matriz numérica.
factors: número de factores que se extraen.
data: fichero de datos (solo si x es formula).

covmat: matriz de covarianzas (o correlaciones).


n.obs: número de observaciones.
subset: vector opcional que selecciona filas de la matriz de datos.

na.action: actitud ante los datos faltantes.


stat: valor nulo o matriz con los valores de las unicidades iniciales.
scores: criterio para el cálculo de las puntuaciones factoriales (no calcularlas, por regresión o por el
método de Bartlett).

rotation: para elegir entre no rotar o una función (por defecto se realiza la varimax).
Los objetos de esta clase son:

loadings: matriz con las cargas factoriales. Los factores están ordenados en forma decreciente de las
sumas de los cuadrados de las cargas.
uniquenesses: vector con las unicidades.
correlation: matriz de correlaciones.

42
Análisis Factorial 43

criteria: resultados del proceso de optimización: menos el logaritmo de la verosimilitud


factors: factores introducidos.
dof : grados de libertad.
method: método utilizado (siempre mle, estimación máximo verosı́mil).
scores: matriz de puntuaciones factoriales.
n.obs: número de observaciones.
STATISTIC, PVAL: significación de la adecuación del modelo.

También son interesantes los paquetes:


varimax(x, normalize = TRUE, eps = 1e-5)
promax(x, m = 4)

donde:
varimax: realiza la rotación varimax.
x: es una matriz de factor loadings.
normalize: es el procedimiento de normalización de Kaiser.
eps: es la tolerancia de la rotación.
m: la potencia de la rotación promax.
y el paquete:

loadings(x)

## S3 method for class ’loadings’:


print(x, digits = 3, cutoff = 0.1, sort = FALSE, ...)

## S3 method for class ’factanal’:


print(x, digits = 3, ...)

con el que podemos imprimir las cargas factoriales, decidiendo el número de dı́gitos (digits = 3), el punto de
corte a partir de que valor de las cargas no se imprimen (cutoff = 0.1) y si se ordenan los factores de menor a
mayor.

2.2. Paquete prcomp


El paquete prcomp esta incluido en la librerı́a stats y lo utilizaremos para realizar análisis de componentes
principales:
## S3 method for class ’formula’:
prcomp(formula, data = NULL, subset, na.action, ...)

## Default S3 method:
prcomp(x, retx = TRUE, center = TRUE, scale. = FALSE,
tol = NULL, ...)

## S3 method for class ’prcomp’:


predict(object, newdata, ...)

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 44

donde:
formula: formula que incluye solo las variables numéricas con ninguna dependiente.
data: objeto que contiene las variables de la formula anterior.
subset: vector opcional para seleccionar filas de la matriz de datos.
na.action: indica que hacer con los datos faltantes.
x: fórmula o matriz de datos (o un objeto que contenga una matriz numérica).
retx: indica si se devuelve la rotación.
center: valor lógico que indica si las variables serán centradas por las medias.
scale: valor lógico que indica si las variables deben ser escaladas para tener varianza uno.
tol: valor a partir del cuál las componentes no se calculan. Una componente será omitida si su desviación
tı́pica es menor o igual que tol veces la correspondiente a la primera componente.
los objetos de esta clase son:
sdev: desviaciones tı́picas de cada componente
rotation: matriz de las cargas factoriales.
x: si retx es verdadero, devuelve el valor de los datos rotados.
También podemos usar las órdenes screeplot o biplot.

2.3. Ejemplo de aplicación


En primer lugar, vamos a realizar el análisis mediante la extracción de factores por componentes principales.
Para ello, abriremos el fichero “factorial.txt”. y aplicaremos el paquete prcomp:
> datos<-read.table("factorial.txt",header=TRUE,row.names=1)
> attach(datos)
Antes de empezar a trabajar debemos contrastar una serie de hipótesis previas. Estas son la normalidad,
la linealidad y la correlación.

panel.hist <- function(x, ...)


{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "cyan", ...)
}
#linealidad
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
8
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste(prefix, txt, sep = "")

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 45

if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)


text(0.5, 0.5, txt, cex = cex.cor * r)
}
pairs(datos, diag.panel = panel.hist, lower.panel = panel.smooth, upper.panel = panel.cor)
Con estas órdenes podemos analizar gráficamente las opciones de normalidad y linealidad

Figura 2.1: Gráfico multiple

Evidentemente al tener muchas variables (y este no es un ejemplo demasiado extenso) analizar estas salidas
gráficas es complicado, por ello contrastaremos la normalidad de la siguiente forma:
> library(mvnormtest)
> mshapiro.test(t(datos))

Shapiro-Wilk normality test

data: Z
W = 0.38221, p-value = 7.654e-09
El contraste de normalidad tiene como hipótesis nula que los datos sigan una distribución normal, por lo que
rechazamos esta hipótesis. El rechazar esta hipótesis no es un problema para realzar el Análisis Factorial, solo
que no podremos utilizar (o no serán fiables) la metodologı́a máximo verosı́mil.

Finalmente estudiaremos la correlación de los datos. Esta hipótesis es complicada de contrastar, ya que
bivariantemente es fácil pero multivariantemente es muy complicada. Para contrastarla se suelen utilizar tres
métodos.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 46

- Estudio de la matriz de correlaciones: en este caso se estudia si las correlaciones son significativas y si el
determinante de la matriz es pequeño
- Medida de adecuación muestral de Kayser, Meyer y Olkin (KMO): esta medida está comprendida entre
0 y 1 y cuanto mayor sea mejor se adecuan los datos a un análisis factorial.
- ] Contraste de esfericidad de Bartlet: contrasta si la matriz de correlaciones es igual a la identidad (en
cuyo caso no existirı́a correlación) frente a que la matriz de correlaciones sea significativa.
> Redatos<-cor(datos,method = c("pearson"))
> symnum(Redatos)
mr_cp mr_cr c h mr_p mr espvdh espvdm d pr_m pr_h pb a g pb_s pb_g
mor_cpulmon 1
mor_cirro 1
c_alcohol . , 1
he_trafico . . . 1
mor_perinatal . . 1
morinf . . + 1
espvidah . . . . , 1
espvidam . . . . . + 1
diascama . 1
por_ambu 1
por_hos , 1
pobcama , . . . 1
adhos . B . 1
gast_medi . . . . . . . 1
pib_salud . . . . . * 1
pib_gsalud . . . . . . . 1
attr(,"legend")
[1] 0 ? ? 0.3 ?.? 0.6 ?,? 0.8 ?+? 0.9 ?*? 0.95 ?B? 1

> det(Redatos)
> 1.353152e-10
Vemos que pares de variables son significativos y que el determinante es pequeño, por lo que asumiremos que
la matriz va a ser significativo.
Si realizamos la prueba KMO, en este caso el valor es pequeño, como podemos observar 0,48, pero por el
contraste de esfericidad podemos asumir que la matriz de correlaciones es significativa.
> library(psych)
> KMO(datos)
Kaiser-Meyer-Olkin factor adequacy
Call: KMO(r = datos)
Overall MSA = 0.48
MSA for each item =
mor_cpulmon mor_cirro c_alcohol he_trafico mor_perinatal morinf espvidah espvidam diascama
0.19 0.40 0.43 0.45 0.64 0.65 0.45 0.42 0.45
por_ambu por_hos pobcama adhos gast_medi pib_salud pib_gsalud
0.27 0.53 0.60 0.45 0.58 0.46 0.65
> cortest.bartlett(datos,n=NULL)
chisq
[1] 359.7874
p.value
[1] 8.871193e-26
df
[1] 120

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 47

Una vez analizados estos pasos previos, pasamos al análisis factorial propiamente dicho. En primer lugar,
es importante, imprimir el resumen del análisis y la gráfica de los autovalores (plot) para determinar el número
de factores

> fac<-prcomp(datos, retx=,center=TRUE,scale.=TRUE,tol=NULL)


> summary(fac)
> plot(fac)
Importance of components:
PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9
Standard deviation 2.244 1.762 1.561 1.291 1.0677 0.9107 0.7678 0.6396 0.5170
Proportion of Variance 0.315 0.194 0.152 0.104 0.0712 0.0518 0.0369 0.0256 0.0167
Cumulative Proportion 0.315 0.509 0.661 0.765 0.8366 0.8885 0.9253 0.9509 0.9676
PC10 PC11 PC12 PC13 PC14 PC15 PC16
0.4320 0.36799 0.31884 0.23911 0.15520 0.11249 0.02793
0.0117 0.00846 0.00635 0.00357 0.00151 0.00079 0.00005
0.9793 0.98773 0.99408 0.99765 0.99916 0.99995 1.00000

donde el gráfico de será:

Figura 2.2: Gráfico autovalores

Al igual que en el caso anterior, vamos a seleccionar una estructura factorial con 4 factores. Y las cargas
factoriales serán:

PC1 PC2 PC3 PC4 PC5


mor_cpulmon 0.002168196 0.24391538 0.21620153 -0.15629688 0.64670436 ...
mor_cirro -0.274470311 0.15946595 0.02306329 -0.35162771 -0.44665337 ...
c_alcohol -0.243529081 0.28720356 0.05367817 -0.35495787 -0.12788598 ...
he_trafico -0.083559197 0.30921647 -0.11425616 -0.34620682 0.27314116 ...
mor_perinatal -0.406846958 -0.02365215 -0.07845725 0.13711280 -0.18437938 ...
morinf -0.396082688 0.08733273 0.04789417 0.12148711 -0.08938349 ...
espvidah 0.278959235 -0.28955421 -0.25057776 -0.17050323 -0.18482621 ...
espvidam 0.240003427 -0.36167443 -0.24289345 -0.07703057 0.06623038 ...
diascama 0.223234628 0.24830160 0.32273752 0.31526741 -0.21652480 ...
por_ambu -0.022042121 -0.29450448 0.31056835 -0.41217839 -0.12708072 ...
por_hos 0.006599818 -0.30750787 0.46182849 -0.21065155 -0.11744582 ...
pobcama -0.287841288 -0.06081815 -0.31438870 0.22459135 -0.05037179 ...
adhos 0.221617224 0.25176743 0.32435086 0.31792081 -0.21288421 ...
gast_medi 0.302546520 0.28236802 -0.25471943 -0.16802946 -0.13588538 ...
pib_salud 0.240571634 0.32789209 -0.30715603 -0.13333042 -0.23077746 ...
pib_gsalud 0.262312659 0.12984779 0.17142060 -0.16225424 -0.11989525 ...
PC12 PC13 PC14 PC15 PC16
mor_cpulmon 0.27544210 -0.0125490166 -0.03438996 0.09824789 -0.028552850
mor_cirro 0.17596029 0.0964441318 0.01118108 0.25219226 -0.002263703

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 48

c_alcohol -0.30121624 -0.0448466115 0.12059012 -0.15226902 0.024657921


he_trafico -0.01452360 -0.2227244252 -0.09969925 -0.06958286 0.005898783
mor_perinatal 0.19195731 -0.0905213011 -0.71522997 -0.17462231 -0.042364411
morinf -0.29630419 -0.0209752650 0.45019830 0.21423540 0.025748558
espvidah 0.13427616 -0.6266094839 0.02005375 0.37183765 -0.060920541
espvidam -0.27318343 0.3107593764 0.02207572 -0.26481106 0.067509566
diascama -0.06835936 -0.0004524565 -0.01290453 -0.06887355 -0.697831268
por_ambu -0.23123832 0.0303680119 -0.15125158 -0.31377594 0.004968104
por_hos 0.52608321 0.2310465485 0.20720898 0.06391198 0.006957487
pobcama 0.16564159 0.0750781697 0.19875576 -0.02145276 0.022909413
adhos 0.02009988 -0.1085776821 -0.06764019 -0.04606519 0.706562952
gast_medi -0.03317821 0.5598272655 -0.24845997 0.42639435 0.024869279
pib_salud 0.38517378 -0.0486000902 0.28331619 -0.56335858 -0.017804547
pib_gsalud -0.26965890 -0.2314723558 -0.08384447 0.06992847 0.008781721

Estas cargas factoriales corresponden a los autovectores de la matriz de correlaciones. Para obtener las
cargas factoriales debemos multiplicar cada columna por la raı́z cuadrada del autovalor correspondiente. Con
las siguientes ordenes obtenemos el procedimiento varimax con normalización de Kaiser:
> cargas<-matrix(0,16,4)
> for (i in 1:4) cargas[,i]<-fac$rotation[,i]*fac$sdev[i]
> cargas2<-varimax(cargas,normalize=T)$loadings
> print(cargas2,cutoff=0.3)
Loadings:
[,1] [,2] [,3] [,4]
[1,] 0.451 0.338
[2,] 0.731
[3,] 0.857
[4,] 0.679
[5,] -0.860
[6,] -0.822 0.406
[7,] 0.617 -0.534 -0.434
[8,] 0.466 -0.649 -0.454
[9,] 0.891
[10,] 0.849
[11,] 0.933
[12,] -0.676 -0.338 -0.426
[13,] 0.897
[14,] 0.764 -0.562
[15,] 0.637 -0.670
[16,] 0.613 0.359

[,1] [,2] [,3] [,4]


SS loadings 4.093 2.941 2.579 2.634
Proportion Var 0.256 0.184 0.161 0.165
Cumulative Var 0.256 0.440 0.601 0.765

En relación a las comunalidades, R no P las obtiene de forma directa, pero se pueden hacer de modo inmediato
m 2
sabiendo que el modelo verifica que hi = i=1 lij , donde hi es la comunalidad de la variable i y lij la carga de
la variable i en el factor j; y m el número de factores. También podemos calcular las unicidades a partir de la
relación σi2 = hi + ψi2 , donde σi2 es la varianza de la i-ésima variable y ψi2 es la unicidad.
> comunalidad<-matrix(0,16,2)
> for (i in 1:16)

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 49

+ {for (j in 1:4)
+ {comunalidad[i,1]=comunalidad[i,1]+cargas[i,j]^2
+ comunalidad[i,2]=1-comunalidad[i,1]}}
> comunalidad
[,1] [,2]
[1,] 0.3394337 0.66056632
[2,] 0.6657523 0.33424767
[3,] 0.7718379 0.22816210
[4,] 0.5636492 0.43635079
[5,] 0.8817385 0.11826148
[6,] 0.8440028 0.15599722
[7,] 0.8537956 0.14620436
[8,] 0.8499947 0.15000532
[9,] 0.8620354 0.13796462
[10,] 0.7900783 0.20992166
[11,] 0.8878025 0.11219749
[12,] 0.7538266 0.24617340
[13,] 0.8691386 0.13086140
[14,] 0.9138220 0.08617801
[15,] 0.8849610 0.11503900
[16,] 0.5144237 0.48557627
Podemos también calcular la contribución de cada factor en la explicación de cada variable, tanto para el
total de la varianza de la variable (cargas3) como para el total explicado por el modelo factorial (cargas4):
> cargas3<-matrix(0,16,4)
> cargas4<-matrix(0,16,4)
> for (i in 1:16){
+ cargas3[i,]<-cargas2[i,]^2
+ cargas4[i,]<-cargas3[i,]/comunalidad[i,1]}
> cargas3
[,1] [,2] [,3] [,4]
[1,] 0.017248489 0.202987894 5.282009e-03 0.113915290
[2,] 0.066487146 0.533836607 8.538384e-03 0.056890195
[3,] 0.031265522 0.734258618 4.933675e-05 0.006264427
[4,] 0.020143626 0.460466884 6.735249e-02 0.015686209
[5,] 0.739802051 0.061144580 1.567207e-03 0.079224681
[6,] 0.675585924 0.165080940 9.948114e-06 0.003325968
[7,] 0.380238305 0.284904671 6.916454e-04 0.187961020
[8,] 0.217212319 0.421236276 5.223742e-03 0.206322338
[9,] 0.050122100 0.010331747 6.845696e-03 0.794735837
[10,] 0.022405662 0.005826094 7.212907e-01 0.040555924
[11,] 0.002584568 0.007580848 8.695894e-01 0.008047701
[12,] 0.456647415 0.001293899 1.140132e-01 0.181872113
[13,] 0.048178017 0.009554947 7.275845e-03 0.804129793
[14,] 0.583933947 0.009478536 3.156569e-01 0.004752650
[15,] 0.405683008 0.029299635 4.487775e-01 0.001200829
[16,] 0.375328196 0.003380011 6.716384e-03 0.128999137
> cargas4
[,1] [,2] [,3] [,4]
[1,] 0.050815490 0.598019303 1.556124e-02 0.335603967
[2,] 0.099867688 0.801854656 1.282517e-02 0.085452491
[3,] 0.040507886 0.951311945 6.392113e-05 0.008116248
[4,] 0.035737877 0.816938758 1.194936e-01 0.027829736
[5,] 0.839026577 0.069345479 1.777406e-03 0.089850539

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 50

[6,] 0.800454619 0.195592886 1.178683e-05 0.003940708


[7,] 0.445350487 0.333691878 8.100831e-04 0.220147551
[8,] 0.255545506 0.495575194 6.145618e-03 0.242733683
[9,] 0.058143901 0.011985293 7.941317e-03 0.921929489
[10,] 0.028358785 0.007374071 9.129356e-01 0.051331522
[11,] 0.002911197 0.008538890 9.794852e-01 0.009064742
[12,] 0.605772491 0.001716442 1.512459e-01 0.241265184
[13,] 0.055431915 0.010993582 8.371329e-03 0.925203173
[14,] 0.639001855 0.010372410 3.454249e-01 0.005200849
[15,] 0.458419079 0.033108392 5.071156e-01 0.001356928
[16,] 0.729609029 0.006570479 1.305613e-02 0.250764360
También podemos calcular la matriz de covarianzas reproducida por el modelo teniendo en cuenta que en
el modelo ortogonal Σ = LL0 + Ψ, donde L es la matriz de cargas factoriales y Ψ la matriz de unicidades. Por
ello:

> ajuste<-cor(datos)-cargas2%*%t(cargas2)
> ajuste
V2 V3 V4 V5 V6
V2 0.66056632 -0.285385639 -0.016327730 0.047268598 -0.081954235 ...
V3 -0.28538564 0.334247668 0.048306656 -0.150075943 0.072282084 ...
V4 -0.01632773 0.048306656 0.228162096 -0.221238893 0.033533607 ...
V5 0.04726860 -0.150075943 -0.221238893 0.436350793 -0.113454819 ...
V6 -0.08195424 0.072282084 0.033533607 -0.113454819 0.118261481 ...
V7 -0.04625032 0.012905722 -0.058198119 0.023197570 0.064506999 ...
V8 -0.05283505 0.105591041 0.076716127 -0.063147397 0.046755301 ...
V9 0.13361131 0.025594037 0.018457621 0.005961687 0.019409038 ...
V10 -0.12680774 0.139537512 0.030093670 0.013078282 0.022614985 ...
V11 -0.06689097 0.052610669 -0.028764848 0.058475065 -0.013040248 ...
V12 -0.12056362 0.017934096 -0.019142356 0.005192506 0.059410845 ...
V13 0.03127195 0.006872933 0.006157417 0.025922133 -0.001540014 ...
V14 -0.11834557 0.138397868 0.032367012 0.002992101 0.024934739 ...
V15 -0.09241361 0.028060648 0.008076320 -0.015152724 0.035269224 ...
V16 -0.13992665 0.104285225 0.009624363 -0.117849889 0.087309408 ...
V17 -0.09263401 -0.007144761 -0.008586208 -0.157931781 0.119302616 ...
V13 V14 V15 V16 V17
V2 0.031271952 -0.118345565 -0.09241361 -0.139926650 -0.092634008
V3 0.006872933 0.138397868 0.02806065 0.104285225 -0.007144761
V4 0.006157417 0.032367012 0.00807632 0.009624363 -0.008586208
V5 0.025922133 0.002992101 -0.01515272 -0.117849889 -0.157931781
V6 -0.001540014 0.024934739 0.03526922 0.087309408 0.119302616
V7 -0.007474052 0.030877174 0.04988578 0.057599096 0.054552140
V8 0.052087254 0.114553326 0.03771915 0.043161098 -0.094566345
V9 0.004467101 0.029216712 -0.01694584 -0.028217303 -0.023747956
V10 0.074127171 0.132322482 0.05479351 0.025195736 -0.106219379
V11 0.122423448 0.114705826 0.08548316 0.011596760 -0.124323854
V12 0.018796432 -0.002470833 0.03232525 0.060653822 0.095368898
V13 0.246173403 0.066526000 0.05786995 -0.006192487 0.047342500
V14 0.066526000 0.130861397 0.05069499 0.029906942 -0.112831427
V15 0.057869950 0.050694988 0.08617801 0.034184690 -0.012120209
V16 -0.006192487 0.029906942 0.03418469 0.115038998 0.084987961
V17 0.047342500 -0.112831427 -0.01212021 0.084987961 0.485576272

A continuación realizaremos las opciones gráficas. La primer de ellas, será representar el gráfico biplot

> biplot(fac)

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 51

Figura 2.3: Gráfico bidimensional

y las gráficas bidimensionales de las cargas factoriales con la orden


> par(mfrow=c(3,1))
> for (i in 1:3){
+ plot(cargas2[,i],cargas2[,i+1])
+ text(cargas2[,i],cargas2[,i+1],labels=row.names(datos))}

Figura 2.4: Gráficos de las cargas factoriales

Por último representamos las puntuaciones factoriales de los individuos:


> par(mfrow=c(3,2))
> for (i in 1:3){

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 52

+ for(j in 1:4){
+ {plot(fac$x[,i],fac$x[,j])}
+ text(fac$x[,i],fac$x[,j],labels=row.names(fac$x))}}

Figura 2.5: Puntuaciones factoriales

Finalmente vamos a comprobar si la hipótesis del número de factores considerado es correcta. Para ello
recurriremos al paquete factanal:
> facmle<-vector("list",4)
> for (i in 1:4) {facmle<-factanal(datos,i)}
> facmle

Call:
factanal(x = datos, factors = i)

Uniquenesses:
V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12
0.665 0.599 0.527 0.545 0.005 0.129 0.113 0.149 0.005 0.684 0.572
V13 V14 V15 V16 V17
0.444 0.005 0.075 0.033 0.670
Loadings:
Factor1 Factor2 Factor3 Factor4
V2 -0.228 0.523
V3 0.516 0.184 0.295 -0.117
V4 0.373 0.224 0.519 -0.121
V5 0.324 0.547 -0.209
V6 0.970 -0.194
V7 0.868 -0.107 0.327
V8 -0.455 0.152 -0.789 -0.184

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 53

V9 -0.414 -0.773 -0.282


V10 -0.262 0.958
V11 -0.155 -0.517 -0.119 -0.101
V12 -0.110 -0.639
V13 0.689 -0.123 -0.257
V14 -0.256 0.959
V15 -0.509 0.801 0.127
V16 -0.313 0.927
V17 -0.461 0.271 0.195

Factor1 Factor2 Factor3 Factor4


SS loadings 3.752 2.505 2.323 2.206
Proportion Var 0.234 0.157 0.145 0.138
Cumulative Var 0.234 0.391 0.536 0.674

Test of the hypothesis that 4 factors are sufficient.


The chi square statistic is 89.7 on 62 degrees of freedom.
The p-value is 0.0123
Por lo que concluirı́amos que 4 factores son suficientes, aunque como hemos recordado la hipótesis de
normalidad no se cumple en este caso.

R. Gutiérrez-Sánchez, A. González
Apéndice A

Rotaciones Oblicuas en el Análisis


Factorial. Estructuras factorial y de
referencia. Criterios analı́ticos

Todo lo dicho anteriormente en las secciones 1.4 y 1.5 sobre la “rotación de factores” supone que las rota-
ciones son ortogonales, de modo que los nuevos factores F ∗ son ortogonales, como los primitivos F .

En la historia del Análisis Factorial, no obstante, se ha justificado por muchos autores, teóricos y prácticos,
que las rotaciones no tiene que ser obligatoriamente de tipo ortogonal y que en muchas situaciones prácticas
una rotación no ortogonal contribuye a obtener una interpretación más adecuada de la estructura factorial del
fenómeno.

Analizamos a continuación la posibilidad de efectuar rotaciones oblicuas y las repercusiones que ello tiene
en el Modelo de Análisis Factorial y en su interpretación.

Por tanto, renunciamos a obtener unos factores, F ∗ , rotados que sean incorrelados (ortogonales) y en su
lugar, relajando las condiciones de obtención de los factores rotados, planteamos la obtención de unos factores
(R) (R)
rotados correlados (es decir oblicuos), F1 , . . . , Fm , que siguen siendo combinaciones lineales de los primitivos
factores F1 , . . . , Fm , con varianzas la unidad. Los nuevos factores ası́ obtenidos, ya no verifican la ecuación del
modelo de Análisis Factorial ortogonal que venimos considerando, es decir, la ecuación:
m

 X
 X =µ + + l F , i = 1, . . . , p.
i i i ij ij
 j=1
Cov(F ) = I; Σ = LL0 + Ψ

El proceso de obtención de un tal conjunto de nuevos factores correlados se llama Rotación Oblicua.

El modelo ası́ rotado (oblicuamente) puede ser representado aún por la relación:
m
(R)
X
Xi = µi + cij Fj + i , i = 1, . . . , p
j=1

con
m
X
cij = lik qkj , i = 1, . . . , p; j = 1, . . . , m.
k=1

Lo que ocurre ahora, es que pudiendo ser los nuevos factores no ortogonales (correlados) el rango en el que
tomen valores los qij es más amplio, más general, que en el caso ortogonal.

54
Análisis Factorial 55

A.1. Métodos oblimin directos


Reciben este nombre los métodos analı́ticos que minimizan en las condiciones planteadas en una rotación
oblicua, la función objetivo:
m X m
" p p
! p !#
X X
2 2 γ X 2 X
2
G= cij cik − c cik
j=1 i=1
p i=1 ij i=1
k−1
j6=K

en donde γ tiene un rango, en este caso, de (−∞, 0], según sugiere Harman (1967) (página 336). Puede obser-
varse que esta función G, es la misma de la que se parte en las rotaciones ortogonales (véase sección 1.5.1). Lo
que ocurre es que en éste último caso, el rango de γ es de cero a uno, en lugar de (−∞, 0].

Cuanto más negativo sea γ, mayor correlación existirá entre los nuevos factores oblicuamente rotados.

Cuando γ = 0, el método que minimiza G se llama Cuartimin Directo, que es la versión oblicua equiva-
lente al método cuartimax en el caso ortogonal.

Como aquı́ los factores no son ortogonales, este criterio no es equivalente (como en el caso cuartimax) a
maximizar la varianza de los cuadrados de los factor loadings (ver sección 1.5.1).

A.2. Estructura factorial y estructura de referencia


Los métodos tipo Oblimin-directo para rotaciones oblicuas, no fueron históricamente hablando los primeros
que se desarrollaron en el Análisis Factorial. Es ası́ de interés revisar brevemente las ideas que guiaron en el
desarrollo histórico de esta cuestión de las rotaciones oblicuas. A este respecto conviene revisar los conceptos
de “Estructura Factorial” y “Estructura de Referencia” (introducida por Thurstone (1945)).

1. Se llama estructura factorial a la matriz p × m de las correlaciones entre las variables respuesta Xi y
(R)
los factores rotados Fj , j = 1, . . . , m. Obviamente si la rotación es ortogonal esta matriz coincide con
la de “factor loadings” (ver sección 1.5.1).
(R)
2. Asociado a cada factor rotado Fi , i = 1, . . . , m, se puede encontrar un factor Gi que sea incorrelado con
(R)
los restantes factores rotados Fj j = 1, . . . , m; j 6= i. Los factores G1 , . . . , Gm se dice que constituyen
(R) (R)
factores de referencia y se dice que son bi-ortogonales a F1 , . . . , Fm . Este concepto es debido a
(R)
Thurstone (1945). Obviamente si los factores rotados son ortogonales, entonces Gi = Fi , i = 1, . . . , m.
3. Se llama estructura factorial de referencia, a la matriz de coeficientes de correlación entre las variable
respuesta Xi , i = 1, . . . , p y los factores de referencia Gj ; j = 1, . . . , m. (o simplemente a dicha matriz
p × m se llama “estructura de referencia”). Obviamente, si la rotación es ortogonal y por tanto los
factores rotados son incorrelados, entonces ocurre que la estructura factorial de referencia coincide con
la estructura factorial (y esta con la matriz de los factor loading).
Dado este planteamiento general, las rotaciones ortogonales pretenden encontrar la “estructura factorial mas
simple”. En cambio, las rotaciones oblicuas buscan la “estructura de referencia más simple”. En consecuencia,
una rotación oblicua busca minimizar la siguiente función objeto:
m X m
" p p
! p !#
X X
2 2 γ X 2 X
2
G= vij vik − v vik
j=1 i=1
p i=1 ij i=1
k=1
j6=K

siendo vij la correlación entre [Xi ; Gj ]; con γ = [0, 1].

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 56

Los métodos analı́ticos que buscan la minimización indicada se llaman en general Métodos Oblimin In-
directos u Oblimin métodos, simplemente.

Es claro que los métodos que antes hemos llamado Oblimin directos, están relacionados con estos a través
de
vij = dj cij , dj = cte, i = 1, . . . , p; j = 1, . . . , m.
Cuando en la función G anterior, γ = 0, se obtiene el Método Indirecto Cuartimin; cuando γ = 1
estamos ante el Método Covarimin Indirecto;, y si γ = 12 se habla del Método Bi-cuartimin Indirecto.

Puede verse en Harman (1967) (pp 326) , que si γ = 0 los ejes rotados, son más oblicuos y si γ = 1 son
menos oblicuos.

A.3. Aplicaciones
Las rotaciones oblicuas son ampliamente utilizadas en las aplicaciones del Análisis Factorial en muchos
campos cientı́ficos. Los ejercicios de aplicación requieren una detallada discusión “ad hoc” a cada ejemplo.
En realidad las rotaciones oblicuas, empleadas cuando los giros ortogonales no producen resultados claros y
definitivos, conducen en muchos casos a “factores de referencia” (antes definidos) que una vez obtenidos, son de
difı́cil interpretación real pero que constituyen la base de análisis posteriores de muchas situaciones prácticas.
Por tanto, conviene en una fase formativa en Análisis Factorial, conocer ejemplos paradigmáticos que ayuden
al futuro estadı́stico profesional a adquirir habilidades en el manejo de los citados factores de referencia y de
su utilidad posterior.

Entre los muchos ejemplos reales bien conocidos en los que es de interés un Análisis Factorial oblicuo,
citamos los siguientes incluidos en importantes textos de Técnicas Multivariantes.

Afifi and Azen (1979) (pp. 330-339) estudian un caso de 13 variables medidas en una UVI a 113 pacientes
en estado crı́tico. Utiliza, en particular, el criterio quartimin directo para los giros oblicuos.

Basilewsky (1994) (ejemplo 6.5) también utiliza un ejemplo paradigmático (datos de Still, 1977) estudiado
por varios autores, sobre 181 pacientes con artritis reumatoide, mediante giros oblicuos, discutiendo los factores
de referencia obtenidos.

También Basilewsky (1994) (pp. 411-414), considera un buen ejemplo, en el que se clasifican respecto a
dos factores oblicuos 52 paı́ses en función de 20 variables socioeconómicas. Es un interesante ejemplo porque
establece una metodologı́a basada en Análisis Factorial oblicuo para construir un “ranking” de paı́ses respecto,
por ejemplo, su estado de desarrollo.

Casos “históricos” en el campo de la Geologı́a y Biologı́a (Sedimentologı́a, Estratigrafı́a, Paleontologı́a,


Ecologı́a, etc.) de giros ortogonales y oblicuos, pueden consultarse en Reyment and Jöreskog (1993) (cap. 8).

R. Gutiérrez-Sánchez, A. González
Apéndice B

El Modelo de Análisis Factorial


ortogonal de Lawley-Maxwell:
Estimación máximo-verosı́mil y
contrastes de hipótesis

A continuación consideramos algunas cuestiones básicas del Modelo de Análisis Factorial de Lawley-Maxwell
basado en la hipótesis de normalidad multivariante de X, F y . Concretamente se consideran: La estimación
de Modelo de Análisis Factorial Ortogonal, por Máxima Verosimilitud, obteniéndose las ecuaciones satisfechas
por Λ̂ y Ψ̂. Después se consideran una serie de cálculos que conduce a un conjunto de resultados que permiten
obtener una adecuada expresión de la verosimilitud que, junto con otros resultados, permiten la obtención
de los contrastes de hipótesis de existencia de factores comunes y del número adecuado de ellos. Esta última
cuestión, crucial en el Análisis Factorial de Lawley-Maxwell es tratada también con detalle a partir del cociente
de verosimilitudes.

B.1. Estimadores de Máxima Verosimilitud


En el método de máxima verosimilitud de extracción de factores desarrollado en la sección 1.3.4, se supone
que el vector p-dimensional de respuestas observadas, X, tiene una distribución Np (µ; Σ) no singular con media
µp , y covarianza Σ = Λ Φ Λ0 + Ψ. La matriz Λp×m tiene m factores comunes, donde m ha sido especificado
antes de la extracción de los factores estimados. Veamos a continuación el proceso de estimación de Máxima
Verosimilitud de µ, Λ y Ψ.

B.1.1. Estimador de µ y de Σ de una Np (µ; Σ)


Vamos a imponer en Φ y en Λ unas condiciones para hacerlas perfectamente identificadas (lo cual no es
ninguna restricción para Λp×m Φm×m Λ0m×p que es una matriz definida positiva de rango m). Por convenien-
cia supondremos que Φ = Im×m , por ejemplo, los factores son ortogonales o incorrelados, y que Γm×m =
Λ0m×p Ψ−1
p×p Λp×m es una matriz diagonal. Entonces la verosimilitud va a depender de la media µ y de la matriz
de varianzas-covarianzas Σp×p = Λ Λ0 + Ψ . Los estimadores de máxima verosimilitud (en adelante E.M.V.)
de Λ y Φ bajo cualesquiera otras condiciones que permitan una perfecta identificación, como por ejemplo
Λ = (Im , Λ02 )0 , son transformaciones de los E.M.V. de Λ bajo las condiciones precedentes.

Si X1 , . . . , XN son un conjunto de N observaciones en X, la función de verosimilitud de la muestra es:


N
!
− 21 pN − 21 N 1X 0 −1
L(Xα /µ; Σ) = (2π) |Σ| exp − (Xα − µ)1×p Σp×p (Xα − µ)p×1 . (B.1)
2 α=1

57
Análisis Factorial 58

El E.M.V. de µ será el E.M.V. de una población Np (µ; Σ).

Vamos a operar en esa expresión.

La traza de un escalar es el propio escalar, y tr(CD) = tr(DC) y tr(C + D) = tr(C) + tr(D) para C y D
matrices.
N
X
Vamos a razonar en (Xα − µ)01×p Σ−1
p×p (Xα − µ)p×1 .
α=1

N X 
X
0 −1
0  
(Xα − µ) Σ (Xα − µ) = tr Xα − µ 1×p Σ−1 Xα − µ =
p×1
α=1

al ser escalar
N  N
X  X  
tr (Xα − µ)0 Σ−1 (Xα − µ) = tr Σ−1 (Xα − µ)(Xα − µ)0 =
α=1 α=1

N
! N
!
X X
−1 0 −1 0

tr Σ (Xα − µ)(Xα − µ) = tr Σ (Xα − µ)(Xα − µ) · [R]
α=1 α=1

Para continuar, necesitamos el siguiente Lema:


Lema 1. Supongamos una muestra aleatoria independiente X1 , . . . , XN con cada Xi vector de columnas p-
dimensional. Sea el vector de medias muestrales X̄ = (X̄1 , . . . , X̄p )0 de dimensión p × 1. Entonces ∀ bp×1 vector
columna, es cierto que:
N
X N
X
(Xα − b)(Xα − b)0p×p = (Xα − X̄)(Xα − X̄)0p×p + N (X̄ − b)p×1 (X̄ − b)0 .
α=1 α=1

Demostración. Sumamos y restamos X̄ a Xα − b;


N 
X   0
(Xα − X̄) + (X̄ − b) (Xα − X̄) + (X̄ − b) =
p×1 1×p
α=1
N 
X 
(Xα − X̄)(Xα − X̄)0 + (Xα − X̄)(X̄ − b)0 + (X̄ − b)(Xα − X̄)0 + (X̄ − b)(X̄ − b)0 =
α=1
N
X
(Xα − X̄)(Xα − X̄)0 + N (X̄ − b)(X̄ − b)0
α=1

(ya que los dos términos intermedios son cero al quedar en ambos casos un factor (X̄ − X̄)).
Si aplicamos a la expresión anterior [R] el Lema 1 con b = µ, nos queda (desarrollando dentro de exp):
N
!!!
1 −1
X
0 0
L(Xα /µ; Σ) = K exp − tr Σ (Xα − X̄)(Xα − X̄) + N (X̄ − µ)(X̄ − µ)
2 α=1

N
X
y si denotamos A = (Xα − X̄)(Xα − X̄)0 queda (con L(Xα ) = K exp(− 21 T )).
α=1

T = tr Σ−1 A + tr Σ−1 N (X̄ − µ)(X̄ − µ)0 .


 

Si sacamos N en el último término, queda:

tr Σ−1 (X̄ − µ)(X̄ − µ)0 = tr (X̄ − µ)01×p (Σ−1 (X̄ − µ))p×1


   

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 59

que es la traza de un escalar, con lo que es el propio escalar. Por tanto:


0
T = tr Σ−1 A) + N (X̄ − µ Σ−1 (X̄ − µ)

y por consiguiente
 
− 1 N 1 N
L(X1 , . . . , XN /µ; Σ) = (2π)p |Σ| 2 exp − tr(Σ−1 A) − (X̄ − µ)0 Σ−1 (X̄ − µ)
2 2

y si calculamos ln L(xα /µ; Σ) nos queda
  N N 1 N
ln L(xα /µ; Σ) = −p ln(2π) − ln |Σ| − tr(Σ−1 A) − (X̄ − µ)0 Σ−1 (X̄ − µ).
2 2 2 2
Los E.M.V. son las soluciones µ, Σ que maximizan la expresión anterior en virtud del hecho de pertenecer la
Np (µ; Σ) a la familia exponencial. Por tanto, hay que obtener M ax ln L. Una forma de obtenerlos, es resolver
µ;Σ
el sistema de ecuaciones
 
∂ ln L ∂ ln L
= 0; =0 .
∂µ ∂Σ
Vamos a maximizar en µ sin derivar. Para ello, veamos el valor de µ que maximiza la expresión obtenida
anteriormente (para lo cual es necesario que Σ sea definida positiva, lo cual se verifica por hipótesis).

Σ definida positiva ⇒ Σ−1 es definida positiva ⇒ (X̄ − µ)0 Σ−1 (X̄ − µ) ≥ 0 ∀ (X̄ − µ)
y tan sólo se anulará si (X̄ − µ) = 0 ⇒ X̄ = µ.

Fijado N , 21 pN ln(2π) es fijo. Y si queremos actuar tan sólo en µ; N


2 ln |Σ| y tr(Σ−1 A) no influyen en la
expresión. Ası́ pues el
M axp L(µ; Σ)
µ∈R

se alcanza donde se anule


N
(X̄ − µ)0 Σ−1 (X̄ − µ)
2
dado que es una cantidad mayor o igual que cero, como ha quedado visto, y en la expresión que queremos ma-
ximizar aparece con un signo menos delante. Toda la dependencia de µ está aquı́. Luego L(µ; Σ) será máximo
si eso es mı́nimo, y al ser Σ (y por tanto Σ−1 ) definida positiva su valor mı́nimo es cero; el cual se alcanza tan
sólo si X̄ = µ.

El máximo alcanzado es
N 1
−2−1 pN ln(2π) − ln |Σ| − tr(Σ−1 A).
2 2
Por tanto, el estimador máximo verosı́mil de µ, que denotaremos µ̂, es X̄.

En cuanto al E.M.V. de Σ, sin restricciones sobre Σ (véase Gutiérrez and Gónzalez (1991)) resulta ser
A A
Σ̂ = N , con A la matriz de dispersión de la muestra. Por tanto, el máximo de ln L en (X̄; N ) tiene la expresión:
   −1 !
A pN N A 1 A
M ax ln L = ln L X̄; =− ln(2π) − ln − tr A (B.2)
µ;Σ N 2 2 N 2 N
 −1  
siendo 12 tr A
N A = − N2p y por tanto:

      − N
A pN N p A 2
M axL = L X̄; = exp − ln(2π) exp − .
µ;Σ N 2 2 N

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 60

B.1.2. Estimadores de Máxima Verosimilitud de Σ, según el Análisis Factorial


Vamos a maximizar el ln de la ecuación B.1 según la fórmula hallada explı́citamente con anterioridad:
1 N 1 N
ln L(x/µ; Σ) = − pN ln(2π) − ln |Σ| − tr(Σ−1 A) + (X̄ − µ)0 Σ−1 (X̄ − µ). (B.3)
2 2 2 2
En nuestro caso
1 N 1   N
ln L = − pN ln(2π) − ln |ΛΛ0 + Ψ| − tr (ΛΛ0 + Ψ)−1 A + (X̄ − µ)0 Σ−1 (X̄ − µ).
2 2 2 2
Para simplificar maximizaremos con µ sustituida por su E.M.V. µ̂ = X̄ es decir, maximizaremos ln L(Σ; X̄),
que tiene la forma:
1 N 1 
ln |ΛΛ0 + Ψ| − tr (ΛΛ0 + Ψ)−1 A .

ln L = − pN ln(2π) −
2 2 2
∂ ln L
Por tanto hay que obtener la ecuación: = 0 con Σ = ΛΛ0 + Ψ.
∂Σ

Derivada parcial con respecto Ψ


∂ ln L
Vamos a calcular , con ψii perteneciente a la diagonal de Ψ, (i = 1, . . . , p). Recordemos que en Análisis
∂ψii
Factorial ortogonal, Σ = ΛΛ0 + Ψ. Es decir:
 
σ11 · · · σ1p
Σ =  ... .. ..  =

. . 
σp1 ··· σpp
 
   ψ11
λ11 ··· λ1m λ11 ··· λp1
.. ..   ..

..  +  ψ22 
 .. .. =

 . . .  . . .   ..
 . 
λp1 ··· λpm λ1m ··· λpm
ψpp
m m m
 
X X X
2
λ λ1k λ2k ··· λ1k λpk  
ψ11

 k=1 1k

k=1 k=1


.. .. ..
  ψ22 
=
 .. 
+
 

 m . . . .  .. 
 X m m


 . 
X X
 λpk λ1k λpk λ2k ··· 2
λpk  ψpp p×p
k=1 k=1 k=1 p×p
 m
X
λ2ik + ψii




 σii =

 k=1


 m
X

 σij = λik λjk



k=1

Ası́ pues:

∂ − 21 pN ln(2π) 1
∂ 2−1 tr(Σ−1 A)
  
∂ ln L ∂ 2N ln |Σ|
= − −
∂ψii ∂ψii ∂ψii ∂ψii
Veamos cuanto vale cada uno de sus tres términos.

En primer lugar, la primera derivada parcial del segundo miembro es cero, ya que no aparece en ella ningún
ψii . Por otra parte
∂ 2−1 N ln |Σ|

N ∂ ln |Σ| N
= = σ ii ; con σ ii ∈ Σ−1 .
∂ψii 2∂ψii 2

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 61

Según el resultado CDM.2 con X = Σ; xij = ψii (∈ Σ). También se puede ver aplicando el mismo resultado
a Σ descompuesta en suma de dos matrices; ya que por la forma que adopta σii se puede descomponer en Puna
matriz igual a Σ salvo que en el lugar σii aparezca ψii , y otra de ceros salvo en el lugar ii donde estará λ2ik
(con lo que la derivada de esta segunda matriz será cero).
N
1 1 X 0
Si C = N −1 A; (C = (cij )) =

A= Xα − X̄ Xα − X̄ :
N N α=1
 
∂ 1 ∂ 1 ∂  N ∂
trAΣ ) = 2−1
−1
tr(AΣ−1 ) = tr N CΣ−1 = tr CΣ−1 =

∂ψii 2 ∂ψii 2 ∂ψii 2 ∂ψii
N −1
Σ CΣ−1 por CDM.3

=−
2
Y si Σ−1 = (σ ij )
p
N −1 −1 N X
− (Σ CΣ )ii = − ckj σ ji σ ik
2 2
k,j=1

Por tanto:  
p
∂ ln L N  ii X
=− σ − ckj σ ji σ ik 
∂ψii 2
k,j=1

Para hallar el máximo, y en notación matricial, tenemos que igualar toda esa expresión a cero
 
∂ ln L N 
=− diag(Σ−1 ) − diag(Σ−1 CΣ−1 ) = 0 ⇒
∂ψii i=1,...,p 2

⇒ diag(Σ−1 ) = diag Σ−1 CΣ−1 )




(donde diag(H) indica los términos de la diagonal de la matriz H).

Equivalentemente:
diag Σ−1 (Σ − C)Σ−1 = diag(0p×p ).

(B.4)

Derivadas parciales respecto de Λ.


La derivada parcial de B.3 respecto de λkt es
 
∂ ∂ 1 1 ∂ 1 ∂
tr AΣ−1

ln L = − pN ln(2π) − N ln |Σ| −
∂λkt ∂λkt 2 2 ∂λkt 2 ∂λkt

Vamos a calcularlo
 
∂ 1
a) − pN ln(2π) = 0.
∂λkt 2
1 ∂ ∂ ∂ ln |Σ| ∂|Σ|
b) N ln |Σ| = por regla de la cadena ln |Σ| =
2 ∂λkt ∂λkt ∂λkt ∂λkt

Y por uno de los corolarios de la proposición CDM.4, al ser λkt escalar, y Σ no singular:
 
∂|Σ| −1 ∂Σ
= |Σ|tr Σ .
∂λkt ∂λkt

Y por ser |Σ| un escalar:


∂ ln |Σ| 1
= .
∂λkt |Σ|

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 62

Por tanto   p
∂ ln |Σ| −1 ∂Σ 1 X
= tr Σ |Σ| =2 σ kj λjt
∂λkt ∂λkt |Σ| j=1

∂Σ
al ser Σ simétrica. (Nota: posteriormente calcularemos de un modo explı́cito).
∂λkt

Es decir:
p p
1 ∂ 1 X X
− ln |Σ| = − N 2 σ kj λjt = −N σ kj λjt .
2 ∂λkt 2 j=1 j=1

c)
1 ∂ ∂
tr AΣ−1 = ( por resultado CDM.3) = tr AΣ−1 =
 

2 ∂λkt ∂λkt
−1
     
∂Σ −1 ∂Σ −1 −1 −1 ∂Σ
tr A = (por resultado CDM.1) = tr −AΣ Σ = tr −Σ AΣ
∂λkt ∂λkt ∂λkt
∂Σ
Vamos a utilizar ahora el cálculo de partiendo del resultado de CDM.4
∂λkt
 
0 ··· ··· λ1t ··· 0
 .. .. 
 . λ2t . 
∂Σ  
∂λkt  λ1t λ2t · · ·
= λkt ··· λpt .
 . .. .. 
 .. . . 
0 ··· ··· λpt ··· 0

Por tanto
    p
−1 ∂Σ −1 ∂Σ
X
−1 −1
tr −Σ N CΣ = −N tr Σ CΣ = −N σ kh chg σ gj λjt
∂λkt ∂λkt
h,g,j=1

(con k = 1, . . . , p; t = 1, . . . , m ).

Por tanto, la expresión conjunta queda:


 
p p  
∂ X
kj
X
kh gj k = 1, . . . , p
ln L = −N  σ λjt − σ chg σ λjt  con .
∂λkt t =, 1, . . . , m
j=1 h,g,j=1

Y en notación matricial, derivando respecto de Λ queda


1 ∂
− N ln |Σ|
2 ∂Λ
(por el resultado CDM.5 y al ser Σp×p = Λp×m Im×m Λ0m×p con B = I; X 0 = Λ; X = Λ0 ) se obtiene:

∂ −1 0
ln |Σ| = Im×m Λ0m×p Σ−1 0

p×p + Im×m Λm×p Σ p×p
=
∂Λ
0
Λ0 Σ−1 + Λ0 Σ−1 = 2Λ0 Σ−1 = 2 Σ−1 Λ = 2Σ−1 Λ
al ser Σ−1 simétrica.

Luego:
1 ∂ 1
− N ln |Σ| = − N 2Σ−1 Λ = N Σ−1 Λ
2 ∂Λ 2

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 63

 
∂ −1 −1 ∂Σ −1
tr(N CΣ ) = −N tr CΣ Σ
∂Λ ∂Λ
y al ser
∂Σ
Σ = ΛΛ0 + Ψ , = 2Λ
∂Λ
con lo que
∂ 1 ∂
tr(N CΣ−1 ) = −2N Σ−1 CΣ−1 Λ ⇒ − tr(AΣ−1 ) = N Σ−1 CΣ−1 Λ
∂Λ 2 ∂Λ
e igualando a cero esa expresión matricial tenemos:
∂ ln L
= 0 ⇒ −N Σ−1 Λ + N Σ−1 CΣ−1 Λ = 0 ⇒
∂Λ
⇒ N Σ−1 Λ = N Σ−1 CΣ−1 Λ ⇒ Σ−1 Λ = Σ−1 CΣ−1 Λ. (B.5)

Por tanto B.4 y B.5 constituyen las ecuaciones que han de verificar los estimadores de máxima verosimilitud
buscados, en Λ y Ψ a través de Σ = ΛΛ0 + Ψ.
Nota 18 (Algunas reglas de cálculo diferencial matrical (CDM) utilizadas en la sección B.1.2).

∂X −1 ∂X −1
CDM.1: = −X −1 X suponiendo que existe X −1 y que X depende de una función escalar de
∂θ ∂θ
elementos de X.
∂ ln |X|
CDM.2: = (X −1 )0 , supuesto que existe X −1 .
∂X
∂tr(AX −1 )
CDM.3: = −(X −1 AX −1 )0 ; A simétrica.
∂X
Si A y X son simétricas,

tr(AX −1 ) = −2(X −1 AX −1 )ij ; i 6= j
xij

tr(AX −1 ) = −(X −1 AX −1 )ii .
xii
 
∂|A| ∂A
CDM.4: = |A|tr B ; α escalar, B = A−1 .
∂α ∂α
∂ ln |A|
CDM.5: Si A es no singular = BXA−1 + B 0 XA0−1 ; con B tal que A = X 0 BX.
∂X

B.1.3. Obtención de las ecuaciones cuya solución son los E.M.V.


A continuación se efectúan una serie de cálculos que permiten expresar las ecuaciones B.4 y B.5 de manera
más adecuada para su resolución.

Por tanto, además de lo anterior, tenemos:

Σp×p Ψ−1 0
p×p Λp×m = (ΛΛ + Ψ)Ψ
−1
Λ = ΛΛ0 Ψ−1 Λ + ΨΨ−1 Λ =

Λp×m Γm×m + Λp×m = Λp×m (Γm×m + Im×m ). (B.6)


Es decir ΣΨ−1 Λ = Λ(Γ + I), con Γ = Λ0 Ψ−1 Λ.

Multiplicando a la izquierda en la expresión de arriba, queda:

Ψ−1
p×p Λp×m = Σp×p Λp×m (Γ + I)m×m .

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 64

Y multiplicando a la derecha por (Γ + I)−1 nos queda:

Ψ−1
p×p Λp×m (Γ + I)m×m = (Σ
−1
Λ)p×m . (B.7)

Multiplicando B.5 por Σ queda:

Σp×p Σ−1
p×p Λp×m = (ΣΣ
−1
C)p×p Σ−1
p×p Λp×m ⇒ Λ = CΣ
−1
Λ

pero por la expresión de Σ−1 Λ obtenida en B.7 nos queda:

Λ = CΨ−1 Λ(Γ + I)

Y multiplicando por la derecha por (Γ + I) nos queda:

Λ(Γ + I) = CΨ−1 Λ (B.8)

O bien, desarrollando esa expresión:

ΛΓ + Λ = CΨ−1 Λ ⇒ ΛΓ = CΨ−1 Λ − Λ =

(CΨ−1
p×p − Ip×p )Λp×m = (CΨ
−1
− ΨΨ−1 )Λ = (C − Ψ)Ψ−1 Λ.
Luego:
ΛΓ = (C − Ψ)Ψ−1 Λ ⇒ Λ(Γ + I) = CΨ−1 Λ. (B.9)
Vamos a seguir haciendo operaciones con las matrices. Ahora queremos demostrar que

Σ−1 − Σ−1 CΣ−1 = Σ−1 ΣΣ−1 − Σ−1 CΣ−1 = Σ−1 (Σ − C)Σ−1

es igual a:
Ψ−1 (Σ − C)Ψ−1
cuando B.5 es cierto. Vamos a empezar para ello multiplicando Ψ−1 (Σ − C)Ψ−1 por Σ a derecha e izquierda

ΣΨ−1 (Σ − C)Ψ−1 Σ = (ΛΛ0 + Ψ)Ψ−1 (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) =

(ΛΛ0 Ψ−1 + Ip×p )(ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) =


ΛΛ0 Ψ−1 (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) (Y ) + + (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) (W ) (= N )
   

Vamos a proceder operando en ambos sumandos, (Y ) y (W ).

(Y ) ΛΛ0 Ψ−1 (ΛΛ0 + Ψ + C)Ψ−1 (ΛΛ0 + Ψ).

Veamos previamente uno de los factores en que se descompone ese producto.

ΛΛ0 Ψ−1 (ΛΛ0 + Ψ − C) = ΛΛ0 Ψ−1 ΛΛ0 + ΛΛ0 − ΛΛ0 Ψ−1 C =

ΛΓΛ0 + ΛIm×m Λ0 − ΛΛ0 Ψ−1 C = Λ (Γ + I)Λ0 − Λ0 Ψ−1 C .


 

Y por fórmula B.8 Λ(Γ + I) = CΨ−1 Λ. Luego

Λ (CΨ−1 Λ)0 − (Λ0m×p Ψ−1


 0 −1
C)m×p − (Λ0 Ψ−1 C) = 0p×p
  
p×p C) = Λp×m (Λ Ψ

(C 0 = C al ser simétrica).

Por tanto, el sumando (Y ) vale 0.

(W ) (ΛΛ0 + Ψ − C)Ψ−1 (ΛΛ0 + Ψ) = (ΛΛ0 + Ψ − C)(Ψ−1 ΛΛ0 + Ip×p ) =

ΛΛ0 Ψ−1 ΛΛ0 + ΛΛ0 − CΨ−1 ΛΛ0 + ΛΛ0 + Ψ − C = ( por B.8 CΨ−1 Λ = Λ(Γ + I))
 

ΛΓΛ0 + ΛIm×m Λ0 − Λ(Γ + I)Λ0 + ΛΛ0 + Ψ − C = Λ [(Γm×m + Im×m ) − (Γ + I)] Λ0 + ΛΛ0 + Ψ − C =

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 65

Λ0m×m Λ0 + ΛΛ0 + Ψ − C = 0p×p + ΛΛ0 + Ψ − C = Λp×m Λ0m×p + Ψp×p − Cp×p


Por tanto:
ΣΨ−1 (Σ − C)Ψ−1 Σ = Ψ + ΛΛ0 − C = Σ − C. (B.10)
−1
Ası́ (multiplicando en ambos miembros a la derecha y a la izquierda por Σ )

Ψ−1 (Σ − C)Ψ−1 = Σ−1 (Σ − C)Σ−1 .

Entonces
diag Σ−1 = diag Σ−1 CΣ−1 ⇔ diag Σ−1 (Σ − C)Σ−1 = diag 0
es equivalente, al ser Ψ diagonal a

diag(ΛΛ0 + Ψ) = diag C (B.11)


ya que diag(Ψ−1 ΣΨ−1 − Ψ−1 CΨ−1 ) = diag 0 ⇒ diag Σ = diag C.

Ası́ pues, las ecuaciones para los estimadores de máxima verosimilitud de Λ y Ψ , Λ̂ y Ψ̂ son las siguientes:

 Λ(Γ + I) = CΨ−1 Λ

diag(ΛΛ0 + Ψ) = diag C
 0 −1
Λ Ψ Λ diagonal
En la primera ecuación se respetan las dimensiones, ya que se puede ver que ambas son p × m, ası́ como la
segunda y la tercera son ambas matrices cuadradas, la segunda de orden p × p en ambos miembros, y la tercera
de orden m × m.

B.2. Cálculos sobre las ecuaciones de B.1.3 y obtención de la vero-


similitud maximizada
1
Podemos multiplicar B.9 por la izquierda por Ψ−( 2 ) y nos queda:
1 1 1 1 1 1
Ψ− 2 (C − Ψ)Ψ−1 Λ = Ψ− 2 ΛΓ ⇒ Ψ− 2 (C − Ψ)Ψ− 2 (Ψ− 2 Λ) = (Ψ− 2 Λ)Γ
1
lo que prueba que las columnas de Ψ− 2 Λ son vectores propios de
1 1 1 1
Ψ− 2 (C − Ψ)Ψ− 2 = Ψ− 2 CΨ− 2 − Ip×p

y los correspondientes elementos de la diagonal de Γ son los valores propios.

1 1 1 1
Nota 19. De hecho, los vectores propios de Ψ− 2 CΨ− 2 − I son los vectores propios de Ψ− 2 CΨ− 2 porque
1 1 1 1
(Ψ− 2 CΨ− 2 − I)x = γx es equivalente a Ψ− 2 CΨ− 2 x = (1 + γ)x.•
Los vectores son normalizados porque
1 1
(Ψ− 2 Λ)0 (Ψ− 2 Λ) = ΛΨ−1 Λ = Γ.

Las raı́ces caracterı́sticas son escogidas para que maximicen la verosimilitud.

Para evaluar la función de máxima verosimilitud, calcularemos:


h i
tr(C Σ̂−1 ) = tr(C Σ̂−1 I) = tr C Σ̂−1 [(Σ̂ − Λ̂Λ̂0 )Ψ̂−1 ] =
h i h i
tr C Σ̂−1 Σ̂Ψ̂−1 − C Σ̂−1 Λ̂λ̂0 Ψ̂−1 = tr C Ψ̂−1 − (C Σ̂−1 Λ̂)(Λ̂0 Ψ̂−1 ) = (G)
Por B.5
Σ̂−1 Λ̂ = Σ̂−1 C Σ̂−1 Λ̂ ⇒ Σ̂Σ̂−1 Λ̂ = Σ̂Σ̂−1 C Σ̂−1 Λ̂ ⇒ Λ̂ = C Σ̂−1 Λ̂

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 66

y h i
(G) = tr C Ψ̂−1 − Λ̂Λ̂0 Ψ̂−1 = (H).

Y por el hecho de que diag(Λ̂Λ̂0 + Ψ̂) = diag C y dado que Ψ es diagonal


h i h i
(H) = tr (Λ̂Λ̂0 + Ψ̂)Ψ̂−1 − Λ̂Λ̂0 Ψ̂−1 = tr Λ̂Λ̂0 Ψ̂−1 + I − Λ̂Λ̂0 Ψ̂−1 = tr [Ip×p ] = p.
En resumen: h i
tr(C Σ̂−1 ) = tr C(Ψ̂ + Λ̂Λ̂0 )−1 = p. (B.12)
Seguidamente encontramos, y dado que
1 1 1 1
Σ = ΛΛ0 + Ψ = Ψ 2 (Ψ− 2 ΛΛ0 Ψ− 2 + Ip )Ψ 2 y Σ̂ es E.M.V.
entonces 1 1
1 1
|Σ̂| = Ψ̂ 2 Ψ̂− 2 Λ̂Λ̂0 Ψ̂− 2 + Ip Ψ̂ 2

lo que es igual, por resultados matriciales conocidos a


p m
− 12 − 21
Y Y
|Ψ̂| Λ̂0m×p Ψ̂p×p Ψ̂p×p Λ̂p×m + Im = |Ψ̂||Γ̂m + Im | = ψii (γj + 1)

i=1 j=1

ya que ambas son diagonales.

Del hecho visto anteriormente de que las raı́ces caracterı́sticas de


1 1
Ψ− 2 (C − Ψ)Ψ− 2
son los valores γ1 > γ2 > . . . . . . > γp de 0 = |C − Ψ − γΨ| = |C − (1 − γ)Ψ| tenemos
p
C Y
= (1 + γi )
|Ψ̂| i=1
1 1 1 1
Nota 20. Los valores 1 + γi de Ψ− 2 CΨ− 2 son positivos. Las raı́ces γi de Ψ− 2 (C − Ψ)− 2 en cambio, no son
necesariamente positivas. Usualmente, incluso, serán negativas.•
Entonces: Q
|C| j∈S (1 + γ̂j ) |C|
|Σ̂| = Qp =Q (B.13)
i=1 (1 + γ̂ j ) / (1 + γ̂j )
j ∈S

donde S es el conjunto de ı́ndices correspondientes a las raı́ces en Γ̂.

Por tanto, el logaritmo de la función de verosimilitud maximizada, serı́a:


pN N 1
ln L(X̄; Σ̂) = − ln(2π) − ln |Σ̂| − tr(Σ̂−1 A) = según B.12
2 2 2

pN N |C| pN
− ln(2π) − ln Q − =

2 2 j ∈S / (1 + γ̂ )
j 2
1 1 1 X 1
− pN ln(2π) − N ln |C| + N ln(1 + γ̂j ) − N p (B.14)
2 2 2 2
j ∈S
/

donde el último término corresponde a la tr(CΣ−1 ); y el segundo y tercero al ln |Σ̂| = ln |C| −


Q
j ∈S
/ ln(1 + γ̂j ).

Las raı́ces mayores, γ̂1 > γ̂2 > . . . > γ̂m deben ser seleccionadas para los elementos de la diagonal de Γ̂.
Entonces S = (1, . . . , m). El logaritmo de la verosimilitud (ecuación B.3) es una función de Σ = ΛΛ0 + Ψ. Esta
matriz es definida positiva para cada Λ y cada matriz diagonal Ψ que es definida positiva.

Es también definida positiva para alguna matriz Ψ diagonal, que no sea definida positiva. Por tanto, no es
necesario un máximo relativo para Ψ definida positiva. Además, la función de verosimilitud concentrada puede
incrementarse de modo que uno o más elementos de la matriz diagonal Ψ se aproximen a 0. En ese caso, las
ecuaciones derivadas pueden no ser satisfechas por Ψ definida positiva.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 67

B.3. Notas sobre la resolución de las ecuaciones de Máxima Vero-


similitud
Las ecuaciones para los estimadores:

(C − Ψ)Ψ−1 Λ = ΛΓ


diag(ΛΛ0 + Ψ) = diagC

pueden ser escritas como ecuaciones polinomiales. Ası́:


p
Y
|Ψ|(C − Ψ)Ψ−1 Λ = |Ψ|ΛΓ y |Ψ| = ψii
i=1

pero no se puede resolver directamente. Hay, no obstante, varios procedimientos iterativos para encontrar el
máximo de la función de verosimilitud, de los cuales hablaremos con posterioridad.

Como puede no haber un máximo relativo en la región para la cual ψii > 0, i = 1, . . . , p; un método
iterativo puede definir una sucesión de valores de Λ̂ y Ψ̂ que incluye ψ̂ii < 0 para algunos ı́ndices i. Pero
tales valores negativos son inadmisibles ya que ψii se interpreta como la varianza de un error. Se puede poner
la condición de que ψii > 0 (i = 1, . . . , p). Entonces el máximo puede suceder en el lı́mite, y no todas las
ecuaciones derivadas lo satisfarán.

Para algunos ı́ndices i, la varianza estimada del error es cero; es decir, algunas puntuaciones de test son
exactamente combinación lineal de los factores. Si las condiciones de identificación Φ = Im y Λ0 Ψ−1 Λ diagonal
son omitidas, podemos encontrar un sistema coordenado para los factores tales que las puntuaciones de los test
con varianza del error igual a cero pueden ser interpretadas como puntuaciones de los factores (transformados).

Una alternativa a requerir que los ψii sean positivos, es pedir que estén fuera de un entorno de cero. Una
posibilidad es que ψii ≥ εσii para ε pequeño, por ejemplo 0,005. Naturalmente, el valor de ε es arbitrario.
Incrementando ε decrecerá el valor del máximo si éste no está en el interior de la región restringida, y no todas
las ecuaciones derivadas lo satisfarán.

La naturaleza de la verosimilitud concentrada es tal, que más de un máximo relativo es posible. Tal máximo,
que será aproximado por un procedimiento iterativo, dependerá de los valores iniciales. Ası́, Rubin and Tha-
yer (1982) han dado un ejemplo de tres conjuntos de estimadores, desde tres diferentes estimaciones iniciales,
usando el algoritmo EM (Expectación-Maximización). Este algoritmo es un posible dispositivo computacional
para los E.M.V..

La idea consiste en tratar a las f no observables como valores “missing”. Bajo las hipótesis de que f y U
tienen una distribución normal conjunta, los estadı́sticos suficientes son las medias y las covarianzas de la x y las
f . La etapa E del algoritmo es obtener lo que se espera de las covarianzas en base a los valores experimentados
de los parámetros. El paso M es maximizar la función de verosimilitud en base a esas covarianzas. Este paso
nos proporciona valores anteriores de los parámetros. Las etapas se alternan, y usualmente el procedimiento
converge a los E.M.V..

Como ya vimos, los “factor score” son invariantes bajo los cambios en la unidad de medida de las variables
observadas X −→ DX donde D es una matriz diagonal, con elementos positivos en la diagonal, y Λ se identifica
para que Λ0 Ψ−1 Λ sea diagonal. Si asignamos:

Dp×p Λp×m = Λ∗p×m ; Dp×p Ψp×p D = Ψ∗p×p ; Dp×p Cp×p D = Cp×p


entonces el logaritmo de la función de verosimilitud es una constante, más un número fijo de veces:
∗ ∗
− ln Ψ∗ + Λ∗ Λ0 − tr C ∗ (Ψ∗ + Λ∗ Λ0 )−1 =
 

− ln DΨD + DΛΛ0 D − tr DCD(DΨD + DΛΛ0 D)−1 =


 

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 68

− ln D(Ψ + ΛΛ0 )D − tr DCDD−1 (Ψ + ΛΛ0 )−1 D−1


 

− ln Ψ + ΛΛ0 − tr C(Ψ + ΛΛ0 )−1 − 2 ln |D|.


 

Los estimadores de máxima verosimilitud de Λ∗ y Ψ∗ son:

Λ̂∗ = DΛ̂, Ψ̂∗ = DΨ̂D



y Λ̂0 Ψ̂∗−1 Λ̂∗ = Λ̂0 DD−1 Ψ̂−1 D−1 DΛ̂ = Λ̂0 Ψ̂−1 Λ̂ es diagonal.

Es decir, los “factor loadings” estimados y sus varianzas del error son meros cambios en la unidad de medida.

Es igualmente conveniente usar


1
dii = √
cii
Ası́: DCD = (rij ) con rij los coeficientes de correlación muestrales. El análisis es independiente de las unidades
de medida. Este hecho está relacionado con el hecho de que las puntuaciones de los test psicológicos no tienen
unas unidades naturales de medida.

El hecho de que los factores no dependan del establecimiento y escala, es una razón para considerar el
Análisis Factorial como un análisis de interdependencia.

Por último, es conveniente dar algunas reglas de manejo para las estimaciones iniciales de las comunalidades.
m
X
λ̂2ij = 1 − ψ̂ii
j=1

2
en términos de las correlaciones observadas. Una regla es emplear Ri;1,...,i−1,i+1,...,p (donde R es el coeficiente
de correlación parcial). Otra regla es utilizar
max|rih |
h6=i

B.4. Test de hipótesis para el modelo de factores ortogonales


B.4.1. Test de Bartlett-Lawley
Vamos ahora a deducir el test de razón de verosimilitudes que nos permita ajustar el modelo de Análisis
Factorial ortogonal con m factores comunes; esto es, que para un m determinado la matriz de covarianza puede
ser escrita como:
Σp×p = Ψp×p + Λp×m Λ0m×p
para alguna matriz diagonal Ψ definida positiva, y alguna matriz Λ de dimensión p × m. El criterio de la razón
de verosimilitudes se calcula hallando:
M ax L(µ, Ψ + ΛΛ0 ) M ax L
µ,Λ,Ψ H0

M ax L(µ; Σ) M ax L
µ,Σ H

designando H0 a la hipótesis nula (es decir que es válido un ajuste factorial con m factores), y H la hipótesis
general de ajuste de una distribución Normal multivariante Np (µ; Σ).

Calculamos a continuación dicho cociente de verosimilitudes.

Bajo la hipótesis general (sin restricciones sobre Σ, es decir que no necesariamente Σ = ΛΛ0 + Ψ) se tiene
(considerando los ln L en lugar de L):

1 N A N −1 1 N A N
M ax ln L = − pN ln(2π) − ln − tr(A A) = − pN ln(2π) − ln − p
µ,Λ 2 2 N 2 2 2 N 2

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 69

A
dado que (ver sección B.1.1) el E.M.V. de Σ es Σ̂ = N y el ln L maximizado viene dado por la ecuación B.2
anterior. Por tanto:
    −N/2  
A pN A pN
M axL = L X̄; = exp − ln(2π) exp − .
µ,Λ N 2 N 2
Bajo la H0 , existencia de Análisis Factorial con m factores comunes, se tiene:
pN N N  −1 
M ax ln L = − ln(2π) − ln Ψ̂ + Λ̂Λ̂0 − tr Ψ̂ + Λ̂Λ̂0 A .

A.F actorial 2 2 2
h i h i
Teniendo en cuenta el resultado dado por ecuación B.12, se verifica que tr (Ψ̂ + Λ̂Λ̂0 )−1 A = tr A(Ψ̂ + Λ̂Λ̂0 )−1 =
p, luego en definitiva
  pN N N
M ax ln L = ln L X̄; Σ̂ = Λ̂Λ̂0 + Ψ̂ = − ln(2π) − ln Ψ̂ + Λ̂Λ̂0 − p

2 2 2
por tanto    
pN −N/2 Np
0
M ax L = exp − ln(2π) Ψ̂ + Λ̂Λ̂ exp − .

A.F actorial 2 2
Calculados los dos máximos del cociente de verosimilitudes, éste se expresa finalmente ası́:

A N/2  N/2
M ax L A
A.F actorial
= N N/2 = 
N  = W.
M axL 0 Ψ̂ + Λ̂ Λ̂0
Ψ̂ + Λ̂Λ̂

µ;Σ

Por tanto, según el método de construcción de test de hipótesis basado en el Cociente de verosimilitudes
(procedimiento habitual en hipótesis nulas y alternativas compuestas con estimadores obtenidos bajo máxima
verosimilitud), “se ha de tender a rechazar H0 (en este caso la existencia de un Análisis Factorial con m
factores) en la medida en que W sea pequeño”. La cuestión es como definir “valores pequeño” de W, en
términos estadı́sticos. Habrı́a que conocer para ello la distribución exacta de W, que no es posible. Como es
sabido, existe un resultado asintótico para la distribución de W en el contexto aquı́ supuesto, de Normalidad
multivariante (test de la χ2 ). Para ello consideraremos −2 ln W es decir:
     
Ψ̂ + Λ̂Λ̂0
A

N  N A
N
−2 ln W = −2 ln  = −N ln   = N ln  A 
2 Ψ̂ + Λ̂Λ̂0

Ψ̂ + Λ̂Λ̂0

N

que es tal que se comporta (test de Bartlett), bajo la H0 de existencia de Análisis Factorial, ası́:
 
Ψ̂ + Λ̂Λ̂0
 
2p + 4m + 5
N −1− ln  A  χ2v−v0
6
N
N →∞

en donde se ha sustituido N por la expresión indicada (aproximación sugerida por Bartlett (1947)) y en donde
v − v0 = 21 p(p + 1) − [p(m + 1) − m(m − 1)/2] = 12 [(p − m)2 − p − m] = d es decir: El número de parámetros
(elementos) de Σ, p(p+1)
2 , más el número de restricciones identificadas, m(m−1)
2 , menos el número de parámetros
2
en Λ y Ψ, pm + p = p (m + 1).

Obsérvese que hemos sustituido: “rechazar H0 para valores pequeños de W, por rechazar H0 para valores
grandes de −2 ln W ”. Por tanto el test final obtenido puede formularse en los siguientes términos:

Se rechaza H0 (existencia de un Análisis Factorial con m factores comunes), al nivel de significación α, si:
 
0

2p + 4m + 5
 Ψ̂ + Λ̂Λ̂
N −1− ln  A  > χ2(p−m)2 −p−m (α).
6
N 2

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 70

En este test aproximado, como los grados de libertad han de ser positivos en una χ2 , es claro que el número
de factores comunes m, ha de verificar:
1h p i
m < 2p + 1 − 8p + 1
2
es decir, (p − m)2 − p − m > 0.

B.4.2. Otra forma de expresar el contraste de hipótesis de Bartlett (Lawley-


Maxwell, 1971)
Cuando, aplicando el contraste anterior, con un m dado, se acepta la existencia de al menos un factor
común (m=1), porque se acepta la H0 , el problema práctico que se plantea es estimar el número “correcto”
de factores comunes. Para ello el test visto se aplica para valores mayores del m inicial. Para este proceso de
búsqueda, es de interés expresar el test de una forma alternativa, que a continuación consideramos. En efecto,
hemos visto en el punto anterior que:
A N/2  N/2
M ax L A
A.F actorial
W = = N N/2 = 
N  .
M axL 0
Ψ̂ + Λ̂Λ̂

Ψ̂ + Λ̂Λ̂0

µ;Σ

A partir de esta expresión y utilizando el resultado visto en sección B.2 anterior, ecuación B.13, que asegura
que: A

0 N
Ψ̂ + Λ̂Λ̂ = Q

/ (1 + γ̂j )
j ∈S

en donde S designa el conjunto de ı́ndices correspondientes a las raı́ces tomadas para Γ̂ = Λ̂0 Ψ̂−1 Λ̂, matriz
introducida en sección B.1 anterior (véanse los cálculos del apartado B.1.3). Se verifica entonces:
A A
Y
N
= N = (1 + γ̂j )
Σ̂ Ψ̂ + Λ̂Λ̂0 j ∈S

/

en donde (1 + γ̂j ) son las raı́ces caracterı́sticas de Ψ̂−1/2 N


A −1/2
Ψ̂ que, si suponemos ordenadas las raı́ces
γ̂1 > γ̂2 > . . . > γ̂m > . . . > γ̂p , puede escribirse como
p
Y
(1 + γ̂j )
j=m+1

ya que γ̂1 > γ̂2 > · · · > γ̂m se seleccionaron para los elementos de la diagonal de Γ̂. Por tanto los ı́ndices j que
no pertenecen a S son j = m + 1, . . . , p.

En conclusión, el test calculado por el procedimiento de la razón de verosimilitudes, es el siguiente:


  12 N
p
Y
W = (1 + γ̂j ) .
j=m+1

Y por tanto se rechazará H0 (el modelo está bien ajustado) si W es “suficientemente” pequeño. Vamos a
encontrar una precisión a lo que queremos decir con “suficientemente”. Para ello podemos usar −2 veces el
logaritmo del test de razón de verosimilitudes.
  21 N
p p
Y 1 X
−2 ln W = −2 ln  (1 + γ̂j ) = −2 N ln (1 + γ̂j ) =
j=m+1
2 j=m+1

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 71

p
X
−N ln (1 + γ̂j ) (B.15)
j=m+1

y rechazaremos H0 si esta cantidad es demasiado grande. Hemos pasado, pues, de tener una cantidad “suficien-
temente” pequeña, a tener que se rechaza si el resultado es “demasiado” grande. Pero por las propiedades del
test de razón de verosimilitud, si las condiciones de regularidad para Ψ̂ y Λ̂ de ser asintóticamente normales son
ciertas, entonces sabemos que la distribución lı́mite de −2 ln W bajo H0 es una χ2 con 21 (p − m)2 − p − m


grados de libertad, ya que eso es el número de elementos de Σ más el número de restricciones identificadas,
menos el número de parámetros en Λ y Ψ (ver sección 1.2.1). También podemos apuntar que Bartlett sugirió
reemplazar N por N − (2p − 11)/6, lo cual es un resultado heurı́stico.

Resolviendo el resultado asintótico anterior con el mismo reemplazamiento de N utilizado en el contraste


de Bartlett-Lawley visto antes, podemos en definitiva formular el siguiente test:

“Aceptamos H0 (existencia de m factores comunes), al nivel de significación α, si:


  Xp
2 1
χ = − N − 1 − (2p + 4m + 5) ln(1 + γj ) < χ2d (α)
6 j=m+1

1
 
con d = 2 (p − m) − (p + m) .” (Test de Lawley and Maxwell (1971)).

Nota 21. Para una óptima aplicación de este test deben tenerse en cuenta ciertas precauciones teóricas y
prácticas, sobre las condiciones de validez del comportamiento asintótico χ2 del cociente de verosimilitudes;
tamaños muestrales mı́nimos, etc. Véase por ejemplo Basilewsky (1994) página 386, que enuncia el anterior
test en términos de las (p − m) raı́ces (1 + γj ) de Ψ̂−1/2 N
A −1/2
Ψ̂ que son diferentes de la unidad.
Del hecho de que diag(ΛΛ0 + Ψ) = diag C por B.11 y que γ1 , γ2 , . . . , γp son las raı́ces caracterı́sticas de
1
  1
Ψ̂− 2 C − Ψ̂ Ψ̂− 2

tenemos:
h 1
  1
i h 1
  1
i h 1 1
i
0 = tr Ψ̂− 2 C − Ψ̂ − Λ̂Λ̂0 Ψ̂− 2 = tr Ψ̂− 2 C − Ψ̂ Ψ̂− 2 − tr Λ̂0 Ψ̂− 2 Ψ̂− 2 Λ̂ =

h   i p p p
1 1
X X X
tr Ψ̂− 2 C − Ψ̂ Ψ̂− 2 − trΓ̂ = γ̂i − γ̂i = γ̂i .
j=1 i=m+1 i=m+1

Si |γ̂| < 1, j = m + 1, . . . , p; podemos estudiar −2 ln W desarrollando ln 1 + γ̂j :
p   m  
X 1 1 1 X 2 2 3
−N γ̂j − γ̂j2 + γ̂j3 − · · · = N γ̂ − γ̂j + · · · .
j=m+1
2 3 2 j=1 j 3

Este criterio es, aproximadamente, igual a


p
X
−N γ̂j2 .
j=m+1

Los estimadores Ψ̂ y Λ̂ son encontrados para que C − Ψ̂ − Λ̂Λ̂0 sea pequeño en un sentido estadı́stico, o
equivalentemente de ese modo C − Ψ̂ sea aproximadamente de rango m. Entonces las p−m raı́ces más pequeñas
de  
1 1
Ψ̂− 2 C − Ψ̂ Ψ̂− 2

deberán estar próximas a cero. Y ası́, el criterio lo que hace es medir las desviaciones de esas raı́ces de cero.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 72

1
  1
Como γ̂m+1 , ..., γ̂p son las raı́ces distintas de cero de Ψ̂− 2 C − Σ̂ Ψ̂− 2 , tenemos que:

p
1 X 1 h 1 2
1
  i h    i
γ̂j = tr Ψ̂− 2 C − Σ̂ Ψ̂− 2 = − tr Ψ̂−1 C − Σ̂ Ψ̂−1 C − Σ̂ =
2 j=m+1 2

X (cij − σ̂ij )2
=
i<j ψ̂ii ψ̂jj

dado que los elementos diagonales de la matriz C − Σ̂ son iguales a cero.

En numerosas ocasiones, el investigador no conoce el valor del número de factores, m, que supone. Entonces
quiere determinar el menor número posible para que el modelo sea consistente con los datos. Ası́ es usual hacer
el test para sucesivos valores de m. El investigador arranca con un test tal que el número de factores es un
especı́fico m0 (posiblemente 0 ó 1). Si la hipótesis es rechazada, procede a comprobar el test con m0 +1 factores.
Uno continúa de tal forma hasta que la hipótesis se acepta, o hasta que
h i
2
− (p − m) − p − m ≤ 0

En el último caso se concluye que se ajusta un modelo con factores no triviales. Desgraciadamente, las posibi-
lidades de error bajo ese modelo son desconocidas, incluso de manera asintótica.

R. Gutiérrez-Sánchez, A. González
Apéndice C

Distribución asintótica de los


estimadores máximo verosı́miles bajo
condiciones generales (modelos de
relaciones lineales funcionales; de
relaciones estructurales y factoriales)

C.1. Introducción
El estudio del comportamiento asintótico en distribución de los estimadores de máxima verosimilitud de
los elementos de Λ (factor loadings) y del vector de errores U , en Análisis Factorial, constituye un importante
tópico tanto en el Modelo Lawley-Maxwell (con normalidad) como en el caso de no normalidad. En las últimas
décadas importantes estadı́sticos han contribuido con sus resultados al conocimiento en profundidad del tópico
y muchos de estos resultados son también válidos para otros modelos estructurales de Σ, distintos del Factorial.
Las principales aportaciones teóricas fueron obtenidas por Anderson and Rubin (1956); Lawley and Maxwell
(1971); Anderson and Amemiya (1985); Amemiya, Fuller, and Pantula (1987), entre otros. Algunos de estos
resultados son recogidos a continuación en este Anexo, siguiendo básicamente a Anderson and Amemiya (1988).

Antes hemos calculado los estimadores de máxima verosimilitud para el modelo de Análisis Factorial. Ahora
vamos a discutir sus propiedades asintóticas, en un contexto bastante general. En el caso clásico de Análisis
Factorial de Maxwell-Lawley, son conocidos resultados bajo normalidad. Por ejemplo los resultados de inferen-
cia asintótica sobre los Factor loadings, obtenidos por Lawley and Maxwell (1971) (Cap. 5) y por Jennrich and
Thayer (1973) (Ver Basilewsky (1994), sección 6.6.3).

Como anteriormente, el modelo es identificado por restricciones en los elementos de la matriz de los “factor
loadings”. El número de restricciones puede exceder de los requeridos para la identificación. Puede demostrarse
que un tipo particular de E.M.V. que, derivado bajo la hipótesis de normalidad de las observaciones produce
una distribución normal asintótica, es común para una amplia clase de distribuciones del vector de los factores
y el de los errores.

En particular, la matriz de covarianza asintótica del estimador de los “factor loadings” obtenida bajo la
hipótesis de normalidad, es válida para los vectores de los factores que contienen una parte fija y otra aleatoria
con cualquier distribución que tenga segundos momentos finitos, y para los vectores de error que consisten en
componentes independientes con cualquier distribución que tenga momentos de segundo orden finitos. Ası́ los
errores estandar asintóticos de los estimadores de los “factor loadings” calculados bajo paquetes estándar de
software son válidos virtualmente para cualquier tipo de Análisis Factorial no normal. Los resultados son

73
Análisis Factorial 74

también extensibles a ciertos modelos de ecuaciones estructurales.

C.2. Definición del modelo


El Análisis Factorial, como es sabido, es ampliamente utilizado en las ciencias sociales y del comporta-
miento, en parte gracias a la disponibilidad del software informático, que nos proveen de estimadores y de sus
errores estándar asintóticos bajo las hipótesis de que las observaciones son normalmente distribuidas. Vamos
a probar que tales errores estándar son válidos para una amplia clase de distribuciones. Esta teorı́a asintótica
es válida para funcionales lineales y relaciones estructurales, ası́ como si la matriz de covarianzas del error es
diagonal. También veremos que esto es válido para modelos estructurales lineales tales como el modelo LISREL
(Jöreskog).

Ya vimos que el modelo de Análisis Factorial para un vector columna aleatorio p-dimensional, xα puede ser
escrito como:
xα = µ + Λfα + uα ; α = 1, . . . , N (C.1)
con µ vector p-dimensional de parámetros, Λ matriz p × m de los “factor loadings”; fα un vector m × 1 no
observable que puede contener componentes fijos o aleatorios, y uα un vector p × 1 no observable de errores
aleatorios. Supondremos también que los fα y uα son incorrelados ∀ α, y que E[uα ] = 0; E[uα ; u0α ] = Ψ
con Ψ diagonal y de elementos (ψ11 , . . . , ψpp ). Con estas condiciones, el modelo de relaciones funcionales
lineales, se define como:
xα = zα + uα ; α = 1, . . . , N (C.2)
Bzα = β0 (C.3)
donde zα es un vector fijo de p componentes, B es r × p y β0 es un vector de r componentes. El modelo de
relaciones estructurales son las ecuaciones C.2 y C.3 con zα aleatorio. Si r = p − m, la ecuación C.1 es
equivalente a las ecuaciones C.2 y C.3, poniendo zα = µ + Λfα y exigiendo que

Br×p Λp×m = 0r×m y Br×p µp×1 = β0r×1 (C.4)

Según vimos, para reducir la indeterminación del modelo, es preciso imponer unas condiciones de iden-
tificación en Σ = ΛΦΛ0 + Ψ; como por ejemplo, Φ = Im y Λ0 Ψ−1 Λ = Γ diagonal. Sin embargo, se pueden
exigir restricciones alternativas en los elementos de Λ, Φ y Ψ. Ası́, en el Análisis Factorial exploratorio
(sin restricciones), las restricciones se ponen sólo para eliminar la indeterminación. Entonces ΛΦΛ0 es una
matriz semidefinida positiva cualquiera (no restringida), y de rango m. En el Análisis Factorial confirmatorio el
investigador usa el conocimiento previo de las variables para formular una hipótesis que imponga restricciones
a los parámetros tal como que ciertos factor loadings valgan 0. El modelo puede ser restringido en el sentido
de que el número de restricciones pueda exceder de las requeridas para la identificación Jöreskog (1969). Una
especificación particular que produce la identificación es
 
Λ1
Λ= (C.5)
Im

En las relaciones funcionales-estructurales lineales existe la indeterminación de multiplicar C.3 por la iz-
quierda por una matriz arbitraria y no singular de dimensión r × r. Esta indeterminación puede ser eliminada,
por ejemplo, especificando:
B = (Ir , B2 ). (C.6)
Si las ecuaciones C.5 y C.6 y BΛ = 0 son válidas, entonces B2 = −Λ1 y la inferencia en las relaciones
funcionales/estructurales lineales es idéntica a la del modelo de Análisis Factorial.

Un método general para parametrizar los modelos exploratorio y confirmatorio es asumir que las restriccio-
nes se colocan sólo en la matriz Λ y que cada elemento de Λ puede ser expresado como una función lineal de
un vector λ de parámetros de dimensión q × 1. Entonces:

V ec[Λ] = a + Aλ (C.7)

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 75

donde a es un vector conocido pm × 1, y A es una matriz conocida de dimensión pm × q y de rango q. La para-


metrización C.7 cubre a los modelos más comúnmente usados en el Análisis Factorial confirmatorio. Ası́, por
ejemplo, el modelo identificado por ceros y unos especı́ficos en Λ satisface C.7 donde a y Λ consisten en ceros
y unos en posiciones determinadas. La estructura C.7 incluye también casos donde algunos factor loadings se
suponen iguales. La parametrización C.7 sin restricciones en la matriz de covarianzas de fα y las varianzas de
error ψii nos permite tener una aproximación unificada al modelo donde el vector de los factores fα puede tener
componentes fijas o aleatorias. Además, como veremos, bajo esta parametrización la distribución asintótica de
los factor loadings estimados es común a una muy amplia clase de distribuciones del vector de factores fα y
del vector de errores uα . También vamos a ver que los resultados obtenidos por la restricción lineal C.7 pueden
extenderse al modelo donde V ec[Λ] es una función no lineal de λ.

Bajo las hipótesis de que (fα0 , u0α )0 se distribuye normalmente, el E.M.V. del parámetro de los factor loadings
λ, la matriz Φ de covarianza de los factores, y las varianzas del error ψii ; ası́ como sus errores estándar asintóticos
pueden ser calculados con un adecuado software informático. Hablaremos de la aplicabilidad de la inferencia
asintótica basada en tales estimadores cuando fα y uα no son normales, y fα contiene posiblemente componentes
no aleatorias. Probaremos además que la inferencia asintótica del parámetro λ en C.7 basada en la hipótesis de
normalidad es válida también para el modelo con, virtualmente, cualquier tipo de fα y uα , una vez visto que
las p componentes de uα son independientes, y no sólo incorreladas. También veremos que estos resultados son
aplicables no sólo al Análisis Factorial, sino también a más complicados modelos de ecuaciones estructurales.

C.3. Teoremas básicos


Los estimadores que vamos a considerar son los E.M.V. de λ en C.7, la matriz de covarianza de los factores
Φ y las varianzas del error Ψ, obtenidas bajo la hipótesis de que (fα0 , u0α )0 se distribuye normalmente, con matriz
de covarianzas muestrales insesgada S = NC−1 .

Si fα y uα se distribuyen normalmente, entonces nS se distribuye según una Wishart Wp (n, Σ) donde


n = N − 1. La matriz de covarianzas dada por Σ = ΛΦΛ0 + Ψ es Σ(θ) una función de

θ = (λ0 , V ech[Φ]0 , ψ 0 )0

donde λ es el de C.7; V ech[Φ] es el vector de dimensión 21 , m(m + 1) × 1 que coloca uno detrás de otro los
elementos de Φ que están en o por debajo de la diagonal principal empezando por la primera columna, y
ψ = (ψ11 , . . . ψpp )0 .

Sean Ωλ , ΩΦ , Ωψ los espacios paramétricos de λ, V ech(Φ) y ψ respectivamente, con Ωλ ∈ Rq ; ΩΦ consta


de los V ech(Φ) tal que Φ es definida no negativa; y Ωψ consta de los ψ con componentes no negativas. La
verosimilitud de Wishart basada en S es − n2 veces

L(θ, S) = ln |Σ(θ)| + tr SΣ−1 θ


 
(C.8)
más términos no dependientes de θ. El E.M.V. de Wishart θ̂ es
 h i0 0
0 0
θ̂ = λ̂ , V ech(Φ̂) , ψ̂

que es el valor de θ en Ω = Ωλ × ΩΦ × Ωψ que minimiza la Eq.C.8.

Notemos que en el cálculo de θ podemos encontrar estimaciones singulares de Φ (menores que m factores)
y estimaciones cero para algún ψii (caso de Heywood). Posteriormente supondremos que el verdadero valor de
θ está en el interior de Ω, es decir, la verdadera Φ es definida positiva y el verdadero ψii es positivo.

La función de verosimilitud normal basada directamente en las observaciones y concentrada con respecto a
µ̂ = x̄ es menos n2 veces
N
ln |Σ(θ)| + tr SΣ−1 θ
 
n

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 76

más términos independientes de θ. En este capı́tulo vamos a tratar la verosimilitud de Wishart teniendo un uso
frecuente al factor N
n . Los estimadores que maximizan la verosimilitud normal se obtienen de los de Wishart
n
reemplazando S por N S. Naturalmente, todos los resultados asintóticos son ciertos para esos estimadores.

La idea clave en este desarrollo de la teorı́a asintótica es que asignando normalidad lı́mite, los estimadores
Φ̂ y ψ̂ están centrados alrededor de cantidades que dependen de n. Esas cantidades están definidas mediante
las sumas de cuadrados no observables y productos cruzados de fα y uα
N
1X 0
fα − f¯ fα − f¯

Φ(n) =
n α=1

N
1X 0
Ψ(n) = (uα − ū) (uα − ū) (C.9)
n α=1
N
1X 0
fα − f¯ (uα − ū)

Γ(n) =
n α=1

donde f¯ y ū son las medias de los fα y uα . Sea ψ(n) el vector p × 1 que consiste en los p elementos de la
diagonal de Ψ(n); y sea ψb (n) el vector de dimensión 12 p(p − 1) × 1 obtenido colocando los elementos de Ψ(n)
que están debajo de la diagonal principal. El separar la parte diagonal de la de fuera de la diagonal facilitará
el desarrollo de la teorı́a asintótica.

El primer teorema nos proporciona la consistencia del estimador de Wishart de máxima verosimilitud θ̂
bajo hipótesis débiles en Φ(n), Ψ(n) y Γ(n) y unas condiciones de identificación. Sea λ0 el verdadero valor de
λ dado en C.7.
Teorema 3. En el modelo de ecuaciones C.1 y C.7 supongamos:
i) p lı́mn→∞ Φ(n) = Φ0

ii) p lı́mn→∞ ψ(n) = ψ0


iii) p lı́mn→∞ ψb (n) = 0
iv) p lı́mn→∞ Γ(n) = 0
v) ∀ ε > 0, ∃η > 0

tal que cualquier θ ∈ Ω t q||θ − θ0 || > ε verifica que mod(vi − 1) > η para algún i = 1, 2, . . . , p donde
0
θ0 = [λ00 , V ech(Φ0 )0 , ψ00 ] ; y las vi son las p raı́ces de |Σ(θ) − vΣ(θ0 )| = 0 y mod(vi − 1) es el valor absoluto de
vi − 1.

Entonces:
p lı́m θ̂ = θ0
n→∞

Demostración. El resultado se obtiene de p lı́mn→∞ S = Σ(θ0 ) , y la consistencia está probada en Amemiya,


Fuller, and Pantula (1987).

Notemos que si todos los elementos de fα son fijos, entonces el lı́mite en probabilidad de la hipótesis (i) es
el lı́mite usual.
0 0
Sea θ(n) = λ00 , [V ech(Φ(n))] , ψ(n)0 . La primera parte de θ(n) es el verdadero valor λ0 de λ, y es
independiente de n. Recordemos que ψ(n) es el vector de los elementos de la diagonal de Ψ(n), y que Φ(n) y
Ψ(n) están definidas en C.9. El siguiente teorema muestra que el término primero en el desarrollo de θ̂ − θ(n)
es una función lineal de ψb (n) y Γ(n) definidas en C.9.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 77

Teorema 4. En el modelo de ecuaciones C.1 y C.7 y supongamos ciertas las hipótesis (i), (ii), (v). Supongamos
además:
iii-a) ψb (n) = Op n−(1/2)


iv-a) Γ(n) = Op n−(1/2)




vi) λ0 es un punto interior de Ωλ


Φ0 es definida positiva y cada elemento de ψ0 es positivo, donde Φ0 y ψ0 están definidas en (i) y (ii) respecti-
vamente. La matriz
∂V ecΣ(θ)
∂θ0
θ=θ0
tiene rango total (por columnas).

Entonces:    
θ̂ − θ(n) = C1 (θ0 )ψb (n) + C2 (θ0 )V ecΓ(n) + op n−(1/2) = Op n−(1/2)
0
donde C1 (θ0 ), C2 (θ0 ) son matrices no estocásticas que dependen sólo de θ0 = [λ00 , (V ech(Φ0 ))0 , ψ00 ] .
Demostración. Dado que θ̂ es consistente para θ0 , un punto interior de Ω; y dado que L(θ; S) en C.8 es
diferenciable con respecto a θ en un entorno de θ0 , la probabilidad de que θ̂ satisfaga la ecuación derivada
tiende a 1 si n → ∞. Ası́:
  ∂L(θ̂; S) ∂L[θ(n); S] ∂ 2 L(θ∗ ; S) h i
op n−(1/2) = = + · θ̂ − θ(n) (C.10)
∂θ ∂S ∂θ∂θ0
donde θ∗ está en el segmento que une θ(n) con θ̂. Dado que

p lı́m θ(n) = p lı́m θ̂ = θ0


n→∞ n→∞
y dado que la derivada segunda de L(θ; S) con respecto a θ es una función continua de θ y S

∂ 2 L(θ∗ ; S) ∂ 2 L [θ0 ; Σ(θ0 )]


p lı́m 0
= = H0 (C.11)
n→∞ ∂θ∂θ ∂θ∂θ0
donde H0 es definida positiva por (vi). También
∂L[θ(n); S]
= −F (n)V ec (S − Σ[θ(n)]) (C.12)
∂θ
donde:  0
∂, V ecΣ[θ(n)]
Σ−1 [θ(n)] ×T Σ−1 [θ(n)] = F0 + Op

F (n) = 0
∂θ
 0
∂V ecΣ[θ0 ]
Σ−1 (θ0 ) ×T Σ−1 (θ0 )

F0 = 0
(C.13)
∂θ
(con ×T = producto tensorial de matrices).

Podemos observar que:


S − Σ[θ(n)] = Λ0 Γ(n) + Γ0 (n)Λ00 + Ψ(n) − diag(ψ(n)) (C.14)
donde V ec(Λ0 ) = a + Aλ0 . Los elementos de la diagonal de Ψ(n) − diag(ψ(n)) son ceros, y los elementos de
fuera de la diagonal pertenecen a ψb (n). Ası́:
 1
S − Σ[θ(n)] = Op n− 2 (C.15)

y de C.9-C.15 obtenemos  1
θ̂ − θ(n) = H0−1 F0 V ec (S − Σ[θ(n)]) + op n− 2
y el resultado se obtiene de C.14.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 78

 1
Este teorema prueba que el término de Op n− 2 en el desarrollo de θ̂ − θ(n) depende sólo de los produc-
h i
tos cruzados Γ(n) y los elementos de fuera de la diagonal ψb (n) de Ψ(n). Ası́, n(1/2) θ̂ − θ(n) tiene una
distribución lı́mite si los elementos de  1  1
n 2 Γ(n) y n 2 ψb (n)

tienen una distribución lı́mite conjunta.

Anderson and Rubin (1956) investigaron condiciones para que las derivadas sean finitas, y demostraron el
siguiente teorema en el contexto del Análisis Factorial:
Teorema 5. Sea −1
(θij ) = Θp×p = Ψ − Λ Λ0 Ψ−1 Λ Λ0
Si (θij )2 es no singular, si Λ y Ψ son identificadas por la condición de que Λ0 Ψ−1 Λ es diagonal, y los
p
elementos de la digonal son diferentes y ordenados; Si C → Ψ + ΛΛ0 y si N (1/2) (C − Σ) tiene una distribución
normal en el lı́mite, entonces:    
1 1
n 2 Λ̂ − Λ y n 2 Ψ̂ − Ψ

tienen una distribución lı́mite normal.

Entre las consecuencias de este resultado, podemos citar que, por ejemplo, N (1/2) (C − Σ) tendrá distri-
bución lı́mite si (f 0 U 0 )0 tiene una distribución
 con cuartos
 momentos finitos. La matriz de covarianzas de la
distribución lı́mite de N 1/2 Λ̂ − Λ y N (1/2) Ψ̂ − Ψ es muy complicada. Lawley and Maxwell (1971) en-
 
contró covarianzas para N (1/2) Λ̂ − Λ apropiada para Ψ conocido, y posteriormente extendió el trabajo para
Ψ estimado.
   
La covarianza de N (1/2) ψ̂ii − Ψii y N (1/2) ψ̂jj − Ψjj en la distribución lı́mite es:

2 2 ij
2ψii ψjj ξ

con ξ ij = Ξ−1 , y Ξ = (θij


2
). (i, j = 1, . . . , p).

Sobre la base de este resultado (teorema 5), Anderson and Rubin (1956), es posible obtener una extensión
que prueban Anderson and Amemiya (1988):

Teorema 6. En el modelo C.1 y C.7 supongamos válidas las hipótesis i, ii, v, vi. Supongamos además:

(iii-iv-b) Para algún G,


1  0 0 L
n 2 (V ec[Γ(n)]) , ψb (n) −→ N (0, G)
Entonces se verifica que h i
1 L
n 2 θ̂ − θ(n) −→ N (0, V )

para algún V . Si además G depende sólo de Φ0 y ψ0 , entonces V depende sólo de


0 0
θ0 = λ00 , (V ech[Φ0 ]) , ψ00


Demostración. Por el teorema 3, θ̂ − θ(n) es asintóticamente, una función lineal de


0 0
[V ec[Γ(n)]] , ψb0 (n)

De aquı́ se obtiene la distribución lı́mite normal. Y dado que V es una función de C1 (θ0 ), C2 (θ0 ) y G,
entonces V es una función de θ0 si G depende solamente de Φ0 y ψ0 .

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 79

Notemos que la distribución lı́mite en el teorema 6 se obtuvo bajo hipótesis débiles en las fα y las Uα son
las hipótesis i, ii y iii - (iv-b). Por ejemplo, no es una hipótesis que las Uα sean independientes e idénticamente
distribuidas, o que las f y las U sean independientes. La  primera  parte de θ̂ − θ(n)
h es λ̂ −i λ0 donde λ0 es
el verdadero valor de λ. El uso de la segunda parte de θ̂ − θ(n) llamada V ech Φ̂ − Φ(n) lo veremos con
posterioridad.

En el teorema 5 de Anderson and Rubin (1956), como podemos ver, tan sólo se asume la normalidad lı́mite
de ψb (n). Sin embargo, la hipótesis iii - (iv-b) es necesaria incluso si añadimos las hipótesis de que las fα y Uα
sean independientes, y que las Uα sean independientes e idénticamente distribuidas. Esto es porque el resultado
requiere la normalidad lı́mite conjunta de Γ(n) y ψb (n) por separado. El propósito de la última afirmación del
teorema es que, aun cuando la distribución de las f y de las U puede depender de otros parámetros, la
distribución lı́mite no dependerá si la distribución lı́mite de
1 0 0
n 2 [V ec[Γ(n)]] , ψb (n)
no lo hace.

C.3.1. Corolarios e implicaciones


Vamos a desarrollar
 ahora
 las importantes aplicaciones prácticas que tiene el teorema 6. La distribución
(1/2)
lı́mite de n θ̂ − θ(n) es común para una amplia clase de fα y Uα , y los procedimientos asintóticos tı́picos
0
de inferencia para el parámetro λ basadas en la normalidad de (fα0 , Uα0 ) son válidas virtualmente para cualquier
tipo de fα , bien fijos, bien no necesariamente normales y de Uα no normales.

Vamos a ver en primer lugar un caso especial del teorema 6 donde el vector de factores fα satisface una muy
débil hipótesis y el vector de error satisface una condición de normalidad relativamente fuerte (más adelante
suprimiremos la normalidad de Uα ).

Corolario 1. En el modelo C.1 y C.7 supongamos ciertas las hipótesis v y vi y además:

i-a) lı́mn→∞ Φ(n) = Φ0 c. s.


vii) Las fα son independientes de las Uα
viii) Las Uα son independientes e idénticamente distribuidas
ix) Uα N (0, diag[ψ0 ] ) donde diag(ψ0 ) es una matriz diagonal con los p elementos de ψ0 en la diagonal.
Entonces  
1 L
n 2 θ̂ − θ(n) −→ N (0, V0 ) (C.16)
para algún V0 donde V0 depende sólo de θ0 .
Demostración. Aplicando el teorema 6 notamos que las hipótesis (i-a) y viii implican i y ii respectivamente.
Por tanto, la demostración se completa cuando veamos que bajo las hipótesis (i-a), viiI, viii y ix la hipótesis
(iii - (iv-b)) en el teorema 6 es cierta con G dependiendo solamente de θ (En Anderson and Amemiya (1985)
viene la demostración completa).

La clase de las fα que satisfacen las hipótesis del Corolario 1 es amplia. Si cada componente de fα está
fijada, entonces la hipótesis VII es cierta trivialmente y el lı́mite casi seguro en (I-a) se reduce al lı́mite usual. La
hipótesis I-a se satisface para fα aleatorios si las fα son i.i.d. con matriz de covarianza
 Φ0 . El Corolario 1 prueba
que la matriz de covarianza V0 de la distribución normal lı́mite de (n)1/2 θ̂ − θ(n) es común para una gran
clase de fα . Un caso especial es el modelo normal, donde las (fα0 , Uα0 )0 son i.i.d., acordando una distribución
normal que tenga matriz de covarianza con bloques diag [Φ0 , diag(ψ0 )]. Ası́ el caso normal lı́mite con
matriz de covarianzas V0 es válido para una clase de fα mucho más amplia que la normal.

R. Gutiérrez-Sánchez, A. González
Análisis Factorial 80

En el Corolario 1, las Uα se suponen normales. Veamos  ahora


 que esta hipótesis puede ser debilitada sin
1/2
alterar la matriz V0 de la distribución lı́mite de n θ̂ − θ(n) . Veamos ahora los siguientes dos Corolarios
que prueban que V0 es válida para una gran clase de fα y Uα .

Corolario 2. En el modelo C.1 y C.7, supongamos ciertas (i-a), v, vi, vii y viii. Supongamos:

(IX-a) ∀ i > j y ∀k > 1 se verifica:

0 0
E(uiα ujα ukα ulα ) = ψii ψjj para i = k > j = 1
0
donde uiα es la i-ésima componente de Uα y ψii es la i-ésima componente de ψ0 .

Entonces sigue siendo válido el resultado del Corolario 1.


Demostración. Bajo las hipótesis supuestas, la matriz de covarianza de
0
[(V ec(Γ(n)))0 , ψb0 (n)]

es la misma que para el caso de Uα normales. Ası́ se consigue el resultado como en el Corolario 1.

Este corolario prueba que en el caso lı́mite normal de matriz de covarianza, V0 es válido para una amplia
clase de fα y Uα si la parte de fuera de la diagonal ψb (n) de Ψ(n) tiene una distribución normal en el lı́mite
con matriz de covarianzas idénticas a las del caso de Uα normal. Tal hipótesis en Uα no es muy restrictiva,
ya que por la estructura del modelo del Análisis Factorial,
 las p componentes Uα son incorreladas. No hay
restricciones en los momentos de cuarto orden E u4iα ni incluso si existen.

El siguiente corolario prueba que si las p componentes de Uα son independientes, V0 es válida sin impor-
tar cual sea la distribución de las Uα . Este resultado, un poco sorprendente, tiene importantes aplicaciones
prácticas.
Corolario 3. En el modelo C.1 y C.7 supongamos ciertas (i-a), v, vi, vii y viii. Asumimos además:

(ix-b) Las uiα i = 1, . . . , p son independientes.

Entonces C.16 es cierto para V0 del Corolario 1.


Demostración. ix-b ⇒ ix-a y el resultado se obtiene del Corolario 2.
Ası́, si asumimos la independencia
  de ui α , y no sólo la incorrelación, en el modelo C.1, entonces la distri-
bución lı́mite de (n)1/2 θ̂ − θ(n) es común para casi todas las distribuciones de fα y Uα que satisfagan el
modelo y con la hipótesis de segundos momentos asociados. Combinando los resultados de los Corolarios 2 y
3, la normalidad lı́mite y la matriz de covarianzas lı́mite V0 para el caso normal (fα0 , Uα0 )0 son válidas para una
enorme clase de (fα0 , Uα0 )0 si ∀ i, los uiα son independientes. Las componentes de las fα pueden ser bien fijas
o aleatorias mientras que las hipótesis lı́mite de los segundos momentos (hipótesis i-a) y de la independencia
de las Uα (hipótesis vii) sean satisfechas. Los Uα pueden ser cualquier vector aleatorio i.i.d. con componentes
independientes que tengan segundos momentos finitos. Una interpretación del modelo del A.F. es que toda
la inter-dependencia entre las p componentes de las observaciones xα se explica por el factor fα . Desde éste
punto de vista, la independencia de las componentes del error ui α es una parte de las hipótesis del modelo,
y las hipótesis del Corolario 3 son satisfechas por cualquier Análisis Factorial confirmatorio con restricciones
distribucionales sobre fα y vα insignificantes prácticamente. En Anderson and Amemiya (1988), página 768-
769, se consideran ejemplos de Análisis Factorial no-normales para los cuales los resultados de inferencia aquı́
recogidos son válidos.

R. Gutiérrez-Sánchez, A. González
Referencias Bibliográficas

Afifi, A. A., and S. P. Azen. 1979. Statistical analysis, A computer orieoriented approahc. Academic Press.
Second Edition.
Akaike, H. 1974. “A new look at the statistical model identification.” IEEE Trans Autom Control AC-19:716–
723.
. 1987. “Factor analysis and AIC.” Psychometrika 52:317–332.
Amemiya, Y., W. A. Fuller, and S. G. Pantula. 1987. “The asymptotic distributions of some estimations for
a factor analysis model.” Journal of Multivariate Analysis 22:51–64.
Anderson, T. W. 1984. An introduction to multivariate statistical analysis. John Wiley & Sons.
Anderson, T. W., and Y. Amemiya. 1985. “The asymptotic normal distribution of estimators in factor
analysis under general conditions.” Technical Report, Technical Report no 12, Econometric Workshop
Stanford University.
. 1988. “The asymptotic normal distribution of estimators in factor analysis under general conditions.”
The Annals of Statistics 16(2):759–771.
Anderson, T. W., and H. Rubin. 1956. “Statistical inference in factor analysis.” Proceedings of the third
Berkeley Symp., Volume Vol. V. University of California, Berkeley, 111–150.
Bartlett, M. S. 1947. “Multivariate Analysis.” Journal of the Royal Statistical Society Suppl. 9B:176–197.
Basilewsky, A. 1994. Statistical factor analysis and related methods: theory and applications. New York.: John
Wiley and Sons.
Bozdogan, H. 1987. “Model selection and Akaike’s information criterion (AIC): the general theory and its
analytical extension.” Psychometrika 52:345–370.
Gutiérrez, R., and A. Gónzalez. 1991. Introducción al análisis multivariante; Volumen 1. Universidad de
Granada.
Harman, H. 1967. Modern factor analysis. U. University Chicago Press. (Traduccion española Análisis
factorial moderno,, Editorial Saltés, Madrid (1980)).
Howe, W. G. 1955. “Some contributions in factor analysis.” Technical Report, Atomic Energy Comm. Report
Oak Ridge Laboratory, Tennessee, USA.
Jennrich, R. I., and D. T. Thayer. 1973. “A note on Lawley’s formulas for standard errors in maximun
likelihood factor analysis.” Psychometrica 38:571–580.
Johnson, R. A., and D. W. Wichern. 1998. Applied multivariate statistical analysis. Prentice-Hall.
Jöreskog, K. G. 1969. “A general approach to confirmatory maximun likelihood factor analysis.” Psychome-
trica 34:183–202.
Kaiser, H. F. 1958. “The varimax criterion for analysis rotation in factor analysis.” Psychometrica 23:187–200.
Lawley, D. N., and E. Maxwell. 1971. Factor analysis as a statistical method. Ed. Butterworths, London.
Reiersol, O. 1950. “On the identifiability of parameters in Thurstone’s multiple factor analysis.” Psychometrica
15:121–159.
Reyment, R., and K. +G. Jöreskog. 1993. Applied factor analysis in the natural sciences. Cambridge
University Press.

81
Análisis Factorial 82

Rubin, D. B., and D. T. Thayer. 1982. “EM algorithms for ML factor analysis.” Psychometrika 48:253–257.
Schwarz, G. 1987. “Estimating the dimension of a model.” Annals of Statistics 6:431–464.
Sclove, S. 1987. “Applications of the model selection criteria to some problem in multivariate analysis.”
Psychometrika 52:333–343.
Takeuchi, K., H. Yanai, and B. N. Mukherjee. 1982. The foundations of multivariante analysis. Wiley Eastern
Ltd, New Delhi.
Thurstone, L. L. 1945. Multiple-Fsctor Analysis. University Chicago Press.

R. Gutiérrez-Sánchez, A. González

You might also like