You are on page 1of 15

Ejercicio: Anlisis de Componentes Principales.

Se dispone de una muestra de 41 ciudades de USA en las que se midieron diferentes variables
relacionadas con la contaminacin atmosfrica.
Las variables son:
Contenido de SO2 (Dixido de Azufre).
Temperatura anual en grados F = Temp
Nmero de empresas mayores de 20 trabajadores = Emp
Poblacin (en miles de habitantes) = Pob
Velocidad media del viento = Viento
Precipitacin anual media = Precip
Das lluviosos al ao = Das
El inters de la investigacin est basado sobre la relacin entre la concentracin de SO2 y el
resto de las variables, para ello, debemos intentar disminuir el nmero de variables por
medio de un Anlisis de Componentes Principales, si es posible.
Matriz de Correlaciones:

Para comprobar que las correlaciones entre las variables son distintas de cero de modo
significativo, se comprueba si el determinante de la matriz de correlacin es distinto de uno,
es decir, si sta es diferente de la matriz identidad.
Contraste del Test de Bartlett:

Adems, de observar el valor de la Medida de adecuacin muestral de Kaiser-Meyer-Olkin


(KMO), que contrasta si las correlaciones parciales entre las variables son pequeas:
Dado que el valor de significancia de la prueba de esfericidad de Bartlett es menor que 0,05
(asumido como nivel de significacin para el anlisis), rechazamos la hiptesis nula, es decir,
las correlaciones entre las variables son distintas de cero de modo significativo. Uno de los
grandes inconvenientes de ste test, es que el estadstico tiende a ser estadsticamente
significativo cuando el tamao de n crece, algunos autores advierten que nicamente se
utilice cuando la razn n/k sea menor que 5, para nosotros n es el tamao de la muestra
(n=41 ciudades) y k es igual al nmero de variables (k=6), por lo tanto, siendo la razn mayor
a 5 (6,83), es preferible observar para tal efecto la medida de adecuacin de KMO.
La medida de adecuacin de KMO, que contrasta si las correlaciones parciales entre las
variables son suficientemente pequeas, ste estadstico toma valores entre 0 y 1:
Si KMO<0,5 no resultara aceptable hacer un ACP.
Si 0,5<KMO<0,6, hablamos de un grado de correlacin medio, y habra aceptacin
media.
Si KMO>0,6 indica una alta correlacin y, por tanto, conviene un ACP.

Por tanto, no sera adecuado realizar un ACP (KMO=0,365).

Para el tema en estudio, seguiremos con el desarrollo del problema, asumiendo la


necesidad del trabajo de simplificacin de la dimensin.

La comunalidad (inicial y de extraccin) de una variable es la proporcin de su varianza que


puede ser explicada por el modelo de componentes o factores.

De aqu (Comunalidades por extraccin) podemos valorar cules de las variables son peor
explicadas por el modelo. En el estudio, la variable Viento es la peor explicada, ya que el
modelo slo es capaz de reproducir el 42,4% de su variabilidad original, por otro lado, la
variable que mejor logra representar el modelo es a la Poblacin (97,9%).
Este mtodo de extraccin de componentes o factores (Anlisis de Componentes
Principales), es un mtodo que asume por defecto, que puede explicar todas y cada una de
las variables incluidas en el anlisis.

En la tabla Varianza total explicada se ofrece un listado de autovalores (valores propios) de


la matriz de correlacin y del porcentaje de varianza que representa cada uno de ellos. Los
autovalores expresan la cantidad de la varianza total que est explicada por cada
componente o factor, y los porcentajes de varianza explicada asociados a cada componente
se obtienen dividiendo su correspondiente autovalor por la suma de los autovalores (la cul
coincide con el nmero de variables), por ejemplo, 2,196/6=0,366 36,6%.
Una manera de seleccionar la cantidad de componentes para el anlisis es a travs de
aquellos autovalores mayores a 1 (conocido como criterio de Kaiser), para nuestro caso hay
tres autovalores mayores a 1, por lo que el procedimiento extrae las tres primeras
componentes que consiguen explicar un 84,846% de la varianza de los datos originales.
La columna siguiente de la tabla anterior, indica las Sumas de cuadrados de la extraccin,
valores que coinciden con los autovalores cuando se utiliza el mtodo Componentes
Principales, pero no cuando se utilizan otros mtodos de extraccin, y ayudarn a determinar
el nmero idneo de componentes para el anlisis.
Otro mtodo utilizado para determinar el nmero de componentes a utilizar, es el grfico de
la varianza (o grfico de sedimentacin) asociada a cada factor, en funcin de ste grfico,
debe identificar la ruptura de la pronunciada pendiente de los factores o componentes ms
importantes y el descenso gradual de los restantes (los sedimentos).
La siguiente tabla, contiene las correlaciones entre las variables originales (o saturaciones) y
cada uno de los factores, para ste caso, la llamaremos Matriz de Componentes (ya que
nuestro mtodo de extraccin ha sido por medio del ACP).
Comparando las saturaciones relativas de cada variable en cada uno de los tres primeros
componentes podemos apreciar que el componente principal 1 (CP1) est constituido por las
variables Empresa y Poblacin. El segundo componente muestra pesos altos para las
variables Precipitaciones y Das. El tercer componente est relacionado con las variables
Temperatura y Precipitaciones.

Si no se encuentran altas saturaciones con las componentes presentadas, es de esperar, que


aquellas variables tengan alta asociacin con las componentes restantes, hasta aqu no
analizadas.
Caras de Chernoff
Herman Chernoff es el inventor de las caras de Chernoff, con las cuales los diversos datos se
transforman en caras. Los datos representan ojos, narices, orejas y otras formas de la cara, esta
asociacin permite rpidamente hacer asociaciones y detectar diferencias.
Regresin sobre la variable SO2 frente a los tres componentes

Recuerde las hiptesis de contraste de la ANOVA:


Recuerde las hiptesis de contraste para el modelo de RLM:
Fases del Anlisis Factorial
1. Extraccin de los factores comunes.
2. Rotacin de los factores con objeto de facilitar su interpretacin.
3. Puntuaciones Factoriales.

1. Extraccin de Factores Comunes:

Existen distintos mtodos de estimacin de los coeficientes de la matriz de pesos, los


ms comunes para un Anlisis Factorial (AF) son el mtodo de las Componentes
Principales y el Mtodo de Ejes Factoriales.

a) El mtodo de CP se basa en suponer que los factores comunes explican el


comportamiento de las variables originales en su totalidad.
En este caso, recuerde, que las comunalidades iniciales de cada variable son igual a
1, porque el 100% de la variabilidad de las p o k variables originales por p o k
factores.

b) En este mtodo (de ejes factoriales) partimos de la base de que slo una parte de la
variabilidad total de cada variable depende de factores comunes y, por tanto, la
comunalidad inicial no ser 1. Estima dichas comunalidades mediante los
coeficientes de determinacin mltiple de cada variable con el resto. Se sustituyen
estos valores en la diagonal principal de la matriz R* y se procede a efectuar un ACP.
Una vez obtenido el resultado, se estiman de nuevo las comunalidades, se vuelven
a sustituir en la diagonal principal de la matriz R* y el proceso se retroalimenta hasta
alcanzar un criterio de parada (por ejemplo cuando la diferencia entre lasa
comunalidades de dos iteraciones sucesivas sea menor que una cantidad prefijada).

La eleccin de uno u otro mtodo depende de los objetivos del AF. As el ACP es adecuado
cuando el objetivo es resumir la mayora de la informacin original (varianza total) con una
cantidad mnima de factores con propsitos de prediccin. El AFC resulta adecuado para
identificar los factores subyacentes o las dimensiones que reflejan qu tienen en comn las
variables. El inconveniente del mtodo PAF es que el clculo de las comunalidades requiere
mucho tiempo y muchos recursos informticos y, adems, no siempre se pueden estimar o,
incluso, pueden ser no vlidas (comunalidades menores que 0 o mayores que 1).

Empricamente, se llega a resultados muy parecidos cuando el nmero de variables excede de


30 o las varianzas compartidas exceden de 0.6 para la mayora de las variables.

Rotacin de Factores
Con el fin de facilitar la interpretacin del significado de los factores seleccionados se suele
llevar a cabo una rotacin de los ejes factoriales. Uno de los mtodos ms corrientes es el
Varimax, desarrollado por Kaiser (1958), que efecta una rotacin ortogonal de los ejes
factoriales.
El objetivo de la rotacin Varimax es conseguir que la correlacin de cada una de las variables
sea lo ms prxima a 1 con slo uno de los factores y prxima a cero con todos los dems.