You are on page 1of 8

ANLISIS DE COMPONENTES PRINCIPALES

https://estadisticaorquestainstrumento.wordpress.com/2012/12/29/tema-17-analisis-de-componentes-
principales/

1. El Anlisis de componentes principales (ACP) es una tcnica estadstica descriptiva que tiene como punto de
partida una matriz de datos con una serie de individuos a los que se les ha medido varias variables. Por eso suele
clasificarse como una tcnica multivariante.

2. Se trata de las notas de diferentes materias que obtienen 15 alumnos de bachillerato. Tenemos, una muestra
de tamao 15 pero con ocho variables, tantas como asignaturas tenemos.

3. Si quisiramos representar los 15 alumnos de esta muestra en un grfico lo podramos hacer tomando dos
notas y representando los 15 puntos segn sus valores en el eje de abscisas y de ordenadas. Podramos tambin,
eso s, hacer una representacin de tres de esas ocho variables en un grfico tridimensional. Pero aqu se acaba.
Ya no podramos visualizar una representacin en ms dimensiones. Por lo tanto, es imposible ver en un grfico
una representacin de los 15 individuos respecto a todas las variables al mismo tiempo.

4. El ACP tiene como objetivo bsico inicial suplir este dficit. Pretende, realizar una representacin de una
nube de puntos multidimensional (de ms de tres dimensiones), en dos o tres dimensiones. En nuestro ejemplo
el ACP tratara de hacer una representacin de los 15 alumnos en dos o tres dimensiones contemplando todas las
variables, sin prescindir de ninguna de ellas en el anlisis.

5. Hay que hacer notar que, aunque el objetivo inicial es ste: la representacin en dos o tres dimensiones de
unos puntos que originariamente estn en muchas dimensiones; la propia tcnica consigue crear unos objetos
matemticos (las componentes que podran establecer relaciones entre las variables, ver cmo se asocian, cmo
se distancian, etc.

6. Supongamos que tenemos la siguiente representacin bidimensional con dos variables X1 y X2:
7. Y supongamos que unos seres unidimensionales, que nicamente ven las cosas si estn en una dimensin,
quieren representar, en una nica dimensin, esta nube de puntos que ellos no pueden ver. Observemos que si lo
que quieren es no prescindir de ninguna de las dos variables lo que pueden hacer es representar las proyecciones
de los puntos sobre un eje como el dibujado en la siguiente figura:

8. Observemos que la nube de puntos roja, que est integrada por las proyecciones de los puntos originales
sobre el nuevo eje, se parece bastante a la nube de puntos original. Las posiciones relativas de los puntos se
respetan bastante. Y ahora los seres que slo ven en una dimensin lo ven. Estn viendo una representacin
unidimensional de una realidad bidimensional y lo hacen con bastante fidelidad. La nube de puntos roja se
parece bastante a la negra. Ellos slo ven la roja pero realmente es una buena aproximacin de la original, que
es la negra.

9. La representacin en menos dimensiones no siempre tiene la misma calidad. En el grfico siguiente vemos
que a la izquierda la nube de puntos proyectada sobre el nuevo eje (la nube de puntos roja) se parece ms a la
original de lo que se parecen la roja y la negra en la situacin mostrada en el grfico de la derecha. Por lo tanto,
en los datos de la derecha tiene menos valor realizar un ACP:

10. Y observemos que cuando he dibujado el eje para proyectar los valores sobre l lo he hecho situndolo de
una forma, pero lo hubiera podido situar de otra. Observemos en el grfico siguiente que el eje dispuesto en el
ejemplo de la derecha no consigue, mediante la proyeccin de los puntos sobre ella, una nube de puntos
representativa de la nube de puntos original:

11. Lo que hemos hecho es un giro de los ejes de coordenadas sin tocar los puntos:
12. Lo importante es que ahora vemos la nube de puntos desde unos ejes donde uno es mucho ms importante
que el otro. Ahora los ejes son Y1 y Y2. Si X1 y X2 eran dos variables que tenan la misma cantidad de
informacin, ahora Y1 y Y2 no tienen la misma cantidad de informacin. Y1 tiene mucha ms informacin que
Y2. En Estadstica informacin es equivalente a dispersin, a varianza. Una variable que no vara no tiene
informacin. Una variable que vara mucho tener el valor de un individuo es muy informativo.

13. El objetivo de la tcnica ACP es: conseguir girar los ejes de tal forma que exista la mayor desigualdad
posible entre la varianza de la nube de puntos original en las proyecciones en cada uno de los respectivos
nuevos ejes y que, adems, estos ejes, estas nuevas variables, sean independientes entre s; o sea, que tengan
correlacin cero.

14. La bsqueda de estos nuevos ejes se hace mediante el clculo de los llamados valores propios y vectores
propios de la matriz de correlaciones entre todas las variables del estudio. Puede hacerse tambin a partir de otra
matriz, la de varianzas-covarianzas, pero sta tiene el problema de que cuando las variables tienen unidades de
escala muy diferentes introduce un exceso de influencia por parte de las variables con mayor varianza. Por esto
suele trabajarse con la matriz de correlaciones. De esta forma se unifica el peso de las variables iniciales del
estudio. Suele hablarse de variables estandarizadas cuando se trabaja con la matriz de correlaciones. Una
variable es estandarizada cuando la muestra se transforma a media cero y Desviacin estndar uno. Esto se hace
restando a cada valor muestral la media muestral y dividiendo por la Desviacin estndar. De esta forma todas
las variables del estudio tienen la misma media y la misma Desviacin estndar y ninguna pesa ms que otra.
De esta forma la vocalizacin del estudio se pone en cmo es la forma de la nube de puntos, de cules son las
relaciones entre las variables que permiten reducir dimensiones perdiendo el mnimo de informacin.

15. Algo muy importante: Cul es la relacin existente entre las variables originales y las nuevas variables, los
nuevos ejes; o sea, cul es la relacin, en el caso que hemos dibujado entre las variables X 1 y X2 y las variables
Y1 y Y2?
16. En primer lugar decir que a las variables Y1 y Y2, que son, eso, variables, tambin, como las originales, las
llamamos en esta tcnica Componentes. Y son cada una de ellas una combinacin de las variables originales.
Observemos la frmula de esa combinacin:

17. En realidad estos coeficientes que multiplican a las variables originales son los vectores propios de la matriz
de correlaciones, es la frmula de la transformacin lineal realizada. Hemos cambiado de ejes y para llegar de
los ejes originales a los nuevos ejes hace falta esta transformacin. En definitiva, si tenemos un punto
representado por las coordenadas originales, stas son las frmulas necesarias para conseguir las coordenadas
de la nueva representacin: la representacin mediante los ejes constituidos por las componentes.

18. Si en el lugar de estar trabajando con dos variables originales estuviramos trabajando con d variables
originales la frmula de las d componentes sera:

19. Se llama a la tcnica Anlisis de componentes principales porque transforma a las variables originales en
nuevas variables, las componentes, las cuales tiene desigualdad en cuanto a la informacin explicada, lo que
significa que tenemos unas componentes muy informativas y otras que no. Por eso tenemos unas componentes
principales, que son las que usaremos para hacer la representacin. Esta desigualdad generada al crear las
componentes nos permite elegir, entre ellas, las principales y eliminar las poco importantes, cosa que no suceda
con las originales porque ellas eran todas principales, todas eran importantes, no podamos prescindir de
ninguna de ellas.
20. A los datos de los 15 estudiantes que se les ha evaluado en las ocho materias citadas en la matriz de datos
mostrada al principio de este tema si se les hace un ACP tenemos la siguiente representacin usando las dos
primeras componentes principales: PCOMP_1 y PCOMP_2:

21. Observemos ahora que esta representacin se asemeja mucho a la original en ocho dimensiones. Si
observamos en el grfico de dos dimensiones el alumno 1 y el 9 estn muy prximos, prcticamente solapados.
Miremos qu sucede en la matriz de datos. Observaremos que las notas, excepto Educacin fsica, son
prcticamente las mismas. Lo de Educacin fsica tiene una explicacin que ahora veremos.

22. Si, por el contrario, elegimos los individuos 5 y 12 vemos que en nuestro grfico de dos dimensiones estn
completamente en los extremos, estn en dos vrtices de la representacin. Si ahora miramos la matriz de datos
veremos que el alumno 5 lo aprueba todo con buenas notas excepto la Educacin fsica. En cambio el alumno
12 lo suspende todo, incluso la Educacin fsica. Sorprendentemente en este caso son en todo distintos excepto
en la Educacin fsica que tienen justo la misma nota.

23. Por lo tanto, con el grfico de dos dimensiones estamos viendo una muy buena fotografa de las posiciones
relativas de los puntos en la representacin de ocho dimensiones original que no vemos. Digo fotografa porque
la metfora es apropiada. Pensemos que cuando estamos viendo una fotografa en realidad estamos viendo una
representacin bidimensional de una realidad tridimensional. En el ACP estamos haciendo algo similar.
Miramos de hacer una fotografa bidimensional o tridimensional, para que la podamos visualizar, de una
realidad constituida por muchas dimensiones y que no visualizamos. Por lo tanto, en nuestro caso estamos
viendo una fotografa bidimensional de una realidad ochodimensional.

24. Pero, algo muy importante: Qu cantidad de informacin perdemos? Y, qu representan los nuevos ejes?

25. Respecto a la cantidad de informacin observemos la siguiente tabla:


26. Los valores propios de cada componentes nos indican la cantidad de varianza, la cantidad de informacin
que tiene cada componente. Como podemos ver en esta tabla la primera componente tiene un 46.38% de
informacin y la segunda un 35.76%. Las dos juntas tienen un 82.14. Por lo tanto, haciendo una representacin
en dos dimensiones con esas dos primeras componentes perdemos un 17.86% de informacin nicamente.

27. Respecto a lo que representan los nuevos ejes observemos la frmula de las dos primeras componentes
principales:

28. Esto indica que la primera componente principal tiene los coeficientes de la primera columna y la segunda
componente tiene los coeficientes de la segunda. O sea, que para conocer las coordenadas que tendr cada
alumno de esas dos componentes hay que multiplicar sus ocho notas por sus coeficientes respectivos. Y as es
como obtenemos la representacin grfica bidimensional mostrada antes.

29. Para interpretar una componente hay que seguir el siguiente procedimiento: 1) Mirar el valor absoluto de los
coeficientes distinguiendo los que tienen un valor grande y un valor pequeo. En nuestro caso en la primera
componente observemos que Lengua, Ingls, Filosofa e Historia tienen coeficientes con valor absoluto grande,
cercano en todos los casos a 0.5. Los dems ya son bastante ms pequeos, pesan mucho menos en esta
componente. En la segunda componente el peso principal se lo llevan Matemticas, Fsica y Qumica, con
coeficientes cercanos a 0.57. Las dems asignaturas pesan poco. 2) Mirar entre los coeficientes con valor
absoluto grande el juego de signos que hay. En nuestro caso el signo es el mismo, por lo tanto, las variables que
pesan en una componente y en la otra todas van en la misma direccin. Pero en otro caso nos podramos
encontrar con valores de signo contrario. Entonces hay que interpretar el juego de fuerzas de los signos.

30. En el ejemplo que venimos usando la interpretacin es muy clara. En la primera componente tenemos
reunidas las materias de letras. En la segunda componente tenemos reunidas, por el contrario, las materias de
ciencias. La educacin fsica no pesa ni en una ni en otra. Porque no tiene ninguna relacin ni con las materias
de letras ni con las de ciencias.

31. Viendo el grfico bidimensional donde en el eje de las abscisas tenemos la primera componente y en el eje
de las ordenadas tenemos la segunda componente podemos ver que los alumnos buenos en ciencias y letras
estarn situados a la derecha y arriba, los alumnos buenos en letras y malos en ciencias se situarn a la derecha
y abajo, los buenos en ciencias y malos en letras a la izquierda y arriba y, finalmente, los malos en ciencias y
letras se situarn a la izquierda y abajo.

You might also like