You are on page 1of 6

SESIN XIV

ANLISIS DE COMPONENTES PRINCIPALES

El objetivo del Anlisis de Componentes Principales (A.C.P.) es resumir un grupo amplio de


variables en un nuevo conjunto (ms pequeo) sin perder una parte significativa de la
informacin original (Chuvieco, 1996). Para el usuario final de productos de teledeteccin, el
objetivo del A.C.P. es construir una o varias imgenes que incrementen su capacidad de
diferenciar distintas coberturas. Es por ello que al realizar una composicin color resulta
interesante usar, en lugar de algunas bandas de la imagen, los componentes principales 1, 2 y
3 en la secuencia RGB respectivamente.
El A.C.P. puede aplicarse como realce previo a la interpretacin visual o como procesamiento
anterior a la clasificacin. En general, esta tcnica incrementa la eficiencia computacional de la
clasificacin porque reduce la dimensionalidad de los datos.
Por otra parte, desde el punto de vista estadstico, el A.C.P. facilita una primera interpretacin
sobre los ejes de variabilidad de la imagen, lo que permite identificar aquellos rasgos que
aparecen en la mayora de las bandas y aquellos otros que son especficos de algn grupo de
ellas (Chuvieco, opcit). Este trabajo se refiere a casos en los que interesa identificar la
informacin comn a la mayora de las bandas, que est presente en los primeros
componentes.
El A.C.P. tambin es usado en aplicaciones multitemporales con el objeto de detectar cambios
en distintas fechas. En este caso los primeros componentes resultantes del anlisis no son los
ms interesantes ya que recogen informacin comn a las distintas fechas (la estable). Los
ltimos componentes ofrecen la informacin no comn (el cambio) que es lo que interesa en
este contexto (Chuvieco, opcit).
Algebraicamente, el A.C.P. genera nuevas variables (componentes), mediante una combinacin
lineal de las p variables originales (bandas). Aunque se requieren los p componentes
principales para reproducir la variabilidad total, muchas veces la mayor parte de ella est
contenida en un nmero menor de componentes m. En ese caso, reemplazando las p bandas
por los m componentes, se reduce la dimensionalidad del problema conservando casi la
totalidad de la informacin.
En teledeteccin, la adquisicin de imgenes en bandas adyacentes del espectro implica, con
frecuencia, detectar informacin redundante (en apariencia las bandas de la imagen se
visualizan de manera similar) . Por ello, los N.D. de los pxeles de una banda pueden presentar
una importante relacin con los de otra, resultando una o ms de una de ellas irrelevantes.
Aunque la imagen puede arreglarse en una matriz tridimensional, para realizar el A.C.P. se
utiliza una matriz bidimensional. Formalmente, los N.D. de los n pxeles de una imagen en p
bandas pueden arreglarse en una matriz Xpxn,

La i-sima fila de la matriz contiene los n niveles digitales de la i-sima banda. Denominando X i
= [xi1 xi2 ...xin]t para i=1,2,..., p, resulta Xt = [X1, X2, ... , Xp].
Como el A.C.P. es un anlisis descriptivo no requiere que X tenga distribucin normal
multivariada. Si X tuviera esta distribucin se podra realizar inferencia (Mardia et al, 1982).
El estudio de la relacin entre bandas, que es la base del A.C.P., puede realizarse de dos
maneras:

Con la matriz de varianza-covarianza x:

en la que los elementos de la diagonal son las varianzas de los N.D. en cada banda:
con

y los elementos fuera de la diagonal son las covarianzas entre los N.D. de dos bandas:

Como la covarianza entre la banda i y la j es la misma que entre la banda j y la i (ij = ji) la
matriz x es simtrica. Cuando hay relacin lineal entre los N.D. de dos bandas las
covarianzas son grandes en comparacin con las varianzas, por eso es que esta matriz sirve
para estudiar la relacin entre pares de bandas.
Con la matriz de correlacin x:

en la que los elementos son los coeficientes de correlacin lineal de Pearson:

Los elementos de la diagonal son unos porque son las correlaciones de cada banda consigo
misma. Como la correlacin entre la banda i y la j es la misma que entre la banda j y la i (ij =
ji) la matriz x es simtrica. Cuando hay relacin lineal entre pares de bandas las
correlaciones son cercanas a 1 a 1.
Cuando no hay relacin entre bandas ambas matrices son diagonales (los elementos fuera de
la diagonal son ceros). En este caso cada banda aporta informacin diferente y por lo tanto el
A.C.P. sera innecesario (en teledeteccin esta situacin es poco comn).
El objetivo del A.C.P. es generar un nuevo sistema de coordenadas en el espacio multiespectral
en el cual los datos pueden ser representados sin correlacin, de tal manera que la matriz de
varianza-covarianza sea diagonal en el nuevo sistema de coordenadas.

Figura 1: Ilustracin de un sistema de coordenadas modificado en el cual los vectores tienen


componentes no correlacionados

Componentes principales obtenidos usando la matriz de varianza-covarianza


Como se dijo, los componentes principales son nuevas variables Y 1,Y2,...,Yp que se obtienen
como combinaciones lineales de las variables originales (bandas):

Como los Yi son combinaciones lineales de los Xi, tienen:


De todas las combinaciones lineales posibles, los componentes principales son aquellas que no
estn correlacionadas y tienen mxima varianza. Como la varianza se incrementa multiplicando
el vector de coeficientes ai por una constante, para que esta combinacin lineal sea nica es
conveniente usar los vectores de coeficientes normalizados, es decir con longitud 1 (a it ai = 1).

Si algunos autovalores son iguales, los autovectores y por lo tanto los componentes no son
nicos. Sin embargo, los autovectores correspondientes a autovalores iguales pueden elegirse
de manera tal que sean ortogonales, y as los componentes son nicos.
La matriz Y contiene en la diagonal las varianzas (autovalores) de los N.D. de los pxeles en
las coordenadas transformadas. Los autovalores son no crecientes, entonces la mxima
varianza (en general) est en la primera componente y 1, la subsiguiente en y2, y as
sucesivamente.

Como la varianza poblacional total es 11+ 22 +...+ pp = 1 + 2 + ... + p , la proporcin


de varianza total poblacional explicada por el k-simo componente es:

Como los autovalores se ordenan en forma no creciente, la eficiencia del ajuste de los datos
originales por los primeros m componentes (mp) es:

En particular cuando se consideran todos los componentes la proporcin de variacin explicada


es 1.
El coeficiente de correlacin entre el componente Yk y la banda Xi es:

Los criterios presentados en este trabajo para decidir cuntos componentes principales se
deberan seleccionar son:
(a) En la curva que muestra los porcentajes de variacin total explicada por cada componente
versus los componentes, considerar aquellos anteriores al punto de inflexin.
(b) Considerar los componentes cuyos autovalores son mayores que el autovalor promedio.
(c) Usar los componentes cuyos coeficientes de correlacin con las bandas son grandes en
valor absoluto.

Estos
criterios
son
utilizados
en
el
Problema
de
Aplicacin.
Antes de realizar el A.C.P. a una imagen real se presenta un ejemplo sencillo para mostrar el
clculo de los componentes principales.
Ejemplo (Richards y Jia, opcit): Suponga que los N.D. de 6 pxeles en 2 bandas son:
Banda 1

Banda 2

El sentido y la fuerza de la correlacin lineal entre dos bandas puede representarse


grficamente mediante un diagrama de dispersin. Cuanto ms se aproximan los puntos a una
recta mayor ser el grado de correlacin entre bandas.
En la Figura 2 los N.D. muestran asociacin lineal, que podra investigarse analticamente con
el coeficiente de correlacin de Pearson, cuyo valor es 0.7609.

Figura 2: Diagrama de dispersin entre las bandas 1 y 2.


Para este ejemplo:
245532
234543

83

79

1.9

1.1

79

79

1.1

1.1

La matriz de varianza-covarianza de los datos es


Para determinar los componentes principales es necesario encontrar los autovalores y
autovectores de X. Los autovalores estn dados por la solucin de la ecuacin
es decir
equivalentemente
es decir
1
2.6705
1
0.33
1

-3

0.88

2.6705

-0.8799298

-0.3295

0.000070

0.33

0.000165

0.0005

0.000235

que da por resultados 1=2.67 y 2=0.33.

Entonces la matriz de varianza-covarianza en el nuevo sistema es


Para encontrar la matriz G de la transformacin, se deben calcular los autovectores
normalizados asociados a los autovalores 1 y 2 Considerando el primer autovalor 1=2.67,
resulta que el vector solucin de la ecuacin
adecuadamente resulta el siguiente sistema

es X = (x1 x2) , y sustituyendo

del cual se obtiene X 1 = 1.427X2 lo que indica que existen infinitas soluciones para el
sistema.
Como, adems, los autovectores deben estar normalizados X12 + X22 =1
Esta ecuacin conjuntamente con el sistema anterior da por resultado X 1 = (0.82 0.57). De
manera similar X2=(-0.57 0.82). Por lo que:

y los componentes principales son:

Para los datos del ejemplo resulta:


n

y1

y2

1PC SCORS

2PC SCORS

Cdigo

-2.08335

-0.375

0.12445

-0.125

1.51335

0.125

2.08335

0.375

-0.12445

0.125

-1.51335

-0.125

Score 1PC1 = (2-3.5)0.82+(2-3.5)0.57=-2.083


Score 1PC2 = (4-3.5)0.82+(3-3.5)0.57=0.12445
Score 2PC1 = (2-3.5)(-0.57)+(2-3.5)(0.82)=-0.375
Score 2PC2 = (4-3.5)(-0.57)+(3-3.5)(0.82)=-0.125
Como los valores del primer componente son grandes comparados con los del segundo, la
mayor variabilidad se da en la direccin del primer componente principal, lo cual indica que
contiene la mayor parte de la informacin. Ms especficamente, como 1 = 2.67 el primer

componente contiene el
de la variacin total. De esta manera, el
primer componente muestra un alto contraste visual. Por otra parte el segundo componente es
perpendicular al primero (porque no estn correlacionados) lo que indica que contiene
informacin no incluida en el primer componente. Todo esto se confirma en la Figura 3, donde
se han graficado los datos en los dos sistemas (bandas y componentes principales).

Figura 3: Diagrama de dispersin en los dos sistemas de coordenadas.


3
2.5
2
1.5
1
0.5

-2.5

-2

-1.5

-1

0
-0.5
0
-0.5

0.5

1.5

2.5

-1

BIBLIOGRAFIA
CATENA A., RAMOS M. y TRUJILLO M. (2003). Anlisis Multivariado, un manual para
investigadores. Primera edicin. Espaa: Edit. Biblioteca Nueva, S.L. 413 p. ISBN: 84-9742115-9.
JOHNSON, E. Dallas (2000). Mtodos multivariados aplicados al anlisis de datos. Primera
edicin. Mxico: Edit. International Thomson Editores. 566 p. ISBN: 968-7529-90-3
LEVIN, I. Richard y RUBIN, S. David (2010). Estadstica para Administracin y Economa.
Stima edicin revisada. Mxico: Edit. Pearson Education. 952 p. ISBN: 978-607-442-905-3
NEL Quezada Lucio. (2010). Estadstica para Ingenieros. 1era edicin. Per: Edit. Macro. 310
p. ISBN: 978-612-4034-55-8
SPIEGEL Murray R. y STEPHENS Larry J. (2009). Estadstica. 4ta edicin. Mxico: McGrawHill, 577 p. ISBN: 978-0-07-148584-5
TRIOLA Mario F. (2009). Estadstica. Dcima edicin. Mxico: Pearson Education. 904 p. ISBN:
978-970-26-1287-2

You might also like