You are on page 1of 43

MultBiplotR:

Multivariate Analysis
using Biplots (in R)
Jos Luis Vicente Villardn
Dpto. de Estadstica
Universidad de Salamanca
villardon@usal.es
Biplot
Sea X una matriz de datos (centrada y/o estandarizada) que contiene las medidas de n
individuos en p variables. Un biplot en dimensin q es una representacin grfica
mediante marcadores Anxq y Bpxq (puntos o vectores) para las filas y las columnas
respectivamente, de forma que el producto AB aproxime X tan bien como sea
posible.
X = AB + E
Donde E es una matriz de residuales. La factorizacin no es nica, es decir, hay
infinitos biplots que aproximan la matriz de la misma manera. Para hacer la
representacin nica se toman las columnas de A o de B para que sean ortonormales.
Matriz de Datos
MultBiplot

h<p://biplot.usal.es/classicalbiplot/
Seleccin
Dibujo
Representacin grca (En R)
data(Protein)
bip=PCA.Biplot(Protein[,3:11])
plot(bip, ShowBox=T, LabelPos=3)
Producto escalar
Interpretacin del producto escalar q
xij ! a b j = ai1b j1 + + aiqb jq = aik b jk
T
i
k=1

aTi b j = Pr oy(a i / b j ) ! b j
aTi b j = a i b j cos(a i ,b j )
Representacin grca

Colores=c(7,7,7,7,7,1,7,7,7)
plot(bip, mode='b', LabelPos=3, dp=6, ColorVar=Colores, ColorInd=1, margin=0.1)
Biplot (Componentes
Principales)
Por ejemplo B puede tomarse como los q primeros vectores propios de XX, Vq, y
como A las proyecciones sobre el subespacio definido por Vq , A= XVq.

X = XVq Vq + E

En este caso tenemos que el biplot es equivalente al Anlisis de Componentes


Principales. (en la versin JK o RMP Biplot)
Las coordenadas de las filas son las coordenadas sobre las Componentes Principales y
las coordenadas sobre las columnas los vectores propios Vq, que tambin se pueden
entender como la proyeccin de los ejes unitarios en el espacio p dimensional,
asociados a la matriz identidad I, sobre el espacio de las Componentes Principales

Vq = IVq

Los vectores propios forman una base alternativa del espacio p-dimensional en el que
se describen los individuos, puede verse como una rotacin de los p ejes cartesianos,
dada por la matriz V.
Biplot de Componentes Principales
data(Protein)
bip=PCA.Biplot(Protein[,3:11], alpha=1)
plot(bip, ShowBox=T, LabelPos=3)
Biplot de Covarianzas/
Correlaciones (Anlisis
Factorial)
Se trata del GH-Biplot obtenido a partir de la descomposicin en valores singulares.
X = AB = U1/2 V

Tomando A=U B = V1/2

Teniendo en cuenta que U = U1/2 1/2 = XV 1/2

La matriz base para la interpolacin es ahora Vint = V 1/2

La matriz base para la prediccin es entonces B = V1/2


En este caso tenemos que el biplot es equivalente al Anlisis Factorial. (en la versin GH o
CMP Biplot)
Biplot del Anlisis Factorial
data(Protein)
bip=PCA.Biplot(Protein[,3:11], alpha=0)
plot(bip)
3D Biplot
3D Biplot
Prediccin
Podemos predecir la coordenadas en el espacio p-dimensional de un punto y = (y1 , ... , yr),
descrito en trminos del sistema de referencia de L. La prediccin son las coordenadas del
punto en el p-espacio.
Un punto x = (x1, ... , xp) descrito en trminos de las coordenadas del p-espacio pero que
est en el subespacio se proyecta en si mismo, es decir,
x = xVq (VqVq )1 Vq = xVq V
Pero, sabemos que y = x Vq en su descripcin en trminos de las coordenadas del
subespacio, luego, x = y(VqVq )1 Vq . Como las columnas de Vq son ortonormales se
tiene que, x = y V . Las coordenadas, en el espacio p-dimensional, del interpolado de x
son x VqVq y las predicciones de la muestra original son XVqVq.
De forma ms simple, la prediccin de un valor xij de X, es el producto escalar del
marcador que representa a la fila ai por el marcador que representa a su columna bj.

xij = a i b j
Prediccin
Consideremos el hiperplano N perpendicular al k-
simo eje cartesiano k que pasa por el marcador
unidad en tal eje. Este se corta con la representacin
en un subespacio (q-1)-dimensional (una recta
cuando la representacin es bidimensional) L N.
Todos los puntos de este subespacio deberan
predecir el valor 1. Podemos definir un eje de
prediccin como una lnea (que pasa por el origen)
en el espacio de la representacin, perpendicular a L
N y que se corta con l en un punto que ser
marcado con la unidad. Otros marcadores se
aadirn en la escala, a intervalos iguales, para
producir un eje convencional k. En el biplot que
estamos trabajando la direccin es la misma que para
la interpolacin, es decir, vk. Obsrvese que
estamos utilizando el hecho de que la representacin
se realiza en un subespacio del original.
En general, ambas direcciones no tienen qu
coincidir.
Prediccin
Este mtodo no es nico, ya que podemos seleccionar muchas lneas en el subespacio de la
representacin que se cruzan con L N y son ortogonales para asegurar la unicidad,
elegimos la lnea que sea ortogonal a L N y pase por el origen.

Esta lnea es la proyeccin de k sobre


L y coincide con la direccin del eje
biplot de interpolacin k explicado
anteriormente. Sin embargo, los
marcadores inducidos por la
interseccin con N no son las
proyecciones sobre L, de forma que
difieren de los marcadores de
interpolacin.
Biplot Calibrado
data(Protein)
bip=PCA.Biplot(Protein[,3:11], alpha=1)
plot(bip, mode=s, LabelPos=3)
Aadir Clusters
Aadir Clusters

data(iris)
bip=PCA.Biplot(iris[,1:4])
bip=AddCluster2Biplot(bip, NGroups=3, ClusterType="us", Groups=iris[,5], Original=FALSE)
plot(bip, mode="s", PlotClus = TRUE, margin=0.1, TypeClus = "ch")
Aadir Clusters

# Hierarchical cluster with the Ward method


bip=AddCluster2Biplot(bip, ClusterType="hi", method="ward.D")
op <- par(mfrow=c(1,2))
plot(bip, mode="s", margin=0.1, PlotClus=TRUE)
plot(bip$Dendrogram)
par(op)
Coordenadas Principales
El RMP-Biplot que vimos antes puede entenderse de otra
forma Es fcil comprobar que las coordenadas para los
individuos coinciden con las coordenadas principales
cuando la distancia a usar es la eucldea usual (o pitagrica
en la terminologa de Gower). Pero hay muchas otras
distancias posibles que adems se pueden aproximar
mediante una distancia eucdea o que se pueden integrar
en un espacio eucldeo. Vimos algunas en el tema de
Coordenadas Principales.
Coordenadas Principales
Si P es una matriz de productos escalares entre cualquier conjunto de vectores (puntos) con
respecto a su centro de gravedad, en cualquier espacio Eucldeo, entonces las proyecciones
de los puntos en el subespacio de baja dimensin ms prximo se obtienen de la estructura
espectral de P, como :

A = U1/2

Donde P = U U (U U = I) es la descomposicin de valores y vectores propios de P.

La configuracin obtenida por los puntos de Y reproduce aproximadamente, los productos


escalares de la matriz original P y, por tanto, las distancias a partir de las que fueron
calculados. Para la representacin en dimensin reducida basta tomar las primeras
columnas de Y. k 2
La variabilidad explicada vendr dada, como es habitual, por i
n1 x100%
i=1

2
i
i=1
Distancia Pitagrica
Para la distancia eucldea clsica, , la matriz de productos escalares

P = 12 H 2 H = X X = UU

Las coordenadas principales son

A = U1/2 = XV

Y todo ello directamente relacionado con la DVS de la matriz X

X = U1/2 V

Si sustituimos la matriz de distancias eucldeas por otras, tenemos las coordenadas


principales de las filas o individuos, pero no las de las columnas.
MDS
La configuracin de los individuos puede obtenerse tambin mediante MDS.

Supongamos que tenemos un conjunto de n objetos y una forma de determinar la


disimilaridad entre cada par = ij : i, j = 1,, n ; el MDS trata de buscar una
[ ]
configuracin X = xia :i = 1,,n;a = 1,, m de n puntos en el espacio Eucldeo m
dimensional de forma que, el punto x i = [ xi1,, xim ] represente al objeto i, y la distancia
eucldea entre dos puntos x i y x j
m
d(x i , x j ) = dij (X) = (x ik x jk )2
k=1

aproxime la correspondiente disimilaridad ij entre los objetos, una funcin de la


misma
f ( ij ) dij
La funcin f especifica el modelo de MDS.
A las medidas ij las denominaremos proximidades. Los valores f ( ij ) = ij se
conocen como disparidades.
Regresin Lineal
Para predecir los valores de las variables que deberamos asociar a un punto del MDS
necesitamos alguna conexin entre el espacio de los individuos A y el de X.
Consideraremos la posible relacin utilizando Regresiones.
A partir de la matriz A buscamos una matriz no necesariamente ortogonal B que representa
la orientacin ptima, de forma que se haga mnimo a ||X A B||. La solucin viene dada
por
B = (A A)1 A X

Es decir, las regresiones de las variables sobre las columnas de A. Que se pueden separar
para cada una de las columnas.
x < j> = A j

Cuando usamos la distancia eucdea usual, todos los procedimientos coinciden.


Geometra (Regresin
Lineal)
5
H
4.5
j
4

3.5
3
3

2.5
2
2

1.5
1
1 L

0.5
1 2 3 j
0
0
Regresin Logstica
Let XIxJ be a binary data matrix in which the rows correspond to I individuals and the
columns to J binary characters. Let ij = E(xij) the expected probability that the character j be
present at individual i. A logistic bilinear model can be written as
S

b jsais
bj 0 + where ais and bjs (i=1, ,I; j=1, ,J; s=1, ..., S)
e s=1
are the model parameters used as row and column
ij = S
bj 0 + b jsais markers respectively.
1+ e s=1

The model is a generalized bilinear model having the logit as link function.
S
logit( pij ) = b j 0 + b js ais = b j 0 + ai b j
s=1
In matrix form
logit(P) = 1I b0 + AB
Where P is the matrix of expected probabilities, 1I is a vector of ones, b0 is the vector
containing the constants, A and B are the matrices containing the markers for the rows and
columns X.
Geometra (Regresin
Logstica)
1 H 1 j H

0.8 0.8 0.8

0.6 0.6 0.6

0.4 0.4 0.4

L L
0.2 0.2 0.2
j

0 0 0.2 0.4 0.6 0.8

Vicente-Villardn, J. L., Galindo Villardn, M. P., & Blzquez Zaballos, A. (2006).


Logistic biplots. Multiple correspondence analysis and related methods. London: Chapman
& Hall, 503-521.
Demey, J. R., Vicente-Villardn, J. L., Galindo-Villardn, M. P., & Zambrano, A. Y.
(2008). Identifying molecular markers associated with classication of genotypes by
External Logistic Biplots. Bioinformatics, 24(24), 2832-2838.
Biplot Logstico
ACoP con Bootstrap
Datos Nominales

Hernndez Snchez, J. C., & Vicente-Villardn, J. L. (2013).


Logistic biplot for nominal data. arXiv preprint arXiv:1309.5486.
R package: NominalLogisticBiplots
Datos Ordinales

Vicente-Villardn, J. L., & Snchez, J. C. H. (2014). Logistic Biplots for Ordinal Data
with anApplication to Job Satisfaction of Doctorate Degree Holders in Spain. arXiv reprint
arXiv:1405.0294.
R package: OrdinalLogisticBiplots
El Biplot Cannico
o MANOVA Biplot
Let X be a data matrix of sample sites by variables whose rows are divided into K groups. A Canonical

Biplot for the data is obtained from a factorization X GH of the matrix X containing the group means
(rivers) for each the chemical composition variables. In order to relate the biplot factorization to MANOVA
or Canonical Variate Analysis (CVA) we use the Singular Value Decomposition (SVD), Y = UD V' of the
1/2 1/2
matrix Y = D n X W containing the weighted group means, where D n is the diagonal matrix with the
1 1
group sample sizes, W= (X X X D n X) is the within-groups and B = X D n X the
nk k 1
1/2 1/2
between-groups covariance matrices. The decomposition in X = D n UD V'W permits the construction

of a Biplot (in dimension r) for the group means matrix ( X GH ), in which the first r columns of
G = D1/2 1/2
n UD are row markers and the first r columns of H = W V are column markers (Amaro et al.,

2004). Alternative descriptions can be found in Vicente-Villardon (1992), Gower and Hand (1995) or Gower
et al. (2011). Together with the biplot representation of the means, the rows of X can also be projected on the
biplot in order to better interpret the magnitude of the differences among groups.
Canonical Biplot (Coordenadas
discriminantes)
3D Canonical Biplot
Bondad del ajuste
El objeto del biplot es predecir los valores originales de las variables en la representacin
en dimensin reducida. Si calculamos los valores esperados
+ E (X
X = AB + E = X = AB )

La bondad del ajuste global ser la parte de la variabilidad de los datos explicada por la
prediccin
X)
= traza(X / traza(X X)
Que, para los biplots clsicos coincide con la calculada a partir de los valores propios.
Si calculamos por columnas
X)
j = diag(X / diag(X X)1
Tenemos la bondad de ajuste para cada columna que nosotros llamamos calidad de
representacin y Gower predictividad.
Si calculamos por filas 1
j = diag(XX ) / diag(XX )
Tenemos la bondad de ajuste para cada fila que nosotros llamamos calidad de
representacin y Gower predictividad.
MultBiplot (R)
BIPLOT CLSICO
o COMPONENTES PRINCIPALES
o ANLISIS FACTORIAL
o HJ-BIPLOT
ANLISIS DE CORRESPONDENCIAS
o SIMPLE
o MULTIPLE
o NO SIMTRICO
ANLISIS DE COORDENADAS PRINCIPALES Y MDS
(con biplot externo)
o DATOS CONTINUOS, BINARIOS, NOMINALES ORDINALES
o DATOS MIXTOS
o UNFOLDING (PREFSCAL)
BIPLOT CANNICO/MANOVA BIPLOT
o UNA VA
o DOS VAS
o GENERAL
MultBiplot (R)
BIPLOT LOGISTICO
o BINARIO
o NOMINAL
o ORDINAL
o DATOS MEZCLADOS

ORDENACIN DE DOS TABLAS


o ANLISIS DE LA REDUNDANCIA
o ANLISIS CANNICO DE CORRESPONDENCIAS
o COINERCIA
o CCA NO SIMTRICO
o CORRELACIN CANNICA
o BIPLOT LOGSTICO RESTRINGIDO
o UNFOLDING RESTRINGIDO
o MINIMOS CUADRADOS PARCIALES
MultBiplot (R)
TABLAS MULTIPLES
o BIPLOT CONSENSO (CON VARIABLES COMUNES)
o META-BIPLOT
o STATIS-ACT
o DISTATIS
o ANLISIS FACTORIAL MLTIPLE
o ANLISIS FACTORIAL SIMULTANEO
o DOBLE ANLISIS DE COMPONENTES PRINCIPALES
o X-STATIS (ANLISIS TRIDICO PARCIAL)
o PROCRUSTES

BIPLOT PARA TEORIA DE LA RESPUESTA AL ITEM


DATOS DE TRES TRES-VIAS
o PARAFAC
o TUKALS2
o TUKALS3

OTROS DESARROLLOS FUTUROS


MUCHAS GRACIAS