You are on page 1of 55

Universidad Nacional del Comahue

Facultad de Economa y Administracin


Maestra en Estadstica Aplicada

CURSO

MTODOS ESTADSTICOS II

APUNTE METODOS MULTIVARIADOS

Dr. Sergio Bramardi


NEUQUEN, 2007
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

1. Panorama general, definicin y clasificacin del anlisis de datos multivariantes

Los ltimos aos han sido testigo de un desarrollo espectacular del Anlisis Multivariante. La
aplicacin de estas tcnicas, cuyos fundamentos tericos son conocidos en algunos casos desde hace tiempo,
se haba visto hasta hace poco limitada por sus exigencias de medios de clculo. Superado este obstculo con
la generalizacin de los ordenadores que han producido una verdadera palingenesia informtica en
palabras de Bisquerra Alzina (1989) en referencia al trmino acuado por Arnold Toynbee para definir el
conjunto de cambios sociales y de personalidad que se producen en determinados momentos histricos y que
literalmente significa volver a nacer; los mtodos multivariantes se constituyen hoy en da en una fructfera
tcnica de anlisis que se extiende prcticamente a todas las ciencias experimentales y en reas tan diversas
como la sociologa, economa, medicina, biologa, ecologa, etc.

Los orgenes del Anlisis Multivariante se remontan a las primeras generalizaciones de la


correlacin y regresin. Uno de los primeros trabajos es el de Karl Pearson (1901), donde se establecen las
primeras ideas de Componentes Principales. Otro de los trabajos pioneros se debe a Spearman (1904).
Durante el primer tercio de siglo se producen importantes avances que posteriormente posibilitarn el
desarrollo del anlisis multivariante. Cabe destacar las aportaciones de Fisher en el anlisis de la varianza, la
razn de verosimilitud de Neyman y Pearson, y otros avances en chi-cuadrado, correlacin y proximidades.
El establecimiento definitivo de la mayora de los anlisis multivariantes se produce alrededor de los aos
treinta, con las contribuciones de Hotelling, (1931, 1933); Wilks (1932, 1935); Fisher (1935,1936);
Mahalanobis (1936) y Bartlett (1939). En principio el anlisis multivariante qued reducido al campo de la
especulacin terica. Posteriormente se estudiaron las posibles aplicaciones (Rao, 1952). Sin embargo, los
clculos eran tan laborioso que desanimaban los intentos de aplicacin.

Pero como se dijo al principio, el anlisis multivariante comienza a aplicarse en los ms diversos
mbitos cuando se inicia la utilizacin masiva de los ordenadores y el proceso mecnico de clculo deja de
tener importancia.

Se han propuesto varias definiciones para describir estas tcnicas, pero todas ellas aluden a los
mismos aspectos generales. A continuacin se expone la definicin presentada por Romero Villafranca
(1995):

Desde un punto de vista puramente estadstico y de forma algo restrictiva, el Anlisis


Multivariante puede definirse como el conjunto de tcnicas cuyo objetivo es el anlisis descriptivo y/o la
realizacin de inferencias a partir de datos de naturaleza multivariante, es decir, en los que cada observacin
est constituida por los valores de varias variables interrelacionadas.

Pese a su carcter tautolgico esta definicin contiene ciertos matices que conviene resaltar:

As cuando decimos conjunto de tcnicas estamos expresamente poniendo de manifiesto el


carcter poco estructurado que en la actualidad posee el Anlisis Multivariante, bajo cuya denominacin
general se engloban frecuentemente tcnicas especficas surgidas en reas muy diversas y carentes de un
sustrato comn.

Igualmente la referencia al anlisis descriptivo pretende resaltar la importancia en el contexto


multivariante de este tipo de enfoque frente a los ms clsicos de naturaleza inferencial.

2
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Por ltimo, la mencin del carcter interrelacionado de las variables estudiadas hace hincapi en el
aspecto esencial del Anlisis Multivariante. En efecto si las variables fueran independientes podran
estudiarse por separado mediante las tcnicas univariantes clsicas. El Anlisis Multivariante explota las
relaciones existentes entre las mismas para lograr un anlisis ms rico y profundo de la realidad subyacente
en los datos observados.

Desde el punto de vista prctico las tcnicas de Anlisis Multivariante permiten el estudio de
situaciones en que se disponen de observaciones sobre varios individuos u objetos pertenecientes a uno o
ms grupos, estando constituida cada observacin por los valores de varias caractersticas o variables.
Los conceptos de individuo, grupo y variable pueden corresponder a realidades muy diferentes segn el
problema considerado.

Tambin es importante sealar que existe un gran nmero de aproximaciones tericas a las tcnicas
de anlisis de datos multivariantes, pudindose distinguir fundamentalmente dos escuelas (aunque existen
diferencias notables en su interior). La primera, en la que encontramos fundamentalmente autores
anglosajones, son tratadas bajo la denominacin multivariate statiscal analysis, y supone con frecuencia que
las variables siguen una distribucin normal p-dimensional, poniendo un especial nfasis en el aspecto
inferencial de los anlisis, podemos citar a los britnicos Galton, Pearson, Fisher, Student, Snedecor, Gower
y los americanos Hotelling, Wilks, Bartlett, etc. La segunda escuela, que ha conocido un gran desarrollo en
las ltimas dcadas en Francia, realiza el anlisis de datos sin hiptesis previas sobre las variables con una
finalidad esencialmente descriptiva, denominando a esta rama de la estadstica simplemente analyse des
donnes con Benzecri, Lebart, Morineau y Fenelon a la cabeza (Judez Asencio, 1989). Una tercera escuela
con importantes aportes al anlisis multivariante fue la india donde podemos mencionar entre otros a
Mahalanobis, Rao y Roy.

El trmino multivariate analysis se ha traducido al espaol en tres formas distintas : a) como


anlisis multivariable, utilizado generalmente en Psicologa, Sociologa y Economa (Snchez Carrin
1984; Pedret-Yebra, 1986); b) anlisis multivariante, utilizado en Bioestadstica, Biologa y Economa
(Cuadras, 1996; Sierra Martnez, 1986); y c) anlisis multivariado, utilizado en Psicologa y Educacin
(Escotet, 1980). Las tres traducciones se refieren al mismo concepto. Por nuestra parte, en ausencia de
unicidad terminolgica, utilizaremos anlisis multivariante por ser el ms difundido en el rea de la
Biometra, pero no por ello descartamos las otras versiones.

As como se han intentado varias definiciones del Anlisis Multivariante, tambin diversos autores
han tratado sobre la clasificacin de este conjunto de tcnicas bajo distintos enfoques. La cantidad y variedad
de mtodos puede producir una sensacin de confusin al que se introduce por primera vez a estas tcnicas,
sin embargo una primera distincin est en: a) mtodos descriptivos o exploratorios; y b) mtodos
explicativos o confirmatorios. En los primeros, el investigador se aproxima a los datos sin ninguna hiptesis
previa, se observa la realidad explorando los datos en bsqueda de nuevos conocimientos. Dentro de este
grupo se incluyen, por ejemplo, el anlisis factorial exploratorio, el anlisis de cluster, el anlisis de
correspondencias y las escalas multidimensionales. Los mtodos explicativos, por otra parte, se basan en un
marco terico que justifica y fundamenta unas hiptesis que se intentan validar empricamente. Entre estos
mtodos se encuentra, por ejemplo, el anlisis multivariante de la varianza, la regresin mltiple y los
modelos log-lineales (Bisquerra Alzina, 1989).

3
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Cuadras (1996) propone una clasificacin muy simple segn el mtodo se aplique a una o varias
poblaciones, y segn intervengan uno o ms grupos de variables:

a) Una poblacin y un solo grupo de variables, es decir, las observaciones proceden de una misma
poblacin y las variables son de naturaleza razonablemente homognea:
- Anlisis de Componentes Principales
- Anlisis Factorial

b) Varias poblaciones y un solo grupo de variables:


- Anlisis Cannico de Poblaciones
- Anlisis Discriminante
- Anlisis Multivariante de la Varianza

c) Una poblacin y dos grupos de variables, cada grupo de naturaleza posiblemente diferente:
- Regresin Mltiple
- Anlisis de Correlacin Cannica

d) Otros mtodos que no pueden situarse estrictamente dentro de este esquema y cuyo objetivo principal es
establecer relaciones y clases naturales sobre una coleccin heterognea de objetos o individuos:
- Anlisis de Coordenadas Principales
- Anlisis de Proximidades o Escalas Multidimensionales (MDS)
- Taxonoma Numrica (Anlisis de Cluster)
- Anlisis Factorial de Correspondencias

Desde el punto de vista de las aplicaciones, los criterios ms difundidos para clasificar las distintas
tcnicas del Anlisis Multivariante son la naturaleza de las matrices de datos analizadas y los objetivos
perseguidos en el anlisis.

Dentro de los mtodos multivariantes los que conciernen al presente trabajo son aquellos que
resuelven el problema de representar geomtricamente, cuantificar la asociacin entre individuos y
clasificarlos respecto a un conjunto de variables observadas que pueden ser cuantitativas, cualitativas o una
combinacin de ambas.

Para facilitar la presentacin de las diferentes tcnicas se propone dividirlas segn sean de
ordenacin o de clasificacin y dentro de las primeras agruparlas de acuerdo al tipo de variable y medida de
distancia asociada (Tabla 1).

4
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Distancia Eucldea Anlisis de


Componentes Principales
Variables
Cuantitativas

Distancia de Anlisis Cannico


Mahalanobis de Poblaciones

Anlisis de
Indices de Similaridad
METODOS DE Coordenadas Principales
ORDENACION Variables
Cualitativas
Datos de frecuencia
Anlisis Factorial
organizados
de Correspondencias
En tablas de
contingencia. Distancia
Chi-Cuadrado

Variables Anlisis de
Cuantitativas Indices de Disimilaridad Proximidades
o Cualitativas (MDS o Escalas
Multidimensionales)

METODOS DE De acuerdo al tipo


Variables Anlisis de Cluster
variables se asocia una
CLASIFICACION Cuantitativas
matriz de distancia
o Cualitativas
o similaridad adecuada

Tabla 1 : Mtodos del Anlisis Multivariante

A continuacin, luego de una introduccin sobre distancias, se har una breve presentacin slo de
estos mtodos.

2. Distancias Estadsticas

Se han utilizado muchos trminos para referirse a la semejanza entre pares de unidades:
similaridad, proximidad, disimilaridad, distancia o asociacin. Nosotros para uniformar la terminologa
hemos optado por emplear similaridad y distancia, aunque este ltimo es un trmino genrico y puede
referirse a distancia cuadrada.

Las similaridades usualmente estn acotadas en el rango cero a uno; un aumento de la similaridad
implica un aumento de la semejanza entre unidades, y toda similaridad de una unidad consigo mismo
debera ser igual al mximo valor posible, es decir, uno. Las distancias en cambio disminuyen con un
aumento del parecido, usualmente no son negativas y la distancia de un elemento consigo mismo es cero.
Tanto las similaridades como las distancias son simtricas, es decir, la distancia entre la i-sima y j-sima

5
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

unidad es la misma, independientemente si se mide a partir de la unidad i o desde la unidad j. Mtodos como
el Anlisis de Cluster trabaja generalmente con datos de similaridad, mientras que algunos mtodos de
ordenacin, tal como las Escalas Multidimensionales, son descritos tradicionalmente en trminos de
distancia. Adems, con algunos datos es usual construir similaridades, mientras que otros se prestan a la
construccin de distancias. No obstante la eleccin de la forma de asociacin, las similaridades pueden
fcilmente transformarse en distancias y viceversa. Por ejemplo, la similaridad sij en el rango cero-uno puede
ser transformada a distancia por los tres mtodos siguientes:

dij = 1 - sij
dij = 1 sij
dij = - log sij
dij = 1/sij - 1

aunque la segunda es la de mayor difusin por propiedades que discutiremos ms adelante. Las dos ltimas
transformaciones no pueden definirse para similaridades igual a cero.

En esta seccin se tratar de describir como una matriz Xnxp, constituida por los vectores filas xi que
representan a los individuos u objetos, y vectores columnas dados por variables que describen esos objetos,
puede usarse para construir una matriz simtrica (nxn) de asociacin entre las n filas de X.

A continuacin se considera la formulacin de las medidas de asociacin para cuatro tipos de datos
que se corresponden a su vez con diferentes formas de variables: binarios, es decir, presencia/ausencia;
cualitativos pero con ms de dos estados, variables cuantitativas y por ltimo se har una presentacin de las
llamadas medidas de distancia genticas que pueden referirse tanto a variables binarias como frecuenciales.
Tambin ser necesario considerar cuando la informacin es mixta, es decir se trata de ms de un tipo
variables, y como actuar con los valores faltantes.

2.1 Datos binarios

Cuando todos los datos son binarios, la informacin del grado de asociacin entre cualquier par de
unidades xi y xj puede representarse como una tabla de contingencia 2x2:

Individuo j
+ -
Individuo i + a b a+b+c+d=p
- c d

donde a y d son las frecuencias con que la presencia o ausencia de caractersticas es comn a ambas
unidades. Por el contrario b y c contabilizan las discrepancias con que aparecen las caractersticas. Es decir,
particionamos el nmero total de variables p en una parte en la que ambas unidades estn presentes, otra en
la que slo una est presente y una tercera en que ambas estn ausentes.

Una vez construidas las n(n-1)/2 tablas de frecuencia se define una medida similitud o similaridad
entre los individuos funcin de las frecuencias a, b, c y d.

6
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

sij = f (a,b,c,d)

tal que:
1) es creciente en a
2) es decreciente en b y en c
3) es simtrica en b y c lo que implica que sij toma igual valor en las dos situaciones siguientes: (i)
cuando la i-sima unidad est presente y la j-sima ausente y (ii) cuando la i-sima unidad est
ausente y la j-sima presente. Claramente este es un requisito necesario y suficiente para que el
coeficiente de similaridad sea simtrico, es decir, la similaridad entre las unidades xi y xj es la
misma que la entre xj y xi.

El coeficiente de similaridad sij, como su nombre lo indica, da una medida del grado de semejanza o
similaridad entre las unidades xi y xj en relacin a los p caracteres. Como se dijo, la mayora de los
coeficientes de similaridad varan de 0 a 1, siendo:

sij = 0 si c+b=p
sij = 1 si a+d=p,

es decir, sij = 0 cuando todo carcter presente en xi no est presente en xj (discrepancia o disimilaridad total),
y sij = 1 cuando todo carcter presente en xi est presente tambin en xj (similaridad total).

Numerosos autores han propuesto coeficientes de similaridad con tales propiedades, muchos de
ellos muy semejantes, pero podramos clasificarlos en dos grupos: aquellos coeficientes en los que se
establece adems una simetra entre a y d, donde tanto la ausencia como la presencia simultnea del carcter
contribuyen a la semejanza entre las unidades; y aquellos en que no se considera como motivo de aumento de
la similaridad, la ausencia simultnea.

Un problema que suele acarrear la utilizacin de los coeficientes correspondientes al primer grupo,
en los que aparece d en el denominador de sij , es que al aadir caracteres arbitrarios no comunes, podran
hacerse falsamente similares individuos que no los son (Cuadras, 1996). Gower (1971) hace una distincin
entre datos binarios, llamando dicotmicos a aquellos en los que la ausencia simultnea del carcter no
contribuye a la similitud, reservando el trmino de datos alternativos en aquellos casos donde la presencia
o ausencia de la variable binaria se refieren a dos niveles de una variable cualitativa, situacin en la que si
tiene importancia tener en cuenta que el carcter no est presente en dos individuos.

Por ejemplo, si mediante una variable binaria se desea caracterizar especies vegetales de acuerdo a
su tipo sexual, segn sea monoica (flores femeninas y masculinas en la misma planta, codificada con 1) o
diocas (flores femeninas y masculinas en diferentes plantas, codificada con 0); normalmente se deseara que
dos especies monoicas fueran tan semejantes como dos diocas, por esto deberamos utilizar un coeficiente de
similaridad simtrico en a y d. Otra situacin totalmente distinta sera cuando la variable binaria se refiere a
la presencia o ausencia de caracteres taxonmicos, o si dos especies se encuentran presentes en un mismo
sitio: aqu de acuerdo a la naturaleza de nuestros datos podra llegar a ser correcto considerar que dos
especies son similares si, y solamente si, ellas aparecen juntas en el mismo lugar, por poner un caso lmite
considerar que una especie de zonas templadas y otra de zonas clidas son similares slo por el hecho de que
no aparecen en un sitio de clima fro resulta obviamente absurdo.

7
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

No existe un criterio absoluto que permita decidir el coeficiente de similaridad ms adecuado. En la


eleccin de un determinado coeficiente intervendrn adems del peso que se desea dar a las frecuencias a, b,
c y d, el tipo de datos que se quieran representar. Se trata de un problema que debe ser resuelto para cada
situacin experimental concreta, de modo que un conocimiento profundo de nuestros datos permitir decidir
sobre la conveniencia de un tipo u otro de coeficientes de similaridad.

En la Tabla 2 se presentan los coeficientes de similaridad ms utilizados, entre los que destacan el
coeficiente de Emparejamiento Simple tambin conocido como, Simple Matching o coeficiente de Sokal y
Michener, y el coeficiente de Jaccard; cada uno de ellos representantes de lo dos grupos de coeficientes a los
que se hizo referencia arriba y de los cuales varios autores han presentado distintas variantes que conducen a
resultados generalmente sin marcadas diferencias en aplicaciones prcticas (Digby y Kempton, 1991). Una
lista ms extensa de coeficientes se puede encontrar en Sneath y Sokal (1973), Goodall (1973) y Gower
(1985).

Con simetra entre a y d

Emparejamiento Simple a+d


(Sokal y Michener, 1958) a +b+c+d
a+d
Rogers y Tanimoto (1960) a + 2b + 2c + d
(a + d ) (b + c)
Hamman (1961) a +b+c+d

Sin simetra entre a y d

a
Jaccard (1908) a +b +c
a
Kulczynski (1927)
b+c
a
Russel y Rao (1940) a +b+c+d
2a
Dice (1945) 2a + b + c
a
Ochiai (1957) ( a + b)( a + c)

a
Sokal y Sneath (1963) a + 2(b + c)

Tabla 2 : Coeficientes de Similaridad para datos binarios.


Las cantidades a, b, c y d son definidas en el texto.

Existen otros coeficientes que expresan dependencia estocstica entre xi y xj y varan de -1 a +1. La
mayor disimilaridad corresponde a -1 y la similaridad total a +1. El valor 0 se identifica con la nocin de
independencia estocstica. Ejemplos de estos coeficientes son:

8
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Yule,1911 (citado en Yule y Kendall, 1950): ad bc


ad + bc

Pearson (citado por Guilford, 1942): ad bc


(a + c)(b + d )(a + b)(c + d )

Una vez definido el coeficiente de similaridad , se construye la matriz simtrica nxn


llamada matriz de similaridad entre individuos.

s11 s12 ......... s1n


s21 s22 ......... s2n
.. .. ..
S= .. .. ..
. . .
sn1 sn2 ......... snn

Dos caractersticas son deseables en esta matriz: (i) que sea semidefinida o definida positiva para
una adecuada representacin de los individuos en un espacio eucldeo, por ejemplo a travs de Anlisis de
Coordenadas Principales, y (ii) que se verifique (aproximadamente) la propiedad ultramtrica, es decir que
sij mx { sik , sjk } para permitir una apropiada clasificacin jerrquica de los individuos. Sobre estos dos
temas se discutir ms adelante.

2.2 Datos cualitativos

Sneath y Sokal (1973) propusieron reemplazar variables cualitativas multiestados tal como color
(rojo, blanco, azul) por un nmero de pseudo variables binarias (roja / no roja, blanca / no blanca, azul / no
azul) para permitir el uso de cualquiera de los coeficientes de similaridad presentados en la Tabla 2. Sin
embargo, Digby y Kempton (1991) no recomiendan este proceso por ser innecesariamente artificial y
conducir a pesos espurios de las variables con diferentes nmeros de estados.

Una propuesta ms conveniente es recurrir a una extensin del coeficiente Simple Emparejamiento:

sij = nmero de caracteres coicidentes


nmero total de caracteres

Cuando el cero representa ausencia del carcter, puede ser preferible ignorar el empate de ceros en
forma anloga con lo propuesto por el coeficiente de Jaccard. En estos casos tambin es posible tratar al
carcter cualitativo como dos variables, una variable binaria indicando la presencia o ausencia del carcter, y
una segunda variable multiestado que solamente toma valores cuando el carcter est presente. Gower
(1971a) describi diferentes mtodos para construir similaridades para tales caracteres jerrquicos cuya
presentacin se hace en la seccin 2.5.
Hay situaciones en las que la informacin correspondiente a variables cualitativas puede ser
representada en una tabla de contingencia segn dos criterios de clasificacin, a los que llamaremos

9
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

caracteres y poblaciones. El cuerpo de la tabla contendr la frecuencia fik con que aparece el carcter k en
la poblacin i, tal como se indica a continuacin:

Caracteres

C1 C2 ... Cp
P
o x1 f11 f12 ... f1p f1.
b x2 f21 f22 ... f2p f2.
l
a . ... ... ... ... .
c
i . ... ... ... ... .
xn fn1 fn2 ... fnp fn.
n
f.1 f.2 ... f.p f..

La distribucin de frecuencias de los caracteres en la poblacin xi viene dada por el vector perfil fila
de coordenadas:

f f f ip
x i : i1 , i2 , ..., i = 1, 2, ..... , n
f i. f i. f i.

Por lo tanto una forma de calcular la distancia entre dos poblaciones i y j podra ser simplemente a
travs del clculo de la distancia Eucldea entre los dos vectores perfiles filas correspondientes. Pero aqu si
bien se han eliminado posibles distorsiones debidas a diferencias importantes en los marginales filas, se
mantienen distorsiones debidas a las frecuencias dispares que podran presentarse en los distintos caracteres.
Para solucionar esto, Benzecri (1970) propuso el empleo de la distancia Chi-cuadrado, cuya expresin es:

2 2
p
p
1 f ik f jk f f jk
d 2
( x i ,x j ) = = ik
f f


k =1 f .k f i . f j. k =1 .k i . f f
.k j.

De acuerdo con esta distancia, las poblaciones x1 , .... , xn estn representadas por una configuracin
de n puntos en un espacio euclideo Rp de coordenadas:

f f f ip
Pi : i1 , i2 ,....,
f .1 f i . f .2 f i . f . p f i .

separados por la distancia eucldea ordinaria.

2.3 Datos cuantitativos

Con datos cuantitativos es usual operar con disimilaridades o distancias ms que con similaridades,
aunque algunos autores trabajan con medidas de distancias al cuadrado, ms que con las distancias en s

10
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

mismas. Nosotros trataremos de referirnos siempre a distancias reales que indicaremos con dij, sealando
expresamente cuando se trate de distancias al cuadrado con la indicacin dij2. La Tabla 3 muestra las
medidas de distancias ms difundidas.

p
Eucldea
(x
k =1
ik x jk ) 2

p
Manhattan
|x
k =1
ik x jk |

Bray-Curtis
|x
k =1
ik x jk |
p

(x
k =1
ik + x jk )

p
| xik x jk |
Canberra
(x
k =1 + x jk )
ik

p
Minkowski q
|x
k =1
ik x jk |q

p p
Mahalanobis
(x x jk ) kl ( xil x jl )
-1
ik
l =1 k =1

Tabla 3 : Medidas de distancia dij entre unidades i y j, basadas en p variables cuantitativas Xk (k,l = 1,2,...,p).
kl elemento de la matriz de varianzas-covarianzas entre las p variables, y q nmero entero.

La distancia Eucldea es la ms conocida y de mayor uso, corresponde a la distancia usual que se


observa entre el par de unidades xi y xj cuando se representan en el espacio de coordenadas Rp dado por p
variables cuantitativas. Tiene el inconveniente de ser sensible a cambios de escalas de las variables, por lo
que es recomendable utilizarla en caso de homogeneidad entre la naturaleza fsica de las variables. Una
solucin a este problema puede ser estandarizar cada variable por su rango (rk) lo que asegura que la
contribucin de cualquier atributo simple se situa entre 0 y 1. Si adems dividimos por la cantidad de
variables obtendremos una distancia que oscilar en este rango lo que facilita su transformacin a similiridad
a travs de una simple transformacin.

Con estas dos modificaciones se tiene una distancia cuya expresin ser:

1 p ( xik x jk )
2

dij = r2
p k =0 k

Otras soluciones propuestas han sido la estandarizacin de cada variable por su desviacin estndar
e incluso estandarizaciones por medias y desviaciones.

Una medida de distancia alternativa, es la de Manhattan o mtrica city-block, propuesto por Cain y
Harrison (1958) que se calcula como la suma de las diferencias absolutas entre unidades para cada variable.

11
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Presenta la ventaja sobre la distancia Eucldea de ser menos sensible a valores muy grandes o aberrantes, ya
que es funcin de diferencias absolutas en lugar de diferencias al cuadrado. Otra vez cada variable puede ser
estandarizada por su rango (Gower, 1971a). Formulaciones derivadas de la distancia de Manhattan son la
distancia de Bray-Curtis (1957) y distancia de Canberra propuesta por Lance y Williams (1966).

La distancia de Minkowski es una generalizacin que da lugar a la distancia Eucldea cuando q=2 y
a la de Manhattan cuando q=1.

La distancia de Mahalanobis, cuyo cuadrado se representa por D2, es una distancia general,
perfectamente adecuada para diferenciar individuos o poblaciones mediante variables aleatorias (Cuadras,
1996). Su autor la formul en 1927 y se divulg algo ms tarde (Mahalanobis, 1936), y es considerada como
la primera tcnica del anlisis multivariante (Bizquerra Alzina, 1989).

Su expresin en trmino matriciales es:

D2ij = ( xi - xj ) -1 ( xi - xj )

donde es la matriz de varianzas-covarianzas de las p variables.

Se trata de una distancia invariante por transformaciones lineales no singulares de las variables, en
particular, es invariante por cambios de escalas, ya que est expresada en unidades de desviacin estndar,
esto la hace de especial utilidad cuando las variables son muy heterogneas, y segn Digby y Kempton
(1991) su empleo, cuando es posible, es mucho ms efectivo que escalar por los rangos de las variables.
Adems tiene en cuenta las correlaciones entre las variables lo que permite eliminar la posible redundancia
entre variables. Ntese que si se tratara de variables independientes la matriz sera diagonal, y la distancia
de Mahalanobis se aproxima a la distancia Eucldea cuadrada con pesos inversos dados por las varianzas de
las p variables.

Otra situacin en la que esta distancia puede ser muy til es en el caso cuando se trata de estimar la
distancia entre individuos pertenecientes a distintas poblaciones o grupos, o bien la distancia entre las medias
poblacionales de estos grupos. En esta situacin corresponder a la matriz de varianzas-covarianzas
intragrupos de las dos poblaciones consideradas en forma conjunta, por lo que se debe cumplir con el
supuesto de homogeneidad de varianzas entre grupos. Esta es la distancia sobre la que se trabaja en Anlisis
Cannico de Poblaciones y Anlisis Discriminante.

Por ltimo se hace referencia al coeficiente de correlacin que ha sido extendido para convertirlo en
un coeficiente de similaridad en estudios de taxonoma, y su complemento puede ser usado como una medida
de distancia. Su popularidad surge, en parte, porque realiza un ajuste por el valor medio de la unidad
ignorando diferencias en sus tamaos en conjunto. Tal ajuste es cuestionable para medir distancia entre
individuos a menos que todas las variables tengan las mismas escalas de medida. En cambio es muy
apropiado para cuantificar las distancias existentes entre variables, es decir, entre columnas de la matriz X.

12
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

2.4 Una forma general de coeficiente de similaridad

Gower (1971a) propuso un coeficiente de similaridad de forma general para tipos mixtos de
variables que adems contempla las situaciones de valores faltantes. Muchas de las medidas de similaridad y
de distancia descritos previamente pueden ser considerados como un caso particular de este coeficiente

La idea bsica es definir un coeficiente de similaridad sijk entre la i-sima y j-sima unidad dado
para la k-sima variable. El promedio de sijk sobre las k variables dar la medida de similaridad sij.

sij = 1/p
k =1
sijk

En la situacin ms simple cuando se comparan los individuos i y j para el carcter k, si ste se trata
de una variable binaria o cualitativa, se asigna valor uno a sijk si xik y xjk son iguales, y cero si son diferentes.
Si la variable es cuantitativa la similaridad entre los individuos estar dada por:

| xik x jk |
sijk = 1
rk

donde rk es el rango del carcter k, que puede ser poblacional o muestral. Cuando xik = xjk entonces sijk =1, y
cuando xik y xjk se encuentran en los extremos de su rango, sijk ser mnimo (cero cuando el rango haya sido
determinado de la muestra). Con valores intermedios, sijk ser una fraccin positiva. Presentaciones
posteriores de este coeficiente por otros autores, proponen la utilizacin del complemento de la distancia
Eucldea, tambin estandarizada por el rango, tal como se discuti en la seccin de Datos Cuantitativos.

Para una mayor flexibilidad de este coeficiente, Gower introdujo en la ecuacin pesos que dependan
de cada par de datos. Si wijk = w(xik , xjk) es una funcin de xik y xjk se tiene:

w
k =1
ijk . sijk
sij = p

w
k =1
ijk

Esto permite: (i) que los valores faltantes sean tratados individualmente sin necesidad de omitir toda la
variable, slo bastar tomar wijk = 0 siempre que el valor xik o xjk sea faltante; (ii) tambin ahora se podr
ignorar el empate de doble cero haciendo wijk = 0 cuando xik = xjk = 0 tal como sucede con los coeficientes de
similaridad donde no interesa la simetra en a y d; (iii) por ltimo con esta forma general podremos
considerar que ciertos caracteres son ms importantes que otros ponderndolos con distintos pesos. Esta
decisin de pesar o no a las variables es un tema en controversia, Gower (1971a) afirma que una ponderacin
a priori es inaceptable, pero es ms permisivo con ellas en posteriores reclasificaciones de los individuos,
una vez que el investigador haya analizado la situacin. Tambin recordemos que en algunos coeficientes de
similaridad como en el de Dice existe, en forma implcita, una ponderacin doble para la aparicin
simultnea del carcter.

Para ilustrar de que modo se pueden combinar los valores de sijk y wijk de modo que el coeficiente
general de Gower considere distintos aspectos de las medidas de similaridad que fueron discutidos

13
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

anteriormente, en la Tabla 4 se indican los valores que tendran que adoptar estos parmetros para que el
coeficiente de Gower se corresponda con tres coeficientes de similaridad clsicos y representativos de
distintas situaciones: el coeficiente de emparejamiento simple o SM que considera la ausencia simultnea del
carcter, el coeficiente de Jaccard que en cambio no tiene en cuenta la doble ausencia como un aumento de la
similaridad, y el coeficiente de Dice que pondera positivamente la presencia de la caracterstica en ambos
individuos.

Valor del carcter sijk wijk


xik xjk SM Jaccard Dice
1 1 1 1 1 2
1 0 0 1 1 1
0 1 0 1 1 1
0 0 1 1 0 0

Tabla 4 : Valores de sijk y wijk para la construccin de diferentes coeficientes de similaridad a partir del coeficiente
de Gower. Subndices i y j indican individuos y k carcter. SM corresponde al coeficiente de simple
emparejamiento.

Por ltimo se presentan dos expresiones del coeficiente de Gower segn se emplee el coeficiente de
emparejamiento simple o de Jaccard para tratar las variables binarias:

p1
| xik x jk |
1
k =1 rk
+a +d +

Emparejamiento Simple sij =
p1 + p2 + p3

p1
| xik x jk |
1 rk
+ a +
Coef. de Jaccard sij =
k =1
p1 + ( p2 d ) + p3

donde p1 es el nmero de variables continuas, rk rango de la k-sima variable continua, p2 nmero de


variables binarias, a nmero de coincidencias en 1 y d nmero de coincidencias en 0 de las variables
binarias, p3 nmero de variables cualitativas y nmero de coincidencias de las variables cualitativas.

2.5 Propiedades de las medidas de asociacin

Hasta ahora se describieron distintas formas en que similaridades o distancias pueden calcularse a
partir de matrices de datos de unidades por variables. Obviamente la eleccin de que mtodo utilizar
depender del tipo de datos, y conocer ms sobre las propiedades de estas medidas de asociacin puede
ayudar en esta eleccin. Implcitamente a lo largo de esta seccin se ha hecho referencia a algunas de estas
propiedades, pero a fin ordenar parte de lo dicho y ahondar en algunos aspectos, a continuacin se hace una
presentacin ms detallada.

14
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Como algunas de estas propiedades son mejor interpretadas en trminos de distancia que de
similaridad, es por lo que nos referimos generalmente a distancias pero cabe sealar que lo dicho es tambin
vlido para coeficientes de similaridad.

Las propiedades que puede tener una distancia son todas o algunas de las siguientes (Cuadras,
1996):

P.1 di,j > 0 si i j


P.2 dii = 0
P.3 dij = dji (simetra)
P.4 dij dit + djt (desigualdad triangular)
P.5 dij es eucldea
P.6 dij mx { dit , djt } (desigualdad ultramtrica)

Una distancia recibe diferentes denominaciones segn las propiedades que verifique:

Denominacin Propiedades

Disimilaridad P.1, P.2, P.3


Distancia mtrica P.1, P.2, P.3, P.4
Distancia eucldea P.1, P.2, P.3, P.5
Distancia ultramtrica P.1, P.2, P.3, P.6

Observaciones:

1) Toda disimilaridad verifica por lo menos las tres primeras propiedades.


2) dij = 0 i j
3) Una distancia que es eucldea es tambin mtrica (Digby y Kempton, 19991)
4) La condicin P.6 implica tambin P.4 y P.5 (Gower, 1971b y Cuadras, 1996)

Puesto que toda distancia o similaridad, por definicin cumple con las tres primeras propiedades,
prestaremos mayor atencin en determinar si una distancia es mtrica, eucldea o ultamtrica.

2.5.1 Distancias mtricas

Que una distancia sea mtrica implica que es posible construir para toda terna de objetos i, j, t un
tringulo con lados igual a dij , dit y djt . Para muchas medidas de distancia puede demostrarse que siempre se
satisface la desigualdad triangular, por ejemplo si los datos son considerados como las coordenadas de
puntos en el espacio, la distancia Eucldea, que es simplemente la distancia de la lnea recta entre cada par
de puntos, siempre permitir construir un tringulo sobre las distancia entre tres individudos cualesquiera
pertenecientes a ese espacio. Sin embargo la distancia Eucldea al cuadrado no es una distancia mtrica en s
misma. Para otras distancias, tal como la de Bray-Curtis, esta propiedad si bien se verifica para algunas
situaciones particulares, no siempre se puede garantizar su cumplimiento. La propiedad de metricidad
tambin se verifica para las distancias de Mahalanobis, Canberra, Manhattan y la generalizacin de
Minloswki. En cuanto a las medidas de similaridad no est claro si la transformacin 1-sij corresponde a una
distancia real o cuadrada, por lo que es usual preguntarse si dij = (1- sij) o dij = ;(1-sij) son distancias

15
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

mtricas. As por ejemplo, para los coeficientes de similaridad SM y Jaccard ambas transformaciones
cumplen con esta propiedad, mientras que Dice y Ochiai la cumplen solamente con la transformacin raz
cuadrada.

2.5.2 Distancias eucldeas

Esta propiedad significa que existe un espacio eucldeo Rp y dos puntos Pi, Pj Rp , de coordenadas
Pi : ( xi1 , ... , xip ) y Pj : ( xj1 , ... , xjp ) que verifican:

p
dij = d(Pi,Pj) = (x
k =1
ik x jk ) 2

Llamaremos a d(Pi,Pj) distancia eucldea fundamental.

La propiedad Eucldea es ms restrictiva que la mtrica y se refiere a un conjunto completo de


distancias. Una matriz de distancias es Eucldea si todas las distancias reales podran representarse como
distancias de lneas rectas entre un conjunto de puntos en un espacio real. Una medida de distancia es
Eucldea si siempre origina matrices de distancias que son Eucldeas. Consideremos el ejemplo de abajo con
las distancias entre cuatro puntos para distintos valores de x:

Punto 1 2 3 4
1 0
2 2 0
3 2 2 0
4 x x x 0

Las tres primeras unidades pueden representarse por puntos en un espacio de dos dimensiones que
corresponden a los vrtices de un tringulo equiltero de lado 2. Si x<1 las distancias no son mtricas, porque
no puede construirse ningn tringulo que implique a la cuarta unidad. Si x=1 las distancias verifican la
propiedad mtrica; sin embargo, no son Eucldeas porque las cuatro unidades no pueden ubicarse en puntos
que satisfagan todas las distancias (sera necesario que el cuarto punto estuviera simultneamente en el punto
medio de cada lado del tringulo). Si x= 2/3 3 ( 1.15) el cuarto punto puede localizarse en el centro del
tringulo satisfaciendo las distancias, as ellas sern tanto eucldeas como mtricas. Si x es mayor que 1.15 el
cuarto punto puede localizarse arriba (o abajo) del plano del tringulo, de modo que los cuatro puntos
constituyen los vrtices de un tetraedro en tres dimensiones. Esto da a lugar a una interesante conclusin: si
un conjunto de distancias entre n unidades es Eucldea, como mximo sern necesarias (n-1) dimensiones
para representarlos.

Por esta razn la propiedad eucldea es deseable en los mtodos de ordenacin que buscan
representar las unidades como un conjunto de puntos en el espacio. Esta propiedad es particularmente
relevante para el Anlisis de Coordenadas Principales y Escalas Multidimensionales (MDS), puesto que estas
dos tcnicas no estn ligadas a ninguna medida de asociacin particular, sino que sto es algo sobre lo que
tiene que decidir el investigador. Para el caso de Coordenadas Principales bastar con que la matriz de
similaridad sea definida o semidefinida positiva, lo que asegura que la distancia dij = (1 sij ) es eucldea.
Los coeficientes SM, Jaccard, Dice, Ochiai y Gower (cuando no hay datos faltantes ni ponderaciones de
variables) cumplen con esta propiedad. En situaciones de duda sobre la euclinidad de cualquier coeficiente

16
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

se sugiere calcular los valores propios de la matriz de similaridad para verificar si se trata de una matriz
definida o semidefinida positiva.

En cuanto a las medidas de disimilaridad, la distancia Eucldea y Mahalanobis siempre verifican


esta propiedad. Manhattan solo si est normalizada por el rango y Bray Curtis y Canberra en ninguna
situacin. Tambien son distancias eucldeas fundamentales la raz de la distancia chi-cuadrado y las
distancias genticas de Cavalli-Sforza y Edwards

2.5.3 Distancias ultramtricas

La desigualdad ultramtrica es una condicin muy difcil de satisfacer, ninguna de las medidas de
asociacin presentadas la cumplen por definicin, a no ser para conjuntos de datos particulares. La nica
forma que se verifica la propiedad ultramtrica es cuando una terna de objetos presentan asociadas unas
distancias entre s, tales que conforman un tringulo issceles, siendo la base el lado de longitud menor

La importancia de la ultrametricidad de una distancia radica en que sobre ella se basa el principio
de clasificacin jerrquica. Por ello, todos los algoritmos de clasificacin jerrquica se inician por un paso en
el que se transforma razonablemente la disimilaridad inicial para convertirla en ultramtrica, y
seguidamente poder construir la jerarqua indexada. Esto, como es obvio, trae aparejado que la
representacin de las relaciones entre los objetos no sea exacta. Existen criterios para cuantificar esta
inexactitud lo cual ser discutido en el apartado referido a Mtodos de Clasificacin.

3. Mtodos de Ordenacin

El trmino ordenacin se emplea principalmente en el rea de la Ecologa y se refiere a todas


aquellas tcnicas tendientes a ordenar grupos de objetos o individuos en un nmero relativamente bajo de
dimensiones que refleje algn patrn de respuesta de ese conjunto de objetos. El objetivo de la ordenacin es
ayudar a generar hiptesis acerca la relacin entre individuos en funcin de una serie de factores que se les
observan simultneamente a travs de una reduccin de la dimensionalidad de los datos con un mnimo de
prdida de informacin. Hay autores que se refieren a estos mtodos simplemente como mtodos de
representacin de datos o tambin mtodos de reduccin de la dimensin ya que permiten una
representacin geomtrica de los individuos en dimensin reducida (en el plano o en el espacio) de modo que
se expresen sus diferencias y analogas de la mejor forma posible.

3.1 Anlisis de Componentes Principales

El objetivo de esta tcnica es condensar la informacin contenida en una variable cuantitativa p-


dimensional de respuesta, en un nmero reducido de nuevas variables no correlacionadas entre si, que son
combinacin lineal de las variables primitivas y explican el mximo de la inercia o variabilidad total, las que
llamaremos de aqu en adelante componentes principales. Con esta reduccin de dimensin se simplifica el
anlisis de la dispersin de las observaciones ponindose en evidencia posibles agrupamientos. Tambin
permite detectar las principales variables responsables de dicha dispersin y analizar las relaciones existente

17
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

entre ellas. Se utiliza generalmente para estudiar matrices de datos en el que las observaciones estn
caracterizadas por variables cuantitativas y hace empleo de la distancia eucldea entre individuos.

El origen de las componentes principales suele asociarse a la publicacin de un artculo de K.


Pearson en 1901, aunque algunos autores lo asocian a los primeros desarrollos de la ley normal multi-
dimensional realizados por Bravais y Skols en la segunda mitad del siglo XIX. Sin embargo, el nombre de
componentes principales y su primer desarrollo terico no aparecen hasta 1933, en una publicacin de
Hotteling.

El anlisis de componentes principales est muy relacionado con otra tcnica conocida como
anlisis factorial. Hay quienes consideran al primero como una etapa del segundo, otros los consideran como
tcnicas diferentes (Bisquerra Alzina, 1989). Resulta que las dos tcnicas pueden utilizar el mismo algoritmo
de resolucin presentado por Hotelling. Esto pasa cuando en el anlisis factorial se extraen los factores por el
mtodo de componentes principales produciendo la errnea conclusin de que las dos tcnicas son
equivalentes. En realidad los resultados no son significativamente distintos. Entre las posibles causas de que
se confundan los dos mtodos se encuentra las siguientes : a) el punto de partida habitual de ambos mtodos
es una matriz de correlaciones ; b) uno de los mtodos que permite la obtencin de factores en el anlisis
factorial se denomina componentes principales ; c) la inclusin del anlisis de componentes principales
dentro del anlisis factorial en muchos paquetes de programas estadsticos (BMDP, SPSS, etc.).

El propsito inicial de Hotelling (1933) al desarrollar su mtodo de componentes principales era dar
un paso importante en el problema de la extraccin de factores en anlisis factorial; posteriormente lo vio
como un fin en s mismo. Exposiciones desarrolladas sobre el anlisis de componentes principales, como
mtodo distinto del anlisis factorial, pueden encontrarse en Johnson y Wichern (1992), Harris (1985),
Maxwell (1977) y Morrison (1967), entre otros; mientras que por ejemplo Torrens-Ibern (1972) y Harman
(1980) contemplan el anlisis de componentes principales como el primer paso del anlisis factorial, el cual
se completa con las rotaciones, sin embargo, hay discusiones acerca de si se considera que las rotaciones
forman parte propiamente del anlisis factorial.

Se han tratado de explicar las diferencias de ambas tcnicas desde varios puntos de vista pero quizs
el ms til a nuestros fines sea el que se refiere a los objetivos perseguidos por cada una de ellas. El anlisis
de componentes principales describe aspectos observables, el resultado consiste en presentar los datos desde
un punto de vista distinto, sin hacer ninguna suposicin sobre estructuras subyacentes inobservables. Por el
contrario, el anlisis factorial supone un modelo explcito por parte del investigador. El anlisis factorial,
tambin llamado por sus objetivos e hiptesis subyacentes anlisis factorial de factores comunes y no
comunes, pretende pasar de un conjunto de variables observadas a un nmero ms reducido de factores no
observables. Se toma como hiptesis que las variables iniciales son combinaciones lineales de los factores
subyacentes. Esta tcnica se utiliza frecuentemente en Psicologa y Educacin. En el anlisis de componentes
principales se busca sencillamente reducir la informacin, pasando de un conjunto de variables a otro ms
reducido que representa a las primeras, sin hacer ninguna hiptesis sobre el significado de los factores. Lo
que interesa es describir cules son las dimensiones principales. Esta tcnica se utiliza, por ejemplo, en
Economag y Biologa.

La decisin entre el anlisis de componentes principales y el anlisis factorial es una de las ms


importantes en este tipo de investigaciones. Cuando se est interesado en inferir soluciones hipotticas, a

18
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

partir de un modelo terico, conviene aplicar el anlisis factorial. Cuando lo que interesa es un resumen
emprico de los datos conviene aplicar el anlisis de componentes principales (Bisquerra Alzina, 1989).

Esta controversia es uno de los tantos puntos que contribuyen al carcter desestructurado de los
mtodos multivariantes en donde no existe una frontera claramente establecida entre las diferentes tcnicas.

En funcin de esta relacin entre componentes principales y anlisis factorial, distintos autores
enfocan el algoritmo para su obtencin que en todos los casos conducen a los mismos resultados. Se
recomienda la presentacin que hacen Johnson y Wichern (1992) que se independiza de los conceptos
previos del anlisis factorial para su desarrollo.

3.1.1 Revisin conceptos de estadstica y algebra lineal

a) Varianza, covarianza, correlacin:

* Matriz de distancia/similaridad para relacin entre individuos (nxn)

* Para datos cuantitativos importante relacin entre variables matriz de varianzas-covarianzas (pxp)

Varianza de X:
2
n
xi
xi i =1
n n


2
( xi x ) 2

n
S2 x = i =1 = i =1
n 1 n 1

Covarianza entre X e Y
n n

n n x y i i

( xi x ).( yi y ) xi . yi i =1
n
i =1

S xy = i =1
= i =1
n 1 n 1

Matriz de varianzas-covarianzas:

S x 2 S xy S xz
2
S= Sy S yz
S z
2
pxp

Correlacin:
1 rxy rxz
S xy 1 ryz
rxy = r =
2 2
Sx S y 1 pxp
19
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

b) Operaciones con matrices:

Producto:

a11 a12
b11 b12
Sea M = a a22 y N= b
21 21 b22 2x2

a31 a32
3x2

c11 c12
c p
El producto M*N es :
21 c22 cij = a jk bkj
c31 c32 k =1

3x2

Obtencin matricial de matriz de varianzas-covarianzas:

Sea el vector variable x1


x
r
x = 2
x3

x44x1

x1
x 4
r r
x 'x = [x1 x 4 ] 2 = xi
2
Hacemos: x2 x3
x3 i =1

x4

Si estandarizamos el vector por su media (centrado), queda :

x1 x

r c x2 x
x =
x3 x

x4 x

r r 4 1 r r
x 'x = ( xi x ) 2
2
Entonces: Sx = x 'x
i =1 n 1

20
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

r r 4 1 r r
y x ' y = ( xi x ).( yi y ) S xy = x ' y
i =1 n 1

x11 x12 x13


x x22 x23
Ahora sea la matriz de datos : X = 21
x31 x32 x33

x41 x42 x44

x11 x1 x12 x2 x13 x3


x x x22 x2 x23 x3
Si la centramos queda: X = 21 1
c
x31 x1 x32 x2 x33 x3

x41 x1 x42 x2 x43 x3

Entonces:

x11 x1 x12 x2 x13 x3


x11 x1 x21 x1 x31 x1 x41 x1 x x x22 x2 x23 x3
X'.X = x12 x2 x22 x2 x32 x2 x42 x2 21 1
x x x32 x2 x33 x3
x13 x2 x23 x2 x33 x2 x43 x2 3 x 4 31 1
x41 x1 x42 x2 x43 x3 4 x 3

Por lo que matriz de varianza-covarianza resulta:

S2 X1 SX1X 2 SX1X 3
1
X'.X = S 2
X2 SX 2 X 3
n 1
S2 X3
3 x3

c) Definiciones del algebra matricial:

I: Matriz identidad tiene unos en la diagonal y restantes elementos igual a cero. Equivale al 1 del algebra
escalar.

A-1: Matriz inversa es aquella que multiplicada por A da la matriz identidad. A*A-1=I

A: Matriz transpuesta, resulta de intercambiar las filas por las columnas.

21
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

|A|: Determinante es una funcin especfica de los elementos de una matriz cuadrada. Para caso de 2x2 es
igual a (a11*a22)-(a12*a21)

tr(A): Traza, es la suma de los elementos de la diagonal

Autovalores y autovectores:

Sea la matriz cuadrada A , se define los autovectores e y autovalores a aquelos que cumplen:

r r
A pxp e px1 = e px1

e1 e1
a11 ... a1 p e
e2 2
M M
M =
M
a p1 ... a pp
e
p e p

Clculo:

Races de ecuacin caracterstica: |A-I|=0

Si matriz es simtrica autovectores ortogonales

D=T-1.A.T (cambio de base)

3.1.2 Obtencin de las Componentes Principales

Supongamos que se cuenta con p mediciones asociadas a igual nmero de variables o caracteres X1 ,
X2 , ...... , Xp sobre un total de n individuos o unidades experimentales presentados en forma de matriz Xnxp
con elemento xik que corresponde a la k-sima caracterstica observada sobre el individuo i (i = 1, 2, ..... , n; k
= 1, 2, .... , p). Algebraicamente, las componentes principales sern una combinacin lineal de estas p
variables aleatorias. Geomtricamente, estas combinaciones lineales representaran un nuevo sistema de
coordenadas obtenido por rotacin del sistema original donde X1 , X2 , ..... , Xp constituan un conjunto de ejes
coordenados en el cual se representan los vectores individuos xi. Estos nuevos ejes deben coincidir con las
direcciones de mxima variabilidad de la nube de puntos inicial y darn una descripcin ms simple y
armoniosa de la estructura de varianzas.

Como se ver ms adelante, las componentes principales dependern nicamente de la matriz de


covarianzas (o de la matriz de correlaciones ) de X1 , X2 , ...... , Xp. Su desarrollo no requiere de supuestos
acerca de normalidad multivariada de la poblacin, pero esta se requerir al momento de hacer inferencia a
partir de componentes muestrales.

22
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Sea el vector aleatorio X = [X1, X2,......,Xp] cuya matriz de covarianzas tiene valores propios 1
2 . . . . . p 0 .

Consideremos las combinaciones lineales

Y1 = l1 X = l11 X1 + l21 X2 + . . .
+ lp1 Xp
. . .
Y2 = l2 X = l12 X1 + l22 X2 + + lp2 Xp
. .
. .
. .
Yp = lp X = l1p X1 + l2p X2 + . . .
+ lpp Xp

Teniendo en cuenta las propiedades de varianza y covarianza de una combinacin lineal se tiene
que:
Var (Yk) = lk lk k = 1, 2, ... , p
Cov (Yk ,Yk ) = lk lk k,k = 1, 2, ... , p

Las componentes principales sern las combinaciones lineales Y1 , Y2 , ...... , Yp no correlacionadas


entre s, cuyas varianzas sean lo mayor posible. La primer componente principal ser la combinacin con
mxima varianza, es decir, que maximice Var (Y1) = l1 l1 . Es evidente que Var (Y1) puede aumentar
cuanto se quiera al multiplicar l1 por cualquier constante; para eliminar esta indeterminacin es conveniente
plantear la restriccin de que el vector tenga mdulo uno. Por lo tanto se define:

Primera componente principal :


aquella combinacin l1 X que maximiza Var (Y1) = l1 l1
sujeto a l1l1 = 1

Segunda componente principal:


aquella combinacin l2 X que maximiza Var (Y2 = l2 l2
sujeto a l2l2 = 1 y Cov (l1 X , l2 X = 0)

k-sima componente principal:


aquella combinacin lk X que maximiza Var (Yk = lk lk
sujeto a lklk = 1 y Cov (lk X , lk X ) = 0 para k < k

Tres resultados de importancia resultan de resolver este sistema:

Resultado 1 : sea la matriz de covarianza asociada con el vector aleatorio X = [X1, X2,......,Xp] ( = 1/n
XcXc , donde Xc matriz centrada por la media de las columnas) con los pares valor propio-vector propio (1 ,
e1), (2 , e2), ....... , (p , ep) donde 1 2 ...... p 0.

23
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

El k-simo componente principal est dado por:

Yk = lk X = e1k X1 + e2k X2 + . . .
+ epk Xp
Con :
Var (Yk) = ek ek = k k = 1,2, ...... , p
Cov (Yk , Yk ) = ek ek = 0 k k

Es decir, llamando P a la matriz de vectores propios, la representacin de los datos X viene dada por Ynxp =
Xnxp . Ppxp

Ntese que si algunos valores propios k son iguales las componentes principales Yk no sern nicas.

Prueba : se sabe que si es definida positiva por maximizacin de formas cuadrticas para puntos sobre la
esfera unidad (Johnson y Wichern, 1992):

l' l
= k se alcanza cuando l = e1
max
l' l l 0

pero como e1e1 = 1 ya que los vectores propios estn normalizados, entonces :

l' l
max = k = e 1 ' e 1 = e1 e1 = Var (Y1)
l0 l' l e1 ' e1

Similarmente por la misma propiedad se tiene que:

l' l
max = k+1 k = 1, 2, .... , p-1
le 1 ,e 2 ,...,e k l' l

Si se elige l = ek+1 con ek+1 . ek = 0 , para k = 1,2, ... , k y k = 1, 2, ..., p-1

e k+1 ' e k+1


= e k+1 e k+1 = Var(Yk+1)
e k+1 ' e k+1

Pero ek+1 ( . ek+1 ) = k+1 ek+1 ek+1 = k+1 entonces Var(Yk+1) = k+1 .

Ahora queda demostrar que la perpendicularidad entre ek y ek (es decir si ek ek = 0) implica que
Cov(Yk,Yk) = 0. Se sabe que los vectores propios de son ortogonales si todos los valores propios 1, 2 ,
... , p son distintos. Si los valores propios no son todos distintos, los vectores propios correspondientes a un
valor propio comn pueden elegirse de manera que sean ortogonales. Entonces, para cualquier par de
vectores propios ek y ek , ek ek = 0 , k k . Ya que ek = k ek , si premultiplicamos por ek
obtenemos la covarianza entre Yk e Yk :

Cov (Yk , Yk ) = ek ek = ek k ek = k ek ek = 0 para cualquier k k

24
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Con lo que la prueba est completada.

De este primer resultado podemos concluir que las componentes principales son no correlacionadas
y tienen varianzas igual a los valores propios de .

Resultado 2 : sea X = [X1, X2,......,Xp] con matriz de covarianza y pares valor propio-vector propio (1 ,
e1), (2 , e2), ....... , (p , ep) donde 1 2 ...... p 0 y sean Y1 = e1 X , Y2 = e2 X , ...... , Yp = ep X las
componentes principales correspondientes, entonces :

p p
11 + 22 + ....... + pp = Var( X )
i=1
i
= 1 + 2 + ...... + p = Var(Y )
i=1
i

Prueba : Por definicin de traza de una matriz 11 + 22 + ....... + pp = tr () y por descomposicin


espectral podemos escribir = PP donde es la matriz diagonal de valores propios y P = [e1, e2 , ..... , ep],
tal que PP= PP = I , por la propiedad de las trazas de tr (AB) = tr (BA) :

tr () = tr (PP) = tr (PP) = tr () = 1 + 2 + ...... + p


Entonces:

p p

Var( X
k=1
k ) = tr () = tr () = Var(Y )
k=1
k

es decir la varianza poblacional total 1 + 2 + ...... + p a la que se llama generalmente inercia total es
igual a la suma de los valores propios de la matriz de covarianzas y que la proporcin de la varianza total o
inercia parcial que puede ser explicada por la k-sima componente principal es:

k
Ik = k = 1, 2, ..... , p
1 + 2 +....+ p

Si la mayor parte de la varianza poblacional total (por ejemplo de 80 a 90 %), para un p


relativamente grande, puede ser atribuida a las primeras m componentes (uno, dos o tres), entonces estas
componentes pueden remplazar las p variables originales sin mayor prdida de informacin. Diremos en
este caso que la proporcin de la inercia total explicada por las primeras m componentes principales ser la
sumatoria de las m inercias parciales correspondientes.

Una interpretacin de utilidad es la siguiente: si los puntos individuos son representados en el


espacio Rp de las variables originales, la inercia o varianza total IT es el promedio de los cuadrados de las
desviaciones de cada punto al centro de gravedad de la nube, punto que se halla definido por los valores
medios de las variables representadas en cada eje. De all que al considerar las proyecciones ortogonales de
la nube sobre cada uno de las componentes principales tenemos inercias parciales I1, I2, .... , Ip que no son
ms que los promedios de los cuadrados de las desviaciones de cada punto proyectado sobre estos ejes
respecto a su media. Cuando elegimos un nmero m < p de componentes principales que expliquen una parte

25
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

importante de la inercia total, lo que estamos haciendo es encontrar un espacio m-dimensional sobre el cual,
las distancias relativas de los puntos de la nube representada en el espacio p-dimensional se mantienen
reconocibles. Para el caso particular de m = 2 estamos definiendo lo que se llama el plano principal que
generalmente esperamos explique una proporcin importante de la variabilidad total ya que su representacin
es fcil de visualizar.

Un buen indicador de la calidad de la representacin de la observacin o individuo xi en el plano


factorial es ver cuanto difiere la representacin del individuo en el espacio original Rp y en el plano principal
y esto estar dado por el coseno del ngulo formado entre ambos vectores:

2
x$ i
= cos2 ( x$ i , xi )
2
xi

donde x$ i es la proyeccin ortogonal del individuo i sobre el plano factorial y las dobles barras indican
mdulo o norma del vector.

Los puntos que tengan un valor de cos ( x$ i , xi ) cercano a 1 estarn bien representados, y la
proximidad en el plano de puntos bien representados ser la consecuencia inequvoca de su semejanza
respecto al conjunto de variables consideradas inicialmente.

Resultado 3 : si Y1 = e1 X , Y2 = e2 X , ...... , Yp = ep X son las componentes principales obtenidas de la


matriz de covarianzas , entonces:

ek 'k k
Yk,Xk = k , k = 1, 2, .... , p
k '2

son los coeficientes de correlacin entre las componentes Yk y las variables Xk . Donde (1 , e1), (2 , e2),
....... , (p , ep) son los pares valor propio-vector propio de la matriz .

Prueba : fijamos lk = [ 0, ....., 0 , 1, 0, ......, 0] tal que Xk = lk X entonces Cov (Xk , Yk) = Cov (lk X ,
ek X) = lk ek por propiedades de la covarianza de una combinacin lineal. Como ek = k ek , Cov (Xk
, Yk) = lk k ek = k ekk ; Var (Yk) = k y Var (Xk) = k2 tenemos que:

= ek ' k k
Cov(Yk , X k ' ) k ek ' k
Yk , Xk ' = = k, k = 1, 2, ... , p
Var(Yk ) Var( X k ' ) k k ' 2
k '2

El anlisis de componentes principales tambin puede realizarse a partir de variables estandarizadas


Z, esto equivale a trabajar sobre la matriz de correlaciones en lugar de la matriz de covarianzas . Todos
los resultados previos son vlidos para esta situacin, aunque es importante destacar que los coeficientes de
las componentes principales no coinciden en ambos casos, ni es posible pasar de uno a otro. La decisin de
optar por una u otra matriz es un tema controvertido y depender del problema mismo y fundamentalmente
de las variables originales. Se debe tener presente que variables de gran varianza respecto a las otras tendrn

26
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

un peso decisivo en la determinacin de las componentes principales. Si no se desea que ello ocurra , es
necesario trabajar con variables estandarizadas a fin de resaltar la importancia de las de menor varianza y
atenuar la influencia de las ms dispersas, es decir, aplicar los mtodos de clculo sobre la matriz de
correlaciones. Cuando el conjunto de variables es heterogneo en cuanto a las magnitudes que representan y
por ende a las unidades en que estn expresadas, es prcticamente imprescindible recurrir a las correlaciones
en lugar de las covarianzas de modo de trabajar sobre variables sin dimensin fsica. Si las unidades de
medida son las mismas o razonablemente conmensurables, es preferible realizar los anlisis sobre la matriz
de covarianzas, que es menos artificial. Tambin en ocasiones se considera recomendable utilizar ambas
matrices, y comparar las interpretaciones de las dos clases de componentes obtenidas (Cuadras, 1996).

Tres aspectos son importantes de resaltar en el caso de utilizar la matriz de correlaciones:

p p


p
-
k=1
Var(Z k ) = tr () = tr () = Var(Y ) =
k=1
k
j=1
J
= p

- Ik = k k = 1, 2, ..... , p
p

- Yk,Zk = ekk k denominadas por algunos autores saturaciones

Hasta aqu hemos caracterizado las observaciones o individuos con nuevas variables
incorrelacionadas, ahora queda ver como el anlisis de componentes principales tambin puede ayudar al
estudio de las relaciones entre las variables originales. Supongamos que siguisemos el mismo
procedimiento de anlisis de componentes principales pero obteniendo los ejes factoriales para la nube de
puntos correspondiente a las variables en un espacio Rn , obtendramos que las componentes principales son
los vectores propios de la matriz de correlacin entre individuos. El nmero de vectores propios asociados a
valores propios distintos de cero ser igual al nmero de vectores propios asociados a valores propios
distintos de cero correspondientes a la matriz de correlacin entre variables ya que ambas matrices son
simtricas y tienen igual rango. Ahora bien, existen otras relaciones, que no demostraremos, entre los
vectores propios correspondientes a ambas matrices que permiten obtener los vectores propios de una en
funcin de los de la otra, de ah la determinacin de dual que se da al anlisis de la nube de puntos-
variable. Estas relaciones se denomina relaciones de transicin de las cuales se deduce que las coordenadas
de la variable k en la componente principal k es precisamente igual al coeficiente de correlacin entre Xk e
Yk. Es decir las coordenadas de las variables centradas y estandarizadas son las correlaciones de las variables
con las componentes principales.

Habiendo obtenido las coordenadas de las variables, como en el caso de los puntos individuos su
proyeccin sobre el plano factorial ayudar a interpretar las componentes principales y a analizar las
relaciones entre variables a travs del ngulo que estas forman ya que estas variables centradas y
estandarizadas sern vectores cuyos extremos se ubican sobre la esfera unidad. Por esta razn adems en el
caso de la nube de puntos variables no ser necesario construir un indicador de buena calidad de
representacin por tanto sus proyecciones sobre el plano factorial estarn en el interior de un crculo de radio
uno. Las variables que se encuentren realmente sobre el plano estarn situadas en la periferia del crculo.

27
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Cuando se desee considerar simultneamente las proyecciones de los puntos individuos y variables
sobre el mismo plano factorial, se suelen transformar las coordenadas de los individuos para que sobre cada
eje se tenga una dispersin respecto al origen comparable para las observaciones y para variables. Paquetes
como el SPAD realizan automticamente esta representacin.

3.1.3 Determinacin de dimensiones a retener

Una vez obtenidas las componentes principales queda por solucionar el problema de fijar las pautas
para seleccionar el nmero adecuado de componentes principales para el anlisis. Si bien el criterio suele ser
subjetivo y derivado de la proporcin de explicacin que se logra con los primeros factores, o por la
limitacin de la representacin grfica, existen reglas objetivas, que incluyen elementos inferenciales en su
anlisis que ayudan a la toma de decisiones.

El nmero de valores propios no nulos de la matriz de varianzas-covarianzas o correlacin entre las


variables originales proporciona la dimensin del espacio en el que se encuentran las observaciones, un
autovalor nulo revelara la existencia de una dependencia lineal entre las variables originales. Por contra, si
los datos no tuviesen estructura en absoluto, la estimacin de los valores propios se hara en base a
fluctuaciones aleatorias, lo que implicara la vigencia de la hiptesis de independencia de las variables. Si los
valores propios asociados a todas las componentes principales fueran de la misma magnitud, se entendera
que no existe una direccin de variacin privilegiada sobre la que se proyecte la mayor variacin. Esta
situacin solamente se presentara si las variables originales estuviesen incorrelacionadas, lo que conducira a
un elipsoide de inercia esfrico (Batista et al, 1989). Dicha hiptesis puede ponerse a prueba mediante el test
de esfericidad de Bartlett (1950), cuyo estadstico es: -[n-1-(2p+5)/6] ln || , y tiene como distribucin de
referencia una 2 con =p(p-1)/2 grados de libertad (donde p=nmero de variables, n=nmero de individuos
y ln || se refiere al logaritmo neperiano del determinante de la matriz de correlaciones entre variables
originales). En caso de verificarse esta hiptesis carecera de sentido realizar un anlisis de componentes
principales. Como este caso extremo resulta poco verosmil lo que se sugiere es, como paso previo al
anlisis, calcular el nivel de significacin de los coeficientes de correlacin entre variables, con el objeto de
detectar aquellas variables que mantuviesen escasa correlacin con las restantes del conjunto, y que por
tanto, redundara en un aumento del nmero de componentes a retener.
Cattell (1966) recomienda representar grficamente los valores propios segn su orden de magnitud
y buscar en el grfico el codo que permita descartar la varianza explicada por el resto. La ambigedad de
esta prueba puede salvarse superponiendo en el mismo grfico los valores propios generados a partir de p
variables aleatorias independientes y normalmente distribuidas.

Existen tambin otras tcnicas inferenciales, tiles en los casos que podamos suponer que las
variables originales son normales, con distribucin de conjunto tambin normal. Entre ellas se destaca la
prueba de Anderson (1963) que propone probar la hiptesis de que a partir del valor m+1 los valores propios
son iguales (H0 : m+1 = ..... = p ), lo que equivale a decir que no hay direcciones de mxima variabilidad a
partir de la componente principal m+1 o que la variabilidad en las ltimas (p-m) dimensiones es esfrica. Si
esta hiptesis es verdad, el estadstico :

28
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

p $
p
j
= (n -1) ln( j ) + ( p m)(n 1)ln
2 $ j = m+1

j = m +1 p m

sigue una distribucin chi-cuadrado con (p-m)(p-m+1)-1 grados de libertad, si el nmero de individuos n
es grande. Si para un m fijado el valor de 2 es significativo, entonces debe rechazarse la hiptesis.

Tambin se recomienda hallar el intervalo de confianza de los valores propios para probar la igual
entre ellos (paquetes como el SPAD realizan estos clculos).

Otra prueba bastante difundida e incluida en algunos paquetes estadsticos como en NTSYS es la
del bastn roto de Frontier (1976) que asimila la descomposicin de la variabilidad total (suma de los p
valores propios) a romper un bastn de longitud igual a la varianza total en p trozos por p-1 puntos trazados
al azar. Ordenando los trozos del bastn de mayor a menor segn su longitud (Lj , j=1,2, ... , p) se demuestra
que los valores medios, suponiendo varianza total igual a uno para normalizar el problema, es:

1 p j 1
E(L j ) =
p k =0 j + k

Si expresamos estos valores medios, cuya suma es 1, en porcentajes de la longitud total, obtenemos
el modelo terico de la descomposicin de p componentes obtenidos al azar. Las m primeras componentes
principales son significativas si explican claramente mayor varianza acumulada que los m primeros valores
medios del bastn roto. Se considera que las dems componentes descomponen la varianza residual al azar
(Cuadras, 1996).

Existen otras pruebas propuestas por diversos autores que aqu no expondremos.

3.2 Anlisis Cannico de Poblaciones

El anlisis cannico se debe principalmente a Bartlett (1938), quien lo plante como una
generalizacin de la correlacin cannica. La difusin del mtodo legara, sobretodo, a partir de Rao (1948,
1952), Jolicoeur (1959), Cooley y Lohnes (1962), y Seal (1964).

Es esencialmente una tcnica de reduccin de dimensin relacionada a componentes principales y


anlisis cannico de correlacin. Dada una variable de clasificacin y varias variables cuantitativas, el
anlisis cannico de poblaciones obtiene variables cannicas (combinaciones de las variables cuantitativas)
que resumen la variacin entre las clases de la variable de clasificacin en el sentido en que componentes
principales resumen la variabilidad total. Es decir, representa las clases o grupos, a lo largo de ejes con
mximo poder discriminante. Cuando agregamos un criterio de discriminacin estamos ante funciones
discriminantes que permiten clasificar observaciones en dos o ms grupos en base a esas variables
cuantitativas.

El anlisis cannico de poblaciones es un mtodo muy apropiado para representar grupos cuando
las variables observadas son cuantitativas, porque se utiliza de la distancia de Mahalanobis. La distancia

29
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

eucldea que observemos entre puntos representados en los ejes cannicos coincidirn con las distancias de
Mahalanobis en el sistema original de variables.

Un aspecto interesante del anlisis cannico de poblaciones es la posibilidad de construir y


representar regiones confidenciales para los individuos medios de las diferentes poblaciones.

Es importante no confundir esta tcnica con anlisis de cluster o de grupos (seccin 1.3.4.1) ya que
en anlisis cannico de poblaciones se requiere del conocimiento a priori de las clases, generalmente en
forma de muestras de cada una de ellas. En cluster, los datos no incluyen informacin sobre la pertenencia a
clases de los individuos sino que el propsito es construir esta clasificacin. En muchas oportunidades se
utiliza el anlisis cannico de poblaciones despus de un anlisis de grupos para cerciorarse de la fiabilidad
existente en la formacin de dichos grupos (Cubero y Flores, 1994), en tanto que cluster clasifica individuos
de acuerdo con su semejanza, mientras que anlisis cannico empezando con unos grupos ya definidos,
procede a investigar las interrelaciones entre estos grupos.

3.3 Anlisis de Coordenadas Principales

As como el anlisis de componentes principales es adecuado para variables cuantitativas, cuando


las variables son cualitativas es apropiado un tipo de anlisis diferente, tal como el de coordenadas
principales (Gower, 1966).

Si en particular las variables X1, X2, ....... , Xp son dicotmicas, basadas en ausencia (-) o presencia
(+) de caracteres cualitativos, un individuo xi queda caracterizado por las presencias o ausencias de p
caracteres, construyndose con los n individuos una matriz primaria de informacin con las variables como
columnas y las unidades como filas y conteniendo signos + o - (o unos y ceros) segn que la
caracterstica est o no presente en el individuo o unidad. En estos casos es necesario construir un
equivalente a las matrices de covarianza o correlacin entre individuos, y estas son las matrices de
similaridad o de disimilaridad, que se obtienen teniendo en cuenta la coincidencia o discrepancia con que se
dan las caractersticas que los describen. En el punto 2.1 se hizo una presentacin de diferentes ndices de
similaridad y su conveniencia en distintas situaciones.

El objetivo del anlisis de coordenadas principales es llegar a una representacin geomtrica de los
n individuos a travs de una medida de distancia que respete la estructura de similaridades definida por la
matriz de similaridades S . Esto se logra cuando la distancia se define precisamente en funcin de las
similaridades ya establecidas. La distancia cuadrada entre los individuos xi y xj ser:

d2ij = d2(xi , xj) = sii + sjj - 2 sij

Si sij es una similaridad, 0 sij 1, entonces d2ij = 2(1- sij) y verifica d2ij = 0 si sij = 1 (similaridad
total), d2ij = 2 (mxima distancia) si sij = 0 (disimilaridad total). Si sij es una correlacin, -1 sij 1, entonces
d2ij vara de 0 a 4.

Identificando sij como un producto escalar entre xi y xj , d2(xi , xj) se corresponde formalmente con
la norma al cuadrado de (xi - xj):

30
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

|| xi - xj ||2 = xi . xi + xj . xj + 2 xi . xj = sii + sjj - 2 sij = d2ij = d2(xi , xj)

Vistas estas propiedades, la distancia dij, expresa, de forma razonable, la proximidad entre dos
individuos.

Al tratarse de variables dicotmicas, los individuos no se pueden representar directamente como


puntos del espacio Rp . Gower (1966) propuso una metodologa que consiste en encontrar una matriz que
defina una configuracin de puntos en Rn de manera que su distancia eucldea coincida con la distancia dij .
Para ello se construye una tabla de datos que defina coordenadas para los individuos, en el espacio
euclideo Rn , compatibles con la distancia dij . En el Apndice C se presenta el desarrollo de Gower.

El anlisis de coordenadas principales no es ms que un anlisis de componentes principales


aplicado a una tabla de datos compatibles con la distancia d2ij = sii + sjj - 2 sij . Pero a diferencia de este, aqu
el nuevo sistema de ejes no representa direcciones dado el carcter cualitativo de las variables originales.

Es importante resaltar que el anlisis de coordenadas principales es en realidad un mtodo mtrico


muchos ms sencillo de la tcnica de escalas multidimensionales (Torgerson, 1952, 1958) que se presentar
ms adelante y que a veces exige resolver un costoso proceso iterativo. En el caso de que se encuentren
valores propios negativos, es decir no existe la representacin eucldea de la distancia d2ij, ser necesario
recurrir a escalas multidimensionales o tambin llamado MDS por sus siglas en ingls de Multidimensional
Scaling.

3.4 Anlisis Factorial de Correspondencias

El Anlisis Factorial de Correspondencias, conocido tambin de forma abreviada como Anlisis de


Correspondencias (denominacin que vamos a utilizar) es un tipo de Anlisis de Componentes Principales
donde los datos en vez de proceder de variables cuantitativas representan tablas de frecuencias de dos o ms
factores bajo la distancia chi-cuadrado, cuya principal propiedad es la posibilidad de una representacin
simultnea de las variables y las poblaciones.

Se considera que el primer artculo sobre anlisis de correspondencias con formulacin matemtica
es el de Hartley publicado en 1935 con su nombre alemn original Hirschfeld, y se refiere a la correlacin
entre filas y columnas de una tabla de contingencia. Ms tarde Fischer (1940), en reas de Biometra y
Guttman (1941) en la de Psicometra presentan y aplican las mismas teoras dando origen a dos escuelas
diferenciadas por el campo de las aplicaciones.

A partir de la dcada de los 60 se alcanzar un fuerte desarrollo, especialmente en lo que hace a la


interpretacin geomtrica y a las aplicaciones, por la escuela francesa de la mano de J. P. Benzecri (1965) a
quien muchos consideran el autor de la introduccin y difusin de este mtodo. Destacan tambin los
resultados de la tesis doctoral de B. Escofier-Cordier (1965), donde se conjeturan algunos teoremas que
seran demostrados ms tarde.

La exposicin ms exhaustiva de anlisis de correspondencias se encuentra en la obra de Benzecri


(1976, tomo 2) , que sorprende por su manera de interpretar el anlisis de datos. Segn el autor, debe basarse
en los siguientes principios: la estadstica no es probabilidad, los modelos deben seguir a los datos y no al
revs, los anlisis deben realizarse con el mayor nmero de dimensiones posibles, el ordenador es

31
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

indispensable en los anlisis complejos. Adems de la obra fundamental de Benzecri pueden consultarse
autores como Bertier y Bouroche (1975), Diday (1983), Lebart, Morineau y Tabard (1977), Lefebvre (1983),
Greenacre (1984) y otros. En castellano pueden consultarse Snchez Carrin (1984), Lebart et al (1985),
Pedret Yebra (1986), Judez-Asensio (1989) y Cuadras (1996).

El hecho de que esta tcnica sea originaria de Francia, y dada la proverbial poca atencin que los
norteamericanos prestan a los avances europeos, sea posiblemente la causa no se haya difundido mucho ms,
permaneciendo prcticamente ignorado en la literatura norteamericana (Bisquerra Alzina, 1989). De hecho es
de las pocas tcnicas de anlisis multivariante que no ha sido incorporada a paquetes estadsticos como el
SPSS (s se la encuentra en SAS y NTSYS). Hill (1974) public un artculo sobre anlisis de
correspondencias en una revista americana que, a veces, ha sido citada posteriormente en el mundo
anglosajn como el origen de esta tcnica. Sin embargo su difusin ha sido muy limitada. Slo a partir de los
aos ochenta, algunas publicaciones (Greenacre, 1984, Lebart, Morineau y Warwick, 1984) han empezado a
difundir esta tcnica por el mbito norteamericano.

Como se dijo en el primer prrafo el anlisis de correspondencias permite la representacin


simultnea de variables y poblaciones, lo que constituye tal vez una de sus ms importantes ventajas. Esta
dualidad entre variables y poblaciones, fue advertida por Coombs (1950) y Kendal (1957) y estudiada por
Bennet y Has (1960), Gower (1966), Chardy et al (1976) y Lefebvre (1983) entre otros autores. La
equivalencia distribucional es otra interesante propiedad del mtodo, por la que las distancias chi-cuadrado
entre individuos queda inalterada si se sustituyen en la tabla original de datos dos columnas equivalentes de
frecuencia por la suma de ambas. Esto se cumple tambin para el caso de variables. La importancia de esta
propiedad en gentica radica en que no siempre se puede asumir independencia entre todas las variables
(genes, genotipos, bandas, patrones, etc.), resultando muchas veces que dos o ms variables son
redundantes en su informacin acerca de la diferenciacin de poblaciones. Una metodologa que trate estas
variables redundantes como una sola resulta por dems interesante (Asins y Carbonell, 1986).

Si bien el anlisis de correspondencias fue concebido originariamente para el estudio de relaciones


entre variables cualitativas presentadas en una tabla de contingencia, se ha revelado eficaz para otros tipos de
datos. Adquiere relevante importancia, por su frecuente aplicacin en la prctica, la utilizacin del anlisis de
correspondencias sobre cuadros lgicos o binarios (tambin conocida como tabla disyuntiva completa), que
provienen de la caracterizacin de un conjunto de observaciones mediante ms de dos caracteres cualitativos
multiestados, donde cada variable se desglosa en tantos niveles o modalidades presente, indicndose en el
cuerpo de la tabla slo si el individuo presenta o no la modalidad. El anlisis de correspondencias aplicado a
este tipo de cuadros se denomina anlisis de correspondencias mltiples. Puesto que, por otra parte, es
posible transformar cualquier carcter cuantitativo en cualitativo (realizando una particin de su dominio de
variacin en clases), puede comprenderse el gran inters que presenta el contar con una herramienta para el
tratamiento de los mencionadas cuadros.

3.5 Escalas Multidimensionales (MDS)

Las escalas multidimensionales es un mtodo muy general de representacin de datos que consiste
en construir una configuracin de puntos conocida una determinada informacin sobre las distancias o
disimilaridades entre los individuos. Pedret Yebra (1986) define que el objetivo de esta tcnica es, construir

32
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

un espacio mtrico con el menor nmero de dimensiones posibles, que permita representar las proximidades
o preferencias entre objetos, con el mayor grado posible de fiabilidad.

La mayora de las obras sobre escalas dimensionales en ingls suelen abreviar este trmino con la
sigla MDS (multidimensional scaling), que nosotros adoptaremos con bastante frecuencia. En espaol
tambin se conoce a esta tcnica como Anlisis de Proximidades (Cuadras, 1996).

Si bien algunas primeras ideas parten de trabajos publicados en 1927 y 1936, la historia del MDS
comienza con dos publicaciones de Torgerson (1952 y 1958), quien introdujo el trmino y elabor las
principales fundamentos del mtodo. Sin embargo las escalas multidimensionales sera formuladas de
manera ms precisa por Shepard (1962 a,b) quien demostr empricamente, pero con rigor, que conocida una
ordenacin entre distancias, podra encontrarse una configuracin de puntos en un espacio eucldeo, de
pequea dimensin, cuyas interdistancias eucldeas reproducan prcticamente la ordenacin original. Al
respecto, ya en 1957, Kendall haba demostrado que el anlisis de componentes principales sufre poca
alteracin si se sustituye el coeficiente de correlacin de Pearson por el coeficiente de correlacin por rangos
de Kendall.

Obras introductorias a MDS son las de Kruskal y Wish (1978), Schiffman et al (1981), McIver y
Carmines (1981), Coxon (1982), Davison (1983). En castellano se puede consultar a Coxon y Jones (1984),
Pedret-Yebra (1986), Sierra-Martnez (1986) y Cuadras (1996).

Existen diversas tcnicas para realizar un escalamiento multidimensional, generalmente vinculadas


al tipo de medida de asociacin que relaciona a los individuos que se desean representar. As la clasificacin
que generalmente encontramos en los paquetes estadsticos es entre mtodos MDS metricos y no
mtricos. En los primeros las variables (generalmente cuantitativas) permiten obtener una matriz de
distancias mtrica, que a su vez puede o no ser euclidea (en el sentido de cumplir con la propiedad de
euclinidad vista en el punto 2.6.2). Por otro lado, las tcnicas no mtricas (asociadas generalmente a
variables cualitativas), permiten trabajar simplemente sobre matrices de disimilaridad (no cumplen con la
desigualdad tirangular, punto 2.6). Dado que en nuestro caso nos remitiremos a aplicar MDS sobre distancias
eucldeas, enfocaremos nuestra atencin en analizar los mtodos concernientes a este tipo de distancias .

Respecto a la representacin de individuos caracterizados por variables cualitativas viene bien


realizar dos comentarios : i) en primer lugar que el anlisis de coordenadas principales es la tcnica natural
para cuando se trabaja con coeficientes de similaridad, adems de resultar ms sencilla y no requerir de
transformaciones ; y ii) que los coeficientes de similaridad empleados, con la transformacin dij =
(1 sij ) pueden ser convertidos en distancias eucldeas, por lo que perfectamente podran aplicarse la
solucin para una distancia eucldea.

4. Mtodos de Clasificacin

La formacin de grupos ante la presencia de un conjunto de objetos, individuos o variables, es una


actividad mental natural. A diferencia de los mtodos de ordenacin en donde el objetivo es ordenar y
representar grficamente en un nmero de dimensiones reducidas nuestro material de estudio, en los mtodos
de clasificacin lo que se persigue es la bsqueda de grupos similares, lo ms homogneos posibles, en los
cuales clasificaremos los elementos a analizar.

33
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Hay autores, entre ellos los ya citados Bisquerra Alzina (1989) y Johnson y Wichern (1992), que
incluyen a la totalidad de las tcnicas de clasificacin en lo que se denomina Anlisis de Cluster o Cluster
Analysis en el mundo anglosajn. La palabra cluster se podra traducir por grupo, conglomerado, racimo,
apiarse, etc. El anlisis de cluster se emplea en biologa para clasificar animales y plantas, conocindose
tambin con el nombre de taxonoma numrica. Otros nombres asignados al mismo concepto son anlisis
de conglomerados, anlisis tipolgico, clasificacin automtica y otros. Todos ellos pueden funcionar
como sinnimos. Por otro lado hay autores que reservan el trmino de Anlisis de Cluster slo para referirse
a una familia de tcnicas de clasificacin que requieren de la propiedad ultramtrica de las medidas de
distancia para su aplicacin (Swofford y Olsen, 1990). Por nuestra parte, hemos optado conservar el nombre
en ingls de Cluster, para evitar confuciones terminolgicas, puesto que con este nombre figura en los
paquetes estadsticos ms habituales en en muchos trabajos en castellano.

Para Sokal y Sneath (1963), dos de los autores que ms han influido en el desarrollo del Anlisis de
Cluster, la clasificacin es uno de los procesos fundamentales de la ciencia, ya que los fenmenos deben ser
ordenados y clasificados para que podamos entenderlos. Tanto el anlisis de cluster como el anlisis
discriminante sirven para clasificar individuos en categoras. La diferencia principal entre ellos estriba en que
en el anlisis discriminante se conoce a priori el grupo de pertenencia, mientras que el anlisis de cluster
sirve justamente para construir estos conglomerados.

A continuacin se presentarn una serie de mtodos diferentes englobados en el anlisis de cluster


que pretende ser representativa ms que exhaustiva dada la gran diversidad de tcnicas alternativas
propuestas en la literatura. Es importante tener presente que ninguno de ellos proporciona una solucin
ptima a todos los problemas. Esto se debe a algunas indeterminaciones que constituyen los fundamentos del
anlisis de cluster (Bisquerra Alzina, 1989). Conviene recordar que es posible llegar a distintos resultados
segn el mtodo elegido. El buen criterio del investigador, el conocimiento del problema y la experiencia
profesional sugerirn el mtodo ms adecuado y la solucin ms correcta.

4.1 Anlisis de Cluster Jerrquico - Arboles ultramtricos

Este tipo de clasificacin tiene su origen en la sistemtica del reino animal y vegetal, aunque ha sido
aplicada a gran variedad de ramas cientficas como clasificacin de estmulos, vocablos, productos qumicos,
empresas, etc.

La clasificacin de las especies, tal como se entiende en la actualidad, fue iniciada por C. Linneo en
su famoso Sistema Natural. Linneo describi miles de especies utilizando nomenclatura binomial, que
asignaba a cada viviente un nombre latino que indicaba el gnero y la especie a la que pertenece, cumpliendo
la funcin de una etiqueta cientfica, que permitiera situarlo y relacionarlo con las dems especies. El sistema
taxonmico de Linneo es una jerarqua organizada en niveles, en donde las clases disjuntas a cada nivel
constituyen las llamadas taxas. Las taxas a un dado nivel constituyen las categoras. Se habla as de las
categoras especies, gnero, familia, orden, etc. La categora gnero por ejemplo, tiene diversas
taxas: los gneros que corresponden a una familia dada.

Se considera que la obra que ms ha influido en el enfoque numrico de la clasificacin es el libro


Principles of Numerical Taxonomy, escrito por Sokal y Sneath (1963), en el que exponen sus bases,
principios, procedimientos y reglas. Posteriormente, otras obras de taxonoma matemtica daran soporte

34
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

terico a los mtodos jerrquicos de clasificacin (Johnson, 1967; Jardine y Sibson, 1968, 1971; Rohlf,
1970; Lerman, 1970; Benzecri, 1976), los cuales estn relacionados con las distancias ultramtricas y sus
propiedades.

La taxonoma numrica intenta construir clasificaciones naturales, basadas en la semejanza


fenotpica y/o genotpica de los individuos (o de las clases), que se valora partiendo de una adecuada
eleccin de un coeficiente de similaridad.

En lneas generales, podemos decir que una clasificacin jerrquica parte de un conjunto cuyos
elementos (los individuos) deben ser clasificados. Se trata de obtener sucesivas particiones (clustering) C0,
C1, ....... de , organizadas en diferentes niveles jerrquicos, estando cada particin formada por clases
disjuntas (cluster). Los elementos de una misma clase deben ser razonablemente homogneas.

El mtodo de agrupamiento es conceptualmente muy simple. Se parte de una matriz de distancias o


similaridades donde el elemento genrico dij mide el grado de asociacin entre dos taxas i y j. El tramado de
relaciones entre taxas se construye por la unin sucesiva de los pares de taxas o grupos de taxas ms
cercanos. Cuando se unen dos taxas, pierden su identidad individual y son referenciados como un cluster
simple. Inicialmente cada taxn constituye en s mismo un cluster y a medida que el proceso de agrupacin
avanza, en cada etapa dos cluster se unen en uno solo, disminuyendo el nmero de grupos ya conformados
en una unidad. El proceso se completa cuando se unen los dos ltimos cluster en un nico conglomerado
que contiene todas las taxas originales.

La representacin geomtrica de una clasificacin jerrquica es un dendrograma o rbol jerrquico


(que puede ser o no enraizado segn se hipotetice o no acerca de un ancestro comn a todo el rbol) que nos
indicar como se van asociando los individuos objeto del anlisis a medida que disminuye el grado de
semejanza entre ellos. Estos rboles generalmente van acompaado por un eje que indica la distancia y/o
similaridad a la que se han producido las diferentes uniones que se denomina ndice de la jararqua (Figura
3). Para dividir o clasificar los individuos en grupos distintos bastar trazar una lnea recta para un valor de
ndice determinado y observar los cluster constituidos por debajo de ella, ignorando los agrupamientos que
se producen a un valor de ndice superior.

2.3
1.8

1.0
0.8

0.0
A B C D E

Figura 3. Representacin de un dendrograma jerrquico indexado.

Las distancias entre taxas en un rbol de estas caractersticas son ultramtricas, ya que estas se
representan equiespaciadas de los puntos de unin. As por ejemplo las distancias de cada uno de los
individuo A y B al grupo conformado por los individuos C y D son iguales e inferior a la distancia entre ellos
dos, constituyendose un tringulo issceles entre estas tres distancias. Por ello a estos rboles se los
denomina ultramtricos. Si los datos son en s mismos ultramtricos, entonces la representacin del rbol es

35
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

exacta, pero si no lo son como ocurre en la generalidad de los casos prcticos, no pueden ser representados
exactamente como un rbol jerrquico, introducindose un error por la adecuacin de una distancia no
ultramtrica a un rbol ultramtrico. Por lo tanto los algoritmos para la obtencin de dendrogramas tienen
siempre como primer paso transformar la disimilaridad original en ultramtrica. Existen diversas formas de
realizar tal transformacin que da origen a diferentes mtodos de construccin de rboles ultramtricos
conocidos generalmente como mtodos de agrupacin. Los mtodos de encadenamientos ms difundidos son
el mtodo del mnimo, del mximo, de la media, de la mediana, del centroide, UPGMA y flexible.

Mtodo del mnimo (Johnson, 1967)

Tambin llamado Mtodo Simple, la idea ya fue introducida por Sneath (1957) y consiste en ir agrupando los
individuos que tienen menor distancia o mayor similaridad. En cualquier paso del anlisis, la distancia entre
dos grupos es la distancia entre sus puntos ms prximos, es decir la funcin f ,est definida por:

d*(hk , hi hj) = mn{d(hi,hk) , d(hj,hk)}

El significado geomtrico de esta funcin es deformar el tringulo con vrtices hi, hj y hk hasta obtener dos
lados iguales que coincidan con el menor de los lados que no son la base.

hk

hi hj

Es fcil que en este mtodo la distancia ultramtrica asociada a la clasificacin jerrquica tiende a aproximar
a los objetos respecto a sus disimilaridades iniciales, por esta razn se dice que el algoritmo es espacio
contractivo.

El encadenamiento simple tiene la atractiva propiedad de que su clculo es relativamente sencillo, sin
embargo hay situaciones que puede resultar insatisfactorio porque origina cluster filamentosos y dispersos en
el espacio original de las variables. Elementos que tienen poco en comn pueden quedar unidas por una
cadena de elementos intermedios. Por otro lado, cuando hay superposicin de grupos, el mtodo tiende a
producir un grupo ncleo con un gran nmero de unidades individuales que se unen a l a un mismo tiempo
(Digby y Kempton, 1991).

Mtodo del mximo (Johnson, 1967)

Conocido adems como mtodo completo. Aqu la deformacin del tringulo se hace hasta obtener que los
dos lados iguales coincidan con el mayor de los lados que no son base. La funcin f queda definida por:

36
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

d*(hk , hi hj) = mx{d(hi,hk) , d(hj,hk)}

En este caso la ultramtrica asociada a la clasificacin jerrquica tiende a alejar a los objetos respecto a sus
disimilaridades iniciales por lo que hablamos de un algoritmo espacio dilatante.

Este mtodo fue introducida por Sorensen (1948) y se caracteriza por producir cluster esfricos y compactos,
frecuentemente se obtiene una gran nmero de grupos pequeos que paulatinamente van conformando
grupos mayores.

Mtodo de la media (Sokal y Michener, 1958)

Los mtodos del mnimo y del mximo tienen interesantes propiedades tericas, pero la solucin obtenida
puede ser bastante diferente de la similaridad inicial. En las aplicaciones prcticas de la Taxonoma
Numrica es ms conveniente algn tipo de solucin intermedia. Una de estas soluciones consiste en tomar
la media simple de los lados mayores del tringulo hi, hj, hk ,

d*(hk , hi hj) = 1/2 d(hi,hk) + 1/2 d(hj,hk)

esto equivale a pensar que cada cluster se representa por su punto medio y que las similaridades entre grupos
queda definida por las distancia entre dichos puntos. El mtodo tiene la ventaja sobre los anteriores de
conservar mejor el espacio de referencia de las variables originales; es decir, las disimilaridades que surgen
de aplicar el mtodo no cambian de forma apreciable respecto a las iniciales, por esto se dice que es un
algoritmo espacio conservativo.

Esta forma de encadenamiento tambin es conocido en la literatura anglosajona como WPGMA (weighted
pair-group method using arithmetic averages).

Mtodo de la mediana (Gower, 1967)

Se deforma el tringulo de modo que los lados coincidan con la mediana desde hk a la base hihj de modo que
la funcin que define la distancia entre un cluster recin constituido y el resto de elementos o grupos queda
definida por :

d*(hk , hi hj) = 1/2 d(hi,hk) + 1/2d(hj,hk) 1/4 d(hi,hj)

Su filosofa es muy semejante a la del mtodo de la media y tambin es espacio conservativo, pero presenta
la desventaja de que si para algn hk se verifica la propiedad ultramtrica, es decir, d(hi,hk) = d(hj,hk), la
distancia d*(hk , hi hj ) ser distinta a d(hi,hk) . En la bibliografa inglesa se lo suele encontrar como mtodo
WPGMC (weighted pair-group method using centroids).

En la Figura 2 se intenta hacer notar en un ejemplo especialmente preparado como un elemento puede ser
incluido en grupos distintos segn cual de los mtodos de encadenamiento descriptos hasta ahora se emplee.

37
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

c m

C A

Figura 2: ilustracin de tres alternativas de agrupamiento para un mismo elemento descrito en un espacio
bidimensional. x representa una unidad que ser asignada a uno de los grupos A, B o C. m, M y c son la distancia
ms cortas desde x al elemento ms cercano, ms lejano y centroide de los tres grupos. El mtodo del mnimo
asignar x al grupo A, mtodo del mximo a B y los mtodos de la media o mediana a C. (extrado de Digby y
Kempton, 1991).

Mtodo del centroide (Sokal y Michener, 1958)

Es similar al anterior, pero haciendo intervenir el nmero de individuos ni de hi y nj de hj por lo que


presentar sus mismos inconveniente. La funcin que defina la distancia es :

d*(hk , hi hj) = ni/(ni+nj) d(hi,hk) + nj/(ni+nj) d(hj,hk) ni.nj/(ni+nj) d(hi,hj)

Tambin conocido como mtodo UPGMC (unweighted pair-group method using centroids).

Mtodo UPGMA (Sokal y Michener, 1958)

Las siglas del mtodo vienen del trmino en ingls unweighted pair-group method using arithmetic
averages. Es similar al mtodo de la media, pero ponderado respecto a ni y nj . Se define

d*(hk , hi hj) = ni/(ni+nj) d(hi,hk) + nj/(ni+nj) d(hj,hk)

Es similar al mtodo de la media pero esta se hace en forma ponderada por el nmero de elementos que
constituyen los grupos a unir. Es uno de los mtodos ms utilizados por los taxonomistas en Biologa.

4.2 Arboles aditivos

Al igual que los agrupamientos ultramtricos responden a una distancia que cumpla con la
propiedad de ultramtricidad, estos mtodos requieren de la propiedad de aditividad.

38
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Matemticamente una distancia aditiva satisface la llamada condicin de cuatro puntos.


Especficamente, para cuatro taxas A, B, C y D:

mx(dAB+dCD, dAC+dBD, dAD+dBC) = med (dAB+dCD, dAC+dBD, dAD+dBC)

donde dij es la distancia entre las taxas i y j, mx es la funcin de mximo valor, y med es la funcin
mediana. Como la funcin mediana no es de utilizacin estndar, esta expresin podra reemplazarse por su
equivalente:

2mx(dAB+dCD, dAC+dBD, dAD+dBC) + mn(dAB+dCD, dAC+dBD, dAD+dBC) =


dAB + dCD + dAC + dBD + dAD + dBC

donde mn es la funcin mnimo.

Las distancias aditivas pueden ajustarse perfectamente a un rbol no jerrquico, tal que la distancia
entre cualquier par de taxas sea igual a la suma de las longitudes de las ramas que lo conectan (Figura 4).

B A D

b a d

f g
c e
C E

Figura 4. Representacin de un dendrograma no jerrquico.

En estos rboles los individuos ms cercanos quedan unidos por ramas que parten de un mismo
nodo, que tericamente corresponde a un ancestro comn no observado. Un rbol no jerrquico tiene n
terminales correspondientes a las taxas o individuos, n-2 nodos internos y 2n-3 ramas, de los cuales n-3 son
interiores y n perifricos. El nmero total de distintos rboles no jerrquico, estrictamente bifurcados, que se
pueden obtener para n taxas es:

n
B(n) = (2i - 5)
i=3

A pesar que estos mtodos han sido desarrollados originalmente para ser representados a travs de
dendrogramas no jerrquicos, numerosos autores y sobre todo los programas estadsticos ms difundidos
para el anlisis de este tipo de datos, prefieren representar los resultados de estos mtodo como
dendrogramas jerrquicos pero con sus ramas no equiespaciadas respecto a los puntos de unin, lo que hace
que no puedan ser indexados. Si bien para muchos es una representacin artificiosa los genticos suelen
sentirse ms cmodos con estructuras jerrquicas. Por esta razn hay quienes los incluyen dentro de los
cluster jerrquicos mientras que otros prefieren omitir el trmino jerrquicos llamndolos slo cluster
aditivos, existiendo una cierta ambigedad tanto en la clasificacin como en la denominacin de estos
mtodos.

39
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Tal como suceda con la propiedad ultramtrica, las distancias aditivas son un ideal, muy pocos
datos experimentales constituyen distancias aditivas (aunque la condicin de aditividad es menos restrictiva
que la de ultrametricidad). Por lo tanto al igual que en los mtodos jerrquicos ultramtricos el primer paso
de un algoritmo tendiente a obtener un rbol aditivo lo constituye hacer que las distancias experimentales
entre taxas sean convertidas a aditivas.

Se han descritos muchos mtodos para obtener un rbol aditivo, entre ellos podemos mencionar el
mtodo Nighbor-Joinning, mnimos cuadrados pesados y diferencia mnima absoluta, pero es el primero el
que ha tenido mayor difusin. Si los datos son perfectamente aditivos, todos los mtodos conducen a la
misma solucin, el problema aparece cuando no lo son.

4.3 Mtodo de Ward (1963)

Conocido tambin como momento central de orden dos, de prdida de inercia mnima o
mtodo de mnima varianza. A pesar de presentar una serie de desventajas hacemos mencin de l por ser
una tcnica bastante utilizada para la clasificacin de individuos cuando se cuenta con variables
clasificatorias cuantitativas.

El mtodo consiste en calcular la media de todas las variables de cada cluster hallando la distancia
eucldea al cuadrado entre cada individuo y la media de su grupo, se suman despus las distancias de todos
los casos. En cada paso, los cluster que se forman son aquellos que resultan con el menor incremento en la
suma total de las distancias al cuadrado intra-cluster, es decir, se minimiza la suma de cuadrado dentro de
cluster sobre todas las particiones posibles resultantes de unir dos cluster de los obtenidos en el paso anterior,
quedando definida la distancia entre dos cluster como la suma de cuadrados aadida por su unin.

El inconveniente que presenta es el de requerir los mismos supuestos que para el ANOVA
multivariado: normalidad e igualdad en las matrices de covariancias. Adems es muy sensible a la presencia
de datos anmalos.

4.4 Clasificacin no-jerrquica

Los mtodos de clasificacin no jerarquizada consisten en formar un nmero prefijado de k grupos


homogneos excluyentes, pero con la mxima divergencia entre ellos. Los k cluster forman una nica
particin (clustering) y no estn organizados jerrquicamente, ni relacionados entre s. Es importante indicar
que el trmino de no jerrquicos no se refiere al sentido que le dimos cuando tratamos los rboles aditivos,
sino que aqu la connotacin del trmino hace referencia a que esta tcnica no nos conduce a la construccin
de un rbol o dendrograma.

La clasificacin no jerrquica o de reagrupamiento tiene una estructura matemtica menos precisa


que la clasificacin jerrquica. El nmero de mtodos existentes ha crecido excesivamente en los ltimos
aos y algunos problemas derivados de su utilizacin todava no han sido resueltos (Cuadras, 1996 ).

El mtodo no jerrquico ms difundidos es el denominado K-means propuesto por McQueen


(1967), en el cual se divide el conjunto de individuos en k conglomerados, de tal forma que al final del

40
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

proceso cada caso pertenece al cluster cuyo centro est ms cercano a l. La distancia eucldea es la medida
utilizada para establecer la proximidad entre cada caso y el centro de su respectivo cluster. El centro del
cluster viene dado por la media de los individuos que forman cada variable.

Otras propuestas se refieren a minimizar la dispersin dentro de grupos o maximizar la dispersin


entre grupos. Supongamos que n es el nmero de sujetos a clasificar en los k grupos, respecto a p variables
continuas, sean W, B y T las matrices de dispersin dentro de grupos, entre grupos y total respectivamente.
Como T = B + W no depende de la forma en que han sido agrupados los sujetos, un criterio razonable de
clasificacin consiste en construir los k grupos de forma que B sea mxima W sea mnima, siguiendo algn
criterio apropiado. Algunos de estos criterios son:

a) minimizar tra(W)
b) minimizar det(W)
c) minimizar = det(W)/det(T) criterio de Wilks
d) maximizar tra(W-1B) criterio de Hotteling

para la aplicacin de cualquiera de estos criterios generalmente se parte de k grupos construidos


aleatoriamente y se reasigna el individuo i a la clase m si se mejora el criterio de optimizacin elegido.

En cuanto a la eleccin del nmero k de grupos a formar, por un lado juega el conocimiento del
investigador sobre tema y, por otro, agrupamientos a priori realizados, bien con tcnicas jerrquicas o
mtodos de ordenacin. La aplicacin de Anlisis Discriminante sobre los grupos obtenidos a partir de la
clasificacin no jerrquica es una herramienta til para determinar y evaluar la conveniencia del valor k
escogido inicialmente.

4.5 Arbol de mnima distancia

Tambin llamados en espaol rboles de mnima dispersin (Cubero, 1994), la tcnica es ms


conocida por su denominacin en ingls Minimun Spanning Tree o MST.

Dados n puntos en un espacio de k variables, al que se le asocia una matriz de disimilaridad, el MST
consiste en un grfico que conecta a esos n puntos, que pueden corresponder a individuos o taxas, por las
distancias ms cortas que los separan, verificndose las siguientes condiciones: i) en ningn caso se forman
polgonos cerrados, ii) por cada punto pasa al menos una lnea y iii) el rbol no presenta discontinuidades.

Esta es una estructura bien conocida en investigacin operacional donde existen problemas que
involucran distancias mnimas. Uno de los primeros algoritmos para hallar rboles MST fue presentado por
Kruskal en 1956. Topolgicamente este rbol es equivalente al correspondiente al mtodo ultramtrico del
mnimo (Gower y Ros, 1969; Rohlf, 1973), e incluso existen algortmos que permiten hallar estos ltimos a
partir de un MST. Rohlf (1979) mostr como un MST puede ser de gran ayuda para localizar datos anmalos
multivariantes.

La importancia de los rboles de mnima distancia no esta asociada con las tcnicas de clasificacin
en s, sino que reside en que pueden ser superpuestos sobre cualquier representacin bi o tridimensional de
un conjunto de datos p-dimensionales. Generalmente se aplican los MST para unir los individuos de una

41
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

configuracin presentada en dos o tres dimensiones, resultado de un anlisis de componentes principales,


coordenadas principales o escalas multidimensionales por ejemplo, segn las distancias mnimas reales que
esos individuos tienen en la totalidad de las dimensiones en que est expresada la informacin, permitiendo
una ms fcil identificacin de posibles agrupamientos. Los MST se asocian a la matriz de distancia y/o
similaridad que da origen a la configuracin y al superponerla en ella permite seguir con mayor claridad los
gradientes definidos en la nube de puntos.

4.6 Otros mtodos

La obtencin de un rbol se puede hacer por dos caminos : (1) a travs de la definicin de una
secuencia de pasos (un algoritmo) que conduce a la determinacin de un rbol, o (2) por la definicin de un
criterio para comparar filogenias o rboles alternativos y decidir cual es la mejor (o cuales de ellas son
igualmente buenas). Hasta ahora los mtodos descritos fueron puramente algortmicos.

Los mtodos de comparacin tienden a ser mucho ms lentos y laboriosos, problema que con los
ordenadores ha sido minimizado al mximo. Adems, a medida que aumenta el nmero de taxas con las que
se trabaja, la bsqueda del mejor rbol es usualmente no exacta debido al gran nmero de posibles
soluciones.

Estas tcnicas han sido desarrolladas principalmente para el estudio de secuencias de nucletidos,
pero slo a efectos ilustrativos citaremos dos mtodos que aglutinan varias tcnicas y que se basan en dos
enfoques o escuelas diferenciadas, a menudo irreconciliables: los mtodos de mxima parsimonia y los
mtodos de mxima verosimilitud.

Los mtodos de mxima parsimonia que estn teniendo un uso cada vez ms difundido sostienen
que hiptesis ad hoc simples son preferibles a otras muchos ms complejas. En trminos filogenticos
implica que el desarrollo evolutivo de las especies seguirn siempre los caminos ms cortos y sencillos. En
general, los mtodos de parsimonia para estimar filogenias se basan en la seleccin de los rboles no
jerrquicos y no enraizados, que minimicen la longitud total del mismo: el nmero de pasos evolutivos
(transformacin de un carcter en otro) requeridos para explicar el conjunto de datos dados. Por ejemplo, los
pasos podran ser sustituciones de bases en el caso de secuencias de nucletidos, o ganancias y prdidas de
sitios de restriccin en el caso de RFLPs.

En trminos ms matemticos, podemos definir en forma general el principio de mxima parsimonia


de la siguiente manera: del conjunto de todos los rboles posibles, encontrar todos los rboles t tal que se
minimice:

b p
L(t) =
k =1 l =1
wl . dif ( xkl , xkl )

donde L(t) es la longitud del rbol t, b es el nmero de ramas, p es el nmero de caracteres, k y k son los
dos nodos que limitan cada rama k , xkl y xkl representan los elementos de la matriz de datos o los estados-
carcter asignados a los nodos internos, dif(y,z) es una funcin que especifica el costo de la transformacin
del estado y al estado z a lo largo de cada rama. El coeficiente wl da pesos a cada carcter, frecuentemente

42
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

valor 1. La dif(y,z) no necesariamente es igual a dif(z,y), aunque la mayora de los mtodos asumen este
supuesto.

Los mtodos de mxima verosimilitud, fueron presentados por primera vez por Cavalli-Sforza y
Edwards (1967) para datos de frecuencia gnica, pero se encontraron con un gran nmero de problemas para
su implementacin. Ms tarde Felsenstein (1981) desarroll el mtodo para su aplicacin a datos de
secuencia de nucletidos.

Escuetamente estos mtodos de anlisis buscan inferir la historia filogentica, o suma de historias,
que son las ms consistentes con un conjunto de datos observados de secuencias de nucletidos. Para ello se
debe especificar un modelo concreto del proceso evolutivo que contemple las transformaciones de una
secuencia a otra. Este modelo podra definirse completamente o bien contener gran cantidad de parmetros
que debern ser estimados de los datos. Evaluando la probabilidad que, dado este modelo evolutivo, se
producira la secuencia de datos observados, el mtodo nos indica cual es la filogenia que representa la
mxima verosimilitud.

Un serio inconveniente de los mtodos de mxima verosimilitud radica en los tiempos


computacionales y en la sofisticacin que muchas veces conllevan los modelos evolutivos, aunque a este
respecto Nei (1996) sugiere recurrir siempre a modelos lo ms simples posible. De hecho, estudios de
simulacin han mostrado que, bajo ciertas circunstancias, un modelo simple da mayor probabilidad de
obtener el rbol verdadero que modelos muy complicados (Yang, 1996).

5. Criterios de comparacin entre tcnicas y/o estrategias

Para decidir sobre la bondad de los resultados obtenidos por la aplicacin de diferentes tcnicas del
anlisis multivariante sobre un conjunto de datos determinado, se pueden usar distintos criterios de
comparacin. Uno de ellos es puramente subjetivo y est basado en el dictamen de especialistas en el tema
analizado, respecto a la coherencia de los resultados con el conocimiento y experiencia que ellos tienen sobre
la caracterizacin y relaciones existentes en los taxones bajo estudio.

El segundo criterio se basa en los resultados de la aplicacin de diversas pruebas adecuadas para la
comparacin de configuraciones de individuos, matrices de distancias y dendrogramas. En todos los casos se
debe tener en cuenta los requerimientos de aplicabilidad de las pruebas, pero en algunas circunstancias y con
los debidos recaudos sobre la confiabilidad de las inferencias, pueden ser aplicados con fines de ilustracin
complementario, an cuando no se cumpliera alguna de las exigencias de la prueba (Alvarez et al, 1996).

Los criterios ms utilizados son los siguientes:

5.1 Correlacin entre matrices

Considerando a los elementos de dos matrices de un mismo orden, se mide su correlacin a travs
del estadstico de correlacin lineal de Pearson y se observa grficamente el diagrama de dispersin con el
objeto de determinar la existencia de datos anmalos.

43
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Como generalmente lo que se compararan sern matrices simtricas de distancia o similaridad lo


que se tendrn en cuenta sern los n(n-1)/2 elementos distintos fuera de la diagonal. Suele emplearse una
prueba t para analizar la significacin de la correlacin lineal, aunque el test de Mantel es el adecuado para
estas situaciones.

5.2 Correlacin cofentica

La correlacin cofentica , introducida por Sokal y Rohlf (1962), se trata de un caso particular de la
prueba anterior, donde una de las matrices es la matriz simtrica de valores cofenticos, cuyos elementos son
los niveles a que cada objeto o individuo es ligado en los sucesivos pasos de conformacin del rbol en los
anlisis de agrupamiento jerrquico. La otra matriz es la matriz de distancias o de similaridades que origina
el dendrograma; el estadstico de Pearson mide la correlacin lineal entre ambas matrices y pretende reflejar
la coherencia entre la matriz de informacin ingresada y el resultado de los agrupamientos logrados por
alguno de los criterios aplicados.

Sea D = (dij) la matriz de disimilaridades originales y H la jerarqua indexada (dendrograma)


construida por algn mtodo de clasificacin. El ndice d(H) define la distancia ultramtrica uij = d(h) si h es
la menor clase que contiene a i y j.

Por ejemplo en la Figura 3 los valores o distancias cofenticas entre cada par de individuos sern :
uAB=0.8, uCD=1.0, uAC = uAD = uBC = uBD=1.8 y uAE = uBE = uCE = uDE =2.3

Se verifica dij uij si y slo si la disimilaridad inicial es tambin ultramtrica. Por lo tanto, el grado
de distorsin entre la matriz (dij) y la matriz (uij), nos puede dar una medida de la calidad de la clasificacin
jerrquica obtenida.

El procedimiento ms utilizado consiste en calcular el coeficiente de correlacin rc entre los n(n-1)/2


pares de distancias (dij , uij). El coeficiente rc recibe el nombre de correlacin cofentica y verifica 0 rc 1.
Cuando rc es prximo a 1, existe una clara estructura jerrquica entre los objetos. Si dij uij entonces rc = 1.
Valores bajos de rc indican una distorsin notable entre las disimilaridades iniciales y las que resultan del
dendrograma. Para una misma matriz de distancia rc variar segn el mtodo de agrupamiento empleado para
obtener el dendrograma. Normalmente rc oscila entre 0.6 y 0.95 (Cuadras, 1996).

Otra posibilidad es comparar las matrices cofenticas correspondientes a dos criterios o estrategias
distintas de agrupamiento, con la finalidad de medir la concordancia o divergencia de uno y otro
procedimiento.

5.3 Test de Mantel

El test de Mantel (1967) se basa en el estadstico Z calculado como la suma de los productos
cruzados de los elementos de las matrices a comparar pero excluyendo los elementos de la diagonal.

n
Z=
i< j
xij . yij con xij e yij elementos de las matrices n x n, X e Y a comparar

44
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

La distribucin emprica del estadstico se obtiene de su clculo sobre todas las permutaciones de
los elementos de una de las matrices cuando la otra permanece constante. La condicin de aplicabilidad de la
significacin del estadstico es que las matrices sean independientes, es decir, que la obtencin de una de
ellas no dependa de la otra. A este estadstico debidamente estandarizado, se le asigna una significacin
obtenida de la distribucin emprica de esas sumas de productos cruzados, que a su vez se obtiene de
confrontar una de las matrices con todas las que resulten de permutar los elementos externos a la diagonal en
la otra. En el presente trabajo los resultados de este test se han manejado con reservas, y en varios casos con
fines ilustrativos sin asignarles un peso decisorio en las conclusiones, ya que el mtodo exige la
independencia de las matrices a comparar, cosa que no ocurre en la mayora de las situaciones que se
discutirn ms adelante.

5.4 Arboles e ndices de consenso

Un rbol de consenso es una especie de dendrograma resmen de dos o ms dendrogramas, que


rene toda o una parte de las coincidencias reflejadas en ellos, y puede ser utilizado como el producto final
de agrupamiento.

Un ndice de consenso es una medida del grado en que coinciden los rboles comparados, en cuanto
a las relaciones que se van estableciendo entre los individuos agrupados, pero no tiene en cuenta los niveles a
los que se producen dichos agrupamientos, para esto est la correlacin cofentica, que es una tcnica mucho
mas exacta.

Cuando se construye una clasificacin jerrquica a partir de n individuos u objetos, en la misma se


irn estableciendo sucesivamente n-2 grupos o clusters excluido los grupos unitarios y el formado por la
totalidad de los n elementos. Esto quiere decir que a medida que avanzamos sobre el ndice de la jerarqua se
irn formando uno por uno n-2 grupos por la asociacin de individuos, o grupos constituidos en niveles ms
bajos del ndice de la jerarqua.

Existen varios criterios para conformar este rbol de consenso. El ms estricto, es aquel donde slo
se admiten los subgrupos que aparecen en alguna instancia en todos los dendrogramas a comparar. Un
criterio ms flexible incorpora al rbol de consenso todos los subgrupos que estn en por los menos un
determinado porcentaje de los rboles comparados, porcentaje que puede fijarse a voluntad (mtodo de
Majrul). Un mtodo particualr es propuesto por Stinebrickner (1984), en el que se plantea hallar para cada
individuo i, y para cada subconjunto de cardinalidad p que contiene al sujeto i, las intersecciones y uniones,
y si el cociente entre las cardinalidades de la interseccin y de la unin supera un valor dado, la interseccin
es incluida en el rbol de consenso. Un ndice de consenso asociado a este mtodo est dado por la suma de
las cardinalidades de las intersecciones que configuran el rbol de consenso, extendida a todos los individuos
i.

Otro ndice de simple factura est dado por el cociente entre el nmero de subconjuntos retenidos en
el rbol de consenso y el nmero total posible de subconjuntos, que para n individuos a agrupar es
exactamente n-2, excluido los grupos unitarios y el formado por la totalidad de los n elementos. Este ndice
es conocido con el nombre de ndice de consenso de Colles.

45
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

6. Mtodos para consensuar ordenaciones y/o clasificaciones

6.1 Anlisis de Procrustes Generalizados

Las configuraciones geomtricas obtenidas mediante escalas multidimensionales, coordenadas


principales u otras tcnicas similares, ofrecen una de las maneras ms clsicas de representar la estructura y
relacin emprica de un conjunto de elementos o individuos a los cuales se les ha observado simultneamente
una serie de atributos. En muchos casos, la orientacin de las dimensiones es arbitraria, y cuando se han
obtenido varias configuraciones sobre la misma muestra de elementos ya sea porque se realizaron en
diferentes momentos o por distintos observadores o tcnicas, no es posible compararlas con un sentido
completo sin antes rotarlas y adecuarlas en forma ptima. Varias tcnicas, frecuentemente llamadas en la
literatura procesos matching permiten hacerlo, entre ellas quizs la ms tradicional sea el Anlisis de
Procrustes.

La palabra Procrustes fue utilizada por primera vez en 1962 por Hurley y Catell para describir la
armonizacin o adecuacin de configuraciones, en referencia a un trmino de origen griego que significa
martillear y hace alusin a un posadero de la mitologa, quien estiraba o recortaba a los huspedes sus
extremidades de modo que coincidieran con la cama.

Inicialmente el Anlisis de Procrustes fue utilizado para adecuar o ajustar una configuracin a otra
ya preestablecida. Green (1952) describi la adecuacin de configuraciones como una transformacin en que
una matriz era rotada y constreida segn especificaciones de una matriz establecida a la que se denomina
matriz objetivo. La matriz transformada debe coincidir tanto como sea posible con la matriz objetivo, esto es
lo que se conoce como transformacin procrusteana. El mtodo propuesto es restrictivo para matrices con
igual nmero de columnas y de rango completo y se basa en un criterio de mnimos cuadrados que minimiza
las distancias entre puntos anlogos en la configuracin final. Schemann y Carrol (1970) ajustaron matrices
por rotacin, traslacin y dilatacin central donde un factor de escalamiento permita la expansin o
constriccin de los puntos.

Bajo el mismo criterio de rotar una matriz para ajustarla a otra, es posible rotar varias matrices a
una matriz centroide comn, esto es lo que se conoce con el nombre de Anlisis de Procrustes
Generalizados. El concepto de matriz centroide fue introducido por Kristof y Wingersky (1971) pero no lo
asocian a ninguna consideracin acerca de traslacin y escalamiento. Gower (1975) describe la matriz
centroide como una representacin de configuracin promedio o de consenso e incluye la traslacin y el
escalamiento de las matrices previa estandarizacin de las mismas en su anlisis, proponiendo una tcnica de
clculo que culmina con un formato de anlisis de la varianza.

TenBerge (1977) hace modificaciones, especficamente en los pasos de rotacin y escalamiento del
Mtodo de Gower. TenBerge y Kroll (1984) derivan transformaciones para varias matrices con diferentes
nmeros de columnas y proponen un criterio de producto interno por el cual se minimizan los ngulos entre
los correspondientes puntos vectores. Peay (1988) emplea un criterio diferente al que llama consenso y que
se basa en minimizar la varianza total de la configuracin comn, desarrollando incluso un programa para
ello.

Tal vez la utilizacin ms difundida de la tcnica de Procrustes haya sido referida al juicio de
calidad de sustancias u objetos tal como la evaluacin de las caractersticas organolpticas de vinos, carnes,

46
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

lcteos, etc., (Oreskovich et al, 1991) donde varios evaluadores o jueces cuantifican distintos atributos,
dando tantas configuraciones de los objetos en estudio como evaluadores hayan.

Tambin se ha propuesto esta tcnica (Digby y Kempton, 1991) para comparar ordenaciones
correspondientes al mismo conjunto de datos, ya sea porque se aplicaron diferentes mtodos o bien se
utilizaron distintas medidas de distancia, salvando as el problema de recurrir a la correlacin entre matrices
de distancia donde la informacin no es independiente. Bajo el mismo criterio tambin es utilizado el
Anlisis de Procrustes para examinar la consistencia de ordenaciones obtenidas a partir de distintas muestras.

Las aplicaciones de este mtodo en el campo de la gentica son prcticamente nulas a pesar de su
potencial, y se refieren tan solo para el estudio de estabilidad varietal (Peltonen-Saino et al, 1993), como en
la caracterizacin conjunta en funcin de caracteres genticos y agronmicos (Faccioli, 1995).

La tcnica de clculo para el Anlisis de Procrustes Generalizados desarrollado por Gower propone
la armonizacin de las configuraciones individuales a travs de una serie de pasos iterativos por
transformacin de stas.

Los sucesivos pasos o transformaciones que se realizan en un Anlisis de Procrustes incluyen


normalizacin, rotacin, reflexin y escalamientos de los datos bajo dos criterios: que se mantengan las
distancias entre individuos de las configuraciones individuales, y que se minimice la suma de cuadrados
entre puntos anlogos, es decir correspondientes al mismo elemento, y su centroide. La configuracin de
consenso se obtiene como la media de todas estas configuraciones individuales transformadas.

En trminos matriciales si cada matriz individual est representada por Xi (i=1,2,......,m) con n filas
y p columnas donde la j-sima fila da las coordenadas de un punto (individuo) Pj(i) referido a p ejes, el
escalamiento, rotacin y traslacin pueden expresarse algebraicamente por la transformacin:

Xi i Xi Hi + Ti

en la cual la matriz ortogonal de rotacin Hi, el factor de escala i y la matriz de traslacin Ti se hallaran de
forma que se minimice:

n m
Sr =
j =1 i =1
2(Pj(i),Gj)

donde (A,B) es la distancia eucldea entre el par de puntos A y B, y Gj es el centroide de los m puntos
anlogos Pj(i) (i=1,2,3, m).

47
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

7. Bibliografa

Alvarez, O. ; Bramardi, S. ; Stangaferro, S. (1996). Aplicacin de tcnicas y estrategias del anlisis


multivariado en el estudio de datos de vegetacin. Informe final proyecto de investigacin, Secretaria de
Investigacin Universidad Nacional del Comahue.

Anderson, T. W. (1963). Assymptotic theory for principal components analysis. Annals of mathematical
Statistics, 34 : 122-148.

Asins, M.J. ; Carbonell, E.A. (1986). A comparative study on variability and phylogeny of Triticum
species. 1. Intraspecific variability. Theor. Appl. Genet., 72 : 551-558.

Bartlett, M.S. (1938). Further aspects of multiple regression. Proc. Of the Cambridge Philosophic Society,
34 : 33-40.

Bartlett, M.S. (1939) A note on test of significance in multivariate analysis. Proceedings, Cambridge
Philosophical Society, 35 : 180-185.

Batista Foguet, J. M. ; Martinez Arias, M.R. (1989). Anlisis Multivariante : Anlisis en Componentes
principales. Barcelona : Ed. Hispano Europea S.A.

Bennet, J.F. ; Hays, W.L. (1960). Multidimensional unfolding : determining the dimentionality of ranked
preference data. Psychometrika, 25 : 27-43.

Benzecri, J.P. (1965). Problmes et methodes de la taxinomie. Pub. Inst. Statistique Univ. Pars, Rennes y
Pars.

Benzecri, J.P. (1970). Distance distributionelle et metrique chi-deux en analyse factorielle des
correspondances. Paris : Laboratoire de Statistique Mathmatique.

Benzecri, J.P. (1976). LAnalyse des Donnes. (2 tomos). Tome I : La taxinomie. Tome II. LAnalyse des
correspondances. Pars : Dunod.

Bertier, P. ; Bouroche, J.M. (1975). Analyse des donnes multidimensionnelles. Pars : Presses
Universitaires de france.

Bisquerra Alzina, R. (1989). Introduccin conceptual al Anlisis Multivariable. Vol I y II. Barcelona :
Promociones y Publicaciones Universitarias, S.A.

Bray, J. R.; Curtis, J. T. (1957). An ordination of the upland forest communities of southern Wisconsin.
Ecological Monographs, 27: 325-349.

Cain, A. J.; Harrison, G. A. (1958). An anlysis of the taxonomists' judgement of affinity. Prceedings of the
Zoological Society of London, 131: 85-98.

48
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Cattell, R. B. (1966). The meaning and strategic use of factor analysis. En R. B. Cattell (ed) Handbook of
multivariate Experimental Psychology. Chicago : Rand McNally.

Cavalli-Sforza, L.L. ; Edwards, A. W. F. (1967). Phylogenetic analysis: models and estimation procedures.
Evolution, 21 :550-570

Chardy, P ; Glemarec, M. ; Laurec, A. (1976). Application of inertia methods to benthic marine ecology :
practical implications of the basic options. Esturiane and Coastal Marine Science, 4 : 179-205.

Cooley, W. W. ; Lohnes, P. R. (1962). Multivariate procedures for the behavirol sciences. New Hork : J.
Wiley.

Coombs, C.H. (1950). Psychological scaling without a unit of measurement. Psychological Review. 57 :
148-158.

Coxon, A.P.M. ; Jones, C.L. (1984). Escalas multidimensionales. En J.J. Snchez carrin (Ed.).
Introduccin a las tcnicas de anlisis multivariante aplicadas a las Ciencias Sociales. Madrid : Centro de
Investigaciones Sociolgicas. Pps. 107-129.

Cuadras, C. M. (1996). Mtodos de anlisis multivariante. Barcelona : EUB, S.L.

Cuadras, C.M. (1998). Multidimensional Dependencies in Ordination and Classification. In: Analyses
Multidimensionelles des Donnes (K. Ferndez, A. Morineau, eds.), CISIA-CERESTA, Saint-Mand
(France), pp. 15-25.

Cuadras, C.M., Fortiana, J. (1998) Visualizing categorical data with related metric scaling. Visualization
of Categorical Data, Ch. 25, J. Blasius and M. Greenacre, eds., Academic Press, pp. 365-376.

Cubero, J.I. ; Flores, F. (1994). Mtodos estadsticos para el estudio de la estabilidad varietal en ensayos
agrcolas. Monografa 12/94, Ed : Servicio de Publicaciones y Divulgacin, Junta de Andaluca, Consejera
de Agricultura y Pesca, Sevilla. Pp 176.

Davison, M.L. (1983). Multidimensional scaling. Nueva York : McGraw-Hill.

Dice, L.R. (1945). Measures of the amount of ecologic assocaition between species. Ecology, 26 : 297-302.

Diday, E. (1983). Elments dAnalyse des donnes. Pars : Dunod.

Digby, P. G. N. ; Kempton, R. A. (1991). Multivariate analysis of ecological communities. London :


Chapman & Hall.

Escofier-Cordier, B. (1965). Lanlyse des correspondance. Tesis Doctoral, Universit de Rennes. Publicado
ms tarde en Cahiers du Bureau Universitaire Recherche Oprationelle, no. 13 (1969), 25-39.

Escofier, B. (1979), Traitement simultan de variables qualitatives et quantitatives en analyse factorielle. Les
cahiers de lanalyse des dones, 4 : 137-146.

49
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Escotet , A. M. (1980). Diseo multivariado en psicologa y educacin. Barcelona : CEAC

Excoffier, L. ; Smouse, P. ; Quatrro, J. (1992). Analysis of molecular variance inferred from metric
distance among DNA haplotypes : application to human mitochondrial DNA restriction data. Genetics, 131 :
479-491.

Faccioli, P. ; Terzi, V. ; Monetti, A. ; Nicola, J. ; Pecchioni, N. (1995). B-hordein STS markers for barley
genotype identification : comparison with RFLPs, hordein A-PAGE and morpho-physiological traits. Seed
Sci. & Technol., 23 : 415-427.

Felsenstein, J. (1981). Evolutionary trees from DNA sequences : a amximun likelihood approach. J. Mol.
Evol., 17 : 368-376.

Fisher, R.A. (1935). The design of experiments. Edimburgo : Oliver and Boyd Ltd.

Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Ann. Eugen., 7 : 179-188.

Fisher, R.A. (1940). The precision of discriminat functions. Ann. Eugen. 10 : 422-429.

Frontier, S. (1976) . tude de la dcroissance des valeurs propes dans une analyse en composantes
principales : comparaison avec le modle du baton bris. J. exp. Mar. Biol. Ecol., 26 : 67-75.

Goodall, D. W. (1973). Sample similarity and species correlation. En Ordination and classification of
communities, Part V: Handbook of vegetation Science. Editor: R. H. Whittaker. pp: 105-156. New York: W.
Junk.

Gower, J. C. (1966). Some distance properties of latent root and vector methods in multivariate analysis.
Biometrika, 53 : 315-328.

Gower, J.C. ; Ross, G.J.S. (1969). Minimum spanning trees and single-linkage cluster analysis. Applied
Statistics, 18 : 54-64.

Gower, J. C. (1971a). A general coefficient of similaririty and some of its properties. Biometrics, 27: 857-
874.

Gower, J.C. (1971b). Statistical methods of comparing different multivariate analysis of the same data. En
Mathematics in the archaelogical and historical sciences. Editores: F. R. Hodson, D. G. Kendal, y P. Tautu.
pp 138-149. Edinburgh: Edinburgh university press.

Gower, J. C. (1975). Generalized Procrustes analysis . Psychometrika, 40 : 33-51.

Gower, J. C. (1985). Measures of similarity, dissimilarity and distance. En Encyclopaedia of Statistics, Vol.
5. Editores: N. L. Johnson, S. Kotz and C. B. Read. pp 397-405. New York: Wiley.

Green, B. F. (1952). The orthogonal approximation of an oblique structure in factor analysis.


Psychometrika, 17 : 429.

50
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Greenacre, M.J. (1984). Theory and applications of correspondence analysis. Orlando, Florida : Academic
Press Inc. Pp. 364.

Guilford, J.P. (1942). Fundamental Statistics in Psychology and Education. McGraw-Hill, new York. 333p

Guttman, L. (1941). The quantification of a class of attributes : a theory and method of scale construction.
In The prediction of personal adjustment, (Horst, P., ed), pp. 319-348. New York : Social Science Research
Council.

Hamman, U. (1961). Merkmalsbestand und Verwandtschaftsbeziehungen der Farinosae. Ein Beitrag zum
System der Monokotyledonen. Willdenowia, 2 : 639-768.

Harman, H.H. (1980). Anlisis factorial moderno Madrid : Salts..

Harris, R.J. (1985). A primer of multivariate statistics. Orlando, Florida : Academic.

Hill, M.O. (1974). Correspondance analysis : a neglected multivariate method. Applied Statistics, 23 : 340-
354.

Hillis, D. M. (1984). Misure and modification of Neis genetic distance. Syst. Zool. 33 : 238-240.

Hirschfeld, H.O. (1935). A connection betwen correlation and contingency. Cambridge Philosophical Soc.
Proc. (Math. Proc.). 31 : 520-524.

Hotelling, H. (1931). The generalization of Students ratio. Annals of Math. Stat., 2 : 360-378.

Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. J. Educ.
Psych., 24 : 417-441, 498-520.

Hurley, J. R. ; Catell, R. B. (1962). The Procrustes program : producing direct rotation to tes a
hypothesized factor structure. Behav. Sci. 7 : 258.

Jaccard, P. (1908). Nouvelles recherches sur la distribution florale. Bull. Soc. Vaud. Sci. Nat. 44: 223-270.

Jacquard, A. (1974). Biomathematics, Volume 5 : The genetic structure of populationes. New York :
Springer-Verlag Berlin.

Jardine, N. ; Sibson, R. (1968). The construction of hierarchic and non-hierarchic classifications. Computer
J., 11 : 177-184.

Jardine, N. ; Sibson, R. (1971). Mathematical taxonomy. Nueva York : John Wiley.

Johnson, S.C. (1967). Hierarchical clustering schemes. Psychometrika, 32 : 241-254.

Johnson, R. A. ; Wichern, D. W. (1992). Applied multivariate statistical analysis. 3 Edicin. New Jersey :
Prentice-Hall International Editions.

51
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Jolicoeur, P. (1959). Multivariate geographical variation in the wolf Canis Lupus L. Evolution, 13(3) : 283-
299.

Judez Asencio, L. (1989). Tcnicas de anlisis de datos multidimensionales. Madrid : Centro de


Publicaciones, Ministerio de Agricultura, Pesca y Alimentacin.

Kendall, M.G. (1957). A course in multivariate analysis. Londres : Griffin.

Kristof, W. ; Wingersky, B. (1971). Generalitation of the orthogonal procrustes rotation procedure to more
than two matrices. Proceedings, 79th Annual Convention, American Psychological Association : 89-90.

Kruskal, J.B. (1956). On the shortest spanning subtree of a graph the traveling salesman problem. Proc.
Amer. Math. Soc., 7 : 48-50. O 29 :1-27 VER BIEN

Kruskal, J.B. ; Wish, M. (1978). Multidimensioanl scaling. Berbely Hills, California : Sage.

Kulczynski, S. (1927). Die Pflanzenassoziationen der Pieninen. Bull. Inter. Acad. Pol. Sci. Lett. Cl. Math.
Nat., B (Sci. Nat.), Suppl 2 : 57-203

Lance, G.N.; Williams, W.T. (1966). Computer programs for hierarchical polythetic classification.
Computer Journal, 9: 64-64.

Lebart, L. ; Morineau, A. ; Tabard, N. (1977). Techniques de la descrition statistique, methodes et


logiciels pour lanalyse des grands tableux. Pars : Dunod.

Lebart, L. ; Morineau, A. ; Warwick, K.W. (1984). Multivariate description statistical analysis,


correspondance analysis and related techniques for large matrices. New York : John Wiley.

Lebart, L. ; Morineau, A. ; Fenelon, J.P. (1985). Tratamiento estadstico de datos. Mtodos y programas.
Barcelona : Marcombo.

Lefebvre, J. (1983). Introduction aux anlyses statistiques multidimensionelles. Pars : Masson.

Lerman, I.C. (1970). Les basses de la classification automatique. Pars : Gauthier Villars.

Mahalanobis, P. C. (1936). On the generalized distance in statistic. Proc. Nat. Inst. Sci. India, 2(1): 49-55.

Mantel, N.A. (1967). The detection of disease clustering and a generalized regression approach. Cancer
Res., 27 : 209-220.

Maxwell, A.E. (1977). Multivariate analysys in behavioural research. Londres. Chapman and Hill.

McIver, J.P ; Carmines, E.G. (1981). Unidimensional scaling. Berbely Hills, California : Sage

McQueen, J.B. (1967). Some methods for classification and analysis of multivariate observations.
Proceedings of the Fith Berkeley Symposium on Mathematical Statistic and probability, 1 : 281-297.

52
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Morrison, D.F. (1967). Multivariate statistical methods. New York : McGraw-Hill.

Nei, M. ; Li, W. H. (1979). Mathematical model for studyng genetic variation in terms of restriction
endonucleases. Proc. Natl. Aca. Sci. U.S.A. 76 : 5269-5273.

Nei, M. (1996). Phylogenetic analysis in molecualr evolutionary genetics. Annu. Rev. Genet., 30 : 371-403.

Ochiai, A. (1957). Zoogeographical studies on the soleoid fishes found in Japan and its neighbouring
regions. Bulletin of the Japanese Society of Scientific Fisheries, 22 : 526-530.

Oreskovich, D. ; Klein, P. ; Sutherland, J. W. (1991). Procrustes analysis and its applications to Free-
Choice and other sensory profiling. In Sensory Science Theory and Applications in Foods, (Lawless, H.T.;
Klein, B.P., ed). New York : Marcel Dekker Inc

Pearson, K (1901). On lines planes of closest fit to systems of points in space. Philosophical Magazine, ser
6, 2, 559-572

Peay, E. R. (1988). Multidimensional rotation and scaling of configurations to optimal agreement.


Psychometrika, 53 : 199.

Pedret-Yebra, R. (1986) . Tcnicas cuantitativas al servicio del marketing : mtodos descriptivos de


anlisis multivariable. Tesis Doctoral, Facultad de Ciencias Econmicas. Barcelona : Universidad de
Barcelona.

Peltonen-Saino, P. ; Moore, K. ; Pehu, E. (1993). Phenotypic stability of oats measured with different
stability analysis. Journal of Agricultural Science, 121 : 13-19.

Rao, C.R. (1948). The utilization of multiple measurements in problems of biological classification.
J.Roy.Stat.Soc. B10(2) : 159-203.

Rao, C.R. (1952). Advanced statistical methods in biometric research. J.Wiley, new York.

Rogers, D.J. ; Tanimoto, T.T. (1960). A computer program for cassifying plants. Science, 132 : 1115-1118.

Rogers, J. S. (1972). Measures of genetic similarity and genetic distance. Studies in Genet. VII. Univ. Texas.
Publ. 7213 : 145-153.

Rohlf, F.J. (1970). Adaptative hierarchical clustering schemes. Syst, Zool., 19 : 58-82.

Rohlf, F.J. (1973). Algorithm 76. Hierarchical clustering using the minimun spanning tree. Computer J.,
16 : 93-95.

Rohlf, F.J. (1979). Generalitation of the gap test for the detection of multivariate outliers. Bimetrics, 31 : 93-
101.

53
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

Romero Villafranca, R. (1995). Curso de introduccin a los mtodos de anlisis estadstico multivariante.
Valencia : Servicio de Publicaciones UPV (SP.UPV.95-606).

Russel, T.S. ; Rao, T.R. (1940). On habitat and association of species of Anotheline larvae in Southeastern
Madras. J. Malar. Inst. India, 3 : 153-178.

Snchez-Carrin, J.J. (1984). Introduccin a las tcnicas de Anlisis Multivariable aplicadas a las
Ciencias Sociales. Madrid : Centro de Investigaciones Sociolgicas.

Schiffman, S.S. ; Reynolds, M.L. ; Young, F.W. (1981). Introduction to multidimensional scaling. Nueva
York : Academic Press.

Schnemann, P. H. ; Carroll, R. M. (1970). Fitting one matrix to another under choice of a central dilation
and a rigid motion. Psychometrika, 35 : 245.
Seal, H. L. (1964). Multivariate statistical analysis for biologist. Londres : Methuen and Co. Ltd.

Shepard, R.N. (1962 a). The analysis of proximities : multidimensional sacaling with an unknown distance
function. I. Psychometrika, 27 : 125-140.

Shepard, R.N. (1962 b). The analysis of proximities : multidimensional sacaling with an unknown distance
function. II. Psychometrika, 27 : 219-246.

Sierra Martnez, M. A. (1986) . Anlisis multivariable. Teora y aplicaciones en economa. Barcelona :


Ediser.

Sneath, P.H.A. (1957). The application of computers to taxonomy. J. Gen. Micro., 17 : 201-226.

Sneath, P. H. A.; Sokal, R. R. (1973). Numerical taxonomy. San Francisco: W. H. Freeman & Co.

Sokal, R.R. ; Michener, C.D. (1958). A statistical method for evaluating systematic relationships. Univ.
Kansas. Sci. Bull., 38 : 1409-1438.

Sokal, R.R. ; Rohlf, F.J. (1962). The comparison of dendograms by objetive methods. Taxon., 11 : 33-40.

Sokal, R. R ; Sneath, P. H. A. (1963). Numerical taxonomy. San Francisco: W. H. Freeman & Co.

Spearman, CH. (1904). General intelligence objetively determined and measures. American Journal of
Psychology, 15 : 201-293.

Stinebrickner, R. (1984). S-Consensus trees and indicies. Bull. Math. Biol., 46 : 923-935.

Swofford, D. L. ; Olsen, G. J. (1990) Phylogenetic reconstruction. En Molecular systematics, editores :


Hillis, D. M. y Moritz C. pp 411-501.Sunderland, Massachusetts : Sinauer Associates Inc.

TenBerge, J. M. F. (1977). Orthogonal Procrustes rotation for two or more matrices. Psychometrika, 42 :
267.

54
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________

TenBerge, J. M. F. ; Kroll, D. L. (1984). Orthogonal rotations to maximal agreement for two or more
matrices of different column orders. Psychometrika, 49 : 49.

Torgerson, W. S. (1952). Multidimensional scaling : I. Theory and method. Psychometrika, 17 : 401-419.

Torgerson, W. S. (1958). Theory and methods of scaling. New York : J. Wiley.

Torrens-Ibern, J. (1972). Modles et mthods de lanalyse factorielle. Pars : Dunod.

Ward, J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American
Statistical Association, 58 : 236-244.

Wilks, S.S. (1932). Certain generalizations in the analysis of variance. Biometrika, 31 : 218-220.

Wilks, S.S. (1935). On the independence of k set of normally distributed statistical variables. Econometrica,
3 : 309-326.

Yang, Z. (1996). Phylogenetic analysis using parsimony and likelihood methods. J. Mol. Evol., 42 : 294-
307.

Yule, G.U. ; Kendall, M.G. (1950). An Introduction to the Theory of Statistics. 14 th de. Hafner, New York.
701 pp.

55

You might also like