Professional Documents
Culture Documents
CURSO
MTODOS ESTADSTICOS II
Los ltimos aos han sido testigo de un desarrollo espectacular del Anlisis Multivariante. La
aplicacin de estas tcnicas, cuyos fundamentos tericos son conocidos en algunos casos desde hace tiempo,
se haba visto hasta hace poco limitada por sus exigencias de medios de clculo. Superado este obstculo con
la generalizacin de los ordenadores que han producido una verdadera palingenesia informtica en
palabras de Bisquerra Alzina (1989) en referencia al trmino acuado por Arnold Toynbee para definir el
conjunto de cambios sociales y de personalidad que se producen en determinados momentos histricos y que
literalmente significa volver a nacer; los mtodos multivariantes se constituyen hoy en da en una fructfera
tcnica de anlisis que se extiende prcticamente a todas las ciencias experimentales y en reas tan diversas
como la sociologa, economa, medicina, biologa, ecologa, etc.
Pero como se dijo al principio, el anlisis multivariante comienza a aplicarse en los ms diversos
mbitos cuando se inicia la utilizacin masiva de los ordenadores y el proceso mecnico de clculo deja de
tener importancia.
Se han propuesto varias definiciones para describir estas tcnicas, pero todas ellas aluden a los
mismos aspectos generales. A continuacin se expone la definicin presentada por Romero Villafranca
(1995):
Pese a su carcter tautolgico esta definicin contiene ciertos matices que conviene resaltar:
2
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Por ltimo, la mencin del carcter interrelacionado de las variables estudiadas hace hincapi en el
aspecto esencial del Anlisis Multivariante. En efecto si las variables fueran independientes podran
estudiarse por separado mediante las tcnicas univariantes clsicas. El Anlisis Multivariante explota las
relaciones existentes entre las mismas para lograr un anlisis ms rico y profundo de la realidad subyacente
en los datos observados.
Desde el punto de vista prctico las tcnicas de Anlisis Multivariante permiten el estudio de
situaciones en que se disponen de observaciones sobre varios individuos u objetos pertenecientes a uno o
ms grupos, estando constituida cada observacin por los valores de varias caractersticas o variables.
Los conceptos de individuo, grupo y variable pueden corresponder a realidades muy diferentes segn el
problema considerado.
Tambin es importante sealar que existe un gran nmero de aproximaciones tericas a las tcnicas
de anlisis de datos multivariantes, pudindose distinguir fundamentalmente dos escuelas (aunque existen
diferencias notables en su interior). La primera, en la que encontramos fundamentalmente autores
anglosajones, son tratadas bajo la denominacin multivariate statiscal analysis, y supone con frecuencia que
las variables siguen una distribucin normal p-dimensional, poniendo un especial nfasis en el aspecto
inferencial de los anlisis, podemos citar a los britnicos Galton, Pearson, Fisher, Student, Snedecor, Gower
y los americanos Hotelling, Wilks, Bartlett, etc. La segunda escuela, que ha conocido un gran desarrollo en
las ltimas dcadas en Francia, realiza el anlisis de datos sin hiptesis previas sobre las variables con una
finalidad esencialmente descriptiva, denominando a esta rama de la estadstica simplemente analyse des
donnes con Benzecri, Lebart, Morineau y Fenelon a la cabeza (Judez Asencio, 1989). Una tercera escuela
con importantes aportes al anlisis multivariante fue la india donde podemos mencionar entre otros a
Mahalanobis, Rao y Roy.
As como se han intentado varias definiciones del Anlisis Multivariante, tambin diversos autores
han tratado sobre la clasificacin de este conjunto de tcnicas bajo distintos enfoques. La cantidad y variedad
de mtodos puede producir una sensacin de confusin al que se introduce por primera vez a estas tcnicas,
sin embargo una primera distincin est en: a) mtodos descriptivos o exploratorios; y b) mtodos
explicativos o confirmatorios. En los primeros, el investigador se aproxima a los datos sin ninguna hiptesis
previa, se observa la realidad explorando los datos en bsqueda de nuevos conocimientos. Dentro de este
grupo se incluyen, por ejemplo, el anlisis factorial exploratorio, el anlisis de cluster, el anlisis de
correspondencias y las escalas multidimensionales. Los mtodos explicativos, por otra parte, se basan en un
marco terico que justifica y fundamenta unas hiptesis que se intentan validar empricamente. Entre estos
mtodos se encuentra, por ejemplo, el anlisis multivariante de la varianza, la regresin mltiple y los
modelos log-lineales (Bisquerra Alzina, 1989).
3
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Cuadras (1996) propone una clasificacin muy simple segn el mtodo se aplique a una o varias
poblaciones, y segn intervengan uno o ms grupos de variables:
a) Una poblacin y un solo grupo de variables, es decir, las observaciones proceden de una misma
poblacin y las variables son de naturaleza razonablemente homognea:
- Anlisis de Componentes Principales
- Anlisis Factorial
c) Una poblacin y dos grupos de variables, cada grupo de naturaleza posiblemente diferente:
- Regresin Mltiple
- Anlisis de Correlacin Cannica
d) Otros mtodos que no pueden situarse estrictamente dentro de este esquema y cuyo objetivo principal es
establecer relaciones y clases naturales sobre una coleccin heterognea de objetos o individuos:
- Anlisis de Coordenadas Principales
- Anlisis de Proximidades o Escalas Multidimensionales (MDS)
- Taxonoma Numrica (Anlisis de Cluster)
- Anlisis Factorial de Correspondencias
Desde el punto de vista de las aplicaciones, los criterios ms difundidos para clasificar las distintas
tcnicas del Anlisis Multivariante son la naturaleza de las matrices de datos analizadas y los objetivos
perseguidos en el anlisis.
Dentro de los mtodos multivariantes los que conciernen al presente trabajo son aquellos que
resuelven el problema de representar geomtricamente, cuantificar la asociacin entre individuos y
clasificarlos respecto a un conjunto de variables observadas que pueden ser cuantitativas, cualitativas o una
combinacin de ambas.
Para facilitar la presentacin de las diferentes tcnicas se propone dividirlas segn sean de
ordenacin o de clasificacin y dentro de las primeras agruparlas de acuerdo al tipo de variable y medida de
distancia asociada (Tabla 1).
4
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Anlisis de
Indices de Similaridad
METODOS DE Coordenadas Principales
ORDENACION Variables
Cualitativas
Datos de frecuencia
Anlisis Factorial
organizados
de Correspondencias
En tablas de
contingencia. Distancia
Chi-Cuadrado
Variables Anlisis de
Cuantitativas Indices de Disimilaridad Proximidades
o Cualitativas (MDS o Escalas
Multidimensionales)
A continuacin, luego de una introduccin sobre distancias, se har una breve presentacin slo de
estos mtodos.
2. Distancias Estadsticas
Se han utilizado muchos trminos para referirse a la semejanza entre pares de unidades:
similaridad, proximidad, disimilaridad, distancia o asociacin. Nosotros para uniformar la terminologa
hemos optado por emplear similaridad y distancia, aunque este ltimo es un trmino genrico y puede
referirse a distancia cuadrada.
Las similaridades usualmente estn acotadas en el rango cero a uno; un aumento de la similaridad
implica un aumento de la semejanza entre unidades, y toda similaridad de una unidad consigo mismo
debera ser igual al mximo valor posible, es decir, uno. Las distancias en cambio disminuyen con un
aumento del parecido, usualmente no son negativas y la distancia de un elemento consigo mismo es cero.
Tanto las similaridades como las distancias son simtricas, es decir, la distancia entre la i-sima y j-sima
5
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
unidad es la misma, independientemente si se mide a partir de la unidad i o desde la unidad j. Mtodos como
el Anlisis de Cluster trabaja generalmente con datos de similaridad, mientras que algunos mtodos de
ordenacin, tal como las Escalas Multidimensionales, son descritos tradicionalmente en trminos de
distancia. Adems, con algunos datos es usual construir similaridades, mientras que otros se prestan a la
construccin de distancias. No obstante la eleccin de la forma de asociacin, las similaridades pueden
fcilmente transformarse en distancias y viceversa. Por ejemplo, la similaridad sij en el rango cero-uno puede
ser transformada a distancia por los tres mtodos siguientes:
dij = 1 - sij
dij = 1 sij
dij = - log sij
dij = 1/sij - 1
aunque la segunda es la de mayor difusin por propiedades que discutiremos ms adelante. Las dos ltimas
transformaciones no pueden definirse para similaridades igual a cero.
En esta seccin se tratar de describir como una matriz Xnxp, constituida por los vectores filas xi que
representan a los individuos u objetos, y vectores columnas dados por variables que describen esos objetos,
puede usarse para construir una matriz simtrica (nxn) de asociacin entre las n filas de X.
A continuacin se considera la formulacin de las medidas de asociacin para cuatro tipos de datos
que se corresponden a su vez con diferentes formas de variables: binarios, es decir, presencia/ausencia;
cualitativos pero con ms de dos estados, variables cuantitativas y por ltimo se har una presentacin de las
llamadas medidas de distancia genticas que pueden referirse tanto a variables binarias como frecuenciales.
Tambin ser necesario considerar cuando la informacin es mixta, es decir se trata de ms de un tipo
variables, y como actuar con los valores faltantes.
Cuando todos los datos son binarios, la informacin del grado de asociacin entre cualquier par de
unidades xi y xj puede representarse como una tabla de contingencia 2x2:
Individuo j
+ -
Individuo i + a b a+b+c+d=p
- c d
donde a y d son las frecuencias con que la presencia o ausencia de caractersticas es comn a ambas
unidades. Por el contrario b y c contabilizan las discrepancias con que aparecen las caractersticas. Es decir,
particionamos el nmero total de variables p en una parte en la que ambas unidades estn presentes, otra en
la que slo una est presente y una tercera en que ambas estn ausentes.
Una vez construidas las n(n-1)/2 tablas de frecuencia se define una medida similitud o similaridad
entre los individuos funcin de las frecuencias a, b, c y d.
6
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
sij = f (a,b,c,d)
tal que:
1) es creciente en a
2) es decreciente en b y en c
3) es simtrica en b y c lo que implica que sij toma igual valor en las dos situaciones siguientes: (i)
cuando la i-sima unidad est presente y la j-sima ausente y (ii) cuando la i-sima unidad est
ausente y la j-sima presente. Claramente este es un requisito necesario y suficiente para que el
coeficiente de similaridad sea simtrico, es decir, la similaridad entre las unidades xi y xj es la
misma que la entre xj y xi.
El coeficiente de similaridad sij, como su nombre lo indica, da una medida del grado de semejanza o
similaridad entre las unidades xi y xj en relacin a los p caracteres. Como se dijo, la mayora de los
coeficientes de similaridad varan de 0 a 1, siendo:
sij = 0 si c+b=p
sij = 1 si a+d=p,
es decir, sij = 0 cuando todo carcter presente en xi no est presente en xj (discrepancia o disimilaridad total),
y sij = 1 cuando todo carcter presente en xi est presente tambin en xj (similaridad total).
Numerosos autores han propuesto coeficientes de similaridad con tales propiedades, muchos de
ellos muy semejantes, pero podramos clasificarlos en dos grupos: aquellos coeficientes en los que se
establece adems una simetra entre a y d, donde tanto la ausencia como la presencia simultnea del carcter
contribuyen a la semejanza entre las unidades; y aquellos en que no se considera como motivo de aumento de
la similaridad, la ausencia simultnea.
Un problema que suele acarrear la utilizacin de los coeficientes correspondientes al primer grupo,
en los que aparece d en el denominador de sij , es que al aadir caracteres arbitrarios no comunes, podran
hacerse falsamente similares individuos que no los son (Cuadras, 1996). Gower (1971) hace una distincin
entre datos binarios, llamando dicotmicos a aquellos en los que la ausencia simultnea del carcter no
contribuye a la similitud, reservando el trmino de datos alternativos en aquellos casos donde la presencia
o ausencia de la variable binaria se refieren a dos niveles de una variable cualitativa, situacin en la que si
tiene importancia tener en cuenta que el carcter no est presente en dos individuos.
Por ejemplo, si mediante una variable binaria se desea caracterizar especies vegetales de acuerdo a
su tipo sexual, segn sea monoica (flores femeninas y masculinas en la misma planta, codificada con 1) o
diocas (flores femeninas y masculinas en diferentes plantas, codificada con 0); normalmente se deseara que
dos especies monoicas fueran tan semejantes como dos diocas, por esto deberamos utilizar un coeficiente de
similaridad simtrico en a y d. Otra situacin totalmente distinta sera cuando la variable binaria se refiere a
la presencia o ausencia de caracteres taxonmicos, o si dos especies se encuentran presentes en un mismo
sitio: aqu de acuerdo a la naturaleza de nuestros datos podra llegar a ser correcto considerar que dos
especies son similares si, y solamente si, ellas aparecen juntas en el mismo lugar, por poner un caso lmite
considerar que una especie de zonas templadas y otra de zonas clidas son similares slo por el hecho de que
no aparecen en un sitio de clima fro resulta obviamente absurdo.
7
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
En la Tabla 2 se presentan los coeficientes de similaridad ms utilizados, entre los que destacan el
coeficiente de Emparejamiento Simple tambin conocido como, Simple Matching o coeficiente de Sokal y
Michener, y el coeficiente de Jaccard; cada uno de ellos representantes de lo dos grupos de coeficientes a los
que se hizo referencia arriba y de los cuales varios autores han presentado distintas variantes que conducen a
resultados generalmente sin marcadas diferencias en aplicaciones prcticas (Digby y Kempton, 1991). Una
lista ms extensa de coeficientes se puede encontrar en Sneath y Sokal (1973), Goodall (1973) y Gower
(1985).
a
Jaccard (1908) a +b +c
a
Kulczynski (1927)
b+c
a
Russel y Rao (1940) a +b+c+d
2a
Dice (1945) 2a + b + c
a
Ochiai (1957) ( a + b)( a + c)
a
Sokal y Sneath (1963) a + 2(b + c)
Existen otros coeficientes que expresan dependencia estocstica entre xi y xj y varan de -1 a +1. La
mayor disimilaridad corresponde a -1 y la similaridad total a +1. El valor 0 se identifica con la nocin de
independencia estocstica. Ejemplos de estos coeficientes son:
8
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Dos caractersticas son deseables en esta matriz: (i) que sea semidefinida o definida positiva para
una adecuada representacin de los individuos en un espacio eucldeo, por ejemplo a travs de Anlisis de
Coordenadas Principales, y (ii) que se verifique (aproximadamente) la propiedad ultramtrica, es decir que
sij mx { sik , sjk } para permitir una apropiada clasificacin jerrquica de los individuos. Sobre estos dos
temas se discutir ms adelante.
Sneath y Sokal (1973) propusieron reemplazar variables cualitativas multiestados tal como color
(rojo, blanco, azul) por un nmero de pseudo variables binarias (roja / no roja, blanca / no blanca, azul / no
azul) para permitir el uso de cualquiera de los coeficientes de similaridad presentados en la Tabla 2. Sin
embargo, Digby y Kempton (1991) no recomiendan este proceso por ser innecesariamente artificial y
conducir a pesos espurios de las variables con diferentes nmeros de estados.
Una propuesta ms conveniente es recurrir a una extensin del coeficiente Simple Emparejamiento:
Cuando el cero representa ausencia del carcter, puede ser preferible ignorar el empate de ceros en
forma anloga con lo propuesto por el coeficiente de Jaccard. En estos casos tambin es posible tratar al
carcter cualitativo como dos variables, una variable binaria indicando la presencia o ausencia del carcter, y
una segunda variable multiestado que solamente toma valores cuando el carcter est presente. Gower
(1971a) describi diferentes mtodos para construir similaridades para tales caracteres jerrquicos cuya
presentacin se hace en la seccin 2.5.
Hay situaciones en las que la informacin correspondiente a variables cualitativas puede ser
representada en una tabla de contingencia segn dos criterios de clasificacin, a los que llamaremos
9
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
caracteres y poblaciones. El cuerpo de la tabla contendr la frecuencia fik con que aparece el carcter k en
la poblacin i, tal como se indica a continuacin:
Caracteres
C1 C2 ... Cp
P
o x1 f11 f12 ... f1p f1.
b x2 f21 f22 ... f2p f2.
l
a . ... ... ... ... .
c
i . ... ... ... ... .
xn fn1 fn2 ... fnp fn.
n
f.1 f.2 ... f.p f..
La distribucin de frecuencias de los caracteres en la poblacin xi viene dada por el vector perfil fila
de coordenadas:
f f f ip
x i : i1 , i2 , ..., i = 1, 2, ..... , n
f i. f i. f i.
Por lo tanto una forma de calcular la distancia entre dos poblaciones i y j podra ser simplemente a
travs del clculo de la distancia Eucldea entre los dos vectores perfiles filas correspondientes. Pero aqu si
bien se han eliminado posibles distorsiones debidas a diferencias importantes en los marginales filas, se
mantienen distorsiones debidas a las frecuencias dispares que podran presentarse en los distintos caracteres.
Para solucionar esto, Benzecri (1970) propuso el empleo de la distancia Chi-cuadrado, cuya expresin es:
2 2
p
p
1 f ik f jk f f jk
d 2
( x i ,x j ) = = ik
f f
k =1 f .k f i . f j. k =1 .k i . f f
.k j.
De acuerdo con esta distancia, las poblaciones x1 , .... , xn estn representadas por una configuracin
de n puntos en un espacio euclideo Rp de coordenadas:
f f f ip
Pi : i1 , i2 ,....,
f .1 f i . f .2 f i . f . p f i .
Con datos cuantitativos es usual operar con disimilaridades o distancias ms que con similaridades,
aunque algunos autores trabajan con medidas de distancias al cuadrado, ms que con las distancias en s
10
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
mismas. Nosotros trataremos de referirnos siempre a distancias reales que indicaremos con dij, sealando
expresamente cuando se trate de distancias al cuadrado con la indicacin dij2. La Tabla 3 muestra las
medidas de distancias ms difundidas.
p
Eucldea
(x
k =1
ik x jk ) 2
p
Manhattan
|x
k =1
ik x jk |
Bray-Curtis
|x
k =1
ik x jk |
p
(x
k =1
ik + x jk )
p
| xik x jk |
Canberra
(x
k =1 + x jk )
ik
p
Minkowski q
|x
k =1
ik x jk |q
p p
Mahalanobis
(x x jk ) kl ( xil x jl )
-1
ik
l =1 k =1
Tabla 3 : Medidas de distancia dij entre unidades i y j, basadas en p variables cuantitativas Xk (k,l = 1,2,...,p).
kl elemento de la matriz de varianzas-covarianzas entre las p variables, y q nmero entero.
Con estas dos modificaciones se tiene una distancia cuya expresin ser:
1 p ( xik x jk )
2
dij = r2
p k =0 k
Otras soluciones propuestas han sido la estandarizacin de cada variable por su desviacin estndar
e incluso estandarizaciones por medias y desviaciones.
Una medida de distancia alternativa, es la de Manhattan o mtrica city-block, propuesto por Cain y
Harrison (1958) que se calcula como la suma de las diferencias absolutas entre unidades para cada variable.
11
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Presenta la ventaja sobre la distancia Eucldea de ser menos sensible a valores muy grandes o aberrantes, ya
que es funcin de diferencias absolutas en lugar de diferencias al cuadrado. Otra vez cada variable puede ser
estandarizada por su rango (Gower, 1971a). Formulaciones derivadas de la distancia de Manhattan son la
distancia de Bray-Curtis (1957) y distancia de Canberra propuesta por Lance y Williams (1966).
La distancia de Minkowski es una generalizacin que da lugar a la distancia Eucldea cuando q=2 y
a la de Manhattan cuando q=1.
La distancia de Mahalanobis, cuyo cuadrado se representa por D2, es una distancia general,
perfectamente adecuada para diferenciar individuos o poblaciones mediante variables aleatorias (Cuadras,
1996). Su autor la formul en 1927 y se divulg algo ms tarde (Mahalanobis, 1936), y es considerada como
la primera tcnica del anlisis multivariante (Bizquerra Alzina, 1989).
D2ij = ( xi - xj ) -1 ( xi - xj )
Se trata de una distancia invariante por transformaciones lineales no singulares de las variables, en
particular, es invariante por cambios de escalas, ya que est expresada en unidades de desviacin estndar,
esto la hace de especial utilidad cuando las variables son muy heterogneas, y segn Digby y Kempton
(1991) su empleo, cuando es posible, es mucho ms efectivo que escalar por los rangos de las variables.
Adems tiene en cuenta las correlaciones entre las variables lo que permite eliminar la posible redundancia
entre variables. Ntese que si se tratara de variables independientes la matriz sera diagonal, y la distancia
de Mahalanobis se aproxima a la distancia Eucldea cuadrada con pesos inversos dados por las varianzas de
las p variables.
Otra situacin en la que esta distancia puede ser muy til es en el caso cuando se trata de estimar la
distancia entre individuos pertenecientes a distintas poblaciones o grupos, o bien la distancia entre las medias
poblacionales de estos grupos. En esta situacin corresponder a la matriz de varianzas-covarianzas
intragrupos de las dos poblaciones consideradas en forma conjunta, por lo que se debe cumplir con el
supuesto de homogeneidad de varianzas entre grupos. Esta es la distancia sobre la que se trabaja en Anlisis
Cannico de Poblaciones y Anlisis Discriminante.
Por ltimo se hace referencia al coeficiente de correlacin que ha sido extendido para convertirlo en
un coeficiente de similaridad en estudios de taxonoma, y su complemento puede ser usado como una medida
de distancia. Su popularidad surge, en parte, porque realiza un ajuste por el valor medio de la unidad
ignorando diferencias en sus tamaos en conjunto. Tal ajuste es cuestionable para medir distancia entre
individuos a menos que todas las variables tengan las mismas escalas de medida. En cambio es muy
apropiado para cuantificar las distancias existentes entre variables, es decir, entre columnas de la matriz X.
12
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Gower (1971a) propuso un coeficiente de similaridad de forma general para tipos mixtos de
variables que adems contempla las situaciones de valores faltantes. Muchas de las medidas de similaridad y
de distancia descritos previamente pueden ser considerados como un caso particular de este coeficiente
La idea bsica es definir un coeficiente de similaridad sijk entre la i-sima y j-sima unidad dado
para la k-sima variable. El promedio de sijk sobre las k variables dar la medida de similaridad sij.
sij = 1/p
k =1
sijk
En la situacin ms simple cuando se comparan los individuos i y j para el carcter k, si ste se trata
de una variable binaria o cualitativa, se asigna valor uno a sijk si xik y xjk son iguales, y cero si son diferentes.
Si la variable es cuantitativa la similaridad entre los individuos estar dada por:
| xik x jk |
sijk = 1
rk
donde rk es el rango del carcter k, que puede ser poblacional o muestral. Cuando xik = xjk entonces sijk =1, y
cuando xik y xjk se encuentran en los extremos de su rango, sijk ser mnimo (cero cuando el rango haya sido
determinado de la muestra). Con valores intermedios, sijk ser una fraccin positiva. Presentaciones
posteriores de este coeficiente por otros autores, proponen la utilizacin del complemento de la distancia
Eucldea, tambin estandarizada por el rango, tal como se discuti en la seccin de Datos Cuantitativos.
Para una mayor flexibilidad de este coeficiente, Gower introdujo en la ecuacin pesos que dependan
de cada par de datos. Si wijk = w(xik , xjk) es una funcin de xik y xjk se tiene:
w
k =1
ijk . sijk
sij = p
w
k =1
ijk
Esto permite: (i) que los valores faltantes sean tratados individualmente sin necesidad de omitir toda la
variable, slo bastar tomar wijk = 0 siempre que el valor xik o xjk sea faltante; (ii) tambin ahora se podr
ignorar el empate de doble cero haciendo wijk = 0 cuando xik = xjk = 0 tal como sucede con los coeficientes de
similaridad donde no interesa la simetra en a y d; (iii) por ltimo con esta forma general podremos
considerar que ciertos caracteres son ms importantes que otros ponderndolos con distintos pesos. Esta
decisin de pesar o no a las variables es un tema en controversia, Gower (1971a) afirma que una ponderacin
a priori es inaceptable, pero es ms permisivo con ellas en posteriores reclasificaciones de los individuos,
una vez que el investigador haya analizado la situacin. Tambin recordemos que en algunos coeficientes de
similaridad como en el de Dice existe, en forma implcita, una ponderacin doble para la aparicin
simultnea del carcter.
Para ilustrar de que modo se pueden combinar los valores de sijk y wijk de modo que el coeficiente
general de Gower considere distintos aspectos de las medidas de similaridad que fueron discutidos
13
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
anteriormente, en la Tabla 4 se indican los valores que tendran que adoptar estos parmetros para que el
coeficiente de Gower se corresponda con tres coeficientes de similaridad clsicos y representativos de
distintas situaciones: el coeficiente de emparejamiento simple o SM que considera la ausencia simultnea del
carcter, el coeficiente de Jaccard que en cambio no tiene en cuenta la doble ausencia como un aumento de la
similaridad, y el coeficiente de Dice que pondera positivamente la presencia de la caracterstica en ambos
individuos.
Tabla 4 : Valores de sijk y wijk para la construccin de diferentes coeficientes de similaridad a partir del coeficiente
de Gower. Subndices i y j indican individuos y k carcter. SM corresponde al coeficiente de simple
emparejamiento.
Por ltimo se presentan dos expresiones del coeficiente de Gower segn se emplee el coeficiente de
emparejamiento simple o de Jaccard para tratar las variables binarias:
p1
| xik x jk |
1
k =1 rk
+a +d +
Emparejamiento Simple sij =
p1 + p2 + p3
p1
| xik x jk |
1 rk
+ a +
Coef. de Jaccard sij =
k =1
p1 + ( p2 d ) + p3
Hasta ahora se describieron distintas formas en que similaridades o distancias pueden calcularse a
partir de matrices de datos de unidades por variables. Obviamente la eleccin de que mtodo utilizar
depender del tipo de datos, y conocer ms sobre las propiedades de estas medidas de asociacin puede
ayudar en esta eleccin. Implcitamente a lo largo de esta seccin se ha hecho referencia a algunas de estas
propiedades, pero a fin ordenar parte de lo dicho y ahondar en algunos aspectos, a continuacin se hace una
presentacin ms detallada.
14
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Como algunas de estas propiedades son mejor interpretadas en trminos de distancia que de
similaridad, es por lo que nos referimos generalmente a distancias pero cabe sealar que lo dicho es tambin
vlido para coeficientes de similaridad.
Las propiedades que puede tener una distancia son todas o algunas de las siguientes (Cuadras,
1996):
Una distancia recibe diferentes denominaciones segn las propiedades que verifique:
Denominacin Propiedades
Observaciones:
Puesto que toda distancia o similaridad, por definicin cumple con las tres primeras propiedades,
prestaremos mayor atencin en determinar si una distancia es mtrica, eucldea o ultamtrica.
Que una distancia sea mtrica implica que es posible construir para toda terna de objetos i, j, t un
tringulo con lados igual a dij , dit y djt . Para muchas medidas de distancia puede demostrarse que siempre se
satisface la desigualdad triangular, por ejemplo si los datos son considerados como las coordenadas de
puntos en el espacio, la distancia Eucldea, que es simplemente la distancia de la lnea recta entre cada par
de puntos, siempre permitir construir un tringulo sobre las distancia entre tres individudos cualesquiera
pertenecientes a ese espacio. Sin embargo la distancia Eucldea al cuadrado no es una distancia mtrica en s
misma. Para otras distancias, tal como la de Bray-Curtis, esta propiedad si bien se verifica para algunas
situaciones particulares, no siempre se puede garantizar su cumplimiento. La propiedad de metricidad
tambin se verifica para las distancias de Mahalanobis, Canberra, Manhattan y la generalizacin de
Minloswki. En cuanto a las medidas de similaridad no est claro si la transformacin 1-sij corresponde a una
distancia real o cuadrada, por lo que es usual preguntarse si dij = (1- sij) o dij = ;(1-sij) son distancias
15
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
mtricas. As por ejemplo, para los coeficientes de similaridad SM y Jaccard ambas transformaciones
cumplen con esta propiedad, mientras que Dice y Ochiai la cumplen solamente con la transformacin raz
cuadrada.
Esta propiedad significa que existe un espacio eucldeo Rp y dos puntos Pi, Pj Rp , de coordenadas
Pi : ( xi1 , ... , xip ) y Pj : ( xj1 , ... , xjp ) que verifican:
p
dij = d(Pi,Pj) = (x
k =1
ik x jk ) 2
Punto 1 2 3 4
1 0
2 2 0
3 2 2 0
4 x x x 0
Las tres primeras unidades pueden representarse por puntos en un espacio de dos dimensiones que
corresponden a los vrtices de un tringulo equiltero de lado 2. Si x<1 las distancias no son mtricas, porque
no puede construirse ningn tringulo que implique a la cuarta unidad. Si x=1 las distancias verifican la
propiedad mtrica; sin embargo, no son Eucldeas porque las cuatro unidades no pueden ubicarse en puntos
que satisfagan todas las distancias (sera necesario que el cuarto punto estuviera simultneamente en el punto
medio de cada lado del tringulo). Si x= 2/3 3 ( 1.15) el cuarto punto puede localizarse en el centro del
tringulo satisfaciendo las distancias, as ellas sern tanto eucldeas como mtricas. Si x es mayor que 1.15 el
cuarto punto puede localizarse arriba (o abajo) del plano del tringulo, de modo que los cuatro puntos
constituyen los vrtices de un tetraedro en tres dimensiones. Esto da a lugar a una interesante conclusin: si
un conjunto de distancias entre n unidades es Eucldea, como mximo sern necesarias (n-1) dimensiones
para representarlos.
Por esta razn la propiedad eucldea es deseable en los mtodos de ordenacin que buscan
representar las unidades como un conjunto de puntos en el espacio. Esta propiedad es particularmente
relevante para el Anlisis de Coordenadas Principales y Escalas Multidimensionales (MDS), puesto que estas
dos tcnicas no estn ligadas a ninguna medida de asociacin particular, sino que sto es algo sobre lo que
tiene que decidir el investigador. Para el caso de Coordenadas Principales bastar con que la matriz de
similaridad sea definida o semidefinida positiva, lo que asegura que la distancia dij = (1 sij ) es eucldea.
Los coeficientes SM, Jaccard, Dice, Ochiai y Gower (cuando no hay datos faltantes ni ponderaciones de
variables) cumplen con esta propiedad. En situaciones de duda sobre la euclinidad de cualquier coeficiente
16
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
se sugiere calcular los valores propios de la matriz de similaridad para verificar si se trata de una matriz
definida o semidefinida positiva.
La desigualdad ultramtrica es una condicin muy difcil de satisfacer, ninguna de las medidas de
asociacin presentadas la cumplen por definicin, a no ser para conjuntos de datos particulares. La nica
forma que se verifica la propiedad ultramtrica es cuando una terna de objetos presentan asociadas unas
distancias entre s, tales que conforman un tringulo issceles, siendo la base el lado de longitud menor
La importancia de la ultrametricidad de una distancia radica en que sobre ella se basa el principio
de clasificacin jerrquica. Por ello, todos los algoritmos de clasificacin jerrquica se inician por un paso en
el que se transforma razonablemente la disimilaridad inicial para convertirla en ultramtrica, y
seguidamente poder construir la jerarqua indexada. Esto, como es obvio, trae aparejado que la
representacin de las relaciones entre los objetos no sea exacta. Existen criterios para cuantificar esta
inexactitud lo cual ser discutido en el apartado referido a Mtodos de Clasificacin.
3. Mtodos de Ordenacin
17
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
entre ellas. Se utiliza generalmente para estudiar matrices de datos en el que las observaciones estn
caracterizadas por variables cuantitativas y hace empleo de la distancia eucldea entre individuos.
El anlisis de componentes principales est muy relacionado con otra tcnica conocida como
anlisis factorial. Hay quienes consideran al primero como una etapa del segundo, otros los consideran como
tcnicas diferentes (Bisquerra Alzina, 1989). Resulta que las dos tcnicas pueden utilizar el mismo algoritmo
de resolucin presentado por Hotelling. Esto pasa cuando en el anlisis factorial se extraen los factores por el
mtodo de componentes principales produciendo la errnea conclusin de que las dos tcnicas son
equivalentes. En realidad los resultados no son significativamente distintos. Entre las posibles causas de que
se confundan los dos mtodos se encuentra las siguientes : a) el punto de partida habitual de ambos mtodos
es una matriz de correlaciones ; b) uno de los mtodos que permite la obtencin de factores en el anlisis
factorial se denomina componentes principales ; c) la inclusin del anlisis de componentes principales
dentro del anlisis factorial en muchos paquetes de programas estadsticos (BMDP, SPSS, etc.).
El propsito inicial de Hotelling (1933) al desarrollar su mtodo de componentes principales era dar
un paso importante en el problema de la extraccin de factores en anlisis factorial; posteriormente lo vio
como un fin en s mismo. Exposiciones desarrolladas sobre el anlisis de componentes principales, como
mtodo distinto del anlisis factorial, pueden encontrarse en Johnson y Wichern (1992), Harris (1985),
Maxwell (1977) y Morrison (1967), entre otros; mientras que por ejemplo Torrens-Ibern (1972) y Harman
(1980) contemplan el anlisis de componentes principales como el primer paso del anlisis factorial, el cual
se completa con las rotaciones, sin embargo, hay discusiones acerca de si se considera que las rotaciones
forman parte propiamente del anlisis factorial.
Se han tratado de explicar las diferencias de ambas tcnicas desde varios puntos de vista pero quizs
el ms til a nuestros fines sea el que se refiere a los objetivos perseguidos por cada una de ellas. El anlisis
de componentes principales describe aspectos observables, el resultado consiste en presentar los datos desde
un punto de vista distinto, sin hacer ninguna suposicin sobre estructuras subyacentes inobservables. Por el
contrario, el anlisis factorial supone un modelo explcito por parte del investigador. El anlisis factorial,
tambin llamado por sus objetivos e hiptesis subyacentes anlisis factorial de factores comunes y no
comunes, pretende pasar de un conjunto de variables observadas a un nmero ms reducido de factores no
observables. Se toma como hiptesis que las variables iniciales son combinaciones lineales de los factores
subyacentes. Esta tcnica se utiliza frecuentemente en Psicologa y Educacin. En el anlisis de componentes
principales se busca sencillamente reducir la informacin, pasando de un conjunto de variables a otro ms
reducido que representa a las primeras, sin hacer ninguna hiptesis sobre el significado de los factores. Lo
que interesa es describir cules son las dimensiones principales. Esta tcnica se utiliza, por ejemplo, en
Economag y Biologa.
18
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
partir de un modelo terico, conviene aplicar el anlisis factorial. Cuando lo que interesa es un resumen
emprico de los datos conviene aplicar el anlisis de componentes principales (Bisquerra Alzina, 1989).
Esta controversia es uno de los tantos puntos que contribuyen al carcter desestructurado de los
mtodos multivariantes en donde no existe una frontera claramente establecida entre las diferentes tcnicas.
En funcin de esta relacin entre componentes principales y anlisis factorial, distintos autores
enfocan el algoritmo para su obtencin que en todos los casos conducen a los mismos resultados. Se
recomienda la presentacin que hacen Johnson y Wichern (1992) que se independiza de los conceptos
previos del anlisis factorial para su desarrollo.
* Para datos cuantitativos importante relacin entre variables matriz de varianzas-covarianzas (pxp)
Varianza de X:
2
n
xi
xi i =1
n n
2
( xi x ) 2
n
S2 x = i =1 = i =1
n 1 n 1
Covarianza entre X e Y
n n
n n x y i i
( xi x ).( yi y ) xi . yi i =1
n
i =1
S xy = i =1
= i =1
n 1 n 1
Matriz de varianzas-covarianzas:
S x 2 S xy S xz
2
S= Sy S yz
S z
2
pxp
Correlacin:
1 rxy rxz
S xy 1 ryz
rxy = r =
2 2
Sx S y 1 pxp
19
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Producto:
a11 a12
b11 b12
Sea M = a a22 y N= b
21 21 b22 2x2
a31 a32
3x2
c11 c12
c p
El producto M*N es :
21 c22 cij = a jk bkj
c31 c32 k =1
3x2
x1
x 4
r r
x 'x = [x1 x 4 ] 2 = xi
2
Hacemos: x2 x3
x3 i =1
x4
x1 x
r c x2 x
x =
x3 x
x4 x
r r 4 1 r r
x 'x = ( xi x ) 2
2
Entonces: Sx = x 'x
i =1 n 1
20
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
r r 4 1 r r
y x ' y = ( xi x ).( yi y ) S xy = x ' y
i =1 n 1
Entonces:
S2 X1 SX1X 2 SX1X 3
1
X'.X = S 2
X2 SX 2 X 3
n 1
S2 X3
3 x3
I: Matriz identidad tiene unos en la diagonal y restantes elementos igual a cero. Equivale al 1 del algebra
escalar.
A-1: Matriz inversa es aquella que multiplicada por A da la matriz identidad. A*A-1=I
21
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
|A|: Determinante es una funcin especfica de los elementos de una matriz cuadrada. Para caso de 2x2 es
igual a (a11*a22)-(a12*a21)
Autovalores y autovectores:
Sea la matriz cuadrada A , se define los autovectores e y autovalores a aquelos que cumplen:
r r
A pxp e px1 = e px1
e1 e1
a11 ... a1 p e
e2 2
M M
M =
M
a p1 ... a pp
e
p e p
Clculo:
Supongamos que se cuenta con p mediciones asociadas a igual nmero de variables o caracteres X1 ,
X2 , ...... , Xp sobre un total de n individuos o unidades experimentales presentados en forma de matriz Xnxp
con elemento xik que corresponde a la k-sima caracterstica observada sobre el individuo i (i = 1, 2, ..... , n; k
= 1, 2, .... , p). Algebraicamente, las componentes principales sern una combinacin lineal de estas p
variables aleatorias. Geomtricamente, estas combinaciones lineales representaran un nuevo sistema de
coordenadas obtenido por rotacin del sistema original donde X1 , X2 , ..... , Xp constituan un conjunto de ejes
coordenados en el cual se representan los vectores individuos xi. Estos nuevos ejes deben coincidir con las
direcciones de mxima variabilidad de la nube de puntos inicial y darn una descripcin ms simple y
armoniosa de la estructura de varianzas.
22
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Sea el vector aleatorio X = [X1, X2,......,Xp] cuya matriz de covarianzas tiene valores propios 1
2 . . . . . p 0 .
Y1 = l1 X = l11 X1 + l21 X2 + . . .
+ lp1 Xp
. . .
Y2 = l2 X = l12 X1 + l22 X2 + + lp2 Xp
. .
. .
. .
Yp = lp X = l1p X1 + l2p X2 + . . .
+ lpp Xp
Teniendo en cuenta las propiedades de varianza y covarianza de una combinacin lineal se tiene
que:
Var (Yk) = lk lk k = 1, 2, ... , p
Cov (Yk ,Yk ) = lk lk k,k = 1, 2, ... , p
Resultado 1 : sea la matriz de covarianza asociada con el vector aleatorio X = [X1, X2,......,Xp] ( = 1/n
XcXc , donde Xc matriz centrada por la media de las columnas) con los pares valor propio-vector propio (1 ,
e1), (2 , e2), ....... , (p , ep) donde 1 2 ...... p 0.
23
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Yk = lk X = e1k X1 + e2k X2 + . . .
+ epk Xp
Con :
Var (Yk) = ek ek = k k = 1,2, ...... , p
Cov (Yk , Yk ) = ek ek = 0 k k
Es decir, llamando P a la matriz de vectores propios, la representacin de los datos X viene dada por Ynxp =
Xnxp . Ppxp
Ntese que si algunos valores propios k son iguales las componentes principales Yk no sern nicas.
Prueba : se sabe que si es definida positiva por maximizacin de formas cuadrticas para puntos sobre la
esfera unidad (Johnson y Wichern, 1992):
l' l
= k se alcanza cuando l = e1
max
l' l l 0
pero como e1e1 = 1 ya que los vectores propios estn normalizados, entonces :
l' l
max = k = e 1 ' e 1 = e1 e1 = Var (Y1)
l0 l' l e1 ' e1
l' l
max = k+1 k = 1, 2, .... , p-1
le 1 ,e 2 ,...,e k l' l
Pero ek+1 ( . ek+1 ) = k+1 ek+1 ek+1 = k+1 entonces Var(Yk+1) = k+1 .
Ahora queda demostrar que la perpendicularidad entre ek y ek (es decir si ek ek = 0) implica que
Cov(Yk,Yk) = 0. Se sabe que los vectores propios de son ortogonales si todos los valores propios 1, 2 ,
... , p son distintos. Si los valores propios no son todos distintos, los vectores propios correspondientes a un
valor propio comn pueden elegirse de manera que sean ortogonales. Entonces, para cualquier par de
vectores propios ek y ek , ek ek = 0 , k k . Ya que ek = k ek , si premultiplicamos por ek
obtenemos la covarianza entre Yk e Yk :
24
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
De este primer resultado podemos concluir que las componentes principales son no correlacionadas
y tienen varianzas igual a los valores propios de .
Resultado 2 : sea X = [X1, X2,......,Xp] con matriz de covarianza y pares valor propio-vector propio (1 ,
e1), (2 , e2), ....... , (p , ep) donde 1 2 ...... p 0 y sean Y1 = e1 X , Y2 = e2 X , ...... , Yp = ep X las
componentes principales correspondientes, entonces :
p p
11 + 22 + ....... + pp = Var( X )
i=1
i
= 1 + 2 + ...... + p = Var(Y )
i=1
i
p p
Var( X
k=1
k ) = tr () = tr () = Var(Y )
k=1
k
es decir la varianza poblacional total 1 + 2 + ...... + p a la que se llama generalmente inercia total es
igual a la suma de los valores propios de la matriz de covarianzas y que la proporcin de la varianza total o
inercia parcial que puede ser explicada por la k-sima componente principal es:
k
Ik = k = 1, 2, ..... , p
1 + 2 +....+ p
25
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
importante de la inercia total, lo que estamos haciendo es encontrar un espacio m-dimensional sobre el cual,
las distancias relativas de los puntos de la nube representada en el espacio p-dimensional se mantienen
reconocibles. Para el caso particular de m = 2 estamos definiendo lo que se llama el plano principal que
generalmente esperamos explique una proporcin importante de la variabilidad total ya que su representacin
es fcil de visualizar.
2
x$ i
= cos2 ( x$ i , xi )
2
xi
donde x$ i es la proyeccin ortogonal del individuo i sobre el plano factorial y las dobles barras indican
mdulo o norma del vector.
Los puntos que tengan un valor de cos ( x$ i , xi ) cercano a 1 estarn bien representados, y la
proximidad en el plano de puntos bien representados ser la consecuencia inequvoca de su semejanza
respecto al conjunto de variables consideradas inicialmente.
ek 'k k
Yk,Xk = k , k = 1, 2, .... , p
k '2
son los coeficientes de correlacin entre las componentes Yk y las variables Xk . Donde (1 , e1), (2 , e2),
....... , (p , ep) son los pares valor propio-vector propio de la matriz .
Prueba : fijamos lk = [ 0, ....., 0 , 1, 0, ......, 0] tal que Xk = lk X entonces Cov (Xk , Yk) = Cov (lk X ,
ek X) = lk ek por propiedades de la covarianza de una combinacin lineal. Como ek = k ek , Cov (Xk
, Yk) = lk k ek = k ekk ; Var (Yk) = k y Var (Xk) = k2 tenemos que:
= ek ' k k
Cov(Yk , X k ' ) k ek ' k
Yk , Xk ' = = k, k = 1, 2, ... , p
Var(Yk ) Var( X k ' ) k k ' 2
k '2
26
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
un peso decisivo en la determinacin de las componentes principales. Si no se desea que ello ocurra , es
necesario trabajar con variables estandarizadas a fin de resaltar la importancia de las de menor varianza y
atenuar la influencia de las ms dispersas, es decir, aplicar los mtodos de clculo sobre la matriz de
correlaciones. Cuando el conjunto de variables es heterogneo en cuanto a las magnitudes que representan y
por ende a las unidades en que estn expresadas, es prcticamente imprescindible recurrir a las correlaciones
en lugar de las covarianzas de modo de trabajar sobre variables sin dimensin fsica. Si las unidades de
medida son las mismas o razonablemente conmensurables, es preferible realizar los anlisis sobre la matriz
de covarianzas, que es menos artificial. Tambin en ocasiones se considera recomendable utilizar ambas
matrices, y comparar las interpretaciones de las dos clases de componentes obtenidas (Cuadras, 1996).
p p
p
-
k=1
Var(Z k ) = tr () = tr () = Var(Y ) =
k=1
k
j=1
J
= p
- Ik = k k = 1, 2, ..... , p
p
Hasta aqu hemos caracterizado las observaciones o individuos con nuevas variables
incorrelacionadas, ahora queda ver como el anlisis de componentes principales tambin puede ayudar al
estudio de las relaciones entre las variables originales. Supongamos que siguisemos el mismo
procedimiento de anlisis de componentes principales pero obteniendo los ejes factoriales para la nube de
puntos correspondiente a las variables en un espacio Rn , obtendramos que las componentes principales son
los vectores propios de la matriz de correlacin entre individuos. El nmero de vectores propios asociados a
valores propios distintos de cero ser igual al nmero de vectores propios asociados a valores propios
distintos de cero correspondientes a la matriz de correlacin entre variables ya que ambas matrices son
simtricas y tienen igual rango. Ahora bien, existen otras relaciones, que no demostraremos, entre los
vectores propios correspondientes a ambas matrices que permiten obtener los vectores propios de una en
funcin de los de la otra, de ah la determinacin de dual que se da al anlisis de la nube de puntos-
variable. Estas relaciones se denomina relaciones de transicin de las cuales se deduce que las coordenadas
de la variable k en la componente principal k es precisamente igual al coeficiente de correlacin entre Xk e
Yk. Es decir las coordenadas de las variables centradas y estandarizadas son las correlaciones de las variables
con las componentes principales.
Habiendo obtenido las coordenadas de las variables, como en el caso de los puntos individuos su
proyeccin sobre el plano factorial ayudar a interpretar las componentes principales y a analizar las
relaciones entre variables a travs del ngulo que estas forman ya que estas variables centradas y
estandarizadas sern vectores cuyos extremos se ubican sobre la esfera unidad. Por esta razn adems en el
caso de la nube de puntos variables no ser necesario construir un indicador de buena calidad de
representacin por tanto sus proyecciones sobre el plano factorial estarn en el interior de un crculo de radio
uno. Las variables que se encuentren realmente sobre el plano estarn situadas en la periferia del crculo.
27
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Cuando se desee considerar simultneamente las proyecciones de los puntos individuos y variables
sobre el mismo plano factorial, se suelen transformar las coordenadas de los individuos para que sobre cada
eje se tenga una dispersin respecto al origen comparable para las observaciones y para variables. Paquetes
como el SPAD realizan automticamente esta representacin.
Una vez obtenidas las componentes principales queda por solucionar el problema de fijar las pautas
para seleccionar el nmero adecuado de componentes principales para el anlisis. Si bien el criterio suele ser
subjetivo y derivado de la proporcin de explicacin que se logra con los primeros factores, o por la
limitacin de la representacin grfica, existen reglas objetivas, que incluyen elementos inferenciales en su
anlisis que ayudan a la toma de decisiones.
Existen tambin otras tcnicas inferenciales, tiles en los casos que podamos suponer que las
variables originales son normales, con distribucin de conjunto tambin normal. Entre ellas se destaca la
prueba de Anderson (1963) que propone probar la hiptesis de que a partir del valor m+1 los valores propios
son iguales (H0 : m+1 = ..... = p ), lo que equivale a decir que no hay direcciones de mxima variabilidad a
partir de la componente principal m+1 o que la variabilidad en las ltimas (p-m) dimensiones es esfrica. Si
esta hiptesis es verdad, el estadstico :
28
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
p $
p
j
= (n -1) ln( j ) + ( p m)(n 1)ln
2 $ j = m+1
j = m +1 p m
sigue una distribucin chi-cuadrado con (p-m)(p-m+1)-1 grados de libertad, si el nmero de individuos n
es grande. Si para un m fijado el valor de 2 es significativo, entonces debe rechazarse la hiptesis.
Tambin se recomienda hallar el intervalo de confianza de los valores propios para probar la igual
entre ellos (paquetes como el SPAD realizan estos clculos).
Otra prueba bastante difundida e incluida en algunos paquetes estadsticos como en NTSYS es la
del bastn roto de Frontier (1976) que asimila la descomposicin de la variabilidad total (suma de los p
valores propios) a romper un bastn de longitud igual a la varianza total en p trozos por p-1 puntos trazados
al azar. Ordenando los trozos del bastn de mayor a menor segn su longitud (Lj , j=1,2, ... , p) se demuestra
que los valores medios, suponiendo varianza total igual a uno para normalizar el problema, es:
1 p j 1
E(L j ) =
p k =0 j + k
Si expresamos estos valores medios, cuya suma es 1, en porcentajes de la longitud total, obtenemos
el modelo terico de la descomposicin de p componentes obtenidos al azar. Las m primeras componentes
principales son significativas si explican claramente mayor varianza acumulada que los m primeros valores
medios del bastn roto. Se considera que las dems componentes descomponen la varianza residual al azar
(Cuadras, 1996).
Existen otras pruebas propuestas por diversos autores que aqu no expondremos.
El anlisis cannico se debe principalmente a Bartlett (1938), quien lo plante como una
generalizacin de la correlacin cannica. La difusin del mtodo legara, sobretodo, a partir de Rao (1948,
1952), Jolicoeur (1959), Cooley y Lohnes (1962), y Seal (1964).
El anlisis cannico de poblaciones es un mtodo muy apropiado para representar grupos cuando
las variables observadas son cuantitativas, porque se utiliza de la distancia de Mahalanobis. La distancia
29
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
eucldea que observemos entre puntos representados en los ejes cannicos coincidirn con las distancias de
Mahalanobis en el sistema original de variables.
Es importante no confundir esta tcnica con anlisis de cluster o de grupos (seccin 1.3.4.1) ya que
en anlisis cannico de poblaciones se requiere del conocimiento a priori de las clases, generalmente en
forma de muestras de cada una de ellas. En cluster, los datos no incluyen informacin sobre la pertenencia a
clases de los individuos sino que el propsito es construir esta clasificacin. En muchas oportunidades se
utiliza el anlisis cannico de poblaciones despus de un anlisis de grupos para cerciorarse de la fiabilidad
existente en la formacin de dichos grupos (Cubero y Flores, 1994), en tanto que cluster clasifica individuos
de acuerdo con su semejanza, mientras que anlisis cannico empezando con unos grupos ya definidos,
procede a investigar las interrelaciones entre estos grupos.
Si en particular las variables X1, X2, ....... , Xp son dicotmicas, basadas en ausencia (-) o presencia
(+) de caracteres cualitativos, un individuo xi queda caracterizado por las presencias o ausencias de p
caracteres, construyndose con los n individuos una matriz primaria de informacin con las variables como
columnas y las unidades como filas y conteniendo signos + o - (o unos y ceros) segn que la
caracterstica est o no presente en el individuo o unidad. En estos casos es necesario construir un
equivalente a las matrices de covarianza o correlacin entre individuos, y estas son las matrices de
similaridad o de disimilaridad, que se obtienen teniendo en cuenta la coincidencia o discrepancia con que se
dan las caractersticas que los describen. En el punto 2.1 se hizo una presentacin de diferentes ndices de
similaridad y su conveniencia en distintas situaciones.
El objetivo del anlisis de coordenadas principales es llegar a una representacin geomtrica de los
n individuos a travs de una medida de distancia que respete la estructura de similaridades definida por la
matriz de similaridades S . Esto se logra cuando la distancia se define precisamente en funcin de las
similaridades ya establecidas. La distancia cuadrada entre los individuos xi y xj ser:
Si sij es una similaridad, 0 sij 1, entonces d2ij = 2(1- sij) y verifica d2ij = 0 si sij = 1 (similaridad
total), d2ij = 2 (mxima distancia) si sij = 0 (disimilaridad total). Si sij es una correlacin, -1 sij 1, entonces
d2ij vara de 0 a 4.
Identificando sij como un producto escalar entre xi y xj , d2(xi , xj) se corresponde formalmente con
la norma al cuadrado de (xi - xj):
30
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Vistas estas propiedades, la distancia dij, expresa, de forma razonable, la proximidad entre dos
individuos.
Se considera que el primer artculo sobre anlisis de correspondencias con formulacin matemtica
es el de Hartley publicado en 1935 con su nombre alemn original Hirschfeld, y se refiere a la correlacin
entre filas y columnas de una tabla de contingencia. Ms tarde Fischer (1940), en reas de Biometra y
Guttman (1941) en la de Psicometra presentan y aplican las mismas teoras dando origen a dos escuelas
diferenciadas por el campo de las aplicaciones.
31
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
indispensable en los anlisis complejos. Adems de la obra fundamental de Benzecri pueden consultarse
autores como Bertier y Bouroche (1975), Diday (1983), Lebart, Morineau y Tabard (1977), Lefebvre (1983),
Greenacre (1984) y otros. En castellano pueden consultarse Snchez Carrin (1984), Lebart et al (1985),
Pedret Yebra (1986), Judez-Asensio (1989) y Cuadras (1996).
El hecho de que esta tcnica sea originaria de Francia, y dada la proverbial poca atencin que los
norteamericanos prestan a los avances europeos, sea posiblemente la causa no se haya difundido mucho ms,
permaneciendo prcticamente ignorado en la literatura norteamericana (Bisquerra Alzina, 1989). De hecho es
de las pocas tcnicas de anlisis multivariante que no ha sido incorporada a paquetes estadsticos como el
SPSS (s se la encuentra en SAS y NTSYS). Hill (1974) public un artculo sobre anlisis de
correspondencias en una revista americana que, a veces, ha sido citada posteriormente en el mundo
anglosajn como el origen de esta tcnica. Sin embargo su difusin ha sido muy limitada. Slo a partir de los
aos ochenta, algunas publicaciones (Greenacre, 1984, Lebart, Morineau y Warwick, 1984) han empezado a
difundir esta tcnica por el mbito norteamericano.
Las escalas multidimensionales es un mtodo muy general de representacin de datos que consiste
en construir una configuracin de puntos conocida una determinada informacin sobre las distancias o
disimilaridades entre los individuos. Pedret Yebra (1986) define que el objetivo de esta tcnica es, construir
32
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
un espacio mtrico con el menor nmero de dimensiones posibles, que permita representar las proximidades
o preferencias entre objetos, con el mayor grado posible de fiabilidad.
La mayora de las obras sobre escalas dimensionales en ingls suelen abreviar este trmino con la
sigla MDS (multidimensional scaling), que nosotros adoptaremos con bastante frecuencia. En espaol
tambin se conoce a esta tcnica como Anlisis de Proximidades (Cuadras, 1996).
Si bien algunas primeras ideas parten de trabajos publicados en 1927 y 1936, la historia del MDS
comienza con dos publicaciones de Torgerson (1952 y 1958), quien introdujo el trmino y elabor las
principales fundamentos del mtodo. Sin embargo las escalas multidimensionales sera formuladas de
manera ms precisa por Shepard (1962 a,b) quien demostr empricamente, pero con rigor, que conocida una
ordenacin entre distancias, podra encontrarse una configuracin de puntos en un espacio eucldeo, de
pequea dimensin, cuyas interdistancias eucldeas reproducan prcticamente la ordenacin original. Al
respecto, ya en 1957, Kendall haba demostrado que el anlisis de componentes principales sufre poca
alteracin si se sustituye el coeficiente de correlacin de Pearson por el coeficiente de correlacin por rangos
de Kendall.
Obras introductorias a MDS son las de Kruskal y Wish (1978), Schiffman et al (1981), McIver y
Carmines (1981), Coxon (1982), Davison (1983). En castellano se puede consultar a Coxon y Jones (1984),
Pedret-Yebra (1986), Sierra-Martnez (1986) y Cuadras (1996).
4. Mtodos de Clasificacin
33
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Hay autores, entre ellos los ya citados Bisquerra Alzina (1989) y Johnson y Wichern (1992), que
incluyen a la totalidad de las tcnicas de clasificacin en lo que se denomina Anlisis de Cluster o Cluster
Analysis en el mundo anglosajn. La palabra cluster se podra traducir por grupo, conglomerado, racimo,
apiarse, etc. El anlisis de cluster se emplea en biologa para clasificar animales y plantas, conocindose
tambin con el nombre de taxonoma numrica. Otros nombres asignados al mismo concepto son anlisis
de conglomerados, anlisis tipolgico, clasificacin automtica y otros. Todos ellos pueden funcionar
como sinnimos. Por otro lado hay autores que reservan el trmino de Anlisis de Cluster slo para referirse
a una familia de tcnicas de clasificacin que requieren de la propiedad ultramtrica de las medidas de
distancia para su aplicacin (Swofford y Olsen, 1990). Por nuestra parte, hemos optado conservar el nombre
en ingls de Cluster, para evitar confuciones terminolgicas, puesto que con este nombre figura en los
paquetes estadsticos ms habituales en en muchos trabajos en castellano.
Para Sokal y Sneath (1963), dos de los autores que ms han influido en el desarrollo del Anlisis de
Cluster, la clasificacin es uno de los procesos fundamentales de la ciencia, ya que los fenmenos deben ser
ordenados y clasificados para que podamos entenderlos. Tanto el anlisis de cluster como el anlisis
discriminante sirven para clasificar individuos en categoras. La diferencia principal entre ellos estriba en que
en el anlisis discriminante se conoce a priori el grupo de pertenencia, mientras que el anlisis de cluster
sirve justamente para construir estos conglomerados.
Este tipo de clasificacin tiene su origen en la sistemtica del reino animal y vegetal, aunque ha sido
aplicada a gran variedad de ramas cientficas como clasificacin de estmulos, vocablos, productos qumicos,
empresas, etc.
La clasificacin de las especies, tal como se entiende en la actualidad, fue iniciada por C. Linneo en
su famoso Sistema Natural. Linneo describi miles de especies utilizando nomenclatura binomial, que
asignaba a cada viviente un nombre latino que indicaba el gnero y la especie a la que pertenece, cumpliendo
la funcin de una etiqueta cientfica, que permitiera situarlo y relacionarlo con las dems especies. El sistema
taxonmico de Linneo es una jerarqua organizada en niveles, en donde las clases disjuntas a cada nivel
constituyen las llamadas taxas. Las taxas a un dado nivel constituyen las categoras. Se habla as de las
categoras especies, gnero, familia, orden, etc. La categora gnero por ejemplo, tiene diversas
taxas: los gneros que corresponden a una familia dada.
34
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
terico a los mtodos jerrquicos de clasificacin (Johnson, 1967; Jardine y Sibson, 1968, 1971; Rohlf,
1970; Lerman, 1970; Benzecri, 1976), los cuales estn relacionados con las distancias ultramtricas y sus
propiedades.
En lneas generales, podemos decir que una clasificacin jerrquica parte de un conjunto cuyos
elementos (los individuos) deben ser clasificados. Se trata de obtener sucesivas particiones (clustering) C0,
C1, ....... de , organizadas en diferentes niveles jerrquicos, estando cada particin formada por clases
disjuntas (cluster). Los elementos de una misma clase deben ser razonablemente homogneas.
2.3
1.8
1.0
0.8
0.0
A B C D E
Las distancias entre taxas en un rbol de estas caractersticas son ultramtricas, ya que estas se
representan equiespaciadas de los puntos de unin. As por ejemplo las distancias de cada uno de los
individuo A y B al grupo conformado por los individuos C y D son iguales e inferior a la distancia entre ellos
dos, constituyendose un tringulo issceles entre estas tres distancias. Por ello a estos rboles se los
denomina ultramtricos. Si los datos son en s mismos ultramtricos, entonces la representacin del rbol es
35
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
exacta, pero si no lo son como ocurre en la generalidad de los casos prcticos, no pueden ser representados
exactamente como un rbol jerrquico, introducindose un error por la adecuacin de una distancia no
ultramtrica a un rbol ultramtrico. Por lo tanto los algoritmos para la obtencin de dendrogramas tienen
siempre como primer paso transformar la disimilaridad original en ultramtrica. Existen diversas formas de
realizar tal transformacin que da origen a diferentes mtodos de construccin de rboles ultramtricos
conocidos generalmente como mtodos de agrupacin. Los mtodos de encadenamientos ms difundidos son
el mtodo del mnimo, del mximo, de la media, de la mediana, del centroide, UPGMA y flexible.
Tambin llamado Mtodo Simple, la idea ya fue introducida por Sneath (1957) y consiste en ir agrupando los
individuos que tienen menor distancia o mayor similaridad. En cualquier paso del anlisis, la distancia entre
dos grupos es la distancia entre sus puntos ms prximos, es decir la funcin f ,est definida por:
El significado geomtrico de esta funcin es deformar el tringulo con vrtices hi, hj y hk hasta obtener dos
lados iguales que coincidan con el menor de los lados que no son la base.
hk
hi hj
Es fcil que en este mtodo la distancia ultramtrica asociada a la clasificacin jerrquica tiende a aproximar
a los objetos respecto a sus disimilaridades iniciales, por esta razn se dice que el algoritmo es espacio
contractivo.
El encadenamiento simple tiene la atractiva propiedad de que su clculo es relativamente sencillo, sin
embargo hay situaciones que puede resultar insatisfactorio porque origina cluster filamentosos y dispersos en
el espacio original de las variables. Elementos que tienen poco en comn pueden quedar unidas por una
cadena de elementos intermedios. Por otro lado, cuando hay superposicin de grupos, el mtodo tiende a
producir un grupo ncleo con un gran nmero de unidades individuales que se unen a l a un mismo tiempo
(Digby y Kempton, 1991).
Conocido adems como mtodo completo. Aqu la deformacin del tringulo se hace hasta obtener que los
dos lados iguales coincidan con el mayor de los lados que no son base. La funcin f queda definida por:
36
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
En este caso la ultramtrica asociada a la clasificacin jerrquica tiende a alejar a los objetos respecto a sus
disimilaridades iniciales por lo que hablamos de un algoritmo espacio dilatante.
Este mtodo fue introducida por Sorensen (1948) y se caracteriza por producir cluster esfricos y compactos,
frecuentemente se obtiene una gran nmero de grupos pequeos que paulatinamente van conformando
grupos mayores.
Los mtodos del mnimo y del mximo tienen interesantes propiedades tericas, pero la solucin obtenida
puede ser bastante diferente de la similaridad inicial. En las aplicaciones prcticas de la Taxonoma
Numrica es ms conveniente algn tipo de solucin intermedia. Una de estas soluciones consiste en tomar
la media simple de los lados mayores del tringulo hi, hj, hk ,
esto equivale a pensar que cada cluster se representa por su punto medio y que las similaridades entre grupos
queda definida por las distancia entre dichos puntos. El mtodo tiene la ventaja sobre los anteriores de
conservar mejor el espacio de referencia de las variables originales; es decir, las disimilaridades que surgen
de aplicar el mtodo no cambian de forma apreciable respecto a las iniciales, por esto se dice que es un
algoritmo espacio conservativo.
Esta forma de encadenamiento tambin es conocido en la literatura anglosajona como WPGMA (weighted
pair-group method using arithmetic averages).
Se deforma el tringulo de modo que los lados coincidan con la mediana desde hk a la base hihj de modo que
la funcin que define la distancia entre un cluster recin constituido y el resto de elementos o grupos queda
definida por :
Su filosofa es muy semejante a la del mtodo de la media y tambin es espacio conservativo, pero presenta
la desventaja de que si para algn hk se verifica la propiedad ultramtrica, es decir, d(hi,hk) = d(hj,hk), la
distancia d*(hk , hi hj ) ser distinta a d(hi,hk) . En la bibliografa inglesa se lo suele encontrar como mtodo
WPGMC (weighted pair-group method using centroids).
En la Figura 2 se intenta hacer notar en un ejemplo especialmente preparado como un elemento puede ser
incluido en grupos distintos segn cual de los mtodos de encadenamiento descriptos hasta ahora se emplee.
37
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
c m
C A
Figura 2: ilustracin de tres alternativas de agrupamiento para un mismo elemento descrito en un espacio
bidimensional. x representa una unidad que ser asignada a uno de los grupos A, B o C. m, M y c son la distancia
ms cortas desde x al elemento ms cercano, ms lejano y centroide de los tres grupos. El mtodo del mnimo
asignar x al grupo A, mtodo del mximo a B y los mtodos de la media o mediana a C. (extrado de Digby y
Kempton, 1991).
Tambin conocido como mtodo UPGMC (unweighted pair-group method using centroids).
Las siglas del mtodo vienen del trmino en ingls unweighted pair-group method using arithmetic
averages. Es similar al mtodo de la media, pero ponderado respecto a ni y nj . Se define
Es similar al mtodo de la media pero esta se hace en forma ponderada por el nmero de elementos que
constituyen los grupos a unir. Es uno de los mtodos ms utilizados por los taxonomistas en Biologa.
Al igual que los agrupamientos ultramtricos responden a una distancia que cumpla con la
propiedad de ultramtricidad, estos mtodos requieren de la propiedad de aditividad.
38
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
donde dij es la distancia entre las taxas i y j, mx es la funcin de mximo valor, y med es la funcin
mediana. Como la funcin mediana no es de utilizacin estndar, esta expresin podra reemplazarse por su
equivalente:
Las distancias aditivas pueden ajustarse perfectamente a un rbol no jerrquico, tal que la distancia
entre cualquier par de taxas sea igual a la suma de las longitudes de las ramas que lo conectan (Figura 4).
B A D
b a d
f g
c e
C E
En estos rboles los individuos ms cercanos quedan unidos por ramas que parten de un mismo
nodo, que tericamente corresponde a un ancestro comn no observado. Un rbol no jerrquico tiene n
terminales correspondientes a las taxas o individuos, n-2 nodos internos y 2n-3 ramas, de los cuales n-3 son
interiores y n perifricos. El nmero total de distintos rboles no jerrquico, estrictamente bifurcados, que se
pueden obtener para n taxas es:
n
B(n) = (2i - 5)
i=3
A pesar que estos mtodos han sido desarrollados originalmente para ser representados a travs de
dendrogramas no jerrquicos, numerosos autores y sobre todo los programas estadsticos ms difundidos
para el anlisis de este tipo de datos, prefieren representar los resultados de estos mtodo como
dendrogramas jerrquicos pero con sus ramas no equiespaciadas respecto a los puntos de unin, lo que hace
que no puedan ser indexados. Si bien para muchos es una representacin artificiosa los genticos suelen
sentirse ms cmodos con estructuras jerrquicas. Por esta razn hay quienes los incluyen dentro de los
cluster jerrquicos mientras que otros prefieren omitir el trmino jerrquicos llamndolos slo cluster
aditivos, existiendo una cierta ambigedad tanto en la clasificacin como en la denominacin de estos
mtodos.
39
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Tal como suceda con la propiedad ultramtrica, las distancias aditivas son un ideal, muy pocos
datos experimentales constituyen distancias aditivas (aunque la condicin de aditividad es menos restrictiva
que la de ultrametricidad). Por lo tanto al igual que en los mtodos jerrquicos ultramtricos el primer paso
de un algoritmo tendiente a obtener un rbol aditivo lo constituye hacer que las distancias experimentales
entre taxas sean convertidas a aditivas.
Se han descritos muchos mtodos para obtener un rbol aditivo, entre ellos podemos mencionar el
mtodo Nighbor-Joinning, mnimos cuadrados pesados y diferencia mnima absoluta, pero es el primero el
que ha tenido mayor difusin. Si los datos son perfectamente aditivos, todos los mtodos conducen a la
misma solucin, el problema aparece cuando no lo son.
Conocido tambin como momento central de orden dos, de prdida de inercia mnima o
mtodo de mnima varianza. A pesar de presentar una serie de desventajas hacemos mencin de l por ser
una tcnica bastante utilizada para la clasificacin de individuos cuando se cuenta con variables
clasificatorias cuantitativas.
El mtodo consiste en calcular la media de todas las variables de cada cluster hallando la distancia
eucldea al cuadrado entre cada individuo y la media de su grupo, se suman despus las distancias de todos
los casos. En cada paso, los cluster que se forman son aquellos que resultan con el menor incremento en la
suma total de las distancias al cuadrado intra-cluster, es decir, se minimiza la suma de cuadrado dentro de
cluster sobre todas las particiones posibles resultantes de unir dos cluster de los obtenidos en el paso anterior,
quedando definida la distancia entre dos cluster como la suma de cuadrados aadida por su unin.
El inconveniente que presenta es el de requerir los mismos supuestos que para el ANOVA
multivariado: normalidad e igualdad en las matrices de covariancias. Adems es muy sensible a la presencia
de datos anmalos.
40
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
proceso cada caso pertenece al cluster cuyo centro est ms cercano a l. La distancia eucldea es la medida
utilizada para establecer la proximidad entre cada caso y el centro de su respectivo cluster. El centro del
cluster viene dado por la media de los individuos que forman cada variable.
a) minimizar tra(W)
b) minimizar det(W)
c) minimizar = det(W)/det(T) criterio de Wilks
d) maximizar tra(W-1B) criterio de Hotteling
En cuanto a la eleccin del nmero k de grupos a formar, por un lado juega el conocimiento del
investigador sobre tema y, por otro, agrupamientos a priori realizados, bien con tcnicas jerrquicas o
mtodos de ordenacin. La aplicacin de Anlisis Discriminante sobre los grupos obtenidos a partir de la
clasificacin no jerrquica es una herramienta til para determinar y evaluar la conveniencia del valor k
escogido inicialmente.
Dados n puntos en un espacio de k variables, al que se le asocia una matriz de disimilaridad, el MST
consiste en un grfico que conecta a esos n puntos, que pueden corresponder a individuos o taxas, por las
distancias ms cortas que los separan, verificndose las siguientes condiciones: i) en ningn caso se forman
polgonos cerrados, ii) por cada punto pasa al menos una lnea y iii) el rbol no presenta discontinuidades.
Esta es una estructura bien conocida en investigacin operacional donde existen problemas que
involucran distancias mnimas. Uno de los primeros algoritmos para hallar rboles MST fue presentado por
Kruskal en 1956. Topolgicamente este rbol es equivalente al correspondiente al mtodo ultramtrico del
mnimo (Gower y Ros, 1969; Rohlf, 1973), e incluso existen algortmos que permiten hallar estos ltimos a
partir de un MST. Rohlf (1979) mostr como un MST puede ser de gran ayuda para localizar datos anmalos
multivariantes.
La importancia de los rboles de mnima distancia no esta asociada con las tcnicas de clasificacin
en s, sino que reside en que pueden ser superpuestos sobre cualquier representacin bi o tridimensional de
un conjunto de datos p-dimensionales. Generalmente se aplican los MST para unir los individuos de una
41
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
La obtencin de un rbol se puede hacer por dos caminos : (1) a travs de la definicin de una
secuencia de pasos (un algoritmo) que conduce a la determinacin de un rbol, o (2) por la definicin de un
criterio para comparar filogenias o rboles alternativos y decidir cual es la mejor (o cuales de ellas son
igualmente buenas). Hasta ahora los mtodos descritos fueron puramente algortmicos.
Los mtodos de comparacin tienden a ser mucho ms lentos y laboriosos, problema que con los
ordenadores ha sido minimizado al mximo. Adems, a medida que aumenta el nmero de taxas con las que
se trabaja, la bsqueda del mejor rbol es usualmente no exacta debido al gran nmero de posibles
soluciones.
Estas tcnicas han sido desarrolladas principalmente para el estudio de secuencias de nucletidos,
pero slo a efectos ilustrativos citaremos dos mtodos que aglutinan varias tcnicas y que se basan en dos
enfoques o escuelas diferenciadas, a menudo irreconciliables: los mtodos de mxima parsimonia y los
mtodos de mxima verosimilitud.
Los mtodos de mxima parsimonia que estn teniendo un uso cada vez ms difundido sostienen
que hiptesis ad hoc simples son preferibles a otras muchos ms complejas. En trminos filogenticos
implica que el desarrollo evolutivo de las especies seguirn siempre los caminos ms cortos y sencillos. En
general, los mtodos de parsimonia para estimar filogenias se basan en la seleccin de los rboles no
jerrquicos y no enraizados, que minimicen la longitud total del mismo: el nmero de pasos evolutivos
(transformacin de un carcter en otro) requeridos para explicar el conjunto de datos dados. Por ejemplo, los
pasos podran ser sustituciones de bases en el caso de secuencias de nucletidos, o ganancias y prdidas de
sitios de restriccin en el caso de RFLPs.
b p
L(t) =
k =1 l =1
wl . dif ( xkl , xkl )
donde L(t) es la longitud del rbol t, b es el nmero de ramas, p es el nmero de caracteres, k y k son los
dos nodos que limitan cada rama k , xkl y xkl representan los elementos de la matriz de datos o los estados-
carcter asignados a los nodos internos, dif(y,z) es una funcin que especifica el costo de la transformacin
del estado y al estado z a lo largo de cada rama. El coeficiente wl da pesos a cada carcter, frecuentemente
42
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
valor 1. La dif(y,z) no necesariamente es igual a dif(z,y), aunque la mayora de los mtodos asumen este
supuesto.
Los mtodos de mxima verosimilitud, fueron presentados por primera vez por Cavalli-Sforza y
Edwards (1967) para datos de frecuencia gnica, pero se encontraron con un gran nmero de problemas para
su implementacin. Ms tarde Felsenstein (1981) desarroll el mtodo para su aplicacin a datos de
secuencia de nucletidos.
Escuetamente estos mtodos de anlisis buscan inferir la historia filogentica, o suma de historias,
que son las ms consistentes con un conjunto de datos observados de secuencias de nucletidos. Para ello se
debe especificar un modelo concreto del proceso evolutivo que contemple las transformaciones de una
secuencia a otra. Este modelo podra definirse completamente o bien contener gran cantidad de parmetros
que debern ser estimados de los datos. Evaluando la probabilidad que, dado este modelo evolutivo, se
producira la secuencia de datos observados, el mtodo nos indica cual es la filogenia que representa la
mxima verosimilitud.
Para decidir sobre la bondad de los resultados obtenidos por la aplicacin de diferentes tcnicas del
anlisis multivariante sobre un conjunto de datos determinado, se pueden usar distintos criterios de
comparacin. Uno de ellos es puramente subjetivo y est basado en el dictamen de especialistas en el tema
analizado, respecto a la coherencia de los resultados con el conocimiento y experiencia que ellos tienen sobre
la caracterizacin y relaciones existentes en los taxones bajo estudio.
El segundo criterio se basa en los resultados de la aplicacin de diversas pruebas adecuadas para la
comparacin de configuraciones de individuos, matrices de distancias y dendrogramas. En todos los casos se
debe tener en cuenta los requerimientos de aplicabilidad de las pruebas, pero en algunas circunstancias y con
los debidos recaudos sobre la confiabilidad de las inferencias, pueden ser aplicados con fines de ilustracin
complementario, an cuando no se cumpliera alguna de las exigencias de la prueba (Alvarez et al, 1996).
Considerando a los elementos de dos matrices de un mismo orden, se mide su correlacin a travs
del estadstico de correlacin lineal de Pearson y se observa grficamente el diagrama de dispersin con el
objeto de determinar la existencia de datos anmalos.
43
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
La correlacin cofentica , introducida por Sokal y Rohlf (1962), se trata de un caso particular de la
prueba anterior, donde una de las matrices es la matriz simtrica de valores cofenticos, cuyos elementos son
los niveles a que cada objeto o individuo es ligado en los sucesivos pasos de conformacin del rbol en los
anlisis de agrupamiento jerrquico. La otra matriz es la matriz de distancias o de similaridades que origina
el dendrograma; el estadstico de Pearson mide la correlacin lineal entre ambas matrices y pretende reflejar
la coherencia entre la matriz de informacin ingresada y el resultado de los agrupamientos logrados por
alguno de los criterios aplicados.
Por ejemplo en la Figura 3 los valores o distancias cofenticas entre cada par de individuos sern :
uAB=0.8, uCD=1.0, uAC = uAD = uBC = uBD=1.8 y uAE = uBE = uCE = uDE =2.3
Se verifica dij uij si y slo si la disimilaridad inicial es tambin ultramtrica. Por lo tanto, el grado
de distorsin entre la matriz (dij) y la matriz (uij), nos puede dar una medida de la calidad de la clasificacin
jerrquica obtenida.
Otra posibilidad es comparar las matrices cofenticas correspondientes a dos criterios o estrategias
distintas de agrupamiento, con la finalidad de medir la concordancia o divergencia de uno y otro
procedimiento.
El test de Mantel (1967) se basa en el estadstico Z calculado como la suma de los productos
cruzados de los elementos de las matrices a comparar pero excluyendo los elementos de la diagonal.
n
Z=
i< j
xij . yij con xij e yij elementos de las matrices n x n, X e Y a comparar
44
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
La distribucin emprica del estadstico se obtiene de su clculo sobre todas las permutaciones de
los elementos de una de las matrices cuando la otra permanece constante. La condicin de aplicabilidad de la
significacin del estadstico es que las matrices sean independientes, es decir, que la obtencin de una de
ellas no dependa de la otra. A este estadstico debidamente estandarizado, se le asigna una significacin
obtenida de la distribucin emprica de esas sumas de productos cruzados, que a su vez se obtiene de
confrontar una de las matrices con todas las que resulten de permutar los elementos externos a la diagonal en
la otra. En el presente trabajo los resultados de este test se han manejado con reservas, y en varios casos con
fines ilustrativos sin asignarles un peso decisorio en las conclusiones, ya que el mtodo exige la
independencia de las matrices a comparar, cosa que no ocurre en la mayora de las situaciones que se
discutirn ms adelante.
Un ndice de consenso es una medida del grado en que coinciden los rboles comparados, en cuanto
a las relaciones que se van estableciendo entre los individuos agrupados, pero no tiene en cuenta los niveles a
los que se producen dichos agrupamientos, para esto est la correlacin cofentica, que es una tcnica mucho
mas exacta.
Existen varios criterios para conformar este rbol de consenso. El ms estricto, es aquel donde slo
se admiten los subgrupos que aparecen en alguna instancia en todos los dendrogramas a comparar. Un
criterio ms flexible incorpora al rbol de consenso todos los subgrupos que estn en por los menos un
determinado porcentaje de los rboles comparados, porcentaje que puede fijarse a voluntad (mtodo de
Majrul). Un mtodo particualr es propuesto por Stinebrickner (1984), en el que se plantea hallar para cada
individuo i, y para cada subconjunto de cardinalidad p que contiene al sujeto i, las intersecciones y uniones,
y si el cociente entre las cardinalidades de la interseccin y de la unin supera un valor dado, la interseccin
es incluida en el rbol de consenso. Un ndice de consenso asociado a este mtodo est dado por la suma de
las cardinalidades de las intersecciones que configuran el rbol de consenso, extendida a todos los individuos
i.
Otro ndice de simple factura est dado por el cociente entre el nmero de subconjuntos retenidos en
el rbol de consenso y el nmero total posible de subconjuntos, que para n individuos a agrupar es
exactamente n-2, excluido los grupos unitarios y el formado por la totalidad de los n elementos. Este ndice
es conocido con el nombre de ndice de consenso de Colles.
45
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
La palabra Procrustes fue utilizada por primera vez en 1962 por Hurley y Catell para describir la
armonizacin o adecuacin de configuraciones, en referencia a un trmino de origen griego que significa
martillear y hace alusin a un posadero de la mitologa, quien estiraba o recortaba a los huspedes sus
extremidades de modo que coincidieran con la cama.
Inicialmente el Anlisis de Procrustes fue utilizado para adecuar o ajustar una configuracin a otra
ya preestablecida. Green (1952) describi la adecuacin de configuraciones como una transformacin en que
una matriz era rotada y constreida segn especificaciones de una matriz establecida a la que se denomina
matriz objetivo. La matriz transformada debe coincidir tanto como sea posible con la matriz objetivo, esto es
lo que se conoce como transformacin procrusteana. El mtodo propuesto es restrictivo para matrices con
igual nmero de columnas y de rango completo y se basa en un criterio de mnimos cuadrados que minimiza
las distancias entre puntos anlogos en la configuracin final. Schemann y Carrol (1970) ajustaron matrices
por rotacin, traslacin y dilatacin central donde un factor de escalamiento permita la expansin o
constriccin de los puntos.
Bajo el mismo criterio de rotar una matriz para ajustarla a otra, es posible rotar varias matrices a
una matriz centroide comn, esto es lo que se conoce con el nombre de Anlisis de Procrustes
Generalizados. El concepto de matriz centroide fue introducido por Kristof y Wingersky (1971) pero no lo
asocian a ninguna consideracin acerca de traslacin y escalamiento. Gower (1975) describe la matriz
centroide como una representacin de configuracin promedio o de consenso e incluye la traslacin y el
escalamiento de las matrices previa estandarizacin de las mismas en su anlisis, proponiendo una tcnica de
clculo que culmina con un formato de anlisis de la varianza.
TenBerge (1977) hace modificaciones, especficamente en los pasos de rotacin y escalamiento del
Mtodo de Gower. TenBerge y Kroll (1984) derivan transformaciones para varias matrices con diferentes
nmeros de columnas y proponen un criterio de producto interno por el cual se minimizan los ngulos entre
los correspondientes puntos vectores. Peay (1988) emplea un criterio diferente al que llama consenso y que
se basa en minimizar la varianza total de la configuracin comn, desarrollando incluso un programa para
ello.
Tal vez la utilizacin ms difundida de la tcnica de Procrustes haya sido referida al juicio de
calidad de sustancias u objetos tal como la evaluacin de las caractersticas organolpticas de vinos, carnes,
46
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
lcteos, etc., (Oreskovich et al, 1991) donde varios evaluadores o jueces cuantifican distintos atributos,
dando tantas configuraciones de los objetos en estudio como evaluadores hayan.
Tambin se ha propuesto esta tcnica (Digby y Kempton, 1991) para comparar ordenaciones
correspondientes al mismo conjunto de datos, ya sea porque se aplicaron diferentes mtodos o bien se
utilizaron distintas medidas de distancia, salvando as el problema de recurrir a la correlacin entre matrices
de distancia donde la informacin no es independiente. Bajo el mismo criterio tambin es utilizado el
Anlisis de Procrustes para examinar la consistencia de ordenaciones obtenidas a partir de distintas muestras.
Las aplicaciones de este mtodo en el campo de la gentica son prcticamente nulas a pesar de su
potencial, y se refieren tan solo para el estudio de estabilidad varietal (Peltonen-Saino et al, 1993), como en
la caracterizacin conjunta en funcin de caracteres genticos y agronmicos (Faccioli, 1995).
La tcnica de clculo para el Anlisis de Procrustes Generalizados desarrollado por Gower propone
la armonizacin de las configuraciones individuales a travs de una serie de pasos iterativos por
transformacin de stas.
En trminos matriciales si cada matriz individual est representada por Xi (i=1,2,......,m) con n filas
y p columnas donde la j-sima fila da las coordenadas de un punto (individuo) Pj(i) referido a p ejes, el
escalamiento, rotacin y traslacin pueden expresarse algebraicamente por la transformacin:
Xi i Xi Hi + Ti
en la cual la matriz ortogonal de rotacin Hi, el factor de escala i y la matriz de traslacin Ti se hallaran de
forma que se minimice:
n m
Sr =
j =1 i =1
2(Pj(i),Gj)
donde (A,B) es la distancia eucldea entre el par de puntos A y B, y Gj es el centroide de los m puntos
anlogos Pj(i) (i=1,2,3, m).
47
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
7. Bibliografa
Anderson, T. W. (1963). Assymptotic theory for principal components analysis. Annals of mathematical
Statistics, 34 : 122-148.
Asins, M.J. ; Carbonell, E.A. (1986). A comparative study on variability and phylogeny of Triticum
species. 1. Intraspecific variability. Theor. Appl. Genet., 72 : 551-558.
Bartlett, M.S. (1938). Further aspects of multiple regression. Proc. Of the Cambridge Philosophic Society,
34 : 33-40.
Bartlett, M.S. (1939) A note on test of significance in multivariate analysis. Proceedings, Cambridge
Philosophical Society, 35 : 180-185.
Batista Foguet, J. M. ; Martinez Arias, M.R. (1989). Anlisis Multivariante : Anlisis en Componentes
principales. Barcelona : Ed. Hispano Europea S.A.
Bennet, J.F. ; Hays, W.L. (1960). Multidimensional unfolding : determining the dimentionality of ranked
preference data. Psychometrika, 25 : 27-43.
Benzecri, J.P. (1965). Problmes et methodes de la taxinomie. Pub. Inst. Statistique Univ. Pars, Rennes y
Pars.
Benzecri, J.P. (1970). Distance distributionelle et metrique chi-deux en analyse factorielle des
correspondances. Paris : Laboratoire de Statistique Mathmatique.
Benzecri, J.P. (1976). LAnalyse des Donnes. (2 tomos). Tome I : La taxinomie. Tome II. LAnalyse des
correspondances. Pars : Dunod.
Bertier, P. ; Bouroche, J.M. (1975). Analyse des donnes multidimensionnelles. Pars : Presses
Universitaires de france.
Bisquerra Alzina, R. (1989). Introduccin conceptual al Anlisis Multivariable. Vol I y II. Barcelona :
Promociones y Publicaciones Universitarias, S.A.
Bray, J. R.; Curtis, J. T. (1957). An ordination of the upland forest communities of southern Wisconsin.
Ecological Monographs, 27: 325-349.
Cain, A. J.; Harrison, G. A. (1958). An anlysis of the taxonomists' judgement of affinity. Prceedings of the
Zoological Society of London, 131: 85-98.
48
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Cattell, R. B. (1966). The meaning and strategic use of factor analysis. En R. B. Cattell (ed) Handbook of
multivariate Experimental Psychology. Chicago : Rand McNally.
Cavalli-Sforza, L.L. ; Edwards, A. W. F. (1967). Phylogenetic analysis: models and estimation procedures.
Evolution, 21 :550-570
Chardy, P ; Glemarec, M. ; Laurec, A. (1976). Application of inertia methods to benthic marine ecology :
practical implications of the basic options. Esturiane and Coastal Marine Science, 4 : 179-205.
Cooley, W. W. ; Lohnes, P. R. (1962). Multivariate procedures for the behavirol sciences. New Hork : J.
Wiley.
Coombs, C.H. (1950). Psychological scaling without a unit of measurement. Psychological Review. 57 :
148-158.
Coxon, A.P.M. ; Jones, C.L. (1984). Escalas multidimensionales. En J.J. Snchez carrin (Ed.).
Introduccin a las tcnicas de anlisis multivariante aplicadas a las Ciencias Sociales. Madrid : Centro de
Investigaciones Sociolgicas. Pps. 107-129.
Cuadras, C.M. (1998). Multidimensional Dependencies in Ordination and Classification. In: Analyses
Multidimensionelles des Donnes (K. Ferndez, A. Morineau, eds.), CISIA-CERESTA, Saint-Mand
(France), pp. 15-25.
Cuadras, C.M., Fortiana, J. (1998) Visualizing categorical data with related metric scaling. Visualization
of Categorical Data, Ch. 25, J. Blasius and M. Greenacre, eds., Academic Press, pp. 365-376.
Cubero, J.I. ; Flores, F. (1994). Mtodos estadsticos para el estudio de la estabilidad varietal en ensayos
agrcolas. Monografa 12/94, Ed : Servicio de Publicaciones y Divulgacin, Junta de Andaluca, Consejera
de Agricultura y Pesca, Sevilla. Pp 176.
Dice, L.R. (1945). Measures of the amount of ecologic assocaition between species. Ecology, 26 : 297-302.
Escofier-Cordier, B. (1965). Lanlyse des correspondance. Tesis Doctoral, Universit de Rennes. Publicado
ms tarde en Cahiers du Bureau Universitaire Recherche Oprationelle, no. 13 (1969), 25-39.
Escofier, B. (1979), Traitement simultan de variables qualitatives et quantitatives en analyse factorielle. Les
cahiers de lanalyse des dones, 4 : 137-146.
49
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Excoffier, L. ; Smouse, P. ; Quatrro, J. (1992). Analysis of molecular variance inferred from metric
distance among DNA haplotypes : application to human mitochondrial DNA restriction data. Genetics, 131 :
479-491.
Faccioli, P. ; Terzi, V. ; Monetti, A. ; Nicola, J. ; Pecchioni, N. (1995). B-hordein STS markers for barley
genotype identification : comparison with RFLPs, hordein A-PAGE and morpho-physiological traits. Seed
Sci. & Technol., 23 : 415-427.
Felsenstein, J. (1981). Evolutionary trees from DNA sequences : a amximun likelihood approach. J. Mol.
Evol., 17 : 368-376.
Fisher, R.A. (1935). The design of experiments. Edimburgo : Oliver and Boyd Ltd.
Fisher, R.A. (1936). The use of multiple measurements in taxonomic problems. Ann. Eugen., 7 : 179-188.
Fisher, R.A. (1940). The precision of discriminat functions. Ann. Eugen. 10 : 422-429.
Frontier, S. (1976) . tude de la dcroissance des valeurs propes dans une analyse en composantes
principales : comparaison avec le modle du baton bris. J. exp. Mar. Biol. Ecol., 26 : 67-75.
Goodall, D. W. (1973). Sample similarity and species correlation. En Ordination and classification of
communities, Part V: Handbook of vegetation Science. Editor: R. H. Whittaker. pp: 105-156. New York: W.
Junk.
Gower, J. C. (1966). Some distance properties of latent root and vector methods in multivariate analysis.
Biometrika, 53 : 315-328.
Gower, J.C. ; Ross, G.J.S. (1969). Minimum spanning trees and single-linkage cluster analysis. Applied
Statistics, 18 : 54-64.
Gower, J. C. (1971a). A general coefficient of similaririty and some of its properties. Biometrics, 27: 857-
874.
Gower, J.C. (1971b). Statistical methods of comparing different multivariate analysis of the same data. En
Mathematics in the archaelogical and historical sciences. Editores: F. R. Hodson, D. G. Kendal, y P. Tautu.
pp 138-149. Edinburgh: Edinburgh university press.
Gower, J. C. (1985). Measures of similarity, dissimilarity and distance. En Encyclopaedia of Statistics, Vol.
5. Editores: N. L. Johnson, S. Kotz and C. B. Read. pp 397-405. New York: Wiley.
50
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Greenacre, M.J. (1984). Theory and applications of correspondence analysis. Orlando, Florida : Academic
Press Inc. Pp. 364.
Guilford, J.P. (1942). Fundamental Statistics in Psychology and Education. McGraw-Hill, new York. 333p
Guttman, L. (1941). The quantification of a class of attributes : a theory and method of scale construction.
In The prediction of personal adjustment, (Horst, P., ed), pp. 319-348. New York : Social Science Research
Council.
Hamman, U. (1961). Merkmalsbestand und Verwandtschaftsbeziehungen der Farinosae. Ein Beitrag zum
System der Monokotyledonen. Willdenowia, 2 : 639-768.
Hill, M.O. (1974). Correspondance analysis : a neglected multivariate method. Applied Statistics, 23 : 340-
354.
Hillis, D. M. (1984). Misure and modification of Neis genetic distance. Syst. Zool. 33 : 238-240.
Hirschfeld, H.O. (1935). A connection betwen correlation and contingency. Cambridge Philosophical Soc.
Proc. (Math. Proc.). 31 : 520-524.
Hotelling, H. (1931). The generalization of Students ratio. Annals of Math. Stat., 2 : 360-378.
Hotelling, H. (1933). Analysis of a complex of statistical variables into principal components. J. Educ.
Psych., 24 : 417-441, 498-520.
Hurley, J. R. ; Catell, R. B. (1962). The Procrustes program : producing direct rotation to tes a
hypothesized factor structure. Behav. Sci. 7 : 258.
Jaccard, P. (1908). Nouvelles recherches sur la distribution florale. Bull. Soc. Vaud. Sci. Nat. 44: 223-270.
Jacquard, A. (1974). Biomathematics, Volume 5 : The genetic structure of populationes. New York :
Springer-Verlag Berlin.
Jardine, N. ; Sibson, R. (1968). The construction of hierarchic and non-hierarchic classifications. Computer
J., 11 : 177-184.
Johnson, R. A. ; Wichern, D. W. (1992). Applied multivariate statistical analysis. 3 Edicin. New Jersey :
Prentice-Hall International Editions.
51
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Jolicoeur, P. (1959). Multivariate geographical variation in the wolf Canis Lupus L. Evolution, 13(3) : 283-
299.
Kristof, W. ; Wingersky, B. (1971). Generalitation of the orthogonal procrustes rotation procedure to more
than two matrices. Proceedings, 79th Annual Convention, American Psychological Association : 89-90.
Kruskal, J.B. (1956). On the shortest spanning subtree of a graph the traveling salesman problem. Proc.
Amer. Math. Soc., 7 : 48-50. O 29 :1-27 VER BIEN
Kruskal, J.B. ; Wish, M. (1978). Multidimensioanl scaling. Berbely Hills, California : Sage.
Kulczynski, S. (1927). Die Pflanzenassoziationen der Pieninen. Bull. Inter. Acad. Pol. Sci. Lett. Cl. Math.
Nat., B (Sci. Nat.), Suppl 2 : 57-203
Lance, G.N.; Williams, W.T. (1966). Computer programs for hierarchical polythetic classification.
Computer Journal, 9: 64-64.
Lebart, L. ; Morineau, A. ; Fenelon, J.P. (1985). Tratamiento estadstico de datos. Mtodos y programas.
Barcelona : Marcombo.
Lerman, I.C. (1970). Les basses de la classification automatique. Pars : Gauthier Villars.
Mahalanobis, P. C. (1936). On the generalized distance in statistic. Proc. Nat. Inst. Sci. India, 2(1): 49-55.
Mantel, N.A. (1967). The detection of disease clustering and a generalized regression approach. Cancer
Res., 27 : 209-220.
Maxwell, A.E. (1977). Multivariate analysys in behavioural research. Londres. Chapman and Hill.
McIver, J.P ; Carmines, E.G. (1981). Unidimensional scaling. Berbely Hills, California : Sage
McQueen, J.B. (1967). Some methods for classification and analysis of multivariate observations.
Proceedings of the Fith Berkeley Symposium on Mathematical Statistic and probability, 1 : 281-297.
52
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Nei, M. ; Li, W. H. (1979). Mathematical model for studyng genetic variation in terms of restriction
endonucleases. Proc. Natl. Aca. Sci. U.S.A. 76 : 5269-5273.
Nei, M. (1996). Phylogenetic analysis in molecualr evolutionary genetics. Annu. Rev. Genet., 30 : 371-403.
Ochiai, A. (1957). Zoogeographical studies on the soleoid fishes found in Japan and its neighbouring
regions. Bulletin of the Japanese Society of Scientific Fisheries, 22 : 526-530.
Oreskovich, D. ; Klein, P. ; Sutherland, J. W. (1991). Procrustes analysis and its applications to Free-
Choice and other sensory profiling. In Sensory Science Theory and Applications in Foods, (Lawless, H.T.;
Klein, B.P., ed). New York : Marcel Dekker Inc
Pearson, K (1901). On lines planes of closest fit to systems of points in space. Philosophical Magazine, ser
6, 2, 559-572
Peltonen-Saino, P. ; Moore, K. ; Pehu, E. (1993). Phenotypic stability of oats measured with different
stability analysis. Journal of Agricultural Science, 121 : 13-19.
Rao, C.R. (1948). The utilization of multiple measurements in problems of biological classification.
J.Roy.Stat.Soc. B10(2) : 159-203.
Rao, C.R. (1952). Advanced statistical methods in biometric research. J.Wiley, new York.
Rogers, D.J. ; Tanimoto, T.T. (1960). A computer program for cassifying plants. Science, 132 : 1115-1118.
Rogers, J. S. (1972). Measures of genetic similarity and genetic distance. Studies in Genet. VII. Univ. Texas.
Publ. 7213 : 145-153.
Rohlf, F.J. (1970). Adaptative hierarchical clustering schemes. Syst, Zool., 19 : 58-82.
Rohlf, F.J. (1973). Algorithm 76. Hierarchical clustering using the minimun spanning tree. Computer J.,
16 : 93-95.
Rohlf, F.J. (1979). Generalitation of the gap test for the detection of multivariate outliers. Bimetrics, 31 : 93-
101.
53
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
Romero Villafranca, R. (1995). Curso de introduccin a los mtodos de anlisis estadstico multivariante.
Valencia : Servicio de Publicaciones UPV (SP.UPV.95-606).
Russel, T.S. ; Rao, T.R. (1940). On habitat and association of species of Anotheline larvae in Southeastern
Madras. J. Malar. Inst. India, 3 : 153-178.
Snchez-Carrin, J.J. (1984). Introduccin a las tcnicas de Anlisis Multivariable aplicadas a las
Ciencias Sociales. Madrid : Centro de Investigaciones Sociolgicas.
Schiffman, S.S. ; Reynolds, M.L. ; Young, F.W. (1981). Introduction to multidimensional scaling. Nueva
York : Academic Press.
Schnemann, P. H. ; Carroll, R. M. (1970). Fitting one matrix to another under choice of a central dilation
and a rigid motion. Psychometrika, 35 : 245.
Seal, H. L. (1964). Multivariate statistical analysis for biologist. Londres : Methuen and Co. Ltd.
Shepard, R.N. (1962 a). The analysis of proximities : multidimensional sacaling with an unknown distance
function. I. Psychometrika, 27 : 125-140.
Shepard, R.N. (1962 b). The analysis of proximities : multidimensional sacaling with an unknown distance
function. II. Psychometrika, 27 : 219-246.
Sneath, P.H.A. (1957). The application of computers to taxonomy. J. Gen. Micro., 17 : 201-226.
Sneath, P. H. A.; Sokal, R. R. (1973). Numerical taxonomy. San Francisco: W. H. Freeman & Co.
Sokal, R.R. ; Michener, C.D. (1958). A statistical method for evaluating systematic relationships. Univ.
Kansas. Sci. Bull., 38 : 1409-1438.
Sokal, R.R. ; Rohlf, F.J. (1962). The comparison of dendograms by objetive methods. Taxon., 11 : 33-40.
Sokal, R. R ; Sneath, P. H. A. (1963). Numerical taxonomy. San Francisco: W. H. Freeman & Co.
Spearman, CH. (1904). General intelligence objetively determined and measures. American Journal of
Psychology, 15 : 201-293.
Stinebrickner, R. (1984). S-Consensus trees and indicies. Bull. Math. Biol., 46 : 923-935.
TenBerge, J. M. F. (1977). Orthogonal Procrustes rotation for two or more matrices. Psychometrika, 42 :
267.
54
Anlisis Multivariado
_____________________________________________________________________________________________________________________________________________________________________________
TenBerge, J. M. F. ; Kroll, D. L. (1984). Orthogonal rotations to maximal agreement for two or more
matrices of different column orders. Psychometrika, 49 : 49.
Ward, J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American
Statistical Association, 58 : 236-244.
Wilks, S.S. (1932). Certain generalizations in the analysis of variance. Biometrika, 31 : 218-220.
Wilks, S.S. (1935). On the independence of k set of normally distributed statistical variables. Econometrica,
3 : 309-326.
Yang, Z. (1996). Phylogenetic analysis using parsimony and likelihood methods. J. Mol. Evol., 42 : 294-
307.
Yule, G.U. ; Kendall, M.G. (1950). An Introduction to the Theory of Statistics. 14 th de. Hafner, New York.
701 pp.
55