Cluster

Anlisis de conglomerados
ANLISIS DE CONGLOMERADOS
Autor: Manuel Terrdez Gurrea (mterradez@uoc.edu).
ESQUEMA DE CONTENIDOS_______
________________________
Anlisis de conglomerados (cluster)
Interpretacin de dendogramas
INTRODUCCIN
___________________
El anlisis de conglomerados (cluster) es una tcnica multivariante que busca agrupar elementos (o variables) tratando de lograr la mxima homogeneidad en cada grupo y la mayor diferencias entre los grupos. Nos basaremos en los algoritmos jerrquicos acumulativos (forman grupos haciendo conglomerados cada vez ms grandes), aunque no son los nicos posibles. El dendograma es la representacin grfica que mejor ayuda a interpretar el resultado de un anlisis cluster. El anlisis de conglomerados se puede combinar con el Anlisis de Componentes Principales, ya que mediante ACP se puede homogeneizar los datos, lo cual permite realizar posteriormente un anlisis cluster sobre los componentes obtenidos.
OBJETIVOS

________________________
Entender por qu es importante agrupar elementos parecidos en bloques diferentes. Saber aplicar el anlisis de conglomerados, con ayuda de Minitab. Interpretar el dendograma resultante del anlisis.
Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONOCIMIENTOS PREVIOS
___________________________________
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Correlacin y regresin lineal mltiple.
CONCEPTOS FUNDAMENTALES
Medidas de disimilitud
______________________________
Partimos de una matriz de informacin que contiene las observaciones de todas las variables sobre los diferentes elementos considerados (ver Tabla 1), y calculamos las diferencias entre dichos elementos mediante alguna de las medidas de disimilitud habituales: la distancia euclidiana (
( X rj X sj ) 2 ), su cuadrado, la distancia de City-Block ( X rj X sj ),

j =1 j =1
la de Mahalanobis, la de Minkowski, la de Tchebychef, etc. Todas ellas proporcionan ordenaciones muy similares de las distancias en casi todos los casos. Tabla 1 X2 X12 X22 ... XK2
Elementos 1 2 ... K
X1 X11 X21 ... XK1
... ... ... ... ...
XJ X1J X2J ... XKJ
Algoritmos de clasificacin
Para clasificar los elementos en clusters utilizaremos algoritmos jerrquicos, que pueden ser acumulativos (se forman grupos haciendo clusters cada vez ms grandes) o disminutivos (partiendo de un solo grupo se separan los elementos en clusters cada vez ms pequeos). Entre los algoritmos jerrquicos acumulativos destacan los siguientes mtodos: Mtodo de las distancias mnimas: se busca la mayor semejanza entre los elementos o grupos ms cercanos. Mtodo de las distancias mximas: se calcula la mnima distancia entre los elementos ms alejados. Mtodo de las distancias medias: se calcula la media de las distancias entre elementos.
Presentacin de los resultados

Para representar la estructura jerrquica de la formacin de los conglomerados se utiliza el dendograma, un grfico que tiene forma de rbol invertido. As, a partir de los K elementos observados podemos identificar desde 1 hasta K clusters, segn el nmero de grupo que queramos obtener, sin ms que realizar la segmentacin horizontal adecuada. Es recomendable trabajar con datos estandarizados, para eliminar el efecto de la escala de medida, y as poder aplicar el anlisis sobre variables que presentan similares valores medios y desviaciones estndar, lo cual facilita la interpretacin.
CASOS PRCTICOS CON SOFTWARE___________________________________

Calificaciones escolares
Vamos a utilizar los datos del archivo asignaturas.mtw, que recogen las calificaciones de los 15 alumnos de una clase en diversas asignaturas Stat Multivariate Cluster Observations...
Tal y como podemos apreciar en los grficos siguientes, solicitaremos el anlisis con las variables estandarizadas, as como el dendograma (representado en funcin de las distancias).
La salida que ofrece Minitab es la siguiente:

Hierarchical Cluster Analysis of Observations
Standardized Variables, Euclidean Distance, Single Linkage Amalgamation Steps Step Number of Similarity clusters level 1 14 88,47 2 13 87,54 3 12 82,03 4 11 80,93 5 10 77,12 6 9 75,35 7 8 75,34 8 7 72,74 9 6 71,89 10 5 71,85 11 4 64,00 12 3 63,87 13 2 59,97 14 1 59,21 Distance level 0,871 0,941 1,357 1,441 1,728 1,862 1,862 2,059 2,123 2,126 2,720 2,729 3,024 3,081 Clusters New Number of obs. joined cluster in new cluster 10 13 10 2 1 15 1 2 4 10 4 3 1 3 1 3 1 7 1 4 1 2 1 5 6 8 6 2 1 6 1 7 1 4 1 10 1 9 1 11 1 11 1 12 1 14 1 13 1 12 1 14 1 5 1 15
Aqu se nos muestra el proceso de creacin de cada cluster, pero no entraremos a analizarlo con detalle, ya que excede el nivel de esta asignatura. Donde s nos detendremos es en la interpretacin del dendograma:
Distance
3,08
2,05
1,03
0,00 1 15 3 7 2 6 8 4 10 13 9 11 14 12 5
Observations
En el dendograma queda reflejada la formacin de los conglomerados, as como las distancias entre ellos. Se puede comprobar, por ejemplo, que la observacin ms distante al resto es la del alumno nmero 5, ya que es la ltima (mayor distancia) en incorporarse al cluster final, seguida de la 12 y la 14. Por el contrario, las observaciones ms cercanas entre s son la 10 y la 13, que forman el primer grupo (distancia ms prxima a 0), y la 1 y la 15, que forman el segundo.
Anlisis de conglomerados El dendograma tambin nos sirve para saber la composicin de cada cluster en cada paso: por ejemplo, si quisiramos hacer una divisin en 5 conglomerados bastara con trazar la lnea azul y comprobaramos que las observaciones 5, 11, 12 y 14 quedaran aisladas (formando cada una de ellas un cluster de tamao 1), y el resto de observaciones formaran otro grupo. Sin embargo, si deseramos conocer la divisin en 8 conglomerados trazaramos la lnea roja, y obtendramos la siguiente distribucin: CLUSTER 1 2 3 4 5 6 7 8 OBSERVACIONES 1, 2, 3, 7, 15 6, 8 4, 10, 13 9 11 14 12 5
Divisin en distritos de una ciudad

Procedemos anlogamente con el archivo entidades.mtw, que recoge datos relativos a los distritos de la ciudad de Valencia (Fuente: Anuario Estadstico de Valencia 1999). Las variables son las siguientes: NOMBRE (Nombre abreviado del distrito), SUPERFICIE (Superficie del distrito en m2), HABITANTES (Nmero de habitantes), TURISMOS (Nmero de turismos), VIVIENDAS (Nmero de viviendas), A E Industriales (Nmero de actividades econmicas industriales), ENTIDADES BANCARIAS y TIPO (1: Centro, 2: Pericentro, 3: Periferia). Obtenemos el dendograma que aparece ms abajo, y nos interesa responder a las siguientes preguntas: a) Cules son las dos observaciones ms similares entre s? b) Cules son las dos observaciones ms distintas al resto? c) Si realizamos una divisin en 4 grupos, qu observaciones contendra cada grupo? Y si la divisin fuera en 7 grupos? d) Qu se podra decir sobre la homogeneidad de los datos?
Distance
3,62
2,41
1,21
0,00
1 4 14 2 3 11 5 12 7 8 9 15 13 16 10 6 17 18 19
Observations
a) Las observaciones ms similares entre s son las que menor distancia presentan: en este caso, la 5 y la 12. b) La observacin ms distinta al resto es claramente la 19, ya que es la ltima que se incorpora al grupo, siendo su distancia a l la mayor; la siguiente es la 1. c) Realizando 4 conglomerados (lnea azul), uno de ellos contendra a la observacin 19, otro a la 1, otro a la 17 y la 18, y el resto de observaciones (2-16) formaran un grupo. Con 7 grupos (lnea roja), seis de ellos seran individuales (observaciones 1, 6, 10, 17, 18, 19) y todas las dems observaciones formaran el grupo restante.
d) Podemos considerar que en general los datos son bastante homogneos, ya que la mayora de
observaciones quedan a una distancia inferior a 2 del resto; sin embargo, hay algunas que se alejan mucho de las dems, como es el caso de la 1 y la 19.
BIBLIOGRAFA
[1] [2] [3]
______________________________________________
Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop
[4] Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3
ENLACES
http://www.5campus.org/leccion/cluster
___________________________________
Leccin sobre Anlisis Cluster (Universidad de Zaragoza) www.ual.es/~freche/practicas/practica7/practica7.html Prctica sobre Anlisis Cluster (Universidad de Almera) http://home-3.tiscali.nl/~xp117079/mtad/ Modelos y tcnicas de anlisis de datos (Universidad de Vigo)

Cluster

Uploaded by

Document Information

Original Description:

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cluster

Uploaded by

Copyright:

Available Formats

Anlisis de conglomerados

Anlisis de conglomerados (cluster)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

( X rj X sj ) 2 ), su cuadrado, la distancia de City-Block ( X rj X sj ),

X1 X11 X21 ... XK1

... ... ... ... ...

XJ X1J X2J ... XKJ

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Presentacin de los resultados

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

CASOS PRCTICOS CON SOFTWARE___________________________________

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

La salida que ofrece Minitab es la siguiente:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Divisin en distritos de una ciudad

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

You might also like