Professional Documents
Culture Documents
<Artculo>
Cmo aplicar un cluster jerrquico en SPSS
Ruth Vil-Baos, Mara-Jos Rubio-Hurtado, Vanesa Berlanga-Silvente, Mercedes TorradoFonseca
Fecha de presentacin: 30/08/2013
Fecha de publicacin: 10/01/2014
//Resumen
El anlisis de conglomerados o cluster es una tcnica multivariante que busca agrupar elementos o
variables tratando de lograr la mxima homogeneidad en cada grupo y la mayor diferencia entre ellos,
mediante una estructura jerarquizada para poder decidir qu nivel jerrquico es el ms apropiado para
establecer la clasificacin.
El programa SPSS dispone de tres tipos de anlisis de conglomerados: el anlisis de conglomerados
jerrquico, bietpico y de K medias. Aplicaremos el mtodo jerrquico como el ms idneo para
determinar el nmero ptimo de conglomerados existente en los datos y su contenido para nuestro
caso prctico.
//Palabras clave
Clasificacin, conglomerados, cluster jerrquico y aglomerativo.
// Referencia recomendada
Vil-Baos, R. Rubio-Hurtado, M. J., Berlanga-Silvente, V., y Torrado-Fonseca, M. (2014). Cmo aplicar
un cluster jerrquico en SPSS. [En lnea] REIRE, Revista dInnovaci i Recerca en Educaci, 7 (1), 113127. Accesible en: http://www.ub.edu/ice/reire.htm
// Datos de los autores
Ruth Vil-Baos. Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). ruth_vila@ub.edu
M ara-Jos Rubio-Hurtado. Profesora. Universidad de Barcelona. Departamento de Mtodos
de Investigacin y Diagnstico en Educacin (MIDE). mjrubio@ub.edu
Vanesa Berlanga-Silvente Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu
M ercedes Torrado-Fonseca. Profesora. Universidad de Barcelona. Departamento de Mtodos
de Investigacin y Diagnstico en Educacin (MIDE). mercedestorrado@ub.edu
113
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
1. Introduccin
El cluster es una tcnica de clasificacin que sirve para poder detectar y describir subgrupos
de sujetos o variables homogneas en funcin de los valores observados dentro de un
conjunto aparentemente heterogneo. Se fundamenta en el estudio de las distancias entre
ellos, permitiendo en el anlisis, cuantificar el grado de similitud, en el caso de las
proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado
aparecen agrupaciones o clusters homogneos.
A diferencia de otras pruebas de clasificacin, como por ejemplo el anlisis discriminante
(vase Torrado y Berlanga, 2013), las agrupaciones o conglomerados que se establecen se
configuran a posteriori. En este caso el investigador no tiene conocimiento de la existencia
de los subgrupos o conglomerados, ni del nmero resultante, ni mucho menos de las
caractersticas que los definen. Es una tcnica, por lo tanto, eminentemente exploratoria y
descriptiva sin variables dependientes.
El objetivo fundamental de esta tcnica es la configuracin de grupos similares y
homogneos para poder entender y estudiar mejor los fenmenos sociales y educativos. A
modo de ejemplo, si nuestro objetivo es conocer las caractersticas que identifican las
escuelas pblicas que agrupan a los estudiantes con un mayor xito acadmico
necesitaremos conocer las caractersticas bsicas que definen y describen los diferentes
grupos de escuelas. El anlisis de clusters nos permitir dar respuesta a interrogantes del
tipo: Las escuelas pblicas se pueden agrupar? y cules son las caractersticas comunes de
las escuelas agrupadas?
En el proceso de aplicacin de esta tcnica el investigador tiene que tomar una serie de
decisiones: en primer lugar, debe seleccionar las variables relevantes para identificar los
grupos (en el caso del ejemplo, lneas de la escuela, nmero de profesorado fijo,
rendimiento acadmico, etc.); en segundo lugar, ha de establecer las medidas de similitud
para controlar las medidas de proximidad entre las unidades y, finalmente, debe fijar qu
procedimiento o mtodo de agrupacin se utilizar para configurar los conglomerados.
En cuanto al procedimiento, el anlisis de cluster permite hacer una agrupacin
jerarquizada o no. El procedimiento jerrquico es ms adecuado para muestras pequeas
en las que los grupos se configuran por agrupaciones sucesivas de individuo a individuo, o
de individuo a grupo configurando una estructura arborescente con niveles, que
desemboca en una jerarquizacin de clusters. El procedimiento no jerrquico (K-medias)
parte, de entrada, de la determinacin de un nmero de grupos y asigna los casos a grupos
diferenciados sin que unos dependan de otros (clusters no jerrquicos).
El mtodo de la tcnica puede ser aglomerativo o divisivo en funcin del punto de partida.
Si partimos de tantos grupos como objetos tengamos y se van obteniendo las agrupaciones
pertinentes, nos situamos en el mtodo aglomerativo. Sin embargo, si partimos de un
nico grupo y este se va subdividiendo, optamos por el mtodo divisivo. El mtodo ms
utilizado es el aglomerativo.
114
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
Es esencial un uso adecuado del concepto de distancia, ya que los grupos se realizan
segn la proximidad o lejana de unos con otros.
Es fundamental que dentro de un conglomerado los elementos sean homogneos, y lo
ms diferentes a los contenidos del resto.
Es una tcnica de clasificacin post hoc: el nmero de conglomerados se determina en
funcin de los datos, y puede no ser definido de antemano.
115
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
2.
3.
Procedimiento
Como venimos diciendo, el objetivo del anlisis de conglomerados consiste en conseguir
una o ms particiones de un conjunto de individuos a partir de determinadas caractersticas
de los constituyentes. Se podr decir que los individuos son similares si pertenecen a la
misma clase, grupo o conglomerado de tal forma que todos los individuos que estn en el
mismo conglomerado se parecen entre s, y son diferentes a los individuos de otro
conglomerado. Los miembros de un conglomerado tienen caractersticas genricas
comunes, que difcilmente pueden resumirse en una nica variable. A partir de la
identificacin de grupos o clusters se podr trabajar de forma segmentada sin necesidad de
seguir trabajando con toda la muestra.
El procedimiento bsico es el siguiente:
a. Seleccin de los individuos objeto de estudio. Se debe prestar especial atencin a los
casos atpicos que pueden distorsionar la agrupacin de grupos homogneos.
116
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
Variables cuantitativas
- Distancia eucldea
- Distancia eucldea al cuadrado
- Coseno de vectores
- Correlacin de Pearson
- Distancia mtrica de Chebynev
- Bloque, Manhattan o City-block
- Distancia de Minkowski
Variables cualitativas
- Chi cuadrado
- Phi cuadrado
Datos dicotmicos
- Jaccard
- Russel y Rao
- Sokal y Sneath
- Rogers y Tanimoto
d. Eleccin del criterio para agrupar los individuos en conglomerados y la ejecucin del
algoritmo. No existe un criterio nico para seleccionar el mejor algoritmo y, por tanto, la
decisin es subjetiva en funcin del objetivo pretendido. Se puede obtener una agrupacin
progresiva (jerrquico). Dentro de esta tipologa, podemos identificar diferentes mtodos.
De entre todos el ms utilizado es el mtodo promedio entre grupos, el resto de mtodos
requieren trabajar con la distancia eucldea D2 como criterio.
117
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
Tipo de mtodos
Distancia mnima o
vecino ms prximo
Distancia mxima o
vecino ms lejano
Media o promedio
entre grupos
Vinculacin intra
grupos
Ward o Mtodo de
varianza mnima
Centroide
Agrupacin de
medianas
118
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
interpretacin que lleva asociada. Generalmente se asocia la distancia ptima como punto
de corte cuando en el nivel de agrupacin se producen saltos bruscos.
A partir de la utilizacin del SPSS como recurso informtico, obtenemos dos tipos de
informacin, una numrica y, por lo tanto, la cuantificacin de las distancias entre grupos; y
otra grfica que permite visualmente e intuitivamente identificar los grupos o
conglomerados que se han formado.
4.
Los datos utilizados en este caso son ficticios y responden a una finalidad pedaggica.
119
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
120
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
121
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
122
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
4. Guardar. Finalmente seleccionaremos la opcin Guardar, la cual crea una nueva variable
que recoge el conglomerado al que pertenece cada caso, til para hacer futuros anlisis,
ente ellos la descripcin de los conglomerados, necesaria para interpretar los clusters
resultantes. Desde la opcin Guardar se ha de decidir entre un nmero de clusters concreto
(solucin nica) o un rango de soluciones, con el que crear esta nueva variable que
identifica los casos.
123
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
etapa en la que el conglomerado aparece por primera vez. Y finalmente, la ltima columna
indica en qu etapa volver a ser utilizado el agrupamiento que se acaba de formar.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Conglomerado
1
Conglomerado
2
29
26
15
12
1
2
3
23
21
5
11
25
14
4
13
24
1
23
11
3
13
13
23
1
1
21
11
11
1
30
29
20
18
7
6
8
28
22
10
17
26
15
9
19
27
2
25
12
4
16
14
24
5
3
23
13
21
11
Coeficientes
,000
,000
,000
,000
,000
,070
,140
,421
,701
1,032
1,366
1,787
2,233
2,747
3,358
4,122
5,045
5,973
7,028
8,117
9,344
11,635
14,326
17,221
21,963
28,039
34,727
88,564
203,000
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
8
11
7
15
21
18
17
24
9
19
27
25
0
1
0
0
0
0
0
0
0
0
0
2
3
0
0
0
6
12
4
14
0
13
16
10
20
23
22
26
28
Prxima etapa
2
12
13
19
17
17
20
18
26
24
19
18
22
20
21
23
24
23
27
25
22
27
26
25
29
28
28
29
0
124
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
Para interpretar estos resultados se recuerda que el objetivo es agrupar las escuelas
considerando sus caractersticas para el xito acadmico. Por lo tanto, tener un solo grupo
no aporta informacin. Sabiendo que a menor distancia los conglomerados son ms
homogneos, es conveniente detener el proceso de unin cuando las lneas horizontales
sean muy largas: en el ejemplo se detiene el proceso en la distancia 12, tal como se dibuja
en la figura 11 (lneas discontinuas paralelas); obteniendo tres clusters de 10 escuelas cada
uno.
125
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
El primer cluster se caracteriza por agrupar las escuelas ms pequeas de una sola
lnea, que poseen profesorado estable, unas notas altas en el alumnado, un bajo
porcentaje de abandono y baja transicin del alumnado a la postobligatoria.
El segundo cluster incluye centros un poco mayores de dos lneas, con menor
proporcin de profesorado estable, altas notas del alumnado y alta proporcin de
transicin a la postobligatoria.
Y finalmente, el tercer cluster incluye escuelas con un mayor nmero de lneas, con
menos proyectos de innovacin y menor equipacin informtica, profesorado
inestable, notas ms bajas en el alumnado y mayor ndice de abandono.
Variables del anlisis/ descriptivos
Lneas
Innovacin
Media Notas
Porcentaje Abandono
PorcentajeTrnsitopostob
NmeroOrdenadores
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Conglomerados
2
1,00
2,00
,00
,00
1,00
2,00
1,00
2,00
1,400
1,400
,516
,516
2,000
2,000
1,000
1,000
61,00
48,00
3,16
4,22
70,00
50,00
60,00
40,00
7,20
7,10
,42
,32
8,00
8,00
7,00
7,00
10,00
25,00
,00
5,27
10,00
30,00
10,00
20,00
29,50
58,00
2,84
4,22
35,00
60,00
25,00
50,00
20,50
29,50
3,69
3,69
25,00
35,00
15,00
25,00
3
2,80
,42
3,00
2,00
,000
,000
,000
,000
33,00
4,83
40,00
30,00
5,10
,57
6,00
4,00
38,00
4,22
40,00
30,00
49,00
8,76
60,00
40,00
30,00
,00
30,00
30,00
126
Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
<Referencias bibliogrficas>
Bar, J. y Alemany, R. (2000). Estadstica II. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.
Bisquerra, R. (1989). Introduccin conceptual al Anlisis Multivariable. Un enfoque
informtico con los paquetes SPSS-X, BMDP, LISREL y SPAD (Vol II). Barcelona: PPU.
Pea Snchez de Rivera, D. (1987). Estadstica. Modelos y Mtodos. Volumen 2. Alianza
Editorial. Madrid.
Prez, C. (2009). Tcnicas estadsticas multivariantes con SPSS. Madrid: Garceta grupo
editorial.
Prez, C. (2008). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS.
Madrid: Pearson Prentice Hall.
Sneath, P.H.A. y Sokal, R.R. (1973). Numerical taxonomy. San Francisco: Freeman.
Sokal, R.R. y Sneath, P.H.A. (1963). Principles of numerical taxonomy. San Francisco:
Freeman.
Torrado, M. y Berlanga, V. (2013). Anlisis Discriminante mediante SPSS. [En lnea] REIRE,
Revista dInnovaci i Recerca en Educaci, 6 (2), 150-166.
Visauta, B. (2002). Tcnicas de anlisis multivariante para investigacin social y comercial.
Madrid: Ra-Ma.
Copyright 2014. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber
reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
127