Cómo Aplicar Un Cluster Jerárquico en SPSS 2014

Universitat de Barcelona.
Institut de Cincies de lEducaci
Universitat de Barcelona. Institut de Cincies de lEducaci

Ruth Vil, Mara-Jos Rubio, Vanesa Berlanga, Mercedes Torrado. Cmo aplicar un cluster jerrquico en SPSS.
<Artculo>
Cmo aplicar un cluster jerrquico en SPSS
Ruth Vil-Baos, Mara-Jos Rubio-Hurtado, Vanesa Berlanga-Silvente, Mercedes TorradoFonseca
Fecha de presentacin: 30/08/2013
Fecha de publicacin: 10/01/2014
//Resumen
El anlisis de conglomerados o cluster es una tcnica multivariante que busca agrupar elementos o
variables tratando de lograr la mxima homogeneidad en cada grupo y la mayor diferencia entre ellos,
mediante una estructura jerarquizada para poder decidir qu nivel jerrquico es el ms apropiado para
establecer la clasificacin.
El programa SPSS dispone de tres tipos de anlisis de conglomerados: el anlisis de conglomerados
jerrquico, bietpico y de K medias. Aplicaremos el mtodo jerrquico como el ms idneo para
determinar el nmero ptimo de conglomerados existente en los datos y su contenido para nuestro
caso prctico.
//Palabras clave
Clasificacin, conglomerados, cluster jerrquico y aglomerativo.
// Referencia recomendada
Vil-Baos, R. Rubio-Hurtado, M. J., Berlanga-Silvente, V., y Torrado-Fonseca, M. (2014). Cmo aplicar
un cluster jerrquico en SPSS. [En lnea] REIRE, Revista dInnovaci i Recerca en Educaci, 7 (1), 113127. Accesible en: http://www.ub.edu/ice/reire.htm
// Datos de los autores
Ruth Vil-Baos. Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). ruth_vila@ub.edu
M ara-Jos Rubio-Hurtado. Profesora. Universidad de Barcelona. Departamento de Mtodos
de Investigacin y Diagnstico en Educacin (MIDE). mjrubio@ub.edu
Vanesa Berlanga-Silvente Profesora. Universidad de Barcelona. Departamento de Mtodos de
Investigacin y Diagnstico en Educacin (MIDE). berlanga.silvente@ub.edu
M ercedes Torrado-Fonseca. Profesora. Universidad de Barcelona. Departamento de Mtodos
de Investigacin y Diagnstico en Educacin (MIDE). mercedestorrado@ub.edu
//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//
113
1. Introduccin
El cluster es una tcnica de clasificacin que sirve para poder detectar y describir subgrupos
de sujetos o variables homogneas en funcin de los valores observados dentro de un
conjunto aparentemente heterogneo. Se fundamenta en el estudio de las distancias entre
ellos, permitiendo en el anlisis, cuantificar el grado de similitud, en el caso de las
proximidades, y el grado de diferencia, en el caso de las distancias. Como resultado
aparecen agrupaciones o clusters homogneos.
A diferencia de otras pruebas de clasificacin, como por ejemplo el anlisis discriminante
(vase Torrado y Berlanga, 2013), las agrupaciones o conglomerados que se establecen se
configuran a posteriori. En este caso el investigador no tiene conocimiento de la existencia
de los subgrupos o conglomerados, ni del nmero resultante, ni mucho menos de las
caractersticas que los definen. Es una tcnica, por lo tanto, eminentemente exploratoria y
descriptiva sin variables dependientes.
El objetivo fundamental de esta tcnica es la configuracin de grupos similares y
homogneos para poder entender y estudiar mejor los fenmenos sociales y educativos. A
modo de ejemplo, si nuestro objetivo es conocer las caractersticas que identifican las
escuelas pblicas que agrupan a los estudiantes con un mayor xito acadmico
necesitaremos conocer las caractersticas bsicas que definen y describen los diferentes
grupos de escuelas. El anlisis de clusters nos permitir dar respuesta a interrogantes del
tipo: Las escuelas pblicas se pueden agrupar? y cules son las caractersticas comunes de
las escuelas agrupadas?
En el proceso de aplicacin de esta tcnica el investigador tiene que tomar una serie de
decisiones: en primer lugar, debe seleccionar las variables relevantes para identificar los
grupos (en el caso del ejemplo, lneas de la escuela, nmero de profesorado fijo,
rendimiento acadmico, etc.); en segundo lugar, ha de establecer las medidas de similitud
para controlar las medidas de proximidad entre las unidades y, finalmente, debe fijar qu
procedimiento o mtodo de agrupacin se utilizar para configurar los conglomerados.
En cuanto al procedimiento, el anlisis de cluster permite hacer una agrupacin
jerarquizada o no. El procedimiento jerrquico es ms adecuado para muestras pequeas
en las que los grupos se configuran por agrupaciones sucesivas de individuo a individuo, o
de individuo a grupo configurando una estructura arborescente con niveles, que
desemboca en una jerarquizacin de clusters. El procedimiento no jerrquico (K-medias)
parte, de entrada, de la determinacin de un nmero de grupos y asigna los casos a grupos
diferenciados sin que unos dependan de otros (clusters no jerrquicos).
El mtodo de la tcnica puede ser aglomerativo o divisivo en funcin del punto de partida.
Si partimos de tantos grupos como objetos tengamos y se van obteniendo las agrupaciones
pertinentes, nos situamos en el mtodo aglomerativo. Sin embargo, si partimos de un
nico grupo y este se va subdividiendo, optamos por el mtodo divisivo. El mtodo ms
utilizado es el aglomerativo.
114
Prez (2009) propone la siguiente clasificacin de mtodos de anlisis de conglomerados:

aglomerativos-divisivos, jerrquicos-no jerrquicos, solapados-exclusivos, secuencialessimultneos, monotticos-politticos, directos-iterativos, ponderados-no ponderados y
mtodos adaptativos-no adaptativos.
A continuacin centraremos la explicacin en el anlisis de cluster jerrquico y
aglomerativo.
Definicin de la tcnica: cluster jerrquico y aglomerativo
Esta tcnica parte de la premisa de que todo fenmeno debe ser ordenado para ser
entendible. Sokal y Sneath (1963) son los autores que ms han influido en el desarrollo de
esta tcnica todava vigente. Se trata de un conjunto de tcnicas (fundamentalmente
algoritmos) y mtodos estadsticos multivariantes de clasificacin automtica de datos.
Concretamente, a partir de una tabla se trata de situar todos los casos en grupos
homogneos (conglomerados o clusters) no conocidos previamente pero que los propios
datos sugieren (los individuos parecidos sern asignados a un mismo conglomerado,
mientras que los diferentes estarn en conglomerados distintos). Es una tcnica que se
puede utilizar para agrupar individuos o variables. El procedimiento e interpretacin de los
resultados siguen el mismo patrn. La nica diferencia es el contexto donde se ubica la
clasificacin.
Es habitual utilizar otras tcnicas que complementan o confirman la formacin de grupos
homogneos de conglomerados, a saber, el anlisis discriminante (tcnica ad hoc) permite
verificar la existencia de relaciones causales entre la pertenencia a un conglomerado
determinado y los valores de las variables (Sneath y Sokal, 1973). Los resultados de un
cluster pueden ampliarse tambin con regresin logstica, aadiendo siempre nuevas
variables independientes y constituyendo los conglomerados agrupando individuos y no
solo variables.
Los principios bsicos del anlisis de conglomerados recogidos por Prez (2009) son:
Es un mtodo estadstico multivariante de clasificacin automtica de datos.
Tiene la finalidad de revelar concentraciones en los datos para un agrupamiento

eficiente en conglomerados segn su homogeneidad.
El agrupamiento puede ser para casos o variables (cualitativas o cuantitativas).
Es esencial un uso adecuado del concepto de distancia, ya que los grupos se realizan
segn la proximidad o lejana de unos con otros.
Es fundamental que dentro de un conglomerado los elementos sean homogneos, y lo
ms diferentes a los contenidos del resto.
Es una tcnica de clasificacin post hoc: el nmero de conglomerados se determina en
funcin de los datos, y puede no ser definido de antemano.
115
2.
Condiciones de aplicacin del anlisis de conglomerados

El anlisis de conglomerados suele iniciarse estimando las similitudes entre los individuos
mediante la correlacin de las distintas variables (cualitativas o cuantitativas). A
continuacin se procede a comparar los grupos segn las similitudes, y finalmente se
decide cuntos grupos se construyen. El objetivo ser formar el mnimo nmero de grupos
posible, lo ms homogneos dentro de cada grupo, y lo ms heterogneos entre grupos.
De entrada, para aplicar esta tcnica no se debe cumplir ningn supuesto paramtrico, sin
embargo s se deben considerar una serie de axiomas previos:
Si las variables estn en escalas muy diferentes ser necesario estandarizar las variables
(o trabajar con las desviaciones respecto de la media). Tambin puede hacerse un anlisis
factorial previo y trabajar con puntuaciones factoriales.
Observar valores perdidos y atpicos, ya que los valores atpicos deforman las distancias
y producen clusters unitarios.
Anlisis previo de multicolinealidad, ya que las variables correlacionadas son nocivas
para el anlisis de conglomerados.
El nmero de observaciones en cada conglomerado debe ser relevante, ya que pueden
haber valores atpicos que difuminen las agrupaciones.
El resultado debe tener sentido conceptual.
Se pueden realizar otros anlisis de forma complementaria: discriminante, regresin

logstica, etc.
3.
Procedimiento
Como venimos diciendo, el objetivo del anlisis de conglomerados consiste en conseguir
una o ms particiones de un conjunto de individuos a partir de determinadas caractersticas
de los constituyentes. Se podr decir que los individuos son similares si pertenecen a la
misma clase, grupo o conglomerado de tal forma que todos los individuos que estn en el
mismo conglomerado se parecen entre s, y son diferentes a los individuos de otro
conglomerado. Los miembros de un conglomerado tienen caractersticas genricas
comunes, que difcilmente pueden resumirse en una nica variable. A partir de la
identificacin de grupos o clusters se podr trabajar de forma segmentada sin necesidad de
seguir trabajando con toda la muestra.
El procedimiento bsico es el siguiente:
a. Seleccin de los individuos objeto de estudio. Se debe prestar especial atencin a los
casos atpicos que pueden distorsionar la agrupacin de grupos homogneos.
116
b. Seleccin de las variables o datos que describen y caracterizan la muestra. Se deben

incluir transformaciones a partir de las variables que los definen (tipificacin de variables,
etc.). La seleccin de las variables relevantes a los objetivos del estudio es decisiva para que
los resultados tengan sentido. La eleccin de las variables debe ser coherente con la
investigacin que se lleva a cabo. La inclusin de variables no relevantes aumenta la
posibilidad de tener casos atpicos. De entrada, pues, optaremos por un mismo tipo de
variables; en caso de no ser as se deber proceder a su estandarizacin.
c. Eleccin de la medida de proximidad entre los individuos. El conocimiento de las
distancias ayudar a interpretar las agrupaciones resultantes y a determinar cul es el punto
de corte ms adecuado. Las medidas de similitud/distancia definen la proximidad y no
covariacin, y vienen determinada por la escala de medida de las variables (ordinal o de
intervalo-razn). El resultado de la tcnica depende de la medida de asociacin-similituddistancia utilizada; as distintas medidas de proximidad pueden ofrecer resultados distintos.
Con variables dicotmicas deber utilizarse alguna de las distancias que SPSS integra dentro
de la opcin binaria; con variables cualitativas, se tendr que seleccionar la media dentro de
la opcin frecuencias; y para variables cuantitativas, SPSS ofrece la opcin intervalo.
Variables cuantitativas
- Distancia eucldea
- Distancia eucldea al cuadrado
- Coseno de vectores
- Correlacin de Pearson
- Distancia mtrica de Chebynev
- Bloque, Manhattan o City-block
- Distancia de Minkowski
Variables cualitativas
- Chi cuadrado
- Phi cuadrado
Datos dicotmicos
- Jaccard
- Russel y Rao
- Sokal y Sneath
- Rogers y Tanimoto
Figura 1. Clasificacin de las principales medidas de distancia, segn el tipo de variable

(Visauta, 2002:282).
d. Eleccin del criterio para agrupar los individuos en conglomerados y la ejecucin del
algoritmo. No existe un criterio nico para seleccionar el mejor algoritmo y, por tanto, la
decisin es subjetiva en funcin del objetivo pretendido. Se puede obtener una agrupacin
progresiva (jerrquico). Dentro de esta tipologa, podemos identificar diferentes mtodos.
De entre todos el ms utilizado es el mtodo promedio entre grupos, el resto de mtodos
requieren trabajar con la distancia eucldea D2 como criterio.
117
Tipo de mtodos
Distancia mnima o
vecino ms prximo
Distancia mxima o
vecino ms lejano
Media o promedio
entre grupos
Vinculacin intra
grupos
Ward o Mtodo de
varianza mnima
Centroide
Agrupacin de
medianas
Descripcin del mtodo

Los grupos se unen considerando la menor de las distancias existentes
entre los miembros ms cercanos de distintos grupos. Crea grupos
ms homogneos. Ayuda a detectar outliers, pero no es til para
resumir datos. Los clusters son demasiado grandes. Es el mtodo ms
sencillo.
Los grupos se unen considerando la menor de las distancias existentes
entre los miembros ms lejanos de distintos grupos. Los grupos
resultantes son ms heterogneos. Es til para detectar outliers y los
clusters son pequeos y compactos.
La distancia entre los grupos se obtiene calculando la distancia
promedio entre todos los pares de observaciones independientemente
de que estn prximos o alejados. Agrupa los conglomerados con un
tamao ptimo y fusiona cluster con varianzas pequeas. Es uno de
los mtodos ms utilizado.
Es una variante de la anterior aunque en este caso se combinan los
grupos buscando que la distancia promedio dentro de cada
conglomerado sea la menor posible.
La distancia entre dos clusters se calcula como la suma de cuadrados
entre grupos en el ANOVA. Se persigue la minimizacin de la varianza
intragrupal y maximiza la homogeneidad dentro de los grupos. Suele
ser muy adecuado aunque los clusters que genera suelen ser pequeos
y muy compactos. Es especialmente sensible a los outliers.
La distancia entre dos clusters se calcula como la distancia entre sus
centroides. Se trabaja con los valores originales. Las variables deben
ser cuantitativas de intervalo. Este mtodo es sensible si los tamaos
de los grupos son muy diferentes
Variante del mtodo anterior en la que no se considera el nmero de
casos que forman cada uno de los agrupamientos, sino solo el nmero
de conglomerados.
Figura 2. Clasificacin de los mtodos de agrupamiento.
e. Identificar las agrupaciones resultantes. Mediante una representacin grfica de los

conglomerados obtenidos para visualizar los resultados, mediante un dendograma o rbol
lgico. Este grfico resume el proceso de agrupacin: en el eje de abscisas se sitan los
sujetos y en el eje de ordenadas aparecen las distancias utilizadas para agrupar clusters. Los
sujetos o variables similares se conectan mediante enlaces a partir del mtodo
aglomerativo. La posicin del enlace determina el nivel de similitud entre los objetos.
f. Interpretacin de los resultados obtenidos. La decisin e interpretacin final sobre el
nmero adecuado de agrupaciones es totalmente subjetiva. En la decisin final tiene que
primar un equilibrio entre un nmero reducido de clusters, con lo que obtendremos
agrupaciones heterogneas, y un nmero excesivo de agrupaciones con la dificultad de
118
interpretacin que lleva asociada. Generalmente se asocia la distancia ptima como punto
de corte cuando en el nivel de agrupacin se producen saltos bruscos.
A partir de la utilizacin del SPSS como recurso informtico, obtenemos dos tipos de
informacin, una numrica y, por lo tanto, la cuantificacin de las distancias entre grupos; y
otra grfica que permite visualmente e intuitivamente identificar los grupos o
conglomerados que se han formado.
4.
Anlisis de cluster jerrquico mediante SPSS

Siguiendo con el ejemplo anterior, si nuestro objetivo es conocer las caractersticas que
identifican las escuelas pblicas de una comarca catalana que agrupan a los estudiantes con
un mayor xito acadmico desarrollaremos un anlisis de clusters1 que nos permitir dar
respuesta a los interrogantes: Las escuelas pblicas se pueden agrupar? y cules son las
caractersticas comunes de las escuelas agrupadas?
Para ello, partimos de una base de datos de 30 escuelas pblicas con las siguientes
variables: lneas de la escuela, proyectos de innovacin del centro, porcentaje de plantilla
fija de profesorado, la media de notas del alumnado en el curso 2012-13, porcentaje de
abandono escolar del alumnado y de trnsito a la postobligatoria, y el nmero de
ordenadores de los que dispone el centro.
Considerando el tamao reducido de la muestra y el objetivo del estudio que no dispone
de un nmero determinado de agrupaciones, el procedimiento ms adecuado es un cluster
de tipo jerrquico, con procedimiento aglomerativo. Concretamente, nos interesa clasificar
los casos (las escuelas) en clusters. A continuacin proponemos los siguientes pasos:
Paso 1. Revisin de las condiciones de aplicacin de la tcnica

Dado que las variables estn en escalas muy diferentes ser necesario estandarizar las
variables. Para ello, con SPSS se ejecuta el procedimiento descriptivo marcando la opcin
de variables tipificadas y se crean las nuevas variables en la matriz que se utilizarn en el
estudio (figura 3).
Los datos utilizados en este caso son ficticios y responden a una finalidad pedaggica.
119
Figura 3. Tipificacin de las variables seleccionadas para el estudio.
Paso 2. El procedimiento cluster

Para realizar un anlisis cluster jerrquico elegiremos el men analizar, opcin clasificar
conglomerados jerrquicos (figura 4), y seleccionaremos las variables relevantes en nuestra
investigacin.
Figura 4. Cuadro de dilogo Anlisis de cluster jerrquico con SPSS.
En el cuadro de dilogo de seleccin de las variables, encontramos las siguientes

especificaciones:
Etiquetar los casos. Si se desea el etiquetaje de los casos es necesario que el

identificador est definido como cadena en la matriz de datos. En nuestro ejemplo,
120
se ha aadido una variable tipo cadena con la denominacin de escuela 1, escuela

2, etc.
Conglomerar casos o variables. En nuestro ejemplo, conglomeramos las escuelas

(casos).
Visualizacin de estadsticos y/o grficos. Los marcamos.
Figura 5. Cuadro de dilogo de seleccin de las variables.
En el mismo cuadro de dilogo de la figura 5, encontramos los siguientes cuatro botones:

1. Estadsticos. En este botn, dejamos por defecto la opcin historial de conglomeracin,
que muestra los casos combinados en cada etapa, las distancias entre los casos y el ltimo
nivel del proceso en el que cada caso se uni a su conglomerado correspondiente. Otra
opcin es pedir la matriz de distancias, para mostrar la distancia de cada caso con el resto
(figura 6).
Una opcin interesante es el conglomerado de pertenencia cuando conviene especificar un
nmero concreto de conglomerados o clusters, o bien, un rango especfico. Si en nuestro
caso necesitramos, por ejemplo, establecer cuatro grupos de escuelas, marcaramos la
opcin solucin nica; y si propusiramos entre tres y cinco clusters, marcaramos rango de
soluciones.
121
Figura 6. Cuadro de dilogo de la opcin Estadsticos.
2. Grficos. Es recomendable sealar la opcin dendograma, que ofrece un grfico muy

visual de los pasos del cluster jerrquico, ofreciendo unas lneas verticales concertadas que
designan combinaciones de casos. Por defecto, SPSS ofrece otra representacin grfica, el
diagrama de tmpanos al cual se le puede especificar el nmero de conglomerados y la
orientacin horizontal o vertical del grfico (figura 7).
Figura 7. Cuadro de dilogo de la opcin Grficos.
3. Mtodo. En primer lugar es importante elegir el tipo de distancia a considerar segn la

escala mtrica de las variables (denominada medida en el cuadro de dilogo). En nuestro
ejemplo, dada la escala de intervalo y razn de las variables incluidas, elegimos la distancia
eucldea al cuadrado dentro de la opcin intervalo del cuadro de dilogo. A continuacin,
elegimos el mtodo de conglomeracin, a elegir entre los que se proponen en la figura 2
vista anteriormente. En nuestro ejemplo, seleccionamos el mtodo de Ward, dado que
interesa minimizar la varianza intragrupal y maximizar la homogeneidad dentro de los
grupos. Puesto que este mtodo es muy sensible a los outliers (valores atpicos extremos),
primero verificamos su inexistencia.
122
Figura 8. Cuadro de dilogo de la opcin Mtodo.
En el cuadro de dilogo de la figura 8, tambin se ofrece la opcin de transformar los

valores estandarizndolos. En el ejemplo se ha dejado por defecto ninguna estandarizacin
dado que se utiliz anteriormente la opcin guardar valores tipificados como variables
(resumido en la figura 3).
4. Guardar. Finalmente seleccionaremos la opcin Guardar, la cual crea una nueva variable
que recoge el conglomerado al que pertenece cada caso, til para hacer futuros anlisis,
ente ellos la descripcin de los conglomerados, necesaria para interpretar los clusters
resultantes. Desde la opcin Guardar se ha de decidir entre un nmero de clusters concreto
(solucin nica) o un rango de soluciones, con el que crear esta nueva variable que
identifica los casos.
Figura 9. Cuadro de dilogo de la opcin Guardar.
Paso 3. La interpretacin de los outputs

El historial de conglomeracin es la tabla principal de los outputs que detallan el anlisis de
clusters (figura 10). En la primera columna se enumeran las etapas del anlisis, las columnas
segunda y tercera indican los conglomerados unidos en cada etapa y, a continuacin, la
distancia en la que se produce el agrupamiento. La quinta y la sexta columna indican la
123
etapa en la que el conglomerado aparece por primera vez. Y finalmente, la ltima columna
indica en qu etapa volver a ser utilizado el agrupamiento que se acaba de formar.
Conglomerado que se combina

Etapa
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Conglomerado
1
Conglomerado
2
29
26
15
12
1
2
3
23
21
5
11
25
14
4
13
24
1
23
11
3
13
13
23
1
1
21
11
11
1
30
29
20
18
7
6
8
28
22
10
17
26
15
9
19
27
2
25
12
4
16
14
24
5
3
23
13
21
11
Coeficientes
,000
,000
,000
,000
,000
,070
,140
,421
,701
1,032
1,366
1,787
2,233
2,747
3,358
4,122
5,045
5,973
7,028
8,117
9,344
11,635
14,326
17,221
21,963
28,039
34,727
88,564
203,000
Etapa en la que el conglomerado

aparece por primera vez
Conglomerado Conglomerado
1
2
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
5
8
11
7
15
21
18
17
24
9
19
27
25
0
1
0
0
0
0
0
0
0
0
0
2
3
0
0
0
6
12
4
14
0
13
16
10
20
23
22
26
28
Prxima etapa
2
12
13
19
17
17
20
18
26
24
19
18
22
20
21
23
24
23
27
25
22
27
26
25
29
28
28
29
0
Figura 10. Output Historial de conglomeracin.
Se recomienda el anlisis de los datos obtenidos a travs de la representacin grfica del

dendograma (figura 11). El dendograma est compuesto por una primera columna que
identifica los casos (las escuelas en el ejemplo), y una primera fila que identifica las
distancias.
En el ejemplo, hay agrupaciones muy tempranas en la primera distancia entre, por ejemplo,
las escuelas 29, 30, 26, 25, 23, 28, 24 y 27; por este motivo la lnea que las une est
situada muy a la izquierda del grfico. Todos estos agrupamientos estn indicando una
escasa distancia entre estas escuelas. El grupo anterior formado juntamente con las escuelas
124
21 y 22 se une en la segunda distancia, lo que indica que la agrupacin se produce a una

distancia mayor a la anterior.
Cuando las lneas de unin se sitan ms a la derecha, ms distancia existe en las uniones.
Por ejemplo, en la distancia doce, las escuelas anteriores se fusionan con otro grupo
formado por varios niveles de agrupacin previos (escuelas 12, 18, 11, 17, etc.). Finalmente
se fusionan todas las escuelas en un conglomerado nico en la distancia 25.
Figura 11. Output dendograma que utiliza una vinculacin de Ward.
Para interpretar estos resultados se recuerda que el objetivo es agrupar las escuelas
considerando sus caractersticas para el xito acadmico. Por lo tanto, tener un solo grupo
no aporta informacin. Sabiendo que a menor distancia los conglomerados son ms
homogneos, es conveniente detener el proceso de unin cuando las lneas horizontales
sean muy largas: en el ejemplo se detiene el proceso en la distancia 12, tal como se dibuja
en la figura 11 (lneas discontinuas paralelas); obteniendo tres clusters de 10 escuelas cada
uno.
125
Un anlisis en profundidad de las caractersticas de cada grupo de escuelas a partir de la

variable creada con la opcin Guardar (figura 5) ofrece ms informacin sobre la naturaleza
del agrupamiento. Por ejemplo, la opcin explorar del SPSS puede ser muy til para
obtener una descripcin bsica de los conglomerados resultantes.
Tal como se resume en la figura 12:
El primer cluster se caracteriza por agrupar las escuelas ms pequeas de una sola
lnea, que poseen profesorado estable, unas notas altas en el alumnado, un bajo
porcentaje de abandono y baja transicin del alumnado a la postobligatoria.
El segundo cluster incluye centros un poco mayores de dos lneas, con menor
proporcin de profesorado estable, altas notas del alumnado y alta proporcin de
transicin a la postobligatoria.
Y finalmente, el tercer cluster incluye escuelas con un mayor nmero de lneas, con
menos proyectos de innovacin y menor equipacin informtica, profesorado
inestable, notas ms bajas en el alumnado y mayor ndice de abandono.
Variables del anlisis/ descriptivos
Lneas
Innovacin
Porcentaje Plantilla Fija
Media Notas
Porcentaje Abandono
PorcentajeTrnsitopostob
NmeroOrdenadores
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Media
Desviacin tpica
Mximo
Mnimo
Conglomerados
2
1,00
2,00
,00
,00
1,00
2,00
1,00
2,00
1,400
1,400
,516
,516
2,000
2,000
1,000
1,000
61,00
48,00
3,16
4,22
70,00
50,00
60,00
40,00
7,20
7,10
,42
,32
8,00
8,00
7,00
7,00
10,00
25,00
,00
5,27
10,00
30,00
10,00
20,00
29,50
58,00
2,84
4,22
35,00
60,00
25,00
50,00
20,50
29,50
3,69
3,69
25,00
35,00
15,00
25,00
3
2,80
,42
3,00
2,00
,000
,000
,000
,000
33,00
4,83
40,00
30,00
5,10
,57
6,00
4,00
38,00
4,22
40,00
30,00
49,00
8,76
60,00
40,00
30,00
,00
30,00
30,00
Figura 12. Output de las caractersticas de cada conglomerado.
126
<Referencias bibliogrficas>
Bar, J. y Alemany, R. (2000). Estadstica II. Ed. Fundaci per a la Universitat Oberta de
Catalunya. Barcelona.
Bisquerra, R. (1989). Introduccin conceptual al Anlisis Multivariable. Un enfoque
informtico con los paquetes SPSS-X, BMDP, LISREL y SPAD (Vol II). Barcelona: PPU.
Pea Snchez de Rivera, D. (1987). Estadstica. Modelos y Mtodos. Volumen 2. Alianza
Editorial. Madrid.
Prez, C. (2009). Tcnicas estadsticas multivariantes con SPSS. Madrid: Garceta grupo
editorial.
Prez, C. (2008). Tcnicas de anlisis multivariante de datos. Aplicaciones con SPSS.
Madrid: Pearson Prentice Hall.
Sneath, P.H.A. y Sokal, R.R. (1973). Numerical taxonomy. San Francisco: Freeman.
Sokal, R.R. y Sneath, P.H.A. (1963). Principles of numerical taxonomy. San Francisco:
Freeman.
Torrado, M. y Berlanga, V. (2013). Anlisis Discriminante mediante SPSS. [En lnea] REIRE,
Revista dInnovaci i Recerca en Educaci, 6 (2), 150-166.
Visauta, B. (2002). Tcnicas de anlisis multivariante para investigacin social y comercial.
Madrid: Ra-Ma.
Copyright 2014. Esta obra est sujeta a una licencia de Creative Commons mediante la cual, cualquier explotacin de sta, deber
reconocer a sus autores, citados en la referencia recomendada que aparece al inicio de este documento.
127

Cómo Aplicar Un Cluster Jerárquico en SPSS 2014

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cómo Aplicar Un Cluster Jerárquico en SPSS 2014

Uploaded by

Copyright:

Available Formats

Universitat de Barcelona.

Institut de Cincies de lEducaci

Universitat de Barcelona. Institut de Cincies de lEducaci

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Prez (2009) propone la siguiente clasificacin de mtodos de anlisis de conglomerados:

Es un mtodo estadstico multivariante de clasificacin automtica de datos.

Tiene la finalidad de revelar concentraciones en los datos para un agrupamiento

El agrupamiento puede ser para casos o variables (cualitativas o cuantitativas).

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Condiciones de aplicacin del anlisis de conglomerados

El resultado debe tener sentido conceptual.

Se pueden realizar otros anlisis de forma complementaria: discriminante, regresin

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

b. Seleccin de las variables o datos que describen y caracterizan la muestra. Se deben

Figura 1. Clasificacin de las principales medidas de distancia, segn el tipo de variable

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Descripcin del mtodo

Figura 2. Clasificacin de los mtodos de agrupamiento.

e. Identificar las agrupaciones resultantes. Mediante una representacin grfica de los

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Anlisis de cluster jerrquico mediante SPSS

Paso 1. Revisin de las condiciones de aplicacin de la tcnica

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 3. Tipificacin de las variables seleccionadas para el estudio.

Paso 2. El procedimiento cluster

Figura 4. Cuadro de dilogo Anlisis de cluster jerrquico con SPSS.

En el cuadro de dilogo de seleccin de las variables, encontramos las siguientes

Etiquetar los casos. Si se desea el etiquetaje de los casos es necesario que el

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

se ha aadido una variable tipo cadena con la denominacin de escuela 1, escuela

Conglomerar casos o variables. En nuestro ejemplo, conglomeramos las escuelas

Visualizacin de estadsticos y/o grficos. Los marcamos.

Figura 5. Cuadro de dilogo de seleccin de las variables.

En el mismo cuadro de dilogo de la figura 5, encontramos los siguientes cuatro botones:

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 6. Cuadro de dilogo de la opcin Estadsticos.

2. Grficos. Es recomendable sealar la opcin dendograma, que ofrece un grfico muy

Figura 7. Cuadro de dilogo de la opcin Grficos.

3. Mtodo. En primer lugar es importante elegir el tipo de distancia a considerar segn la

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Figura 8. Cuadro de dilogo de la opcin Mtodo.

En el cuadro de dilogo de la figura 8, tambin se ofrece la opcin de transformar los

Figura 9. Cuadro de dilogo de la opcin Guardar.

Paso 3. La interpretacin de los outputs

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

Conglomerado que se combina

Etapa en la que el conglomerado

Figura 10. Output Historial de conglomeracin.

Se recomienda el anlisis de los datos obtenidos a travs de la representacin grfica del

//REIRE, Vol. 7, nm. 1, enero 2014 // ISSN:2013-2255// DOI:10.1344/ reire2014.7.1716//

Universitat de Barcelona. Institut de Cincies de lEducaci

21 y 22 se une en la segunda distancia, lo que indica que la agrupacin se produce a una