You are on page 1of 23

Indice

1. Planteamiento del problema


2. Evaluación de la aplicabilidad del Análisis Cluster
20 Ago 2001 3. Análisis Cluster Exploratorio o Jerárquico

4. Formulación de la Hipótesis Nula


27 Ago 2001 5. Estudio de los Perfiles de los Clusters
6. Análisis Cluster de K-Medias con 3 Clusters
03 Sep 2001
7. Estudio de la Asociación entre las 2 variables Cluster

1. Planteamiento del problema


Este estudio tiene las siguientes seis variables, que miden la actitud de los clientes cuando salen de
compras. Se pidió a los entrevistados que expresaran su grado de acuerdo (en una escala de 7 puntos:
1 = en desacuerdo, 7 = de acuerdo) con las siguientes afirmaciones:

nº pregunta futura variable


1 Salir de compras es divertido divertid
2 Salir de compras afecta el presupuesto presupu
3 Combino la salida de compras con la comida fuera de casa combino
4 Cuando salgo de compras, trato de hacer las mejores bestbuy
5 No me importa salir de compras noimport
6 Puede ahora ahorrar mucho dinero si compara los precios ahorro

Como primera parte del trabajo a realizar en este estudio de mercado, se creará el fichero de datos en
SPSS.
Figura 2 - Vista del Fichero de Datos

2. Evaluación de la aplicabilidad del Análisis Cluster


Para empezar un Análisis Cluster, se debe siempre demostrar que existen fuertes ligazones entre las
variables que van a configurar el perfil de los clusters. Este proceso de comprobación se realiza
mediante el Análisis de Correlaciones que, en SPSS, recibe el nombre de procedimiento CORRELATIONS.
Figura 3 - Cuadro de diálogo Correlaciones Bivariadas
Figura 4 - Sintaxis del procedimiento CORRELATIONS
CORRELATIONS
/VARIABLES=divertid presupu combino bestbuy
noimport ahorro
/PRINT=TWOTAIL NOSIG
/MISSING=PAIRWISE .
Nota: En color amarillo, los valores de las altas (superiores a 0,5) y significativas correlaciones (con el
nivel de significación inferior a 0.05). Para que SPSS realice este resalte, se debe habilitar la macro
automática correspondiente (ver el manual de Macros en SPSS).
Figura 5 - Tabla de Correlaciones

En esta matriz de correlaciones se observa que existe un significativo apoyo a nuestras tesis iniciales:

 las variables que indican un comportamiento lúdico (combino y divertid) se hallan


fuertemente correlacionadas (positivamente) entre sí y fuertemente correlacionadas
(negativamente) con las que indican un comportamiento nihilista (noimport), y muy poco
correlacionadas con las que indican un comportamiento pesetero.
 las variables que indican un comportamiento economizador (ahorro, presupu y bestbuy)
correlacionan fuertemente entre sí y muy poco con las variables del comportamiento lúdico y
las que indican un comportamiento nihilista, y muy poco correlacionadas con las que indican un
comportamiento pasota.
Si no se observasen fuertes correlaciones entre las variables que formarán parte del Análisis Cluster se
podría entender que no tendría sentido realizar un proceso de Clustering.

3. Análisis Cluster Exploratorio o Jerárquico


A continuación, se deberá realizar la elección de un Procedimiento de Agrupación, es decir, optar por un
procedimiento jerárquico (o exploratorio) o no jerárquico (también llamado confirmatorio, de k-medias o
de optimización).
En el clustering, siempre se debe empezar por un procedimiento de clustering exploratorio y, después,
otro, confirmatorio.
Así pues, la primera fase de todo proceso de agrupación es un Análisis Cluster Exploratorio, para
estudiar cuál es el número óptimo de clusters para este fichero de datos.
La primera fase de todo proceso de agrupación es un análisis exploratorio, para estudiar cuál es el
número óptimo de clusters para este fichero de datos.
El Análisis Cluster Exploratorio se conoce también como Análisis Cluster Jerárquico (HCA, desde
ahora), debido a que crea relaciones jerárquicas entre las observaciones, de modo que, una vez que dos
observaciones entran a formar parte de un cierto cluster, no pueden salir de él.
El HCA recibe el nombre de Exploratorio porque tiene como misión el verificar (todavía de un modo
intuitivo) que la mejor solución, respecto del número de clusters, es la que se había pensado de
antemano (tres clusters, en este caso).
Figura 6 - Cuadro de diálogo HCA

Por ello, se va a solicitar una solución de cluster abierta, es decir, con un rango de soluciones de 2 a 8
clusters en la pertenencia al cluster (Cluster Membership).
Figura 7 - Cuadro de diálogo HCA: Statistics

La mejor forma de ver cómo se llevó a cabo el proceso de agrupación es mediante la visualización de un
gráfico llamado dendrograma. Se aconseja, por tanto, solicitarlo. También resulta interesante el gráfico
de carámbanos (Icicle). No obstante, en las versiones del SPSS posteriores a la 6.0 se ha cambiado la
forma del gráfico de carámbanos (que tenía la forma que se muestra en el artículo Análisis de
Conglomerados, llamado gráfico de baja resolución (Low-Res Chart) por un gráfico menos visual
(llamado High-Res Chart). Si se desea que SPSS cambie el gráfico de carámbanos a uno de baja
resolución, se debe crear una macro (ver el manual de Macros en SPSS).
Figura 8 - Cuadro de diálogo HCA: Plots

Para proceder a la selección de una Medida de Similitud, se debe acudir a una consideración del nivel
de medida (escala) de las variables del clustering (ver el artículo de Segmentación de Mercados).
Como en este caso las variables son de tipo escalar (que vamos a considerar continuas), se asumirá que
la escala de medida de las variables es intervalar. Así pues, se utilizará la Medida de Similitud de
Intervalo (la predeterminada por el procedimiento HCA).
Se supondrá que todas y cada una de las variables del agrupación son métricas (tienen una medida); es
decir, son variables continuas o cuantitativas. Por ello, el mejor método de agrupación es el Relación
Entre-Grupos (Between-Groups Linkage, llamado en español Promedio Entre-Grupos) que, en la sintaxis
de comandos de SPSS recibe el nombre de BAVERAGE.
Figura 9 - Cuadro de diálogo HCA: Method

El procedimiento CLUSTER permite guardar las variables del proceso de agrupación, es decir, las
variables que definirán los perfiles de los sujetos y se incorporarán posteriormente al fichero de datos.
Figura 10 - Cuadro de diálogo HCA: Save New...
Figura 11 - Sintaxis del procedimiento HCA
CLUSTER divertid presupu combino bestbuy
noimport ahorro
/METHOD BAVERAGE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(2,8)
/PLOT DENDROGRAM VICICLE
/SAVE CLUSTER(2,8) .
A continuación, se muestran las variables del agrupación, es decir, las variables que definirán los perfiles
de los sujetos, ya incorporadas al fichero de datos.
Figura 12 - Vista del Fichero de Datos

A continuación, se muestra el esquema de aglomeración (Agglomeration Schedule), que expone el


proceso de agrupación. Si se desea información sobre este esquema, consultar los libros antes
recomendados.
Figura 13 - Esquema de Aglomeración
La Tabla de Pertenencia a los Clusters muestra el proceso de asignación de cada caso a uno de los
clusters que se ha solicitado crear. Como se ha optado por crear una solución abierta, se deben ver cada
una de las columnas (donde se halla la solución de cada uno de los clusters) y comprobar que el proceso
de clustering asigna un número homogéneo y consistente de casos a cada cluster. Por ejemplo, en este
caso, se ve que el cluster número 4 (columna 4 Clusters) asigna sólo un caso al cluster número 4, y el
resto distribuye los casos de modo homogéneo, lo que parece contraproducente. Por el contrario, la
distribución del cluster 3 (columna 3 Clusters) es mucho más homogénea.
Figura 14 - Tabla de pertenencia a Clusters

Figura 15 - Dendrograma
A la vista de lo observado en este dendrograma, se desprende que existen 3 clusters bien diferenciados:

 Cluster 1 - casos: 14, 16, 10, 4, 19 y 18


 Cluster 2 - casos: 2, 13, 5, 11, 9 y 20
 Cluster 3 - casos: 3, 8, 6, 7, 12, 21, 1, 17 y 15

4. Formulación de la Hipótesis
Hemos demostrado la existencia de correlaciones entre las variables y, con ello, la procedencia de
aplicar el Análisis Cluster al fichero de datos en cuestión. Hemos ejectuado el Análisis Cluster
Exploratorio solicitando 7 soluciones diferentes: de 2 a 8 clusters, para ver cuál es el número óptimo de
clusters para este fichero de datos.
Dado que el fichero de datos tiene tanto pocos casos y como pocas variables, los datos obtenidos
permiten especular que el número óptimo de clusters es 3 e, incluso, podemos proponer una descripción
de las personas que pertenecen a estos:
1. Personas que manifiestan una actitud lúdica frente al hecho (actividad) de ir a la compra. Este
comportamiento, caracterizado por una alta puntuación en ítems como diversión y
combinación de compra con comida fuera de casa.
2. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como noimport.
3. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como bestbuy, ahorro y
presupu.

Figura 1 - Hipótesis que se pretende demostrar


5. Estudio de los Perfiles de los Clusters
Se ha explorado el fichero de datos y se ha propuesto una posible solución. Concretamente:
1. Se ha planteado el problema.
2. Se ha demostrado la existencia de correlaciones entre las variables y, con ello, la
procedencia de la aplicación del Análisis Cluster al fichero de datos en cuestión.
3. Se ha ejectuado el Análisis Cluster Exploratorio solicitando 7 soluciones diferentes: de 2 a 8
clusters, para ver cuál es el número óptimo de clusters para este fichero de datos.
4. A la vista de los datos obtenidos en el Análisis Cluster Exploratorio, se ha supuesto que el
número óptimo de clusters es 3 e, incluso, se ha aventurado una descripción de las
personas que pertenecen a estos clusters.

Se va a estudiar la consistencia estadística de la solución propuesta:


1. Se va a verificar que las solución propuesta de 3 clusters es razonable y estadísticamente
significativa.
2. Se va a describir con detalle cómo son las personas que pertenecen a cada uno de los 3
clusters.

Para acometer esta tarea, se utilizarán los siguientes tres procedimientos:


1. Tablas de Frecuencias
2. Gráfico de Líneas
3. Medias

5.1. Tablas de Frecuencias


El procedimiento Tablas de Frecuencias permite ver el número de individuos asignados a cada uno de
los clusters (ver el manual de Trabajo con Tablas).
Figura 16 - Cuadro de diálogo Tables of Frequencies
La sintaxis de procedimiento Tablas de Frecuencias, configurado según el cuadro de diálogo anterior,
tiene el siguiente aspecto:
Figura 17 - Sintaxis del procedimiento Tables of Frequencies
TABLES
/FORMAT BLANK MISSING('.')
/TABLES (LABELS) BY
( clu8_1 + clu7_1 + clu6_1 + clu5_1
+ clu4_1 + clu3_1 + clu2_1 )
/STATISTICS COUNT ((F5.0) 'Count' ) .
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 18 - Tabla de Frecuencias

Una solución HCA de calidad debe tener como resultado una distribución homogénea de los tamaños de
los clusters y, además, ser consecuente con los perfiles de los mismos. Es decir, el perfil tiene que
significar algo razonable y comprensible para el investigador.
Estudiando esta tabla de derecha a izquierda (de menos a más clusters), se observa que al pasar de la
solución de 3 a 4 clusters aparece un nuevo cluster con un solo miembro. Esto resulta poco convincente,
dado que un distribución más razonable sería 5-6-5-6, por ejemplo. Así, la única solución que tiene
estas características es la de 3 clusters (9-6-6) y, si bien algo menos uniforme, la de 2 clusters (9-12).
Así pues, parece ser que de la solución del HCA se deduce una confirmación de que la agrupación
óptima es de 3 clusters, que es lo que se pretende demostrar.

5.2. Gráfico de Líneas


El segundo procedimiento útil para estudiar los perfiles de los clusters es el gráfico de líneas múltiples.
Este permite representar de un modo visual los valores medios de los perfiles de los 3 clusters sobre las
variables originales (las que intervienen en el proceso de agrupación).
El Gráfico de Líneas es otro apoyo, ya que permite ver de un modo más gráfico el número de casos
asignados a cada cluster. Se aconseja un Gráfico de Múltiples Líneas, de Variables Separadas. El objetivo
es ver todas las variables en un mismo gráfico. El resultado se puede ver en la Figura 22.
Figura 19 - Cuadro de diálogo Line Charts

Figura 20 - Cuadro de diálogo Define Multiple Line: ...

Las líneas representan las puntuaciones medias de las variables originales y el eje de categorías
representa a la variable de pertenencia a los clusters para la solución de 3.
La sintaxis de procedimiento GRAPH, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 21 - Sintaxis del procedimiento GRAPH
GRAPH
/LINE(MULTIPLE)=MEAN(divertid) MEAN(presupu)
MEAN(combino) MEAN(bestbuy)
MEAN(noimport) MEAN(ahorro) BY clu3_1
/MISSING=LISTWISE REPORT.
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 22 - Puntuaciones Medias
El gráfico de líneas obtenido directamente (Figura 22) no es fácil de interpretar. Por ello, para ver las
Puntuaciones Medias desde una perspectiva más comprensible, se deberá proceder a realizar una
trasposición del gráfico. Para ello:

 Hacer doble clic en el gráfico de líneas múltiples en la ventana de salidas de SPSS.


 Abrir el menú Series/Traspose Data (Series/Trasponer Datos).

El gráfico traspuesto (que no quiere decir pachucho, por cierto) que podemos ver en la Figura 23 tiene
una fácil interpretación:

 Línea roja - las puntuaciones de las variables originales promediadas por los casos que
pertenecen al primer cluster.
 Línea verde - las puntuaciones de las variables originales promediadas por los casos que
pertenecen al segundo cluster.
 Línea azul - las puntuaciones de las variables originales promediadas por los
casos que pertenecen al tercer cluster.

Figura 23 - Puntuaciones Medias Traspuesto


En este gráfico se aprecia (ver el manual de Gráficas con SPSS) que:

 los casos del cluster 1 tienen valores altos en las variables divertid, combino, medios en las
variables presupu, bestbuy, ahorro y bajo en noimport.
 los casos del cluster 2 tienen valores altos sólo en la variables noimport, medios en las
variables presupu, bestbuy, ahorro y bajo en divertid, combino.
 los casos del cluster 3 tienen valores altos en las variables presupu, bestbuy, ahorro, medios
en las variables divertid, combino, noimport y no tiene valores bajos.

Por tanto, se ha obtenido de este gráfico una nueva constatación para creer que existen 3 y sólo 3
clusters. El primero de ellos estaría caracterizado por un comportamiento que hemos llamado lúdico
(cachondos). El segundo lo estaría por un comportamiento nihilista (pasotas). El último lo estaría por
un comportamiento tacaño (peseteros).

5.3. Medias
Hasta ahora se tiene:

 Tablas de Frecuencias nos asegura que la solución óptimas es la de 3 clusters.


 Gráficos de líneas múltiples nos permite describir el perfil de cada unos de estos 3 clusters.

Ahora, mediante el procedimiento Means (Medias), intentaremos corroborar (o descartar)


estadísticamente la hipótesis de nuestra investigación: que la división de los casos del fichero de datos
en 3 clusters tiene sentido.
Para configurar el procedimiento Means hay que especificar qué variables se consideran
independientes y qué dependientes. En este caso, es bastante obvio:

 la variable independiente es la variable clu3_1 (por fuerza categórica);


 variables dependientes son las 6 variables originales (por fuerza numéricas
continuas);

Figura 24 - Cuadro de diálogo Means


La aportación más importante del comando Means es el cálculo del coeficiente Eta y el test de
linealidad, que son los que se solicitan en el cuadro de diálogo Options.
Figura 25 - Cuadro de diálogo Means: Options

El coeficiente Eta mide el grado de asociación entre las variables dependientes y la variable
independiente. Dicho de otro modo, nos dice hasta que punto tiene sentido esta agrupación en 3
clusters. Tiene valores entre 0 y 1, donde el 0 indica la ausencia de la asociación (los grupos creados no
tienen sentido) y 1 que indica la plena procedencia de este agrupamiento.
Por su parte, el test de linealidad realiza una comparación de los grupos en función de los valores de las
variables dependientes.
La sintaxis de procedimiento MEANS, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 26 - Sintaxis del procedimiento Means
MEANS
TABLES=divertid presupu combino bestbuy
noimport ahorro BY clu3_1
/CELLS MEAN COUNT STDDEV
/STATISTICS ANOVA LINEARITY .
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 27 - Informe de Medias
La tabla de la Figura 27 se ha obtenido de la siguiente forma:

 haciendo doble click en la tabla original Informe de Medias de SPSS,


 seleccionando la opción Pivot Table en la barra de menú,
 pasando los estadísticos a Layers (Capas) en el cuadro de diálogo resultante,
 seleccionando la capa Means (Medias).

Figura 28 - Tabla ANOVA

La tabla de la Figura 28 se ha obtenido de la siguiente forma:

 haciendo doble click en la tabla original Tabla ANOVA de SPSS,


 seleccionando la opción Pivot Table en la barra de menú,
 pasando los estadísticos a Layers (Capas) en el cuadro de diálogo resultante,
 seleccionando la capa Between Groups Linearity (Linealidad Entre Grupos).

El test de linealidad es un análisis de la varianza (ANOVA) que contrasta la hipótesis nula de que los k
grupos (3, en este caso) se distribuyen homogéneamente, es decir, que no existen diferencias lineales
entre ellos. Si no se pudiese rechazar esta hipótesis nula significaría que nuestro HCA no ha tenido
éxito. Se podrá rechazar la hipótesis nula si la(s) variables dependientes analizadas tienen una
significación menor que 0,05 (columna Sig.) de la tabla ANOVA. En este caso, todas las variables
estudiadas tienen una significación menor que 0,05, por lo que todas ellas son variables significativas. Es
decir, todas las variables originales contribuyen de un modo significativo al proceso de agrupación (ver
el manual de Estadística Inferencial).
Figura 29 - Medidas de Asociación

La tabla de la Figura 29 - Medidas de Asociación muestra a las variables del cluster de personas
divertidas (divertid y combino) correlacionadas negativamente y a las de las variables del cluster de
personas cicateras correlacionadas positivamente con la variable clu3_1 (que posee valores de 1 a 3).
Esto debe interpretarse como que el valor de los sujetos Cachondos debería ser el 1, el valor de los
Pasotas, el 2 y, por último, el de los Peseteros, el 3.
La tabla de medidas de asociación permite obtener para cada variable valores que ayudan a constatar el
apoyo de cada variable a la definición del perfil de cada cluster. Por ejemplo, el valor del coeficiente de
correlación lineal R (-0,573), de la variable divertid, indica que esta variable corresponde a personas
que tienen un valor muy bajo en la variable de agrupamiento (clu3_1); es decir, de los 3 valores de
esta variable sería el número 1. Dicho de otro modo, los individuos de cluster 1 tendrían un
comportamiento caracterizado por la variable divertid. Análogamente, el valor 0,609 de la variable
presupu, hace suponer que esta variable corresponde a personas que tienen un valor muy alto en la
variable de agrupamiento.
La próxima semana (20010903) se buscará directamente una solución de 3 clusters mediante el
Análisis Cluster Confirmatorio (de K-Medias) y se contrastarán estadísticamente las dos soluciones
para ver hasta qué punto son diferentes

6. Análisis Cluster de K-Medias con 3 Clusters


El Método No Jerárquico de Agrupación (K-Medias, desde ahora KMCA) recibe también el nombre de
Clustering de Confirmación o de Optimización.
Este método debe, pues, partir del número de clusters que hemos considerado óptimo (3). Éste será el
valor a introducir en la casilla Number of Clusters (Número de Clusters).
Figura 30 - Cuadro de diálogo KMCA

Será importante activar las opciones Save (Guardar) y Options (Opciones).


Figura 31 - Cuadro de diálogo KMCA: Save New...

Figura 32 - Cuadro de diálogo KMCA: Options

Si se pulsa el botón Paste (Pegar), se podrá ver la sintaxis del procedimiento KMCA. Como puede verse,
KMCA recibe el nombre de QUICK CLUSTER en el lenguaje de comandos.
Figura 33 - Sintaxis del procedimiento Quick Cluster
QUICK CLUSTER
divertid presupu combino bestbuy noimport ahorro
/MISSING=LISTWISE
/CRITERIA= CLUSTER(3) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL ANOVA.
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 34 - Centro Finales de Clusters

Los Centros Finales de Clusters asignan altos valores en el cluster 1 a las variables del perfil pesetero,
altos en el cluster 2 a las variables del perfil pasota y, por último, altos valores en el cluster 3 a las
variables del perfil cachondo. En esto coincide perfectamente con los resultados del HCA, pero justo a
la inversa.
Figura 35 - Tabla de ANOVA

En la tabla ANOVA se realiza una prueba de comparación de grupos. Esta prueba consiste en enfrentar
los tres clusters (grupos) respecto de las variables que han intervenido en el proceso de agrupamiento
(KMCA). La hipótesis que pretendemos contrastar en esta prueba es la de que los 3 clusters son
significativamente iguales entre sí respecto de todas y cada una de las variables. Esta hipótesis se llama
hipótesis nula, y se rechaza si el nivel de significación (columna Sig.) de la prueba es menor de 0,05. En
este caso, al tener todas las variables una significación menor que 0,05, resulta que todas ellas son
significativas (es decir, crean diferencias importantes entre los 3 clusters comparados).
Por otro lado, una vez comprobada la significatividad de todas las variables, queda por determinar el
grado de contribución de cada una de ellas al proceso de agrupamiento. Esta medida de la contribución
de cada variable recibe el nombre de valor F (en honor al estadístico de la distribución de Fisher).
Cuanto mayor sea el valor F, mayor será la contribución de la variable. En este caso, al tener las
variables divertid y combino los valores F mayores, resulta que el hecho que más contribuye al
proceso de agrupamiento es el grado de "cachondez" (con perdón), es decir, la intensidad de la visión de
la compra como esparcimiento es la que más diferencia a la gente de este fichero de datos.
Figura 36 - Número de Casos en Cada Cluster de KMCA

Esta tabla muestra el número de sujetos asignados a cada cluster. Estos resultados deben ser acordes
con los obtenidos mediante el algoritmo HCA (Análisis Cluster Exploratorio), es decir, que estos
resultados deben confirmar los anteriores. Para comodidad, a continuación se reproduce al Tabla de
Frecuencias de HCA de la semana anterior.
Figura 18 - Tabla de Frecuencias de HCA
La penúltima columna recoge los resultados del procedimiento HCA para 3 clusters. Como se puede
apreciar, los resultados, si bien hay el mismo número de sujetos en cada cluster, no se dan en el mismo
orden que en KMCA. No obstante, queda por averiguar si esta diferencia en el orden afecta a la
interpretación de los perfiles de los clusters. Es decir, si los mismos nueve sujetos que definieron el
cluster 1 (por ejemplo, como cachondos) de HCA, pertenecen al cluster de cachondos del
procedimiento KMCA. Por supuesto, habría que hacer la misma comprobación para los demás clusters.

6.1. Etiquetado de las variables de Cluster


Antes de proceder con el análisis comparativo de los dos clusters, hay que etiquetar los valores de las
variables para que luego puedan ser fácilmente identificados dentro de las tablas.
Este paso, que se tiene que realizar con las dos variables de agrupamiento tanto la de HCA (para la
solución de 3 clusters) como la de KMCA, se hará mediante la sintaxis de SPSS. Para ello, si no se
hubiese abierto antes, hay que abrir ahora una ventana de sintaxis. Para ello, seleccionar
File/New/Syntax.
La sintaxis de etiquetado de la variable de agrupamiento de HCA tiene el siguiente aspecto:
Figura 37 - Sintaxis del etiquetado de la variable cluster
RENAME VARIABLES clu3_1 = CLUSTER.
EXECUTE.
VARIABLE LABEL CLUSTER 'Clusters Jerárquicos'.
EXECUTE.
VALUE LABELS CLUSTER 1 'Cachondos' 2 'Pasotas'
3 'Peseteros'.
EXECUTE.
La sintaxis de etiquetado de la variable de agrupamiento de KMCA tiene el siguiente aspecto:
Figura 38 - Sintaxis del etiquetado de la variable cluster2
RENAME VARIABLES qcl_1 = CLUSTER2.
EXECUTE.
VARIABLE LABEL CLUSTER2 'Clusters de K-Medias'.
EXECUTE.
VALUE LABELS CLUSTER2 1 'Peseteros' 2 'Pasotas'
3 'Cachondos'.
EXECUTE.
Los resultados de este "embellecimiento" de las variables de agrupamiento se observan a continuación:
Figura 39 - Vista del Fichero de Datos
7. Estudio de la Asociación entre las 2 variables Cluster
Una vez creadas, y debidamente etiquetadas, las dos variables de agrupamiento, es el momento de
estudiar la relación (asociación) entre las mismas. Este estudio se lleva a cabo con el objetivo de
comprobar la coincidencia entre los resultados del HCA y del KMCA. Si se diese una plena coincidencia
(representada por el valor 1 del coeficiente de asociación), significaría que se ha realizado un buen
proceso de agrupamiento. En la medida en que esta coincidencia se vaya alejando del valor 1,
significaría que el proceso carecería de validez y de interpretabilidad.
Para evaluar la validez de los clusters, el método más adecuado es cruzar las variables resultantes del
HCA y del KMCA mediante el procedimiento CROSSTABS.
Figura 40 - Cuadro de diálogo Crosstabs

Es importante solicitar la opción Display clustered bar charts (Mostrar gráficos de barras agrupadas).
Este gráfico permite comprobar visualmente el grado de adecuación entre los valores de las dos
variables.
Figura 41 - Cuadro de diálogo Crosstabs: Statistics
Dado que las dos variables, objeto del análisis de la asociación, son de tipo nominal, es decir, no poseen
características de orden ni métrica, los únicos estadísticos que resulta pertinente solicitar son el
estadístico Chi-square (chi-cuadrado), Contingency coefficient (coeficiente de contingencia) y
Somers' d (la d de Somers). Para una exhaustiva explicación del significado de estos estadísticos el
manual de Estadística Descriptiva.
El estadístico que mide el grado de asociación entre las variables recibe el nombre de Coeficiente de
contingencia (Contingency coefficient). Este coeficiente toma valores entre -1 y 1. El valor 1 indica una
situación de plena asociación directa entre los valores de ambas variables, el valor 0 indica la ausencia
de toda asociación y, por último, el valor -1 indica una situación de plena asociación, pero inversa.
Figura 42 - Cuadro de diálogo Crosstabs: Cell Display

En este cuadro de diálogo se debe solicitar la visualización en las tablas de contingencia, resultantes de
la aplicación de procedimiento CROSSTABS, al menos las siguientes celdas:

 celdas Observed (Observadas) y Expected (Esperadas) en el cuadro Counts (Frecuencias).


 celdas Rows (Filas), Columns (Columnas) y Total en el cuadro Percentages (Porcentajes).
 celda Unstandardized (No Estandarizados) en el cuadro Residuals (Residuales).

La sintaxis de procedimiento CROSSTABS, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 43 - Sintaxis del procedimiento Crosstabs
CROSSTABS
/TABLES=cluster BY cluster2
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ CC D
/CELLS= COUNT EXPECTED ROW COLUMN
/BARCHART .
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 44 - Cuadro de diálogo Pivoting Trays

La tabla de la Figura 45 se ha obtenido de la siguiente forma:

 haciendo doble click en la tabla original,


 seleccionando la opción Pivot Table en la barra de menú,
 pasando los estadísticos a Layers (Capas) en el cuadro de diálogo Pivoting Trays (ver Figura
44),
 seleccionando la capa Count (Frecuencias).

Figura 45 - Clusters Jerárquicos x Clusters de K-Medias

En la Figura 45 hay que observar si los valores de las dos variables coinciden, es decir, si los sujetos
etiquetados como peseteros en el HCA son clasificados como tales también el KMCA, y así
sucesivamente para el resto de los grupos (clusters). Como puede observarse, en los 3 grupos hay una
perfecta sincronía en este aspecto, lo que hace albergar buenas esperanzas de grado de asociación.
Figura 46 - Test de Chi-Cuadrado

En el test de Chi-cuadrado se pretende contrastar la hipótesis nula de la independencia de las dos


variables o, lo que es lo mismo, la ausencia de la asociación entre ellas. Este test mide el grado de
significatividad (probabilidad de rechazo de la hipótesis nula) mediante dos estadísticos importante:

 Pearson Chi-square (Chi-cuadrado de Pearson)


El estadístico Chi-cuadrado de Pearson tiene un valor que oscila de 0 a infinito en la curva de la
distribución chi-cuadrado. No obstante, para estudiar su importancia su valor (que aquí es
42,000) debe combinarse con el número de grados de libertad (columna df). Esto permitiría
evaluar la significatividad de la hipótesis nula.
 Asymp. Sig. (Significación Asintótica)
El método de la significación asintótica consiste en comprobar si el valor de esta es menor que
0,05 (nivel de significación teórica umbral). Si el valor de la significación de la prueba fuese
menor que 0,05, existirían razones sólidas para rechazar tal hipótesis nula. Como en este
caso la significación asintótica es 0,000, la hipótesis nula tiene que rechazarse, lo que nos
lleva a la conclusión de que existe una asociación entre las dos variables de agrupamiento.

El test de chi-cuadrado ha permitido rechazar la hipótesis nula de la independencia de las variables,


pero no da ninguna medida de la asociación existente entre las mismas. Se dispone de dos medidas de
asociación: medidas direccionales y medidas simétricas, cuyos valores se pueden ver en las siguientes
dos figuras.
Figura 47 - Medidas Direccionales

Las medidas direccionales expresan el grado de asociación entre dos variables con escalas ordinales y la
dirección de esta asociación. El estadístico que mejor representa a las medidas direccionales es la d de
Somers que tiene valores entre 1 (asociación directa) y -1 (asociación inversa). Este estadístico
pertenece a la familia de los estadísticos de la Reducción Proporcional del Error. En este caso, dado
que las dos variables son nominales (no ordinales), el estadístico de la d de Somers no resulta muy
aplicable, pero apoya de manera significativa el contraste de la hipótesis. Como el valor de la d de
Somers es -1, resulta evidente que existe una asociación plena negativa o inversa.
Para contrastar la hipótesis nula de la significativdad de la d de Somers se dispone un estadístico de
Aprox. Sig. (Significación Aproximada). Si el valor de esta significación fuese menor de 0,05, se podría
rechazar la hipótesis nula de que la d de Somers tiene un valor despreciable (cercano a 0). Como en
este caso, la significación aproximada es 0,000, la hipótesis nula tiene que rechazarse, lo que nos lleva
a la conclusión de que existe una asociación entre las dos variables de agrupamiento.
Figura 48 - Medidas Simétricas

Las medidas simétricas permiten conocer el grado de asociación entre las variables, pero no expresan la
dirección de la misma (positiva o negativa). Todas las medidas simétricas poseen un valor entre 0
(asociación nula) y 1 (asociación plena). El estadístico de medida simétrica más importante es el
coeficiente de contingencia. Como el valor de este estadístico es 0,816, se puede suponer que 81,6% de
los valores de ambas variables coinciden o, lo que es lo mismo, que si tendremos un grado de acierto del
81,6% al suponer que ambas variables estan asociadas. Al igual que en test de la d de Somers, se
dispone también de una significación para este test - Aprox. Sig. (Significación Aproximada). Si el valor
de esta significación fuese menor de 0,05, se podría rechazar la hipótesis nula de que el coeficiente de
contingencia tiene un valor despreciable (cercano a 0). Como en este caso, la significación aproximada
es 0,000, la hipótesis nula tiene que rechazarse, lo que nos lleva a la conclusión de que existe una
asociación entre las dos variables de agrupamiento.
Figura 49 - Clusters Jerárquicos x Clusters de K-Medias
A la vista del gráfico de barras agrupadas, resulta evidente que tanto los 3 clusters resultantes del HCA
(Clusters Jerárquicos) como los 3 resultantes KMCA (Clusters de K-Medias) son exactamente iguales,
pero están dispuestos en orden inverso. Es decir, el cluster de los individuos peseteros definido por el
KMCA tiene el valor 1, mientras que el HCA asigna a estos mismos individuos el valor 3. Análogamente,
los individuos definidos como cachondos reciben el valor 3 por el KMCA y el valor 1 por el HCA,
mientras que los individuos definidos como pasotas reciben el mismo valor 2 por ambos procedimientos
de agrupamiento.
De esta forma, el procedimiento CROSSTABS confirma sin lugar a dudas que el proceso de agrupación
coincide con la hipótesis planteada en el punto 4:
El fichero de datos estudiado presenta tres perfiles de personas bien marcados:
1. Personas que manifiestan una actitud lúdica frente al hecho (actividad) de ir a la compra. Este
comportamiento, caracterizado por una alta puntuación en ítems como diversión y
combinación de compra con comida fuera de casa.
2. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como noimport.
3. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como bestbuy, ahorro y
presupu.

Figura 1 - Hipótesis que se pretendía demostrar


Resumen
Como resumen, se presenta un esquema de los pasos realizados durante estas tres semanas y que nos
llevaron a la conclusión que se acaba de formular.
Figura 50 - Esquema del proceso de agrupamiento seguido

You might also like