Professional Documents
Culture Documents
Como primera parte del trabajo a realizar en este estudio de mercado, se creará el fichero de datos en
SPSS.
Figura 2 - Vista del Fichero de Datos
En esta matriz de correlaciones se observa que existe un significativo apoyo a nuestras tesis iniciales:
Por ello, se va a solicitar una solución de cluster abierta, es decir, con un rango de soluciones de 2 a 8
clusters en la pertenencia al cluster (Cluster Membership).
Figura 7 - Cuadro de diálogo HCA: Statistics
La mejor forma de ver cómo se llevó a cabo el proceso de agrupación es mediante la visualización de un
gráfico llamado dendrograma. Se aconseja, por tanto, solicitarlo. También resulta interesante el gráfico
de carámbanos (Icicle). No obstante, en las versiones del SPSS posteriores a la 6.0 se ha cambiado la
forma del gráfico de carámbanos (que tenía la forma que se muestra en el artículo Análisis de
Conglomerados, llamado gráfico de baja resolución (Low-Res Chart) por un gráfico menos visual
(llamado High-Res Chart). Si se desea que SPSS cambie el gráfico de carámbanos a uno de baja
resolución, se debe crear una macro (ver el manual de Macros en SPSS).
Figura 8 - Cuadro de diálogo HCA: Plots
Para proceder a la selección de una Medida de Similitud, se debe acudir a una consideración del nivel
de medida (escala) de las variables del clustering (ver el artículo de Segmentación de Mercados).
Como en este caso las variables son de tipo escalar (que vamos a considerar continuas), se asumirá que
la escala de medida de las variables es intervalar. Así pues, se utilizará la Medida de Similitud de
Intervalo (la predeterminada por el procedimiento HCA).
Se supondrá que todas y cada una de las variables del agrupación son métricas (tienen una medida); es
decir, son variables continuas o cuantitativas. Por ello, el mejor método de agrupación es el Relación
Entre-Grupos (Between-Groups Linkage, llamado en español Promedio Entre-Grupos) que, en la sintaxis
de comandos de SPSS recibe el nombre de BAVERAGE.
Figura 9 - Cuadro de diálogo HCA: Method
El procedimiento CLUSTER permite guardar las variables del proceso de agrupación, es decir, las
variables que definirán los perfiles de los sujetos y se incorporarán posteriormente al fichero de datos.
Figura 10 - Cuadro de diálogo HCA: Save New...
Figura 11 - Sintaxis del procedimiento HCA
CLUSTER divertid presupu combino bestbuy
noimport ahorro
/METHOD BAVERAGE
/MEASURE= SEUCLID
/PRINT SCHEDULE CLUSTER(2,8)
/PLOT DENDROGRAM VICICLE
/SAVE CLUSTER(2,8) .
A continuación, se muestran las variables del agrupación, es decir, las variables que definirán los perfiles
de los sujetos, ya incorporadas al fichero de datos.
Figura 12 - Vista del Fichero de Datos
Figura 15 - Dendrograma
A la vista de lo observado en este dendrograma, se desprende que existen 3 clusters bien diferenciados:
4. Formulación de la Hipótesis
Hemos demostrado la existencia de correlaciones entre las variables y, con ello, la procedencia de
aplicar el Análisis Cluster al fichero de datos en cuestión. Hemos ejectuado el Análisis Cluster
Exploratorio solicitando 7 soluciones diferentes: de 2 a 8 clusters, para ver cuál es el número óptimo de
clusters para este fichero de datos.
Dado que el fichero de datos tiene tanto pocos casos y como pocas variables, los datos obtenidos
permiten especular que el número óptimo de clusters es 3 e, incluso, podemos proponer una descripción
de las personas que pertenecen a estos:
1. Personas que manifiestan una actitud lúdica frente al hecho (actividad) de ir a la compra. Este
comportamiento, caracterizado por una alta puntuación en ítems como diversión y
combinación de compra con comida fuera de casa.
2. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como noimport.
3. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como bestbuy, ahorro y
presupu.
Una solución HCA de calidad debe tener como resultado una distribución homogénea de los tamaños de
los clusters y, además, ser consecuente con los perfiles de los mismos. Es decir, el perfil tiene que
significar algo razonable y comprensible para el investigador.
Estudiando esta tabla de derecha a izquierda (de menos a más clusters), se observa que al pasar de la
solución de 3 a 4 clusters aparece un nuevo cluster con un solo miembro. Esto resulta poco convincente,
dado que un distribución más razonable sería 5-6-5-6, por ejemplo. Así, la única solución que tiene
estas características es la de 3 clusters (9-6-6) y, si bien algo menos uniforme, la de 2 clusters (9-12).
Así pues, parece ser que de la solución del HCA se deduce una confirmación de que la agrupación
óptima es de 3 clusters, que es lo que se pretende demostrar.
Las líneas representan las puntuaciones medias de las variables originales y el eje de categorías
representa a la variable de pertenencia a los clusters para la solución de 3.
La sintaxis de procedimiento GRAPH, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 21 - Sintaxis del procedimiento GRAPH
GRAPH
/LINE(MULTIPLE)=MEAN(divertid) MEAN(presupu)
MEAN(combino) MEAN(bestbuy)
MEAN(noimport) MEAN(ahorro) BY clu3_1
/MISSING=LISTWISE REPORT.
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 22 - Puntuaciones Medias
El gráfico de líneas obtenido directamente (Figura 22) no es fácil de interpretar. Por ello, para ver las
Puntuaciones Medias desde una perspectiva más comprensible, se deberá proceder a realizar una
trasposición del gráfico. Para ello:
El gráfico traspuesto (que no quiere decir pachucho, por cierto) que podemos ver en la Figura 23 tiene
una fácil interpretación:
Línea roja - las puntuaciones de las variables originales promediadas por los casos que
pertenecen al primer cluster.
Línea verde - las puntuaciones de las variables originales promediadas por los casos que
pertenecen al segundo cluster.
Línea azul - las puntuaciones de las variables originales promediadas por los
casos que pertenecen al tercer cluster.
los casos del cluster 1 tienen valores altos en las variables divertid, combino, medios en las
variables presupu, bestbuy, ahorro y bajo en noimport.
los casos del cluster 2 tienen valores altos sólo en la variables noimport, medios en las
variables presupu, bestbuy, ahorro y bajo en divertid, combino.
los casos del cluster 3 tienen valores altos en las variables presupu, bestbuy, ahorro, medios
en las variables divertid, combino, noimport y no tiene valores bajos.
Por tanto, se ha obtenido de este gráfico una nueva constatación para creer que existen 3 y sólo 3
clusters. El primero de ellos estaría caracterizado por un comportamiento que hemos llamado lúdico
(cachondos). El segundo lo estaría por un comportamiento nihilista (pasotas). El último lo estaría por
un comportamiento tacaño (peseteros).
5.3. Medias
Hasta ahora se tiene:
El coeficiente Eta mide el grado de asociación entre las variables dependientes y la variable
independiente. Dicho de otro modo, nos dice hasta que punto tiene sentido esta agrupación en 3
clusters. Tiene valores entre 0 y 1, donde el 0 indica la ausencia de la asociación (los grupos creados no
tienen sentido) y 1 que indica la plena procedencia de este agrupamiento.
Por su parte, el test de linealidad realiza una comparación de los grupos en función de los valores de las
variables dependientes.
La sintaxis de procedimiento MEANS, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 26 - Sintaxis del procedimiento Means
MEANS
TABLES=divertid presupu combino bestbuy
noimport ahorro BY clu3_1
/CELLS MEAN COUNT STDDEV
/STATISTICS ANOVA LINEARITY .
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 27 - Informe de Medias
La tabla de la Figura 27 se ha obtenido de la siguiente forma:
El test de linealidad es un análisis de la varianza (ANOVA) que contrasta la hipótesis nula de que los k
grupos (3, en este caso) se distribuyen homogéneamente, es decir, que no existen diferencias lineales
entre ellos. Si no se pudiese rechazar esta hipótesis nula significaría que nuestro HCA no ha tenido
éxito. Se podrá rechazar la hipótesis nula si la(s) variables dependientes analizadas tienen una
significación menor que 0,05 (columna Sig.) de la tabla ANOVA. En este caso, todas las variables
estudiadas tienen una significación menor que 0,05, por lo que todas ellas son variables significativas. Es
decir, todas las variables originales contribuyen de un modo significativo al proceso de agrupación (ver
el manual de Estadística Inferencial).
Figura 29 - Medidas de Asociación
La tabla de la Figura 29 - Medidas de Asociación muestra a las variables del cluster de personas
divertidas (divertid y combino) correlacionadas negativamente y a las de las variables del cluster de
personas cicateras correlacionadas positivamente con la variable clu3_1 (que posee valores de 1 a 3).
Esto debe interpretarse como que el valor de los sujetos Cachondos debería ser el 1, el valor de los
Pasotas, el 2 y, por último, el de los Peseteros, el 3.
La tabla de medidas de asociación permite obtener para cada variable valores que ayudan a constatar el
apoyo de cada variable a la definición del perfil de cada cluster. Por ejemplo, el valor del coeficiente de
correlación lineal R (-0,573), de la variable divertid, indica que esta variable corresponde a personas
que tienen un valor muy bajo en la variable de agrupamiento (clu3_1); es decir, de los 3 valores de
esta variable sería el número 1. Dicho de otro modo, los individuos de cluster 1 tendrían un
comportamiento caracterizado por la variable divertid. Análogamente, el valor 0,609 de la variable
presupu, hace suponer que esta variable corresponde a personas que tienen un valor muy alto en la
variable de agrupamiento.
La próxima semana (20010903) se buscará directamente una solución de 3 clusters mediante el
Análisis Cluster Confirmatorio (de K-Medias) y se contrastarán estadísticamente las dos soluciones
para ver hasta qué punto son diferentes
Si se pulsa el botón Paste (Pegar), se podrá ver la sintaxis del procedimiento KMCA. Como puede verse,
KMCA recibe el nombre de QUICK CLUSTER en el lenguaje de comandos.
Figura 33 - Sintaxis del procedimiento Quick Cluster
QUICK CLUSTER
divertid presupu combino bestbuy noimport ahorro
/MISSING=LISTWISE
/CRITERIA= CLUSTER(3) MXITER(10) CONVERGE(0)
/METHOD=KMEANS(NOUPDATE)
/SAVE CLUSTER
/PRINT INITIAL ANOVA.
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 34 - Centro Finales de Clusters
Los Centros Finales de Clusters asignan altos valores en el cluster 1 a las variables del perfil pesetero,
altos en el cluster 2 a las variables del perfil pasota y, por último, altos valores en el cluster 3 a las
variables del perfil cachondo. En esto coincide perfectamente con los resultados del HCA, pero justo a
la inversa.
Figura 35 - Tabla de ANOVA
En la tabla ANOVA se realiza una prueba de comparación de grupos. Esta prueba consiste en enfrentar
los tres clusters (grupos) respecto de las variables que han intervenido en el proceso de agrupamiento
(KMCA). La hipótesis que pretendemos contrastar en esta prueba es la de que los 3 clusters son
significativamente iguales entre sí respecto de todas y cada una de las variables. Esta hipótesis se llama
hipótesis nula, y se rechaza si el nivel de significación (columna Sig.) de la prueba es menor de 0,05. En
este caso, al tener todas las variables una significación menor que 0,05, resulta que todas ellas son
significativas (es decir, crean diferencias importantes entre los 3 clusters comparados).
Por otro lado, una vez comprobada la significatividad de todas las variables, queda por determinar el
grado de contribución de cada una de ellas al proceso de agrupamiento. Esta medida de la contribución
de cada variable recibe el nombre de valor F (en honor al estadístico de la distribución de Fisher).
Cuanto mayor sea el valor F, mayor será la contribución de la variable. En este caso, al tener las
variables divertid y combino los valores F mayores, resulta que el hecho que más contribuye al
proceso de agrupamiento es el grado de "cachondez" (con perdón), es decir, la intensidad de la visión de
la compra como esparcimiento es la que más diferencia a la gente de este fichero de datos.
Figura 36 - Número de Casos en Cada Cluster de KMCA
Esta tabla muestra el número de sujetos asignados a cada cluster. Estos resultados deben ser acordes
con los obtenidos mediante el algoritmo HCA (Análisis Cluster Exploratorio), es decir, que estos
resultados deben confirmar los anteriores. Para comodidad, a continuación se reproduce al Tabla de
Frecuencias de HCA de la semana anterior.
Figura 18 - Tabla de Frecuencias de HCA
La penúltima columna recoge los resultados del procedimiento HCA para 3 clusters. Como se puede
apreciar, los resultados, si bien hay el mismo número de sujetos en cada cluster, no se dan en el mismo
orden que en KMCA. No obstante, queda por averiguar si esta diferencia en el orden afecta a la
interpretación de los perfiles de los clusters. Es decir, si los mismos nueve sujetos que definieron el
cluster 1 (por ejemplo, como cachondos) de HCA, pertenecen al cluster de cachondos del
procedimiento KMCA. Por supuesto, habría que hacer la misma comprobación para los demás clusters.
Es importante solicitar la opción Display clustered bar charts (Mostrar gráficos de barras agrupadas).
Este gráfico permite comprobar visualmente el grado de adecuación entre los valores de las dos
variables.
Figura 41 - Cuadro de diálogo Crosstabs: Statistics
Dado que las dos variables, objeto del análisis de la asociación, son de tipo nominal, es decir, no poseen
características de orden ni métrica, los únicos estadísticos que resulta pertinente solicitar son el
estadístico Chi-square (chi-cuadrado), Contingency coefficient (coeficiente de contingencia) y
Somers' d (la d de Somers). Para una exhaustiva explicación del significado de estos estadísticos el
manual de Estadística Descriptiva.
El estadístico que mide el grado de asociación entre las variables recibe el nombre de Coeficiente de
contingencia (Contingency coefficient). Este coeficiente toma valores entre -1 y 1. El valor 1 indica una
situación de plena asociación directa entre los valores de ambas variables, el valor 0 indica la ausencia
de toda asociación y, por último, el valor -1 indica una situación de plena asociación, pero inversa.
Figura 42 - Cuadro de diálogo Crosstabs: Cell Display
En este cuadro de diálogo se debe solicitar la visualización en las tablas de contingencia, resultantes de
la aplicación de procedimiento CROSSTABS, al menos las siguientes celdas:
La sintaxis de procedimiento CROSSTABS, configurado según los cuadros de diálogo anteriores, tiene el
siguiente aspecto:
Figura 43 - Sintaxis del procedimiento Crosstabs
CROSSTABS
/TABLES=cluster BY cluster2
/FORMAT= AVALUE TABLES
/STATISTIC=CHISQ CC D
/CELLS= COUNT EXPECTED ROW COLUMN
/BARCHART .
Tras ejecutar la sintaxis anterior, se obtienen las siguientes salidas:
Figura 44 - Cuadro de diálogo Pivoting Trays
En la Figura 45 hay que observar si los valores de las dos variables coinciden, es decir, si los sujetos
etiquetados como peseteros en el HCA son clasificados como tales también el KMCA, y así
sucesivamente para el resto de los grupos (clusters). Como puede observarse, en los 3 grupos hay una
perfecta sincronía en este aspecto, lo que hace albergar buenas esperanzas de grado de asociación.
Figura 46 - Test de Chi-Cuadrado
Las medidas direccionales expresan el grado de asociación entre dos variables con escalas ordinales y la
dirección de esta asociación. El estadístico que mejor representa a las medidas direccionales es la d de
Somers que tiene valores entre 1 (asociación directa) y -1 (asociación inversa). Este estadístico
pertenece a la familia de los estadísticos de la Reducción Proporcional del Error. En este caso, dado
que las dos variables son nominales (no ordinales), el estadístico de la d de Somers no resulta muy
aplicable, pero apoya de manera significativa el contraste de la hipótesis. Como el valor de la d de
Somers es -1, resulta evidente que existe una asociación plena negativa o inversa.
Para contrastar la hipótesis nula de la significativdad de la d de Somers se dispone un estadístico de
Aprox. Sig. (Significación Aproximada). Si el valor de esta significación fuese menor de 0,05, se podría
rechazar la hipótesis nula de que la d de Somers tiene un valor despreciable (cercano a 0). Como en
este caso, la significación aproximada es 0,000, la hipótesis nula tiene que rechazarse, lo que nos lleva
a la conclusión de que existe una asociación entre las dos variables de agrupamiento.
Figura 48 - Medidas Simétricas
Las medidas simétricas permiten conocer el grado de asociación entre las variables, pero no expresan la
dirección de la misma (positiva o negativa). Todas las medidas simétricas poseen un valor entre 0
(asociación nula) y 1 (asociación plena). El estadístico de medida simétrica más importante es el
coeficiente de contingencia. Como el valor de este estadístico es 0,816, se puede suponer que 81,6% de
los valores de ambas variables coinciden o, lo que es lo mismo, que si tendremos un grado de acierto del
81,6% al suponer que ambas variables estan asociadas. Al igual que en test de la d de Somers, se
dispone también de una significación para este test - Aprox. Sig. (Significación Aproximada). Si el valor
de esta significación fuese menor de 0,05, se podría rechazar la hipótesis nula de que el coeficiente de
contingencia tiene un valor despreciable (cercano a 0). Como en este caso, la significación aproximada
es 0,000, la hipótesis nula tiene que rechazarse, lo que nos lleva a la conclusión de que existe una
asociación entre las dos variables de agrupamiento.
Figura 49 - Clusters Jerárquicos x Clusters de K-Medias
A la vista del gráfico de barras agrupadas, resulta evidente que tanto los 3 clusters resultantes del HCA
(Clusters Jerárquicos) como los 3 resultantes KMCA (Clusters de K-Medias) son exactamente iguales,
pero están dispuestos en orden inverso. Es decir, el cluster de los individuos peseteros definido por el
KMCA tiene el valor 1, mientras que el HCA asigna a estos mismos individuos el valor 3. Análogamente,
los individuos definidos como cachondos reciben el valor 3 por el KMCA y el valor 1 por el HCA,
mientras que los individuos definidos como pasotas reciben el mismo valor 2 por ambos procedimientos
de agrupamiento.
De esta forma, el procedimiento CROSSTABS confirma sin lugar a dudas que el proceso de agrupación
coincide con la hipótesis planteada en el punto 4:
El fichero de datos estudiado presenta tres perfiles de personas bien marcados:
1. Personas que manifiestan una actitud lúdica frente al hecho (actividad) de ir a la compra. Este
comportamiento, caracterizado por una alta puntuación en ítems como diversión y
combinación de compra con comida fuera de casa.
2. Personas que manifiestan una actitud nihilista hacia el hecho (actividad) de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como noimport.
3. Personas que manifiestan una actitud economizadora frente al hecho de ir a la compra. Este
comportamiento está caracterizado por una alta puntuación en ítems como bestbuy, ahorro y
presupu.