You are on page 1of 57

AnlisisConglomerados

SantiagodelaFuenteFernndez

AnlisisConglomerados

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

ANLISISDECONGLOMERADOS
ElAnlisisCluster,conocidocomoAnlisisdeConglomerados,esunatcnicaestadstica
multivariantequebuscaagruparelementos(ovariables)tratandodelograrlamxima
homogeneidadencadagrupoylamayordiferenciaentrelosgrupos.
ElAnlisisClustertieneunaimportantetradicindeaplicacinenmuchasreasdeinvestigacin.Sin
embargo,juntoconlosbeneficiosdelAnlisisClusterexistenalgunosinconvenientes.ElAnlisis
Clusteresunatcnicadescriptiva,atericaynoinferencial.
ElAnlisisClusternotienebasesestadsticassobrelasquededucirinferenciasestadsticasparauna
poblacinapartirdeunamuestra,esunmtodobasadoencriteriosgeomtricosyseutiliza
fundamentalmentecomounatcnicaexploratoria,descriptivaperonoexplicativa.
Lassolucionesnosonnicas,enlamedidaenquelapertenenciaalconglomeradoparacualquier
nmerodesolucionesdependedemuchoselementosdelprocedimientoelegido.Porotraparte,la
solucinclusterdependetotalmentedelasvariablesutilizadas,laadicinodestruccindevariables
relevantespuedetenerunimpactosubstancialsobrelasolucinresultante.
Losalgoritmosdeformacindeconglomeradosseagrupanendoscategoras:

Algoritmosdeparticin:Mtododedividirelconjuntodeobservacionesenkconglomerados
(clusters),endondeklodefineinicialmenteelusuario.

Algoritmosjerrquicos:Mtodoqueentregaunajerarquadedivisionesdelconjuntode
elementosenconglomerados.
) Unmtodojerrquicoaglomerativoparteconunasituacinenquecadaobservacinforma
unconglomeradoyensucesivospasossevanuniendo,hastaquefinalmentetodaslas
situacionesestnenunnicoconglomerado.
) Unmtodojerrquicodisociativosigueelsentidoinverso,partedeungranconglomeradoy
enpasossucesivossevadividiendohastaquecadaobservacinquedaenunconglomerado
distinto.

Elanlisisdeconglomeradosnosvaapermitircontestarapreguntastalescomo:
Esposibleidentificarculessonlasempresasenlasqueseramsdeseableinvertir?
Esposibleidentificargruposdeclientesalosquelespuedainteresarunnuevoproductoque
unaempresavaalanzaralmercado?
SepuedenclasificarlasbodegasdeLaRiberadelDueroenfuncindelascaractersticas
qumicasypticasdelvinoqueproducen?

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

PROBLEMA
Dadounconjuntodemobjetos(animales,plantas,minerales...),cadaunodeloscualesviene
descritoporunconjuntodepcaractersticasovariables,deducirunadivisintilenunnmerode
clases.Sehandedeterminartantoelnmerodeclasescomolaspropiedadesdedichasclases.
SOLUCIN
Particindelosmobjetosenunconjuntodegruposdondeunobjetopertenezcaaungruposloyel
conjuntodedichosgruposcontengaatodoslosobjetos.
PLANTEAMIENTODELPROBLEMA
PUNTODEPARTIDA:SeaXunamuestrademindividuossobrelosquesemidenpvariables.
Xesunconjuntodevaloresnumricosquesepuedenordenarenunamatriz:
x11

x21
X =
M

x
m1

x12
x 22
M
x m2

L x1p

L x 2p
M
M

L xmp

x11 : Valorquepresenteelprimerindividuoenlaprimeravariable
x12 : Valorquepresenteelprimerindividuoenlasegundavariable
xij : Valorquepresenteelindividuoisimoenlavariablejsima

Cadacolumnacontienelosvaloresquetomantodoslosindividuosparacadavariablequeseestudia.
OBJETIVO

Encontrarunaparticindelosmindividuosencgruposdeformaquecadaindividuopertenezcaa
ungrupoysolamenteauno.
ANLISISCONGLOMERADOS(CLUSTERS)

Esunprocedimientoestadsticoquepartedeunconjuntodedatosquecontieneinformacinsobre
unamuestradeentidadeseintentareorganizarlasengruposrelativamentehomogneosalosque
sellamaconglomerados(clusters).
ETAPASDELANLISISDECONGLOMERADOS(CLUSTERS)

1)Eleccindelasvariables
2)Eleccindelamedidadeasociacin
3)EleccindelatcnicaCluster
4) Validacindelosresultados

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

1.ELECCINDELASVARIABLES

Dependiendodelproblemalasvariablespuedenser:
Ordinales
Cualitativas
No min ales

Discretas
Cuantitativas
Continuas

ANLISISCONGLOMERADOSPORVARIABLESOPORINDIVIDUOS

Sisepretendeagruparalosindividuosengrupossehaderealizarunanlisiscluster
(conglomerados)delosindividuos

Sisepretendeagruparlasvariablesmsparecidassedeberealizarunanlisisclusterdelas
variables,paraellobastaconsiderarlamatrizdedatosinicial X'

2.ELECCINDELAMEDIDADEASOCIACIN

Parapoderunirvariablesoindividuosesnecesarioteneralgunasmedidasnumricasque
caractericenlasrelacionesentrelasvariablesolosindividuos.
Cadamedidareflejaasociacinenunsentidoparticularyesnecesarioelegirunamedidaapropiada
paraelproblemaconcretoqueseesttratando.
Lamedidadeasociacinpuedeserunadistanciaounasimilaridad.

Cuandoseeligeunadistanciacomomedidadeasociacin(porejemplo,ladistanciaeucldea)
losgruposformadoscontendrnindividuosparecidosdeformaqueladistanciaentreellosha
deserpequea.

Cuandoseeligeunamedidadesimilaridad(porejemplo,elcoeficientedecorrelacin)los
gruposformadoscontendrnindividuosconunasimilaridadaltaentreellos.

DISTANCIAMTRICA
Unafuncin d: U x U R sellamadistanciamtricas x , y , z U severifica:
d(x , x) 0
d(x , y) = 0 x = y

d(x , y) = d(y , x)
d(x , z) d(x , y) + d(y , z)

SIMILARIDAD
Unafuncin s: U x U R sellamasimilaridads x , y U severifica:
s (x , y) s0

s0 nmero real finito arbitrario s (x , x) = s0


s (x , y) = s (y , x)

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

SIMILARIDADMTRICA
Unafuncin s: U x U R sellamasimilaridadmtricas x , y , z U severifica:
s (x , y) s0
s (x , x) = s
0

s
(
x
,
y
)
s
(y , x)
=

s (x , y) = s x = y
0

s
(
x
,
y
)
s
(y , z) s (x , z) s (x , y) s (y , z)
+

NOTA.Dependiendodeltipodeanlisis(porvariablesoporindividuos)queserealiza,existen
distintasmedidasdeasociacinaunque,tcnicamente,todaslasmedidaspuedenutilizarseen
amboscasos.

MEDIDASDEASOCIACINPARAVARIABLES
) Cosenodelngulodedosvectores(invarianza,salvosigno,frenteahomotecias)
) Coeficientedecorrelacin(invarianzafrenteatraslacionesysalvosignofrenteahomotecias)
) Medidasparadatosdicotmicos

Xi \ X j

Totales

1
0
Totales

a
c
a+c

b
d
b+d

a+b
c+d
m=a+b+c+d

) MedidadeOchiai
) Medida

a
(a + b)(a + c)

ad bc
(a + b)(c + d)(a + c)(b + d)

) MedidadeRussellyRao

a
a
=
a+b + c + d m

) MedidadeParejassimples
) MedidadeJaccard
) MedidadeDice

a+d
a+d
=
a+b +c +d m

a
a+b + c

2a
2a + b + c

) MedidadeRogersTanimoto

SantiagodelaFuenteFernndez

a+d
a + d + 2(b + c)

AnlisisdeConglomerados

MEDIDASDEASOCIACINPARAINDIVIDUOS
) DistanciaEucldea: d(xi , x j ) =

(x
c=1

ic

x jc ) 2

) DistanciadeMinkowski: dq (x i , x j ) = x ic x jc
c=1

1
q

donde q 1

) Distanciad1ociudad(CityBlock): d(xi , x j ) = x ic x jc
c=1

) DistanciadeTchebychevodelmximo(q=): d e (x i , x j ) = mx (c = 1,L, p) x ic x jc
) DistanciadeMahalanobis: DS (x i , x j ) = (x i x j )' S 1 (xi x j )

p q n2ij

1
) Distancia 2 : 2 = m
i=1 j=1 mi mj

3.ELECCINDELATCNICACLUSTER
3.1 MTODOSJERRQUICOS

OBJETIVO:Agruparclusterparaformarunonuevoosepararalgunoyaexistenteparadarorigena
otrosdosdeformaquesemaximiceunamedidadesimilaridadoseminimicealgunadistancia.
CLASIFICACIN:

AsociativosoAglomerativos:Separtedetantosgruposcomoindividuoshayenelestudioyse
vanagrupandohastallegaratenertodosloscasosenunmismogrupo.

Disociativos:Separtedeunsologrupoquecontienetodosloscasosyatravsdesucesivas
divisionesseformangruposcadavezmspequeos.

Losmtodosjerrquicospermitenconstruirunrboldeclasificacinodendograma.
3.2MTODOSNOJERRQUICOS

Estndiseadosparalaclasificacindeindividuos(nodevariables)enKgrupos.Elprocedimientoes
elegirunaparticindelosindividuosenKgruposeintercambiarlosmiembrosdelosclusterspara
tenerunaparticinmejor.

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

MTODOSDEANLISISCLUSTER

Simple Linkage (Vecino ms prximo)

Complete Linkage (Vecino ms lejano)

Pr omedio entre Grupos


Aglomerativos

Mtodo del Centroide

Mtodo de la Mediana

Mtodo de Ward

Jerrquicos
Linkage Simple

Linkage Completo

Pr omedio entre Grupos

Disociativos Mtodo del Centroide

Mtodo de la Mediana

Mtodo de Ward

Anlisis de Asociacin

K Medias
Reasignacin
Nubes Dinmicas

Anlisis Modal

Bsqueda Mtodos Taxap


de densidad Mtodo de Fortin
No

Mtodo de Wolf
Jerrquicos

Mtodos Directos : Block Clustering

Mtodos Reductivos : Anlisis Factorial tipo Q

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

DISTANCIASENTRECONGLOMERADOS

Lasdistanciasentrelosconglomeradossonfuncionesdelasdistanciasentreobservaciones,hay
variasformasdedefinirlas:
) SeanAyBdosconglomerados:

Vecinomscercano:

d(A , B) = mn d(i, j)
i A , jB

Vecinomslejano

d(A , B) = mx d(i, j)
i A , jB

Promediodegrupo

d(A , B) =

1
nA . nB

d(i, j)

i A , jB

Centroide(centrogravedad)

d(A , B) = d(x A , x B )

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

MTODOLINKAGESIMPLEAGLOMERATIVO(Vecinomscercano)

Unavezqueseconocenlasdistanciasexistentesentrecadadosindividuosseobservaculessonlos
individuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienenmenor
distanciaomayorsimilaridad).Estosdosindividuosformanungrupoquenovuelveasepararse
duranteelproceso.
Serepiteelproceso,volviendoamedirladistanciaosimilaridadentretodoslosindividuosde
nuevo(tomandoelgrupoyaformadocomosdeunsoloindividuosetratara)delasiguiente
forma:

Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistancia
mnimadelosindividuosdelgrupoalnuevoindividuo.

Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mximadelosindividuosdelgrupoalnuevoindividuo.

Ejemplo.Setienenlassiguientesdistanciasentreindividuos:
Distancia
A
B
C
D

A
0
9
4
7

0
5
3

0
11

tablasimtricapuestoqued(A,B)=d(B,A)
) Distanciamnima

d(B, D) = 3
BDformanungrupo

Semidenlasdistanciasdenuevo:
Distancia
A
BD
C
) Distanciamnima

A
0
7
4

BD

0
5

d(C , A) = 4
ACformanungrupo

Semidenlasdistanciasdenuevo:
Distancia
AC
BD
) Distanciamnima

AC
0
5

BD
0

d(A C , B D) = 5
ACBDformanungrupo

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA

Elnmerodegrupossepuededecidiraposteriori.
SIsedeseaclasificarestoselementosendosgrupos,laclasificacinresultantees:BDyAC
Sisedeseantresgrupos,setomalaclasificacinenelpasoanterior:BD,AyC.

MTODOLINKAGECOMPLETOAGLOMERATIVO(Vecinomslejano)

Conocidaslasdistanciasosimilaridadesexistentesentrecadadosindividuosseobservaculesson
losindividuosmsprximosencuantoaestadistanciaosimilaridad(qudosindividuostienen
menordistanciaomayorsimilaridad).Estosdosindividuosformarnungrupoquenovuelvea
separarseduranteelproceso.Posteriormente,serepiteelproceso,volviendoamedirladistanciao
similaridadentretodoslosindividuosdelasiguienteforma:
Cuandosemideladistanciaentreelgrupoformadoyunindividuo,setomaladistanciamxima
delosindividuosdelgrupoalnuevoindividuo.

Cuandosemidelasimilitudosimilaridadentreelgrupoformadoyunindividuo,setomala
mnimadelosindividuosdelgrupoalnuevoindividuo.

Ejemplo.Setienenlassiguientessimilaridades(coeficientedecorrelacinentrevariables):
Distancia
A
B
C
D
E

A
1
0,39
0,75
0,56
0,81

1
0,24
0,63
0,72

1
0,42
0,12

1
0,93

tablasimtricapuestoqued(A,B)=d(B,A)
) Similaridadmxima

s (D, E) = 0,93
DEformanungrupo

Semidenlassimilaridadesdenuevo:
Distancia
A
B
C
DE
) Similaridadmxima

A
1
0,39
0,75
0,56

DE

1
0,24
0,63

1
0,42

s (C , A) = 0,75
ACformanungrupo

SantiagodelaFuenteFernndez

AnlisisdeConglomerados

Semidenlassimilaridadesdenuevo:
Distancia
AC
B
DE
) Similaridadmxima

AC
1
0,24
0,12

DE

1
0,63

s (B, D E) = 0,63
BDEformanungrupo

Semidenlassimilaridadesdenuevo:
Distancia
AC
BDE
) Similaridadmxima

AC
1
0,12

BDE
1

s (A C , B D E) = 0,12
ABCDEformanungrupo

Elprocesoseguidoserepresentaen
unrboldeclasificacinllamado
DENDOGRAMA

ELDENDOGRAMA:REPRESENTACINGRFICADEUNACLASIFICACINJERRQUICA

Undendogramaesunarepresentacingrficaenformaderbolqueresumeelprocesode
agrupacinenunanlisisdeclusters.
Losobjetossimilaresseconectanmedianteenlacescuyaposicineneldiagramaestdeterminada
porelniveldesimilitud/disimilitudentrelosobjetos.
Paraclarificarlaconstruccindeundendogramaysusignificadoseutilizaunejemplosencillocon5
objetosydosvariables:
objeto
1
2
3
4
5

v1
1
2
4
7
5

SantiagodelaFuenteFernndez

v2
1
1
5
7
7

10

AnlisisdeConglomerados

Apartirdeestosdatos,seconsideralamatrizdedistanciaseucldeas d(xi , x j ) =

(x
c=1

ic

x jc ) 2 entre

losobjetos.
objetos
1(1,1)
2(2,1)
3(4,5)
4(7,7)
5(5,7)

2(2,1)

1(1,1)

0
1
5

8,5 72
7,2 52

0
4 ,5 20
7,8 61
6,7 45

3(4,5)

4(7,7)

5(5,7)

0
3,6 13
2,2 5

0
2= 4

Inicialmentehay5clusters,unoparacadaunodelosobjetosaclasificar.Deacuerdoconlamatrizde
distancias,losobjetos(clusters)mssimilaressonel1yel2(condistancia1),porloquesefusionan
losdosconstruyendounnuevoclusterA(12).
Serepiteelproceso,volviendoamedirladistanciadelclusterAalrestodelosobjetos(clusters).
Paraello,setomacomorepresentantedelgrupoelcentroidedelospuntosqueformanelcluster,es
decir,elpuntoquetienecomocoordenadaslasmediasdelosvaloresdelasvariablesparasus
componentes.Estoes,lascoordenadasdelclusterAson: A [(1 + 2) / 2 , (1 + 1) / 2] A(1,5 , 1) .

Latabladedatoses:

cluster
A(12)
3
4
5

v1
1,5
4
7
5

v2
1
5
7
7

Apartirdelanuevatablasecalculalanuevamatrizdedistanciasentrelosclustersquehayeneste
momento:
cluster
A(1,5,1)

A(1,5,1)

3(4,5)

4 ,7 22,25

4(7,7)

8,1 66,25

3,6 13

5(5,7)

6,9 48,25

2,2 5

2= 4

3(4,5)

4(7,7)

5(5,7)

Losclustersmssimilaressonel4yel5(condistancia2),quesefusionanenunnuevocluster
B(45),cuyocentroideeselpunto(6,7).

Latabladedatoses:

cluster
A(12)
B(45)
3

SantiagodelaFuenteFernndez

v1
1,5
6
4

v2
1
7
5

11

AnlisisdeConglomerados

Sevuelvearepetirelprocedimientoconlanuevatabladedatos:
cluster
A(1,5,1)

A(1,5,1)

B(6,7)

7,5 = 56,25

3(4,5)

4 ,7 22,25

2,8 8

B(6,7)

3(4,5)

0
0

LadistanciamspequeaestentreelclusterB(45)yel3(distancia2,8),quesefusionanenun
nuevoclusterC(345),cuyocentroideser C [(4 + 7 + 5) / 3 , (5 + 7 + 7) / 3] C(5,3 , 6,3) .

Latabladedadoses:

cluster
A(12)
C(345)

v1
1,5
5,3

v2
1
6,3

Recalculandocomoanteslamatrizdelasdistancias,setiene:
cluster
A(1,5,1)

A(1,5,1)

C(5,3,63)

6,5 42,53

C(5,3,6,3)

0
0

Elprocesocompletodefusionesseresumemedianteundendograma:

Eneldendogramapareceevidentequetenemosdosclusters,denominadosAyC.
Engeneral,sisecortaeldendogramamedianteunalneahorizontal(grficosiguiente),sedetermina
elnmerodeclustersenquesedivideelconjuntodeobjetos.
SantiagodelaFuenteFernndez

12

AnlisisdeConglomerados

Seobservaqueseobtienen2clusters.
Ahorabien,sisecortacomoenlafiguradeabajo,seobtendran3clusters:

Ladecisinsobreelnmeroptimodeclustersssubjetiva,especialmentecuandoseincrementael
nmerodeobjetospuessiseseleccionanpocos,losclustersresultantessonheterogneosy
artificiales,mientrasquesiseseleccionandemasiados,lainterpretacindelosmismossueleresultar
complicada.
SantiagodelaFuenteFernndez

13

AnlisisdeConglomerados

Paratomarunadecisinsobreelnmerodeclustersse
suelenrepresentarlosdistintospasosdelalgoritmoyla
distanciaalaqueseproducelafusin.
Enlosprimerospasoselsaltoenlasdistanciases
pequeo,mientrasqueenlosltimoselsaltoentrepasos
sermayor.Elpuntodecorteseraquelenelque
comienzanaproducirsesaltosbruscos.
Elsaltobruscoseproduceentrelospasos3y4elpunto
ptimoserel3,endondehaba2clusters.

Algunasvecessepresentaeldendogramayelgrficodeevolucindelasfusiones:

ALGORITMOSPARAELANLISISDECLUSTER:
DISTINTASFORMASDEMEDIRLADISTANCIAENTRECLUSTERS

Existendiversasformasdemedirladistanciaentreclustersqueproducendiferentesagrupacionesy
diferentesdendogramas.Noexisteuncriterioparaseleccionarcualdelosalgoritmosesmejor.La
decisinesnormalmentesubjetivaydependedelmtodoquemejorreflejelospropsitosdecada
estudioparticular.
Enprimerolugar,secomienzaconunaexposicingeneraldelosmtodosparacontinuarcon
expresionesparticularesdelosmismos:
) SidosobjetosogruposAyBsehanagrupado,ladistanciadegruposconotroobjetoCpuede
calcularsecomounafuncindelasdistanciasentrelostresobjetosogruposdelasiguiente
forma:

d(C , A + B) = 1 d(C , A) + 2 d(C , B) + 3 d(A , B) + 4 d(C , A) d(C , B)


donde i cons tantes ponderaci n .
Enlatablasiguientesemuestranlospesosparaalgunosdelosmtodosmscomunes.

SantiagodelaFuenteFernndez

14

AnlisisdeConglomerados

Mtodo
Saltomnimo
Saltomximo
Media
Centroide
Mediana
Ward
MtodoFlexible

1
1
2
1
2
nA
nA + nB
nA
nA + nB
1
2
nC + n A
nC + nA + nB
1
2

2
1
2
1
2
nB
nA + nB
nB
nA + nB
1
2

4
1

2
1
2

0
0
0

n C + nB
nC + n A + nB

nA nB
(nA + nB ) 2
1

0
0

nC
nC + n A + nB

1
2

donde nC , n A , nB denotanelnmerodeobjetosencadaunodelosgruposy esunvalorarbitrario

0<<1

MTODODELAMEDIA(AVERAGELINKAGE)

Enelmtododelamedia,ladistanciaentreclusterssecalculacomoladistanciamediaentrepares
deobservaciones,unadecadacluster.

1
2

1
2

d(C , A + B) = d(C , A) + d(C , B)


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

0
2

Despusdeagruparelobjeto1y2enelclusterA(12).
SecalculanlasdistanciasdeAa(3,4y5)
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

(5 + 4 ,5) / 2 = 4 ,75
(8,5 + 7,8) / 2 = 8,15
(7,2 + 6,7) / 2 = 6,95

distancia
4,75
8,15
6,95

Lamatrizdelasdistanciasesentonces:
SantiagodelaFuenteFernndez

15

AnlisisdeConglomerados

objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
4,75
8,15
6,95

Denuevo,ladistanciamspequeaesentre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
8,15
3,6

5
6,95
2,2

(8,15 + 6,95) / 2 = 7,55


(3,6 + 2,2) / 2 = 2,9

distancia
7,75
2,9

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
7,55
4,75

0
2,9

Elvalormspequeoes2,9,luegosefusionanBcon3formandoelclusterC(345).
SecalculaladistanciaentreCyA:
objetos
A(12)

3
4,75

4
8,15

5
6,95

(4 ,75 + 8,15 + 6,95) / 3 = 6,62

distancia
6,62

Lamatrizdelasdistanciases:
objetos
A
C

A
0
6,62

C
0

Elprocesotermina.Eldendogramaobtenido:

Enelprocesosehanutilizadonicamentelasdistancias,deformaqueparaesteprocedimientono
esnecesariodisponerdelosvaloresoriginalesdelasvariables.
Elmtododelasmediasproporcionaclustersnidemasiadograndesnipequeos,tendiendoa
fusionarclustersconvarianzaspequeasyaproporcionarclustersconlamismavarianza.

SantiagodelaFuenteFernndez

16

AnlisisdeConglomerados

MTODODELVECINOMSPRXIMO(AVERAGELINKAGE)

Enelmtododelvecinomsprximoladistanciaentredosclusterseselmnimodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.

d(C, A + B) = mn [d(C, A),d(C , B)]


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

distancia
4,5
7,8
6,7

mn(5, 4 ,5) = 4 ,5
mn(8,5, 7,8) = 7,8
mn(7,2, 6,7) = 6,7

Lamatrizdelasdistanciasesentonces:
objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
4,5
7,8
6,7

Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
7,8
3,6

5
6,7
2,2

mn(7,8, 6,7) = 6,7


mn(3,6, 2,2) = 2,2

distancia
6,7
2,2

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
6,7
4,5

0
2,2

Elvalormspequeoes2,2,luegosefusionanBcon3formandoelclusterC(3B).
SantiagodelaFuenteFernndez

17

AnlisisdeConglomerados

SecalculaladistanciaentreCyA:
objetos
A(12)

3
4,5

B(45)
6,7

mn(4 ,5, 6,7) = 4 ,5

distancia
4,5

Lamatrizdelasdistanciases:
objetos
A
C

A
0
4,5

C
0

Elprocesotermina.Eldendogramaobtenido:

Elmtododelvecinomsprximotiendeaconstruirclustersdemasiadograndesysinsentido.Es
tilparadetectaroutliers(estarnenlosltimosenunirsealajerarqua).Noestilpararesumir
datos.

MTODODELVECINOMSLEJANO(COMPLETELINKAGE)

Enelmtododelvecinomslejanoladistanciaentredosclusterseselmximodelasdistancias
entreunobjetodeunclusteryunobjetodelotro.

d(C, A + B) = mx [d(C, A),d(C, B)]


Sealamatrizdedistancias:
objetos
1
2
3
4
5

0
1
5
8,5
7,2

0
4 ,5
7,8
6,7

0
3,6
2,2

0
2

Ladistanciamspequeaes1,entre1y2,quesefusionanenelclusterA(12).
SecalculanlasdistanciasdeAa(3,4,5):
objetos
3
4
5

5
8,5
7,2

4 ,5
7,8
6,7

SantiagodelaFuenteFernndez

mx (5, 4 ,5) = 5
mx (8,5, 7,8) = 8,5
mx (7,2, 6,7) = 7,2

distancia
5
8,5
7,2

18

AnlisisdeConglomerados

Lamatrizdelasdistanciasesentonces:
objetos
A(12)
3
4
5

A(12)

0
3,6
2,2

0
5
8,5
7,2

Denuevo,ladistanciamspequeaes2,entre4y5,porloquesefusionanenunclusterB(45).
SecalculanlasdistanciasentreByelresto(Ay3):
objetos
A
3

4
8,5
3,6

5
7,2
2,2

mx (8,5, 7,2) = 8,5


mx (3,6, 2,2) = 3,6

distancia
8,5
3,6

Lamatrizdelasdistanciases:
objetos
A(12)
B(45)
3

A(12)

B(45)

0
0

8,5
5

3,6

Elvalormspequeoes3,6,luegosefusionanBcon3formandoelclusterC(3B).
SecalculaladistanciaentreCyA:
objetos
A(12)

3
5

B(45)
8,5

mn(8,5, 5) = 8,5

distancia
8,5

Lamatrizdelasdistanciases:
objetos
A
C

A
0
8,5

C
0

Elprocesotermina.Eldendogramaobtenido:

Elmtododelvecinomslejanotiendeaconstruirclustersdemasiadopequeosycompactos.Estil
paradetectaroutliers.

SantiagodelaFuenteFernndez

19

AnlisisdeConglomerados

ANLISISDECONGLOMERADOSJERRQUICOENSPSS
REQUISITOS Despusdedescribirlasvariables,secomienzaconunprimeranlisisdelainformacin
paraeliminarlainfluenciadecasosatpicos(Analizar/Estadsticosdescriptivos/Descriptivos),
observadosenGrficodeCaja(Analizar/Estadsticosdescriptivos/Explorar).
Dossolucionespermitensolventarelproblemadeloscasosatpicos:
(a) Cambiarlosdatosinicialesdelejemplopordatospromedio(porejemplo,nmerodesalasde
cinepormilhabitantes).
(b) Realizartransformacionesdeladistribucindedatos(enespecialcuandohayimposibilidadde
disponerdedatospromedio,obiencuandosehainvertidounagrancantidaddedineroen
conseguirlosdatosyespocofactibleotrarecogidadedatos),utilizandolaescalerade
transformacionesdeTukey.
) Laasimetrapositivasepuedecorregirseconracescuadradasylogaritmosnaturales
cuandotienenvaloresbajos,yconfuncionesinversasoinversoscuadrticoscuandolosvalores
sonelevados.Demenoramayorpotencia:larazcuadrada,latransformacinlogartmica,yel
negativodelinversodelarazcuadrada.
) Laasimetranegativasecorrigemedianteantilogaritmoscuandoesmuyelevada,ycon
elevacionescbicasycuadrticascuandoesmssuave.

PararealizarestastransformacionesenSPSS
[Transformar/Calcularvariable]

Traseliminarlainfluenciadeloscasosatpicos,antesdeprocederalAnlisisClusteres
necesariocomprobarhastaqupuntolosdatoscumplenlossupuestosdelanlisisdeclasificacin.
Sabemosqueesteanlisisestudialascaractersticasestructuralesdeunconjuntodeobservaciones
conelfindeagruparlasenconjuntoshomogneos,demodoquealnoserpropiamenteunatcnica
deinferenciaestadsticaapenastienenimportancialasexigenciasdenormalidad,linealidady
homocedasticidadtanimportantesenprocedimientosdeinferencia.
Sinembargo,unacorrectaaplicacindelAnlisisClusterrequierequelosdatoscumplantres
condicionesbsicas:
(a) Ausenciadecorrelacinentrelasvariables.
(b) Nmerodevariablesnomuyelevado.
(c) Quelasvariablesnoestnmedidasenunidadesdiferentes.
SantiagodelaFuenteFernndez

20

AnlisisdeConglomerados

(a)Laexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas)entrelasvariablesimplicaque
unasvariablessoncombinacioneslinealesdeotras,quecomparteninformacinconotrasvariables;
loqueimplicaqueestainformacincompartidatieneunamayorimportancia(ponderacin).
Adems,cuandolasvariablesestncorrelacionadassecorreelpeligrodeincluirinformacin
redundanteenelmodelo,algoquesedebeevitar(principiodeparsimonia).
Porestemotivoesimportantequeelinvestigadoranalicecuidadosamentelamatrizdecorrelaciones
antesdellevaracaboelAnlisisCluster,colocandounmismonmerodevariablesdecadatemtica
outilizandounamedida(comoladistanciadeMahalanobis)quecompenseestacorrelacin.Cuando
noexistecorrelacinentrevariablesestadistanciaessimilaraladistanciaeucldea.
Otrasolucinposible,cuandolasvariablesestncorrelacionadas,esaplicarunAnlisisFactorialque
reduzcatodoelconjuntodevariablesobservadasaunnmeromenordefactorescomunes
incorrelacionadosentres.Estemismoprocedimientopuedeutilizarsecuandoelnmerode
variablesutilizadasesmuyelevado.
(c)Elrequisitodequelasvariablesnoestnmedidasenunidadesdiferentessesolucionamediante
laestandarizacin(otipificacin)detodaslasunidadesatratar.Existeciertacontroversiasobresila
tipificacindebedeserunprocedimientoautilizarentodoanlisisdeconglomerados.
EntrelosautoresquenodefiendenelprocesodeestandarizacinEveritt(1993),Edelborck(1979)
sesostienetresposiblessolucionesparasolucionarelproblemadetenervariablescondistinta
unidad:(1)Recategorizartodaslasvariablesenvariablesbinarias,yaplicarastasunadistancia
apropiadaparaesetipodemedidas.(2)Realizardistintosanlisisdeclustercongruposdevariables
homogneas(encuantoasumtrica),ysintetizardespuslosdiferentesresultados.(3)Utilizarla
distanciadeGower,queesaplicableconcualquiertipodemtrica.
Pesealafaltadeacuerdoycantidaddealternativasquesurgenanteesteproblema,lamayorade
losexpertosaconsejanrealizarelanlisisconvariablesestandarizadas.

SantiagodelaFuenteFernndez

21

AnlisisdeConglomerados

DEFINICINDELPROBLEMAAINVESTIGAR.Elobjetivodelanlisisdeconglomeradoses
identificargruposhomogneosdecasosconsiderandounaseriedecriterios.
Losmtodosjerrquicossecaracterizanporquecomienzanconcasosindividualesquevansiendo
clasificadoshastaformarunnicoconglomerado.
Ejemplo1.EnlatablasepresentalaactividaddelassalasdeproyeccinporComunidades
Autnomas,datosINEde1998.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

CCAA

NCines

NPelculas

Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabra
Cast.Mancha
Cast.Len
Catalua
Valencia
Extremadura
Galicia
Madrid
Murcia
Navarra
PasVasco
LaRioja

448
76
55
68
94
26
211
102
585
300
69
166
474
88
37
171
22
2992

330
310
383
523
394
315
295
234
502
435
309
341
764
358
441
385
309
6.628

Nespectadores
Pelculas
Pelculas
Espaolas
Extranjeras
1380202
13976149
580526
3513294
207100
1524423
280851
2081987
345213
4056725
190540
1149257
1049698
5319556
404716
2406798
2179229
19324988
1267581
9849692
226139
1614986
570921
4465381
3188742
1926469
326445
2669391
245750
1403940
730241
5277214
120135
769674
13.294.029 81.329.924

Recaudacin
(milespesetas)
7709721
2370874
1000709
1496299
2288764
847231
3464668
1490303
14234196
6061359
912405
2680531
15282573
1647870
981839
3673712
526496
66.669.550

LoscasosaagruparsonlasComunidadesAutnomas(CCAA)yloscriteriospararealizaresta
agrupacinestnrelacionadosconlaactividaddeloscinesdurante1998.
Laactividadserefiere:alnmerodecines,nmerodepelculasproyectadas(ttulos),nmerode
espectadoresdepelculasespaolas,nmerodeespectadoresdepelculasextranjerasyrecaudacin
obtenidaenmilesdepesetas.
1.PRIMERANLISISDEINFORMACIN
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar.

SantiagodelaFuenteFernndez

22

AnlisisdeConglomerados

Elanlisisreflejaqueelnmerodecinesoscilaentre22delaRiojay585cinesdeCatalua,que
proporcionaunamediade176salasdecineporComunidadAutnoma.EncadaComunidadse
proyectaronunamediade390nuevaspelculas(ttulos),quefueronvistaspor94.623.953
(13.294.029+81.329.924) espectadores.Elnmeromediodeespectadoresdelaspelculas
extranjerasesmuysuperioraldepelculasespaolas;enestesentido,lacuotadepantalladelcine
espaolesdel14%(13.294.029/94.623.953).Deotraparte,los66.669.550milesdepesetas
recaudados,proporcionaungastomediode705pesetas.
Considerarlosnmerosabsolutos(totaldecines,depelculas,deespectadoresyderecaudacin)en
lugardelosnmerospromedioporhabitantegeneraquelasComunidadesconmshabitantes
tenganunmayorequipamiento,proyectenmsttulos,recibanmsespectadoresyconsiganmayor
recaudacin.Estehechogeneracasosatpicoscomoseobservaenelgrficodecajadelasvariables
analizadas(Analizar/Estadsticosdescriptivos/Explorar).

SantiagodelaFuenteFernndez

23

AnlisisdeConglomerados

Enelgrficoseobservacomoelnmerodecinespresentatrescasosatpicosidentificadosconlos
nmeros1(Andaluca),9(Catalua)y13(Madrid),quesonlasComunidadesconmayornmerode
cines.Anlogamente,tambinsepresentauncasoatpicoenelnmerodettulosestrenados,
identificadoconel13(Madrid).
Deotraparte,respectoalnmerodeespectadoresylarecaudacinobtenida,sereflejandenuevo
casosatpicosenlosnmeros1,9y13.

Lalocalizacindeloscasosatpicosenlapartesuperiordeladistribucinindicaquesetratade
distribucionesconasimetrapositiva(comosereflejaenlatabladeEstadsticosdescriptivos),
distribucionesquesernecesariosimetrizarantesdeaplicarelAnlisisCluster.

SantiagodelaFuenteFernndez

24

AnlisisdeConglomerados

Considerandolaescaleradelas
transformacionesdeTukey,laasimetra
positivasecorrigesustituyendolosdatos
recogidosporsurazcuadradaosulogaritmo,
enelcasodequelastransformaciones
proporcionenresultadosmuysimilaresseopta
porlamenospotente.
Enestecasoseoptaporrealizaruna
transformacinrazcuadradaalasvariablescon
valoresatpicos.Enestesentido,lasnuevas
variablestransformadassedenominanconel
mismonombreterminandoenR.
Trasdescribirlasvariablesyeliminarlainfluenciadeloscasosatpicos,antesdeprocederconel
AnlisisClusteresnecesariocomprobarhastaqupuntolosdatoscumplenconlossupuestosdel
anlisisdeclasificacin.UnacorrectaaplicacindelAnlisisClusterrequierequesecumplantres
requisitosbsicos:(a)Ausenciadecorrelacinentrelasvariables.(b)Nmerodevariablesnomuy
elevado.(c)Quelasvariablesnoseencuentrenmedidasenunidadesdiferentes.
(a)Silasvariablesseencuentrancorreladassecorreelpeligrodeincluirinformacinredundanteque
sedebeevitarentodomomento.Porestemotivoesimportanteanalizarlamatrizdecorrelaciones
antesdeproseguirconelestudio.Cuandoexistecorrelacinentrelasvariablesseutilizaunamedida
(distanciadeMahalanobis)paracompensarlacorrelacin.Cuandonoexistecorrelacinentre
variablesestadistanciaessimilaraladistanciaeucldea.
Paraanalizarlaexistenciadecorrelacin(Analizar/Correlaciones/Bivariadas):

SedetectaunaelevadarelacindelavariableRecaudacinconelrestodelasvariablesdelmodelo,
relacionessignificativasal0,01porloqueseprecedeaeliminarlasdelmodelo.Paraello,enlugarde
lavariableRecaudacinseutilizalavariableGastomedioporespectador.
(d) Lamtricadelasvariablessesolucionaestandarizando(otipificando)todaslasunidadesatratar.
[Analizar/Estadsticosdescriptivos/Descriptivos]
Lasvariablesguardadasestandarizadas
comienzanconlaletraZ:
ZCinesR,ZPeliculasR,ZPelis_EspaaR,
ZPelis_ExtranR,ZGasto_medio

SantiagodelaFuenteFernndez

25

AnlisisdeConglomerados

2.ANLISISDECLUSTERCONSPSS
LasComunidadesAutnomasespaolassernclasificadasconsiderandoelnmerodecines
(ZCinesR),elnmerodepelculasproyectadas(ZPeliculasR),elnmerodeespectadoresdepelculas
espaolas(ZPelis_EspaaR),elnmerodeespectadoresdepelculasextranjeras(ZPelis_ExtranR)yel
gastomedioporespectador(ZGasto_medio).

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

CCAA
Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabra
Cast.Mancha
Cast.Len
Catalua
Valencia
Extremadura
Galicia
Madrid
Murcia
Navarra
PasVasco
LaRioja

ZCinesR
1,5409
0,5340
0,7510
0,6126
0,3711
1,1372
0,4341
0,3037
2,0444
0,8999
0,6025
0,1604
1,6418
0,4235
0,9732
0,1925
1,2053

ZPeliculasR
0,4846
0,6803
0,0071
1,1620
0,1048
0,6308
0,8313
1,4890
0,9996
0,4575
0,6903
0,3795
2,8325
0,2203
0,5076
0,0250
0,6903

ZPelis_EspaaR
0,9484
0,0792
0,8428
0,6565
0,5132
0,8890
0,5744
0,3922
1,6984
0,8265
0,7919
0,0950
2,4686
0,5535
0,7417
0,1513
1,1128

ZPelis_ExtranR
1,8129
0,1008
0,7576
0,5438
0,0427
0,9245
0,3427
0,4324
2,4879
1,1969
0,7205
0,1443
0,6002
0,3478
0,8087
0,3333
1,1244

ZGasto_medio
1,7626
0,2651
0,6904
0,5767
0,2096
0,7609
0,1446
0,4959
2,8694
0,9994
0,6706
0,0954
0,0812
0,4627
0,7051
0,0795
0,8419

ParaefectuarunAnlisisClusterutilizandoSPSSseentraenAnalizar/Clasificar/

Haytresopcionesposibles:Conglomeradoendosfases/Conglomeradodekmedias/Conglomerados
jerrquicos.

SantiagodelaFuenteFernndez

26

AnlisisdeConglomerados

CONGLOMERADOENDOSFASES:Estpensadoparaanlisisconunnmerograndede
individuos,quepuedentenerproblemasdeclasificacinconotrosprocedimientos.
Tienelaparticularidadquepermitetrabajarconjuntamenteconvariablesdetipomixto
(cualitativasycuantitativas).
Puederealizarsecuandoelnmerodecluster(conglomerado)esconocidoaprioriy
tambincuandonoseconoce.

CONGLOMERADOSNOJERRQUICOS:Sepuedeaplicarsloavariablescuantitativasyrequiere
conocerelnmerodeconglomeradosapriori.
Puederealizarseparaunnmerodeobjetosrelativamentegrandepuesnorequiereelclculo
detodaslasposiblesdistancias.
CONGLOMERADOSJERRQUICOS:Seutilizaparavariablescuantitativasocualitativas.
Noseconoceelnmerodeconglomeradosaprioriycuandoelnmerodeobjetosnoesmuy
grande.
) SeoptaporConglomeradosjerrquicos

SecomienzapulsandoelbotnMtodoquees
elmsimportante,puestoquepermite
seleccionarelprocesodeagrupamiento,la
distanciaautilizar,yeltipodetransformacina
llevaracaboenelcasoqueseprecisealguna.

Elprocesocomienzaconlaeleccindela
distanciaaconsiderar,puestoqueelmtodode
agrupamientoserealizasobreestamatrizde
distancias.
Porello,losprimeroqueserealizaesmedirqu
gradodesimilitudodediferenciatienenloscasos
seleccionados.
Laeleccindelamedidadedistanciavaraen
funcindelamtricadelasvariablesutilizadas.

CLASIFICACINDELASPRINCIPALESMEDIDASDEDISTANCIA:

Jaccard
Rusel y Rao
Chi cuadrado

Variables Discretas
Datos Binarios
Phi cuadrado
Sokal y Sneath
Rogers y Tanimoto
SantiagodelaFuenteFernndez

27

AnlisisdeConglomerados

Distancia eucldea
Distancia eucldea al cuadrado

Coseno de vectores

Variables Continuas Correlacin de Pearson (asociacin)


Distancia mtrica de Chebynev

Bloque , Manhattan o City block


Distancia de Minkowski

Determinadalamedidadedistancia(Distanciaeucldeaalcuadrado)seprocedeaelegirelmtodo
deagrupamiento:

Vinculacinintergrupos
Vinculacinintragrupos
Vecinomsprximo
Vecinomslejano
Agrupacindecentroides
Agrupacindemedianas
MtododeWard

Vinculacinintergrupos(promedioentregrupos):Ladistanciaentrelosgruposeslamedia
aritmticadelasdistanciasexistentesentretodosloscomponentesdecadagrupo,consideradosdos
ados.Seconsiguengruposconvarianzassimilaresypequeas.
Vinculacinintragrupos(promediointragruposomediaponderada):Esunavariantedelanterior,
aunqueenestecasosecombinanlosgruposbuscandoqueladistanciapromediodentrodecada
conglomeradosealamenorposible.Asenlugardeconsiderarlosparesdeloselementosque
pertenecenacadaunodelosgrupos,seconsiderantodoslosparesresultantesencasodequelos
dosgruposseuniesen.
Vecinomsprximo(distanciasmnimas):Agrupaaloscasosqueseencuentranamenordistancia.
Unidosdoscasos,acontinuacinseformaeltercerconglomeradobuscandoladistanciamscorta
entrelostreselementos.Elproblemadeestemtodoesquesueleprovocarunefectolneaalunir
loscasosmscercanos,altiempoqueesmuysensiblealapresenciadecasosextremos.
Vecinomslejano(distanciasmximas):Similaralvecinomsprximo,aunqueaquseprocedea
unirloscasosqueseencuentranamayordistancia,siendounmtodomsrestrictivoqueel
anterior.Eliminaelefectolnea,aunquetambinesmuysensiblealapresenciadecasosextremos.
Agrupacindecentroides:Ladistanciaentredosgruposesladistanciaexistenteentresuscentrosde
gravedad(centroides).Elprocesocomienzacalculandoelcentrodegravedaddecadaconglomerado,
paraagruparlosconglomeradoscuyadistanciaentrecentroidesseamnima.Trasunirdos
conglomeradossecalculoelnuevocentrodegravedadyseprocededeformasimilar.Coneste
procedimientosereducelainfluenciadecasosextremos.
SantiagodelaFuenteFernndez

28

AnlisisdeConglomerados

Agrupacindemedianas:Esunavariacindelaagrupacindecentroides,dondenoseconsiderael
nmerodeindividuosqueformancadaunodelosagrupamientos.Enelmtodoanteriorsecalcula
elcentroideenfuncindelnmerodeindividuosdecadaconglomerado,demodoquecuandose
uneungranconglomerado(porejemplo10casos)conotromuypequeo(porejemplo2casos),este
ltimoapenasvaralasituacindelcentroideinicial.Enelmtododelamediananoseconsiderael
nmerodeelementosdecadaconglomerado,sinoelnmerodeconglomerados.
MtododeWard(omtododeprdidadelainerciamnima):Cuandoseunendosconglomerados,
conindependenciadelmtodoutilizado,lavarianzaaumenta.ElmtododeWarduneloscasos
buscandominimizarlavarianzadentrodecadagrupo.Paraellosecalcula,enprimerlugar,lamedia
detodaslasvariablesencadaconglomerado.Acontinuacin,secalculaladistanciaentrecadacaso
ylamediadelconglomerado,sumandodespuslasdistanciasentretodosloscasos.Posteriormente
seagrupanlosconglomeradosquegeneranmenosaumentosenlasumadelasdistanciasdentrode
cadaconglomerado.Esteprocedimientocreagruposhomogneosycontamaossimilares.

Sealarlanecesidaddeestandarizalasvariables
cuandoestnmedidasendistintasunidades.En
laparteinferiordelcuadrodedilogoaparece
unacmodaopcinparaefectuarestatarea,
realizandounatransformacindelosvalores
antesdeprocederconelclculodelasdistancias.
Enestecaso,seseleccionaNingunoporqueyase
hanestandarizadolosdatosutilizandolaopcin
Guardarvalorestipificadosaplicandolaopcin
Analizar/Estadsticosdescriptivos/Descriptivos

Porltimo,existelaposibilidaddetransformarlasmedidasdedistancia,pudiendoelegirentre:
Valoresabsolutos:Consideraelvalorabsolutodeladistancia,eliminandoelsigno.Interesante
cuandointeresalamagnituddeladistanciaynosusigno.
Cambiarelsigno:Transformamedidasdedistanciaenmedidasdesimilitud,yviceversa.
Cambiarescalaalrango01:estandarizalosvaloresrestandoelvalordeladistanciamenory
dividiendodespusentreelrango,consiguiendodeestaformaconvertirtodaslasmedidasal
rango01.

ElbotnEstadsticosfacilitaelcuadrodedilogo
adjunto.

SantiagodelaFuenteFernndez

29

AnlisisdeConglomerados

Historialdeconglomeracin:Presentaelprocesodeelaboracindelosagrupamientos,
mostrandoloscasos(ovariables)combinadosencadaetapayladistanciaentrecadauno.

Matrizdedistancias:Proporcionalasdistanciasosimilaridadesentreloscasos(ovariables).

Conglomeradodepertenencia:Indicaelconglomeradoalqueseasignacadacaso.El
investigadorpuedeseleccionarunasolucinnica,ounrangodesolucionesparaconocercmo
varalacomposicindelosgruposenfuncindelnmerofinaldeconglomerados.Eneste
ejemplosehaoptadoporlasegundaopcin,buscandoconocerelconglomeradode
pertenenciadecadaComunidadAutnomacuandosesolicitan3,4y5grupos.

ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenquese
producecadaagrupamiento.Eslarepresentacingrfica
delhistorialdeconglomeracinvistoenlaopcin
estadsticos,yproporcionainformacinmuyvaliosasobre
elnmerofinaldeconglomeradosaconservar.

Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
casosencadaconglomerado.Existelaposibilidaddemostrartodoslosconglomeradosoun
determinadorango.

ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.

EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelasComunidades
Autnomas,calculandolas

n(n 1)
medidasdeproximidadentrelos(n)casostomadosdedosen
2

dos.Enestecaso,elanlisisdelas17ComunidadesAutnomasproporciona136medidasde
distancia

17(17 1)
= 136
2

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaal
cuadrado(sumadelasdiferenciasalcuadradoentredoselementosdeunavariable).Considerando
laspuntuacionestransformadasestandarizadasmostradasalprincipiodelAnlisisdeCluster,la
distanciade13,173entreAndalucayAragnseobtienedelaexpresin:

D2 = [1,5409 (0,5340)] 2 + [ 0,4846 (0,0,6803)] 2 + [0,9484 (0,0792)] 2 +


+ [1,8129 (0,1008)] 2 + [1,7626 (0,2651)] 2 = 13,173

SantiagodelaFuenteFernndez

30

AnlisisdeConglomerados

LoscoeficientesdelamatrizdedistanciasindicanladistanciaentrelasComunidadesAutnomas
considerandolasvariablesdelanlisis,demodoquecuantomayorseaelcoeficienteentredos
Comunidadesexistirmayordistanciaentreellas,yenconsecuenciasernmsdiferentes.
Unanlisisdetalladodeloscoeficientesdelatablarevelaunagransimilitudenlaactividaddelos
cinesdeCantabrayLaRioja(conunadistanciade0,105).OtrasComunidadesconpautasparecidas
sonGaliciayPasVasco(conunadistanciade0,292).LasComunidadesmsdiferentesencuantoala
actividadcinematogrficasonCataluayCantabra(conunadistanciade44,3).
Convieneretenerestainformacinpararealizarunseguimientodelprocesodeformacindelos
agrupamientos,conlaayudadelHistorialdeAglomeracin,ascomosurepresentacingrfica
(Dendograma).ResaltarquelasComunidadesmssimilaressonCantabria(nmero6)yLaRioja
(nmero17),yporestosonlasprimerasqueseunenenelHistorialdeAglomeracin.

SantiagodelaFuenteFernndez

31

AnlisisdeConglomerados

SeobservaqueCantabria(6)yLaRioja(17)sonlasprimerasComunidadesqueseunenenel
HistorialdeAglomeracin.Delaltimacolumna(Prximaetapa)sedesprendequeesteprimer
agrupamientovolveraserutilizadoenlaetapa5.

Unavezrealizadoelprimerconglomerado,elprogramavuelvearecalcularunanuevamatrizde
distanciasentrelos16elementosrestantes,esdecirlos15elementosylaagrupacin
(CantabriaLaRioja).Esteprimerclustervolveraserutilizadoenlaetapa5.

EnlasegundaetapaseefectaunagrupamientoconlasComunidades12y16(Galicia,Pas
Vasco),aunadistanciade0,198.Estesegundoconglomerado(cluster)volveraserutilizadoen
laetapa7.

EnlaterceraetapaseunenlasComunidadesdeAsturias(3)yNavarra(15),aunadistanciade
0,355,estetercerclustervolveraserutilizadoenlaetapa8.

EnlacuartaetapaseproducelaunindeCanarias(5)yMurcia(14),aunadistanciade0,518,
clusterquevolveraserutilizadoenlaetapa6.

EnlanovenaetapaseproducelaunindeAndaluca(1)yValencia(10),aunadistanciade
3,586,clusterquevolveraserutilizadoenlaetapa13.

HastaahorasehatratadodeagrupamientossimplesformadospordosComunidades,peroes

posibletambinformarclustersconlaunindeagrupamientosanteriores.
-

Estoseproduceporprimeravezenlaetapa5,dondeelconglomerado6(Cantabria)quese
unial17(LaRioja)enlaprimeraetapaseunealconglomerado11(Extremadura).Demodo
queenestemomentoseproduceunagrupamientoentre(CantabriaLaRiojaExtremadura),a
unadistancia0,836,clusterquevolveraserutilizadoenlaetapa12.

SantiagodelaFuenteFernndez

32

AnlisisdeConglomerados

Enlaetapa6seunenlosconglomerados2(Aragn)y5(queseunial14enlacuartaetapa),
produciendoelagrupamiento(AragnCanariasMurcia),aunadistanciade1,250,cluster
queserutilizadodenuevoenlaetapa10.

Enlaetapa7seunenlosconglomerados7(CastillaLaMancha)y12(queseunial16enla
segundaetapa),produciendoelagrupamientoCastillaLaManchaGaliciaPasVasco,auna
distancia1,801,clusterquevolveraserutilizadoenlaetapa11.

Enlaetapa8seunenlosconglomerados3(Asturias)queseunialconglomerado15(Navarra)
enlaterceraetapay4(Baleares),produciendoelagrupamientoAsturiasNavarraBaleares,
aunadistancia2,448,clusterquevolveraserutilizadoenlaetapa12.

QUINTAYSEXTACOLUMNA:Parafacilitarlainterpretacin,elprogramaayudaarecordarestos
aspectosutilizandodoscolumnasdondeseindicalaetapaenlaqueelconglomeradohaaparecido
porprimeravez(5y6columna).
# Enlaetapa5conlaquintacolumna(Conglomerado1)apareceun1queindicaqueelprimer
conglomeradoqueseune,enestecasoel6,yaseutilizenlaprimeraetapa.Enlasextacolumna
(Conglomerado2)seindicaqueelsegundoconglomerado,enestecasoel0,noseutiliztodava.
# Enlaetapa6conlaquintacolumna(Conglomerado1)apareceun0queindicaqueelprimer
conglomeradonoseutiliztodava.Enlasextacolumna(Conglomerado2)apareceun4queindica
queelsegundoconglomeradoqueseune,enestecasoel5,yaseutilizenlacuartaetapa.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredos
Comunidades.Aslaposicindelalneaverticalrespectoalareglasituadaenlapartesuperior
indicaladistanciadondesehanrealizadolaunindedosgrupos,demodoquecuantomsala
derechaseproduzcaunaagrupacinexistirmsdiferenciaentreloscasos,formandogruposms
heterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiado
la'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
distanciasdelHistorialdeConglomeracinoscilaentre0,52y80.Esdecir,laamplituddelas
distancias(0,5280)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcada
amplitudpor0,3125.Respectoalanuevaescala,enladistancia3(9,388)seproduceelprimergran
incrementoenlasdistanciasparaunirse(AsturiasNavarraBaleares)con(CantabriaLaRioja
Extremadura).Enladistancia4(13,084)seunen(AndalucaValencia)conCatalua.Enladistancia
6,25(20,201)seunen(CanariasMurciaAragnCastilla_LenGaliciaPasVascoCastilla_La
Mancha)con(CantabraLaRiojaExtremaduraAsturiasNavarraBaleares).Estegran
aumentoconduceadetenerelprocesodeagrupamientoenladistancia67.

SantiagodelaFuenteFernndez

33

AnlisisdeConglomerados

ElobjetivoesagruparlasComunidadesconsiderandolaactividaddelassalasdecine,peronose
puedereducirtodasaunsologrupo,demodoqueserprecisodetenerelprocesodeagrupamiento
enunpuntodeterminado.
Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandes
distanciasdefinenconglomeradosheterogneos,esconvenientedetenerelprocesodeunin
cuandolaslneashorizontalesseanmuylargas.
Deteniendoelprocesoenladistancia15seobtendrandosconglomerados:unocon16
conglomeradosyotrocon1conglomerado;siseeligeladistancia7seformantresconglomerados;
mientrasquealhacerloconladistancia4seformarancuatroconglomerados.

TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.

SantiagodelaFuenteFernndez

34

AnlisisdeConglomerados

Setienelaclasificacinsiguiente:
Conglomerado1:Andaluca,Catalua,Valencia.
Conglomerado2:Aragn,Asturias,Baleares,
Canarias,Cantabra,Castilla_LaMancha,
Castilla_Len,Extremadura,Galicia,Murcia,
Navarra,PasVasco,LaRioja.
Conglomerado3:Madrid.

3.INTERPRETACINDELACLASIFICACIN
Elobjetivoesanalizarlosvaloresdelnmerodesalasdecine,nmerodepelculasproyectadas,etc,
enlostresconglomerados,yasdeterminarlasdiferenciasenlaspautascinematogrficasencada
unodelosagrupamientosdelasComunidadesAutnomas.

Paraelloseutilizalanuevavariabledondeserecoge
elconglomeradodepertenenciaacadaComunidad,
variableCLU3_1creadaenlaopcinGuardardel
AnlisisdeConglomerados.

Comosetratadevariablesmedidasaniveldeintervalosedebeutilizarelprocedimientoexplorar
conlavariableCLU3_1comofactor,olacomparacindemedias.
Analizar/Compararmedias/Medias
Enelcuadrodedilogodelacomparacindemedias,lasvariablesCines,Pelculas,Pelis_Espaa,
Pelis_ExtranyRecaudacinsecolocanenlaventanadeDependientes,ylavariableCLU3_1en
Independientes.

SantiagodelaFuenteFernndez

35

AnlisisdeConglomerados

ElbotnOpcionespermiteelegirlosestadsticosunivariantes,
aunqueenestecasosedejan:media,desviacintpica,mnimo,
mximo,nmerodecasosyporcentajedelasumatotal.

# Elprimerconglomerado,formadoportresComunidadesAutnomas,presentaunacuotade
pantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)del10%.Elgastomedio
porespectadoresde584pesetas.
# Elsegundoconglomerado,formadoportreceComunidadesAutnomas,destacaporelpequeo
nmerodesalasdecine(pordebajodelamedianacional),siendolaquemenospelculasestrena,
SantiagodelaFuenteFernndez

36

AnlisisdeConglomerados

presentaunacuotadepantalladepelculasespaolas(pelculasespaolas/totaldeespectadores)
del12,7%.Elgastomedioporespectadoresde563pesetas,elmsbajodetodoslos
conglomerados.
# Eltercerconglomerado,formadoporunaComunidadAutnoma,presentaunacuotadepantalla
depelculasespaolas(pelculasespaolas/totaldeespectadores)del6,2%,elmsbajodetodoslos
conglomerados.Elgastomedioporespectadoresde2988pesetas,elmsaltodelos
conglomerados.

SantiagodelaFuenteFernndez

37

AnlisisdeConglomerados

ANLISISDECONGLOMERADOSNOJERRQUICOSENSPSS
Elanlisisnojerrquico,adiferenciadelanlisisjerrquico,partedelamatrizoriginaldelas
puntuacionesynodelamatrizdeproximidades,ylosclustersresultantesnoestnanidadosunosen
otros,sinoquesonindependientes.Muchosautoresconsideranquelosmtodosnojerrquicossonlos
quemejorseadaptanalosestudiossociolgicosydemercadoscaracterizadosporelempleodegrandes
conjuntosdedatos.Enestesentido,seaconsejasuutilizacincuandosedesea,notantoanalizarla
estructurajerrquicadelosindividuos,sinoconocerelnmerodegruposconstruidosylas
caractersticasdecadauno.
Enmuchassituacionesconvienerealizarelanlisisdeconglomeradosnojerrquicoaplicando
puntuacionesfactoriales.Unadelasventajasdeutilizarpuntuacionesfactorialeseslafacilidadpara
conseguirquelosdatoscumplanlosrequisitosimprescindiblesparautilizarelAnlisisCluster.
Estosmtodoscalculanencadaetapalasdistanciasentreloscasosyelcentroidedelosconglomerados,
adiferenciadelosmtodosjerrquicosquecalculanlasdistanciasentretodoslosparesdeobjetos.
Sntesisdelasdiferenciasentrelosclustersjerrquicosynojerrquicos:
JERRQUICO
Noexigenunadefinicinpreviadelnmero
deconglomerados.

Llevanacabounprocesoiterativo,de
abajohaciaarribacon(n1)pasos,
partiendodengruposparaterminaren1
(aglomerativos).

NOJERRQUICO
Exigendefinirpreviamenteelnmerode
clusters.

Poseenalgunosndicesqueindicanel
nmeroptimodeconglomerados.

Permiteobtenerdistintostiposde
resultadosgrficosynumricosque
facilitanlainterpretacindelosresultados.

Proporcionanlosvaloresdeloscentroides
delosgrupos,loquefacilitala
interpretacin.

Precisanunagrancantidaddeclculos,que
enocasioneslimitalaposibilidadde
aplicacinconmuestrasmuygrandes.

Ofrecenresultadosadicionalesquepermiten
seleccionarlasvariablesparala
interpretacindelosconglomerados.

Puedenaplicarsesobreloscasosysobrelas
variables.

Slopuedenaplicarsesobrecasos.Dan
solucionesdetipoptimo.

Entrelosmtodosnojerrquicos,seutilizaelKmediassinespecificarloscentrosdelosconglomerados.
Concentrosdesconocidos,elmtodoKmediascomienzaconunadivisindelconjuntodelosdatosen
(x)gruposconfiguradosalazaryposteriormentebuscamejorarestaprimeraclasificacinreasignando
loselementosalcentroidedelclustermscercano,tratandodereducirladistanciamediaentrecada
elementodeungrupoysucentroide.Elprocesodefuncionamientodeestemtodoeselsiguiente:
1. Secomienzaconunaparticininicialdelosdatosenunespecificonmerodeagrupamientos,para
calcularposteriormenteelcentroidedecadauno.Estaparticininicialcomienzaconloscasosms
alejadosentres.
2. Elsiguientepasotratadereasignarcadacasoalagrupamientomscercano,aquelcuyadistanciaal
centrodegravedaddelconglomeradoseamenor.NohayqueolvidarqueenelmtododeK
medias,alformarpartedelosmtodosdereasignacin,uncasoasignadoaunconglomeradoen
unadeterminadaiteracinpuedeserreasignadoaotrocasoenunaiteracinposterior.

SantiagodelaFuenteFernndez

38

AnlisisdeConglomerados

3. Calculalosnuevoscentroidesdelosconglomeradoscadavezqueseincorporaunnuevocaso.
4. Repitealternativamenteelsegundoyeltercerpasohastaqueningunareasignacindeuncasoa
unnuevoclusterpermitareducirmsladistanciaentrelosindividuosdentrodecada
agrupamiento,niaumentarladistanciaentrelosdistintosclusters.

Ejemplo(InvestigacindeMercados).Sedeseasaberlaactituddelosconsumidorescuandosalende
compras,seleccionandounamuestraalazarpararesponderauncuestionario.Deacuerdoala
investigacinpreviaseseleccionanseisvariablesdeactitud,solicitandoalosentrevistadosque
expresasensugradodeacuerdoconlasafirmacionesexpuestas,seutilizaunaescaladesietepuntos.
Losdatosobtenidosenlamuestra:
V1
6
2
7
4
1
6
5
7
2
3
1
5
2
4
6
3
4
3
4
2

V2
4
3
2
6
3
4
3
3
4
5
3
4
2
6
5
5
4
7
6
3

V3
7
1
6
4
2
6
6
7
3
3
2
5
1
4
4
4
7
2
3
2

V1:Salirdecomprasesdivertido
V2:Salirdecomprasafectaalpresupuesto
V3:Combinarsalirdecomprasconcomida
fueradecasa

V4
3
4
4
5
2
3
3
4
3
6
3
4
5
6
2
6
2
6
7
4

V5
2
5
1
3
6
3
3
1
6
4
5
2
4
4
1
4
2
4
2
7

V6
3
4
3
6
4
4
4
4
3
6
3
4
4
7
4
7
5
3
7
2

V4:Salirdecompras,parahacerlasmejorescompras
V5:Nomeimportasalirdecompras
V6:Sepuedeahorrarmuchodinerosisecomparan
precios

OBJETIVO:Agruparconsumidoreshomogneosfrenteasuactitudhacialascompras.
MTODO:Sedesarrollaunanlisisjerrquicoynojerrquico(Kmedias).

SantiagodelaFuenteFernndez

39

AnlisisdeConglomerados

PRIMERANLISISDEINFORMACIN
Elanlisiscomienzaconunaprimeradescripcindelfenmenoainvestigar(investigacion
mercados.sav),observandosihaycasosatpicosenelgrficodecajadelasvariablesanalizadas
(Analizar/Estadsticosdescriptivos/Explorar)

Noselocalizaningncasoatpico

I.ANLISISDECLUSTERCONGLOMERADOSJERRQUICOSCONSPSS
ConlaopcinAnalizar/Clasificar/Conglomeradosjerrquicos.

Introducidaslasvariables(V1,V2,V3,V4,
V5,V6).
SecomienzapulsandoelbotnMtodo
queeselmsimportante,puestoque
permiteseleccionarelprocesode
agrupamiento,ladistanciaautilizar,yel
tipodetransformacinallevaracaboen
elcasoqueseprecisealguna.

SantiagodelaFuenteFernndez

40

AnlisisdeConglomerados

ElMtododeconglomeracinelegidoeselMtodo
deWard,lamedidadeladistancia(Distancia
eucldeaalcuadrado)

Wardpropusoquelaprdidadeinformacinqueseproducealintegrarlosdistintosindividuosen
clusterspuedemedirseatravsdelasumatotaldeloscuadradosdelasdesviacionesentrecadapunto
(individuo)ylamediadelclusterenelqueseintegra.
Paraqueelprocesodeclusterizacinresulteptimo,encadapasodelanlisis,consideralaposibilidad
delaunindecadapardegruposyoptarporlafusindeaquellosdosgruposquemenosincrementen
lasumadeloscuadradosdelasdesviacionesalunirse.
ElMtododeWardesunodelosmsutilizadosenlaprctica;poseecasitodaslasventajasdelMtodo
delaKmediasysuelesermsdiscriminativoenladeterminacindelosnivelesdeagrupacin.Una
investigacinllevadaacaboporKuiperyFisherprobqueestemtodoeracapazdeacertarmejorcon
laclasificacinptimaqueotrosmtodos(mnimo,mximo,mediaycentroide).

ElbotnGrficospermiteelegirentredostipos:
Dendograma:Grficodondesemuestraelprocesode
agrupamientoentreloscasosyladistanciaenqueseproduce
cadaagrupamiento.Eslarepresentacingrficadelhistorial
deconglomeracinvistoenlaopcinestadsticos,y
proporcionainformacinmuyvaliosasobreelnmerofinalde
conglomeradosaconservar.

Tmpanos:Presentaundiagramadetmpanosdondesemuestraelprocesodecombinacindelos
casosencadaconglomerado.Existelaposibilidaddemostrartodoslosconglomeradosoun
determinadorango.

ConlaopcinGuardarsecreanlasnuevas
variablesCLUS3_1,CLUS4_1yCLUS5_1.

EnelVisordeSPSScomienzaproporcionandolamatrizdedistanciasentrelosindividuos,calculandolas

n(n 1)
medidasdeproximidadentrelos(n)casostomadosdedosendos.
2

SantiagodelaFuenteFernndez

41

AnlisisdeConglomerados

Enestecaso,elanlisisdelosindividuosproporciona190medidasdedistancia

20 (20 1)
= 190
2

Enlatablasiguientesemuestranloscoeficienteselaboradosutilizandoladistanciaeucldeaalcuadrado
(sumadelasdiferenciasalcuadradoentredosindividuos).Porejemplo,ladistanciaentreelindividuo1
y6secalculara:
D2 (1,6) = [6 6] + [4 4 ] + [7 6] + [3 3] + [2 3] + [3 4 ] = 3
2

Seobservaqueelindividuomsprximoal1esel6,yelmslejanoesel20.
Losindividuosmsprximosentressonel6conel7,el10conel16,yel14conel16,todosconuna
distanciaentreellosdedosunidades.

SantiagodelaFuenteFernndez

42

AnlisisdeConglomerados

Separtede20conglomerados
formadoscadaunoporunindividuo.

Enlaprimeraetapaseunenel
conglomeradoformadoporel
individuo14conelformadopor
el16.Elcoeficiente(1)indica
unamedidaenladispersindel
clusterformado.

Enlasegundaetapaseunenel
conglomeradoformadoporel
individuo6conelformadoporel
7.Elcoeficiente(2)indicauna
medidaenladispersindel
clusterformado.

COLUMNAS56(Etapaenlaqueelconglomeradoapareceporprimeravez)

Conglomerado1:EslaetapaenlaqueelobjetodelacolumnaConglomerado1seuneconalguien
porprimeravez.Sabemosqueelindividuo6seuneconel7enlasegundaetapa,yvolveraunirse
conotroelementoenlaetapa7(reflejadoenlaCOLUMNA7).
Enlaetapa7seunenlosindividuos6y12,yaelindividuo6sehabaunidoporprimeravezenla
etapa2conelindividuo7.

Conglomerado2:LomismoperoparalosobjetosdelascolumnasConglomerado2.

PRXIMAETAPA:Etapaenlaqueloselementosunidosenlaetapaactualseunenconalgnotro.

Seobservaqueenlaetapa1seunenlosindividuos14y16,seunirnconel10enlaetapa6yno
antes(comosereflejaenlaCOLUMNA7).

Estediagramadetmpanospermitevercomosehanidouniendolosindividuosetapaaetapa.Seleede
abajoaarriba.Elnmerodefilarepresentaelnmerodeconglomeradosquehayenesemomento.
SantiagodelaFuenteFernndez

43

AnlisisdeConglomerados

Porejemplo,enlaetapa1,con19conglomeradosseunieronlosindividuos14y16,poresoapareceuna
cruzdeuninentreesosdosindividuos,losdemsnoestnconectados.
Enlaetapa2,con18conglomerados,ademsdelosanteriores(14,16)seunieronel6yel7,aparece
unacruzdeuninentreestosindividuos,losdemsestndesconectados.
Enlaetapa3,con17conglomerados,ademsdelosindividuos14,16,6y7,seunieronel2yel13,
apareciendoconectados,yassucesivamentehastaque,enlaltimaetapacon1conglomeradotodos
estnunidos.
DENDOGRAMA:Lalecturaserealizadeizquierdaaderecha,yensuinterioraparecenlneas
horizontalesyverticales,utilizandoestasltimasparaindicarelpuntodeuninentredosComunidades.
Aslaposicindelalneaverticalrespectoalareglasituadaenlapartesuperiorindicaladistancia
dondesehanrealizadolaunindedosgrupos,demodoquecuantomsaladerechaseproduzcauna
agrupacinexistirmsdiferenciaentreloscasos,formandogruposmsheterogneos.
Enlaregladelapartesuperiormuestraladistanciaentrelosagrupamientos,sibiensehacambiadola
'escala'delasdistanciasaunosvaloresqueoscilanentre0y25,mientrasquelaamplituddelas
distanciasdelHistorialdeConglomeracinoscilaentre1y329.Esdecir,laamplituddelasdistancias(1
329)secalculaparaadoptarlaalaescala(025)bastaconmultiplicarcadaamplitudpor0,075.
Respectoalanuevaescala,enladistancia172,667(12,95)seproduceelprimergranincrementoenlas
distancias.Estegranaumentoconduceadetenerelprocesodeagrupamientoenladistancia1213.

SantiagodelaFuenteFernndez

44

AnlisisdeConglomerados

Considerandoquedistanciaspequeasindicanconglomeradoshomogneosyquegrandesdistancias
definenconglomeradosheterogneos,esconvenientedetenerelprocesodeunincuandolaslneas
horizontalesseanmuylargas.
Deteniendoelprocesoenladistancia16seobtendrandosconglomerados:unocon18conglomerados
yotrocon1conglomerado;siseeligeladistancia13seformantresconglomerados.
Paraconfirmarelnmeroaconsejabledeclusterstambinsepuederealizarotrogrfico.Paraello,se
creaunficherodedatosconloscoeficientesdelatablaHistorialdeconglomeracin,introducidosde
mayoramenor(desdedebajodelatablahaciaarriba).
Posteriormente,enelmenGrficos/Generadordegrficos/Lnea,enelejedeordenadasseintroduce
lavariableCoeficientesyenelejedeabscisaslaEtapa.

Elejedeabscisasrepresentaelnmero
deconglomeradosencadamomento.
Seobservauncambiosignificativoenel
perfilcontresconglomerados,conlo
quesedecidepararelprocesocon3
conglomerados.

SantiagodelaFuenteFernndez

45

AnlisisdeConglomerados

TraselDENDOGRAMAelprogramaofrecela
composicindecadaunodelosconglomerados,
presentandoelrangodesolucionessolicitadoenel
cuadrodeEstadsticos,quemuestratres,cuatroy
cincoconglomerados.
Segnloexpuesto,lasolucinptimaeslaque
presentatresconglomerados.

Comosepuedeobservar,setienenlossiguientes
conglomerados:

Conglomerado1 = {1, 3, 6, 7, 8, 12, 15, 17 }

Conglomerado2 = {2, 5, 9, 7, 11, 13, 20 }

Conglomerado3 = {4 , 10, 14 , 16, 18, 19 }

Todoslosconglomeradostienenuntamaosignificativo.Si
algunodeelloshubieraquedadoconslounoodos
elementoshabraquereconsiderarlaeleccinsobreel
nmeroapropiadodeconglomerados.

SantiagodelaFuenteFernndez

46

AnlisisdeConglomerados

INTERPRETACINDELACLASIFICACIN
DesdeelmenAnalizar/Compararmedias/Mediasserealizaunresumendescriptivosobreestos
conglomerados.Introduciendocomovariablesdependientes(V1,V2,V3,V4,V5,V6)ycomovariable
independiente(CLU3_1)generadoporelsistemaenlafaseanterior.Seobtendrunatablaconlamedia,
desviacintpicayelnmerodeelementosdecadacluster.

SantiagodelaFuenteFernndez

47

AnlisisdeConglomerados

Loscentroidesdelosclustersson:
Centroide(Cluster1): ( 5,75, 3,63, 6,00, 3,13, 1,88, 3,88 )
Centroide(Cluster2): (1,67, 3,00, 1,83, 3,50, 5,50, 3,33)
Centroide(Cluster3): ( 3,50, 5,83, 3,33, 6 ,00, 3,50, 6,00 )

Losvaloresmediosdelasvariablesencadagrupo(centroide)ayudanadefinirelperfildelosclusters:
-

ElCluster1estformadoporcompradoresquesepodranclasificarcomodivertidosypreocupados
(puntuacionesaltasenV1yV3).

ElCluster2quedaformadoporcompradoresquepodranclasificarsecomoapticos(puntuaciones
bajasenV1V3,yaltasenV5).

ElCluster3quedaformadoporcompradoresahorrativos(puntuacionesaltasenV2,V4,yV6).

Paracompararresultadosposterioresconprocedimientosnojerrquicossecreaunficheroconlos

centroidesdelostresclustersobtenidos(centrosinvestigacionmercados.sav).
Laprimeravariableindicandoelnmerodecadaclusterdebellamarsenecesariamentecluster_

SantiagodelaFuenteFernndez

48

AnlisisdeConglomerados

II.ANLISISDECLUSTERCONGLOMERADOSNOJERRQUICOSCONSPSS

Enestaventanaelprogramaofrecedos
posibilidadespararealizarelagrupamiento:

Iteraryclasificar:Actualizaloscentrosde
losconglomeradosdeformaiterativa.Se
utilizapararealizarunanlisisclusterde
nubesdinmicas.

Soloclasificar:Clasificaloscasosen
funcindelosclustersespecificados
previamente(mtododeloscentroides).

Alaizquierda,elnmerodeconglomeradospor
defecto(queson2).
HaydosformasdiferentesdeprocederutilizandoonoelbotninferiorizquierdaCentrosde
conglomerados.Encasodeactivarse,seutilizaelmtododeloscentroidesalespecificarloscentros
inicialesdelosconglomerados.Paraellodebecontarseconunarchivoquecontengalosvaloresdelos
centrosdeconglomerados(centrosinvestigacionmercados.sav).
MTODO:ACTIVARCENTROSDELOSCONGLOMERADOS.Separtedecentrosinicialesde
conglomerados(analizadosconmtodojerrquico).

SantiagodelaFuenteFernndez

49

AnlisisdeConglomerados

MarcandoCentrosdeconglomeradosse
despliegaundilogocondosbotones:

Leeriniciales:Indicaelarchivodedatos
dondeestnloscentrosdelos
conglomerados,deformaquealmarcar
laopcinelbotnArchivodedatos
externocambiadecolorparaquese
indiqueelnombredelarchivoconlos
centrosdelosconglomerados.

Escribirfinales:Teniendoelficherode
datosoriginalesactivo,enestefichero
secreanlasnuevasvariablesQCL_1
(nmeroinicialdecasos)yQCL_2
(Distanciadelcasodesdesucentro)

CuandoseconocenloscentrosdelosconglomeradosdebemarcarselaopcinSloclasificardentrode
laopcinMtodo.
Enlaparteinferiorhaydosbotones:GuardaryOpciones.

ElbotnOpcionespresentauncuadradodivididoendospartes.Enlapartesuperior(Estadsticos)se
puedeelegirCentrosdeconglomeradosiniciales(antesdelaiteracin),elConglomeradodepertenencia
decadacaso,altiempoqueelaboraunaTabladeANOVAparaconocersilasmediasdecadavariableen
cadaunodelosconglomeradosdifierensignificativamente.
Enlaparteinferior,lasposibilidadesdetratamientodelosvaloresperdidos:permitiendoelegirentre
eliminarcasosconvaloresperdidosencadapardevariables(Excluircasossegnpareja),oexcluir
aqullosconvaloresperdidosencualquiervariable(Excluircasossegnlista).

ANLISISDELOSRESULTADOS

Aparecenlosvaloresmediosdelasvariablesdecada
conglomerado(centroide)quesehafacilitadoconel
fichero(centrosinvestigacionmercados.sav).

SantiagodelaFuenteFernndez

50

AnlisisdeConglomerados

Unavezquesetienenlosvaloresmediosdelasvariablesde
cadaconglomerado(centroide),secalculaladistanciadecada
individuoacadaconglomeradoyseleasignaaquelcuya
distanciaeucldeaalcentroidedelconglomeradoseamenor.
Finalmente,serecalculanloscentroidedelosnuevosclusters:

Enestecaso,loscentroidesdelosclustersnohancambiado
respectoalosinicialesobtenidosenelprocedimiento
jerrquico,puestampocohavariadolacomposicinalestar
formadosporlosmismosindividuos.
Conocidosloscentrosdelosconglomerados,esinteresanteconocerelgradodediferenciaentreellos
considerandoladistanciaentreloscentroides.ElmtodoKmediasutilizaladistanciaeucldeapara
calcularlasdistancias.

Lamediacuadrtica(variabilidad)
entregruposapareceenlasegunda
columnaylamediacuadrticadentro
decadagrupoenlacuartacolumna.

Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo (29,108 / 0 ,608 = 47,888) ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
SantiagodelaFuenteFernndez

51

AnlisisdeConglomerados

conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
diferentesconglomerados.Encualquiercaso,suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.

MTODO:NOACTIVARCENTROSDELOSCONGLOMERADOS

) Nmeromximodeiteracionesquepuederealizarel
anlisisensusclculos.Pordefectoaparecen10,
aunquepuedecolocarseunnmeroentre1y999.
) Uncriteriodeconvergenciade0,porejemplo,indicaqueelprocesosedetienecuandounaiteracin
nologredesplazarloscentrosinicialesenunadistanciasuperiora0deladistanciamenorentre
cualquieradeloscentrosiniciales.
Altratarsedeunaproporcinestevaloroscilaentre01,ycuantomspequeoseaelcriteriose
realizarnmsiteraciones.
) Usarmedidasactualizadas,realizandounaactualizacindeloscentroidesdelosconglomeradostras
laasignacindecadacasoaunconglomerado.
Cuandoseseleccionaestaopcinloscentrosdelosconglomeradossecalculantraslaasignacinde
todosloscasos.

SantiagodelaFuenteFernndez

52

AnlisisdeConglomerados

ANLISISDELOSRESULTADOS

EnlosCentrosinicialesdelosconglomeradossemuestranlasestimacionesinicialesdeloscentrosde
cadacluster.SealarqueelprocedimientoKmediasconcentrosdesconocidoscomienzaconuna
particininicialdelosdatosenunespecficonmerodeagrupamientos,tresenestecaso,paraelegir
comocentroidesinicialesaquelloscasosquetenganunadistanciamximaentreellos.Estosvalores
sernutilizadoscomoestimadoresiniciales.
Acontinuacin,secalculanlaspuntuacionesdelrestodeloscasosquesernunidosalagrupamiento
mscercano,aquelcuyadistanciaeucldeaalcentroidedelconglomeradoseamenor.Cadavezqueun
nuevocasoesincluidoenunclustervuelvearecalcularseelcentroidedelcluster.Elprocesoserepite
alternativamentehastaqueningunareasignacindeuncasoaunnuevogrupopermitereducirla
distanciaentrelosindividuosdecadaagrupamiento.
Recordarqueestemtodopermitequeuncasoasignadoaunconglomeradoenunadeterminada
iteracinpuedeserreasignadoaotroconglomeradoenunaiteracinposterior.
EnlatablaHistorialdeiteracionesseaprecianloscambiosenloscentrosdelosconglomeradosfrutode
esteprocesoiterativo.

Seobservaquetampocohavariadolacomposicindelos
clustersrespectoalosprocedimientosanteriores,sealaral
grupoqueantesllamaConglomerado1ahoralollama
Conglomerado3,perolacomposicineslamisma.
Cuandotodosloscasoshansidoasignadosseobtienenlos
centrosdelosconglomeradosfinales,resultantesdelamedia
delosindividuosencadaunadelasvariablesconsideradas.

SantiagodelaFuenteFernndez

53

AnlisisdeConglomerados

Loscentroidesrecalculadosvuelvenaserlosmismosqueenlosotrosanlisis.

Lamediacuadrtica(variabilidad)entre
gruposapareceenlasegundacolumnay
lamediacuadrtica(variabilidad)dentro
decadagrupoenlacuartacolumna.

Elratioentreambasmediassepresentaenlasextacolumna,deformaquelosaltosvaloresdel
estadsticoFindicanquelavariabilidadentrelosgruposesmuchomayorquelavariabilidaddentrode
cadagrupo (29,108 / 0 ,608 = 47,888) ,indicandoquelosconglomeradoselaboradosson
homogneos.
Apesardelosresultadosobtenidos,hayquetenerprudenciaensuinterpretacinpuestoqueelpropio
programaadviertequeestetestnicamentedebeutilizarseconunafinalidaddescriptiva,queyalos
conglomeradoshansidopreviamenteelegidosparamaximizarlasdiferenciasentreloscasosen
diferentesconglomerados.Encualquiercaso,suutilizacinfacilitavalorarlarelevanciadelasvariables
seleccionadasycompararlasdiferentesagrupaciones.

Finalmente,seobservaquelostresprocedimientosconducenalos
mismosresultados.

Enlatablasiguienteaparecenademsdelasvariablesutilizadasenelanlisis,lassiguientesvariables
creadasporSPSSconelmtododeKmedias:

SantiagodelaFuenteFernndez

54

AnlisisdeConglomerados

QCL_1:Pertenenciaalcluster.

QCL_2:Distanciadecadaindividuoaloscentroidesfinales.

SantiagodelaFuenteFernndez

55

You might also like