Professional Documents
Culture Documents
yudi@upi.edu
Okt 2012
Contoh
Cluster Analysis?
Cluster: kumpulan objek data
Anggota cluster yang sama memiliki kemiripan satu sama lain, tetapi
berbeda dengan anggota cluster lain.
Cluster analysis
Menemukan kemiripan data berdasarkan karakteristik dan
mengelompokan data yang mirip ke dalam cluster.
Pemrosesan gambar
yang tinggi.
Tata kota: Identifikasi rumah-rumah berdasrkan tipe,
harga dan lokasi.
Ukuran Kesamaan
Kesamaan/kemiripan diukur berdasarkan fungsi jarak,
d(i, j)
Definisi distance functions bisanya sangat berbeda untuk
interval-scaled, boolean, categorical, ordinal ratio, and
vector variables.
Bobot diasosiasikan dengan aplikasi dan arti data.
Sulit untuk mendefinsikan cukup sama or cukup
bagus karena subyektif.
Requirement Clustering
Scalability untuk data dalam jumlah besar
Struktur Data
Data matrix
(two modes)
Dissimilarity matrix
(one mode)
x11
...
x
i1
...
x
n1
... x1f
... ...
...
xif
...
...
... xnf
... x1p
... ...
... xip
... ...
... xnp
d(2,1)
d(3,1) d ( 3,2) 0
:
:
:
Interval-Scaled Variable
Skala linear (bukan eksponensial, bukan
logaritimik)
Positif atau negatif, pecahan atau bulat.
Tinggi badan, berat badan, jarak dst.
Contoh:
jarak 50m ke 100m sama dengan jarak 150200.
http://www.sdgs.usd.edu/publications/maps/earthquakes/images/RichterScale.gif
Interval Variable
Jika ada beberapa atribut dan punya
distribusi berbeda: perlu distandardkan.
Buat data menjadi standard, z-score:
Hitung mean absolute deviation:
sf 1
n (| x1 f m f | | x2 f m f | ... | xnf m f |)
dimana
m f 1n (x1 f x2 f
...
xnf )
Mengapa z-score?
Tidak bisa membandingkan atribut dengan
distribusi berbeda.
Contoh:
Seseorang mendapatkan nilai 70 untuk bhs
Inggris (rata2 kelas: 60, std deviasi: 15). Dia
mendapat nilai 72 untuk matematika (rata2:
68, std deviasi: 6). Nilai mana yang lebih
baik?
Lanj
z-score nilai bhs Inggris:
(70-60) /15 = 0.67
Jarak antara
Interval-Scaled Variable
similarity atau dissimilarity antar dua objek:
jarak kedua objek
Yang populer: Minkowski distance:
d (i, j) q (| x x |q | x x |q ... | x x |q )
i1
j1
i2
j2
ip
jp
q : integer positif
If q = 1, d is Manhattan distance
d (i, j) | x x | | x x | ... | x x |
i1 j1
i2
j2
ip
jp
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,j) d(i,k) + d(k,j)
Variabel Binary
Object j
A contingency table
Object i
1
0
sum
a
c
b
d
a b
cd
sum a c b d
Jarak untuk symmetric binary
d (i, j)
variables:
Jarak untuk asymmetric binary
variables:
Jaccard coefficient (similarity
measure untuk asymmetric
binary variables):
d (i, j)
bc
a bc d
bc
a bc
simJaccard (i, j)
a
a b c
Contoh
Name
Jack
Mary
Jim
Gender
M
F
M
Fever
Y
Y
Y
Cough
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Test-3
N
P
N
01
0.33
2 01
11
d ( jack , jim )
0.67
111
1 2
d ( jim, m ary)
0.75
11 2
d ( jack , m ary)
Test-4
N
N
N
Nominal Variabel
Dapat memiliki > 2 states: red, yellow, blue,
green
Method 1: Simple matching
m: jumlah cocok, p: jumlah variabel
m
d (i, j) p
Method 2: banyak binary variables
Buat binary variable sebanyak states
Ordinal
Dapat discrete atau continuous
rif {1,...,M f }
zif
if
M f 1
Ratio-Scaled Variables
Ratio-scaled variable: nilai positif dengan
skala nonlinear (exponential scale) seperti
AeBt or Ae-Bt
Cara:
Gunakan logarithmic transformation
yif = log(xif)
Pelakukan sebagai continuous ordinal data
Campuran
Database dapat mengandung semua tipe:
symmetric binary, asymmetric binary, nominal, ordinal,
interval and ratio
pf 1 ij( f ) dij( f )
d (i, j)
pf 1 ij( f )
Pendekatan Clustering
Partisi :
Buat partisi dan evaluasi berdasarkan kriteria tertentu, misalnya
meminimalkan sum of square errors
Metode: k-means, k-medoids, CLARANS
Hirarkis:
Buat struktur hierarchical menggunakan kriteria tertentu
Metode: Diana, Agnes, BIRCH, ROCK, CAMELEON
Density-based :
Berdasarkan connectivity dan density functions
Metode: DBSACN, OPTICS, DenClue
Contoh K-Means
Anda diminta mencluster 8 point berikut:
A1(2, 10), A2(2, 5), A3(8, 4), B1(5, 8),
B2(7, 5), B3(6, 4), C1(1, 2), C2(4, 9).
gunakan K-Means dengan euclidean
distance. Asumsikan A2, B2 dan C2
sebagai inisial cluster untuk cluster A, B
dan C. Tampilkan perhitungan dan isi
cluster (termasuk centroid cluster yang
dihitung dengan rata-rata).
Contoh K-Means
A1 cluster A
d ( A1, A) (| 2 2 | |10 5|
d ( A1, A) 5
A3 cluster A, d(A3,A) =
B1 cluster A, d(B1,A) =
B3 cluster A, d(B3,A) =
C1 cluster A, d(C1,A) =
Contoh K-Means:
10
10
10
9
8
7
6
5
4
4
3
2
1
0
0
K=2
Arbitrarily choose K
object as initial
cluster center
10
Assign
each
objects
to most
similar
center
3
2
1
0
0
10
Update
the
cluster
means
4
3
2
1
0
0
reassign
10
4
3
2
1
0
1
10
reassign
10
10
Update
the
cluster
means
4
3
2
1
0
0
10
K-Medoids
Kelemahan utama centroid jika ada
outlier posisi centroid akan terpengaruhi.
Centroid diganti Modoids salah satu
data dipilih sebagai titik tengah
10
10
Arbitrary
choose k
object as
initial
medoids
7
6
5
4
3
2
7
6
5
4
3
2
1
0
0
10
10
Assign
each
remainin
g object
to
nearest
medoids
7
6
5
4
3
2
1
0
0
K=2
Until no
change
10
Randomly select a
nonmedoid object,Oramdom
Total Cost = 26
Do loop
10
10
Compute
total cost of
swapping
Swapping O
and Oramdom
If quality is
improved.
7
6
8
7
6
0
0
10
10