You are on page 1of 19

Fakultas Ilmu Komputer Universitas Indonesia

2009
Klasifikasi Dokumen
Menggunakan Algoritma
Nave Bayes dengan
Penambahan Parameter
Probabilitas Parent
Category
Bayu Distiawan Trisedya - 0906644511


Hardinal Jais 0806444530

i

Daftar Isi

Daftar Isi ......................................................................................................................................................... i
Klasifikasi Dokumen ...................................................................................................................................... 1
Nave Bayes ................................................................................................................................................... 2
Inovasi ........................................................................................................................................................... 4
Hasil Eksperimen dan Analisa ....................................................................................................................... 9
Kesimpulan dan Saran ................................................................................................................................. 16



1

Klasifikasi Dokumen
Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang
dimilikinya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena
manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Sebuah
dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat
yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen
memiliki makna tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen
tersebut. Perhatikan beberapa kalimat berikut ini:
1. Harga minyak kembali bertahan di atas 67 dollar AS per barrel menjelang penutupan transaksi di
bursa komoditas New York Exchange. [Ekonomi, Kompas 24 Oktober 2008]
2. Sony Dwi Kuncoro serta ganda putera Muhammad Ahsan/Bona Septano menyusul dua ganda
campuran Indoensia lolos ke final turnamen Jepang Terbuka Super Series. [Olahraga, Kompas 20
September 2008]
3. Timbulnya beberapa wabah penyakit ketika musim penghujan tiba berkaitan erat dengan
kerusakan kualitas lingkungan. [Kesehatan, Kompas 4 November 2008]
Pada kalimat (1) terdapat kata harga dan dollar. Kata-kata tersebut memiliki keterkaitan erat
dengan masalah ekonomi, sehingga dapat disimpulkan bahwa kalimat (1) membahas masalah ekonomi.
Kalimat (2) memiliki kata final dan turnamen. Dari kata-kata tersebut akan muncul dugaan bahwa
kalimat (2) sedang membahas masalah olahraga. Terakhir, pada kalimat (3) terdapat kata wabah dan
penyakit yang menunjukkan bahwa kalimat tersebut membahas bidang kesehatan.
Kata harga yang terdapat pada dokumen lain belum dapat dijadikan sebagai patokan bahwa
dokumen lain tersebut membahas mengenai ekonomi. Apabila dokumen lain tersebut memiliki kata-
kata lain yang mengarahkan pada pembahasan ekonomi secara bersamaan, maka dapat disimpulkan
bahwa dokumen tersebut membahas mengenai ekonomi. Untuk dapat menentukan kategori dari
sebuah dokumen haruslah dilihat semua kata-kata yang terkait pada dokumen tersebut.
Manfaat dari klasifikasi dokumen adalah untuk pengorganisasian dokumen. Dengan jumlah
dokumen yang sangat besar, untuk mencari sebuah dokumen akan lebih mudah apabila kumpulan
dokumen yang dimiliki terorganisir dan telah dikelompokkan sesuai kategorinya masing-masing. Contoh
aplikasi penggunaan klasifikasi dokumen teks yang banyak digunakan adalah e-mail spam filtering. Pada
2

aplikasi spam filtering sebuah e-mail diklasifikasikan apakah e-mail tersebut termasuk spam atau tidak
dengan memperhatikan kata-kata yang terdapat di dalam e-mail tersebut. Aplikasi ini telah digunakan
oleh banyak e-mail provider.
Nave Bayes
Nave Bayes merupakan salah satu metode machine learning yang menggunakan perhitungan
probabilitas. Konsep dasar yang digunakan oleh Nave bayes adalah Teorema Bayes, yaitu melakukan
klasifikasi dengan melakukan perhitungan nilai probabilitas ( | ) i j p C c D d = = , yaitu probabilitas
kategori c
i
jika diketahui dokumen d
j
. Klasifikasi dilakukan untuk mementukan kategori

c c C dari suatu
dokumen d c D dimana C = {c
1
, c
2
, c
3
, , c
i
} dan D = {d
1
, d
2
, d
3
, , d
j
}. Penentuan dari kategori sebuah
dokumen dilakukan dengan mencari nilai maksimum dari ( | ) i j p C c D d = = pada P={ ( | ) i j p C c D d = =
| c c C dan d c D}. Nilai probabilitas ( | ) i j p C c D d = = dapat dihitung dengan persamaan (Mitchell,
2005):
( )
( | )
( )
i j
i j
j
P C c D d
p C c D d
P D d
= =
= = =
=


( | ) ( )
( )
j i i
j
p D d C c p C c
p D d
= = =
=
=

dengan ( | ) j i p D d C c = = merupakan nilai probabilitas dari kemunculan dokumen d
j
jika diketahui
dokemen tersebut berkategori c
i
, ( ) i p C c = adalah nilai probabilitas kemunculan kategori c
i
, dan
( ) j p D d = adalah nilai probabilitas kemunculan dokumen d
j
.
Nave Bayes menganggap sebuah dokumen sebagai kumpulan dari kata-kata yang menyusun
dokumen tersebut, dan tidak memperhatikan urutan kemunculan kata pada dokumen. Sehingga
perhitungan probabilitas ( | ) j i p D d C c = = dapat dianggap sebagai hasil perkalian dari probabilitas
kemunculan kata-kata pada dokumen d
j
. Perhitungan probabilitas ( | ) i j p C c D d = = dapat dituliskan
sebagai berikut:
1 2 3
( | ) ( )
( | )
( , , ,..., ,... )
k i i
k
i j
k n
p w C c p C c
p C c D d
p w w w w w
= =
= = =
[

3

dengan ( | ) k i
k
p w C c =
[
adalah hasil perkalian dari probabilitas kemunculan semua kata pada
dokumen d
j
.
Proses klasifikasi dilakukan dengan membuat model probabilistik dari dokumen training, yaitu
dengan menghitung nilai ( | ) k p w c . Untuk w
kj
diskrit dengan w
kj
c V = {v
1
, v
2
, v
3
, , v
m
} maka ( | ) k p w c
dicari untuk seluruh kemungkinan nilai w
kj
dan didapatkan dengan melakukan perhitungan (Mitchell,
2005):
, ( )
( | )
( )
b k kj
k kj
b
D w w c
p w w c
D c
=
= =
dan
( )
( )
| |
b D c
p c
D
=
dengan , ( ) b k kj D w w c = adalah fungsi yang mengembalikan jumlah dokumen b pada kategori c yang
memiliki nilai kata w
k
= w
kj
, ( ) b D c adalah fungsi yang mengembalikan jumlah dokumen b yang memiliki
kategori c, dan |D| adalah jumlah seluruh training dokumen. Persamaan , ( ) b k kj D w w c = sering kali
dikombinasikan dengan Laplacian Smoothing untuk mencegah persamaan mendapatkan nilai 0, yang
dapat menggangu hasil klasifikasi secara keseluruhan. Sehingga persamaan , ( ) b k kj D w w c = dituliskan
sebagai (Mitchell, 2005):
, ( ) 1
( | )
( ) | |
b k kj
k kj
b
D w w c
p w w c
D c V
= +
= =
+

dengan |V| merupakan jumlah kemungkinan nilai dari w
kj
.
Pemberian kategori dari sebuah dokumen dilakukan dengan memilih nilai c yang memiliki nilai
( | ) i j p C c D d = = maksimum, dan dinyatakan dengan:
* argmax ( | ) ( ) k
c C
k
c p p w c p c
e
=
[

Kategori c* merupakan kategori yang memiliki nilai ( | ) i j p C c D d = = maksimum. Nilai ( ) j p D d =
tidak mempengaruhi perbandingan karena untuk setiap kategori nilainya akan sama. Berikut ini
gambaran proses klasifikasi dengan algoritma Nave Bayes:
4



Gambar 1. Tahapan Proses Klasifikasi Dokumen dengan Algoritma Nave Bayes

Inovasi
Klasifikasi dokumen biasanya dilakukan dengan menggunakan jumlah kategori yang cukup
besar. Diantara kategori-kategori yang ada biasanya dapat dikelompokkan lagi ke dalam kategori-
kategori yang lebih umum yang memiliki domain yang sama, atau dapat disebut sebagai parent
category. Diantara kategori-kategori yang memiliki domain yang sama banyak terdapat fitur-fitur yang
sama yang menunjukkan ciri dari parent category-nya tersebut. Banyaknya fitur-fitur yang saling
beririsan tersebut membuat jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang sama
sangat besar. Untuk lebih jelasnya, perhatikan contoh berikut ini:

Dokumen Kategori Fitur (Kemunculan)
dokumen1 Football Football(3), game(2), shoot(1)
dokumen2 Football Football(3), manager(2), pinalty(1)
dokumen3 Tennis Roger(2), Federer(2), win(1)
5

dokumen4 Tennis Maria(2), Sharapova(2), win(1)
dokumen5 Computer game Football(3), game(1), computer(2)
dokumen6 Computer game Formulaone(3), game(1), computer(2)
dokumen7 Operating system Windows(2), memory(1), computer(2)
dokumen8 Operating system Linux(2), disk(1), computer(2)
dokumen9 ? Football(1), memory(1), manager(1), computer(1)

dengan persamaan:
, ( ) 1
( | )
( ) | |
kj i
kj i
i
f w c
p w c
f c W
+
=
+

, ( ) kj i f w c adalah nilai kemunculan kata w
kj
pada kategori c
i

( ) i f c adalah jumlah keseluruhan kata pada kategori c
i
|W| adalah jumlah keseluruhan kata/fitur yang digunakan

dan
( )
( )
| |
d i
i
f c
p c
D
=
( ) d i f c adalah jumlah dokumen yang memiliki kategori c
i

|D| adalah jumlah seluruh training dokumen
dibentuk sebuah model probabilistik:

Kategori p(ci) p(wkj|ci)
computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows
Football

1/28 1/28 7/28 1/28 3/28 1/28 3/28 1/28 2/28 1/28 1/28 2/28 1/28 1/28 1/28 1/28
Tennis

1/26 3/26 1/26 1/26 1/26 1/26 1/26 3/26 1/26 3/26 3/26 1/26 1/26 1/26 3/28 1/26
Computer game

5/28 1/28 4/28 4/28 3/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28 1/28
Operating system

5/26 1/26 1/26 1/26 1/26 3/26 1/26 1/26 1/26 1/26 1/26 1/26 2/26 2/26 1/26 3/26



Penentuan kategori untuk dokumen9:
* argmax ( | ) ( ) i
i
kj i
c C
k
c p w c p c
e
=
[

6

p(football|dokumen9)= p(football) x p(football| football) x p(memory| football) x p(manager|
football) x p(computer| football)
=
1
/
4
x

7
/
28
x
1
/
28
x
3
/
28
x
1
/
28
=
21
/
2458645
8,5141 x 10
-6

p(tennis|dokumen9)= p(tennis) x p(football| tennis) x p(memory| tennis) x p(manager| tennis)
x p(computer| tennis)
=
1
/
4
x

1
/
26
x
1
/
26
x
1
/
26
x
1
/
26
=
1
/
1827904
5,4707 x 10
-7

p(computer game|dokumen9)= p(computer game) x p(football| computer game) x p(memory| computer
game) x p(manager| computer game) x p(computer| computer game)
=
1
/
4
x

4
/
28
x
1
/
28
x
1
/
28
x
5
/
28
=
20
/
2458645
8,1346 x 10
-6

p(operating system|dokumen9)= p(operating system) x p(football| operating system) x p(memory|
operating system) x p(manager| operating system) x p(computer| operating
system)
=
1
/
4
x

1
/
26
x
2
/
26
x
1
/
26
x
1
/
26
=
2
/
1827904
1,094 x 10
-6

Secara intuitif, kita dapat menentukan bahwa kategori dokumen9 adalah computer game,
namun dari perhitungan metode nave bayes dokumen9 diklasifikasikan ke kategori football. Pada
perhitungan tersebut, dokumen9 diklasifikasikan ke dalam kategori football karena prior probability dari
ketegori computer game kurang memiliki informasi general mengenai computer yang relevansinya
dengan kategori computer game cukup besar. Dalam hal ini sebagai contoh fitur disk yang dimiliki oleh
dokumen9 yang sebenarnya dapat diidentifikasi bila kita melihat kumpulan dokumen ke dalam
kelompok-kelompok yang lebih general. Oleh karena itu, pada tugas machine learning kali ini akan
7

dilakukan klasifikasi dokumen menggunakan metode nave bayes dengan menambahkan nilai prior
probability dari parent category dari masing-masing kategori spesifiknya. Berikut ilustrasinya:
General Kategori p(ci) p(wkj|ci)
computer federer football formulaone game linux manager maria pinalty roger sharapova shoot disk memory win windows
Sports

1/38 3/38 7/38 1/38 3/38 1/38 3/38 3/38 2/38 3/38 3/38 2/38 1/38 1/38 3/38 1/38
Computer

9/38 1/38 4/38 4/38 3/38 3/38 1/38 1/38 1/38 1/38 1/38 1/38 2/38 2/38 1/38 3/38

p(sports|dokumen9)= p(sports) x p(football| sports) x p(memory| sports) x p(manager|
sports) x p(computer| sports)
=
1
/
2
x

7
/
38
x
1
/
38
x
3
/
38
x
1
/
38
=
21
/
4170272
5,0356 x 10
-6

p(computer|dokumen9)= p(computer) x p(football| computer) x p(memory| computer) x
p(manager| computer) x p(computer| computer)
=
1
/
2
x

4
/
38
x
2
/
38
x
1
/
38
x
9
/
38
=
72
/
4170272
1,7265 x 10
-5


sehingga untuk menentukan kategori dilakukan perhitungan:
p(football|dokumen9)* = p(football|dokumen9) x p(sports|dokumen9)
=
21
/
2458645
x
21
/
4170272
= 441/1,0253 x 10
13
4,3010 x 10
-11

p(tennis|dokumen9)* = p(tennis|dokumen9) x p(sports|dokumen9)
=
1
/
1827904
x
21
/
4170272
= 21/7,6228 x 10
12
2,7548 x 10
-12


p(computer game|dokumen9)* = p(computer game|dokumen9) x p(computer|dokumen9)
8

=
20
/
2458645
x
72
/
4170272
= 1440/1,0253 x 10
13
1,4044 x 10
-10

p(opeating system|dokumen9)* = p(opertaing system|dokumen9) x p(computer|dokumen9)
=
2
/
1827904
x
72
/
4170272
= 144/1,0253 x 10
13
1,4044 x 10
-11

dari perhitungan tersebut maka dokumen9 diklasifikasikan ke kategori computer game.
Penambahan prior probability dari parent category dengan menggunakan algoritma Nave Bayes
ini mirip dengan penambahan unlabeled documents pada klasifikasi dokumen menggunakan algoritma
Expectation Maximization. Pada klasifikasi dokumen menggunakan algoritma Expectation Maximization
hasil klasifikasi diperbaiki dengan memperkaya fitur-fitur yang dimiliki sebuah kategori yang belum
tercakup pada labeled document dengan persamaan sebagai berikut:
| |
1
( | ) ( | ) ( | ; ) ( | ) ( | ; ) i i
j l j u
C
i j i j
i d D d D
p D p C c p d C c p c p d c 0 0 0 0 0
= e e
= = =
[ [

Proses klasifikasi dokumen dengan menambahkan prior probability dari parent category
bertujuan untuk menambahkan fitur-fitur yang dimiliki sebuah kategori dengan memanfaatkan fitur dari
kategori lain yang masih dalam satu domain. Proses tersebut mirip dengan penambahan fitur dari
unlabeled documents dari algoritma Expectation Maximization, sehingga bagian kedua dari persamaaan
algoritma Expectation Maximization
| |
1
( | ) ( | ; ) digantikan ( | ) ( | ; ) i i
j u j p
C
i j i j
i d D d D
p c p d c p C c p d C c 0 0 0 0
= e e
= =
[ [
,
maka persamaan klasifikasi dokumen dengan menambahkan prior prbability dari parent category dapat
dituliskan sebagai berikut:
( | ) ( | ) ( | ; ) ( | ) ( | ; ) i i
j l j p
i j i j
d D d D
p D p C c p d C c p C c p d C c 0 0 0 0 0
e e
= = = = =
[ [

Dengan memperhatikan hal-hal tersebut maka diharapkan inovasi yang dilakukan ini dapat
meningkatkan akurasi dari klasifikasi dokumen dengan memperkecil kesalahan klasifikasi antar kategori
yang memiliki domain yang berbeda.

9

Hasil Eksperimen dan Analisa
Untuk menguji hipotesis bahwa dengan penambahan parameter prior probability dari parent
category akan meningkatkan akurasi klasifikasi dokumen, maka dilakukan percobaan klasifikasi
dokumen. Percobaan ini dilakukan dengan menggunakan program yang dibuat dengan memanfaatkan
library WEKA 3.5.7 yang didapat dari http://www.cs.waikato.ac.nz/~ml/weka/. WEKA merupakan
kumpulan algoritma machine learning yang ditulis dalam bahasa pemrograman Java.
Data yang digunakan dalam percobaan ini adalah dataset 20Newsgroups dataset dari
http://people.csail.mit.edu/jrennie/20Newsgroups/. Data ini berupa kumpulan e-mail yang memiliki 20
buah kategori. Dokumen e-mail yang terdapat pada 20Newsgroups dataset yang digunakan pada
percobaan ini merupakan dokumen-dokumen yang telah dihilangkan tag header-nya. Jumlah
keseluruhan dokumen yang digunakan mencapai 18828 dokumen.
Data akan direpresentasikan ke dalam term-document matrix. Term documents matrix
marupakan representasi kumpulan dokumen yang akan digunakan untuk melakukan proses klasifikasi
dokumen teks. Pada term documents matrix, sebuah dokumen direpresentasikan sebagai kumpulan fitur
dan dapat diilustrasikan sebagai d
j
= [w
1j
, w
2j
, , w
kj
] dengan d
j
merupakan dokumen ke-j dan w
kj

merupakan nilai kemunculan fitur ke-k pada dokumen d
j
. Matriks ini akan berisi nilai-nilai kemunculan
fitur. Jenis fitur yang akan digunakan pada percobaan ini adalah jenis fitur frekuensi. Jenis fitur frekuensi
akan menyimpan nilai frekuensi kemunculan fitur pada sebuah dokumen.
Untuk menghilangkan bias data, pada percobaan ini dilakukan k-fold cross validation. Pada
percobaan ini digunakan 3 buah fold. Satu buah fold digunakan untuk testing documents, sedangkan dua
fold lainnya digunakan untuk training documents.
Percobaan pertama dilakukan dengan menggunakan 10000 fitur. Jumlah dokumen training yang
digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh
menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat
meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai
0,81%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.
10


Gambar 2. Hasil Klasifikasi Dokumen Menggunakan 10000 Fitur

Percobaan pertama dilakukan dengan menggunakan 20000 fitur. Jumlah dokumen training yang
digunakan bervariasi mulai dari 500 dokumen hingga 10000 dokumen. Hasil yang diperoleh
menunjukkan bahwa dengan menambahkan parameter prior probability dari parent category dapat
meningkatkan hasil klasifikasi dokumen teks. Rata-rata peningkatan akurasi klasifikasi dapat mencapai
0,79%. Berikut grafik hasil klasifikasi dokumen menggunakan 10000 fitur.


Gambar 3. Hasil Klasifikasi Dokumen Menggunakan 20000 Fitur
11

Pada percobaan kedua rata-rata peningkatan akurasi klasifikasi yang didapatkan lebih rendah.
Hal ini disebabkan oleh fitur-fitur spesifik dari sebuah kategori sudah masuk ke dalam daftar fitur yang
digunakan, sehingga klasifikasi menggunakan algoritma Nave Bayes biasa telah memberi hasil yang baik.
Namun dengan menambahkan jumlah fitur yang besar akan meningkatkan proses komputasi sehingga
proses klasifikasi dokumen menjadi jauh lebih lama.
Dari dua hasil yang diperoleh tersebut dapat disimpulkan bahwa dengan menambahkan
parameter pror probability dari parent category dapat meningkatkan hasil klasifikasi dokumen dengan
memperkecil jumlah kesalahan klasifikasi antar kategori yang memiliki domain yang berbeda. Dari
proses klasifikasi dokumen dengan menggunakan parameter prior probability dari parent category
didapatkan beberapa jenis kesalahan klasifikasi sebagai berikut:
x = Kelas hasil klasifikasi Nave Bayes biasa.
y = Kelas hasil klasifikasi Nave Bayes dengan penambahan parameter parent probability.

1. Kesalahan dari kelas x ke kelas y, dimana parent(x) == parent(y), parent(realTopic) != parent(x)
dan parent(realTopic) != parent(y)
2. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)
dan parent(realTopic) != parent(y)
Dari kesalahan 1 dan 2 didapatkan kesalahan ini terjadi ketika distribusi probabilitas sebuah
dokumen merata untuk setiap kategori. Dari hasil tersebut diperoleh bahwa penambahan fitur
dari parent category tidak mempengaruhi hasil klasifikasi dokumen-dokumen tersebut.
3. Kesalahan dari kelas x ke kelas y, dimana parent(x) != parent(y), parent(realTopic) != parent(x)
dan parent(realTopic) == parent(y). Dari hasil ini diperoleh bahwa penambahan parameter
probabilitas parent category memberikan hasil yang cukup baik, ditunjukkan dengan beralihnya
kesalahan klasifikasi menuju ke kategori yang memiliki domain dama dengan kategori aslinya.
4. Kesalahan dari kelas x ke kelas y, dimana realTopic == x dan realTopic != y. Artinya dokumen-
dokumen yang diklasifikasikan benar dengan Naive Bayes biasa menjadi salah diklasifikasikan
dengan menggunakan penambahan parameter parent probability. Kesalahan klasifikasi ini
dipengaruhi jumlah fitur yang digunakan dalam merepresentasikan term document matrix.
Semakin banyak jumlah fitur yang digunakan, maka kesalahan yang muncul akan semakin
sedikit. Hal ini diakibatkan karena pemilihan fitur diurutkan berdasarkan frekuensi kemunculan
12

fitur pada kumpulan dokumen yang digunakan. Semakin sedikit fitur yang digunakan maka
semakin sedikit spesifik fitur yang dimiliki oleh sebuah kategori dan parentnya, sehingga
semakin besar kemungkinan sebuah dokumen memiliki fitur-fitur yang beririsan antara parent
category, sehingga tidak didapatkan gambaran umum yang baik dari sebuah dokumen. Dengan
memperbesar jumlah fitur yang digunakan maka fitur-fitur spesifik yang ada pada sebuah
kategori dapat tercakup, sehingga dapat mengurangi kesalahan klasifikasi ini. Untuk lebih
jelasnya perhatikan gambar berikut ini:

Gambar 4. a) Distribusi Fitur pada Penggunaan 10000 Fitur b) Distribusi Fitur pada Penggunaan 20000 Fitur

Untuk menggambarkan decision boundary dari hasil klasifikasi Nave Bayes biasa dan Nave
Bayes dengan penambahan parameter prior probability dari parent category maka digunakan n-
dimensional density function sebagai berikut:
1
1 1
( ) ( ) ( ) ln ln2 ln ( )
2 2 2
T
j j j j j
j
n
y X X X K X X K P C t

= +

Untuk memperjelas decision boundary maka digunakan dua buah kelas, yaitu kelas dokumen
yang diklasifikasikan benar dan kelas dokumen yang diklasifikasikan salah, sehingga persamaannya
menjadi dapat dituliskan sebagai berikut:
1
1 1
( ) ( ) ( ) ln ln 2 ln ( )
2 2 2
T
b b b b b
b
n
y X X X K X X K P C t

= +

1
1 1
( ) ( ) ( ) ln ln 2 ln ( )
2 2 2
T
s s s s s
s
n
y X X X K X X K P C t

= +

a b
13

Untuk menggambarkan decision boundary dari kedua kelas tersebut maka dilakukan kombinasi
antara dua buah diskriminan tersebut ( ) ( ) ( ) s b y X y X y X = , sehingga persamaan decision boundary
dari Nave Bayes diturunkan menjadi:
1 1
1 1 1 ( )
( ) ( ) ( ) ( ) ( ) ln ln
2 2 2 ( )
b
b
T T
b b s s
b s
s s
K
P C
y X X X K X X X X K X X
K P C

= +
Dari persamaan tersebut bisa muncul tiga buah kemungkinan decision boundary yang terbentuk.
Kemungkinan pertama adalah jika matriks kovarians yang dibentuk adalah
2
i
K I o = , maka:
2
2
2
2
0 0 0
0 ... 0
0 ... ... ...
0 0 ...
d
i
K
o
o
o
o
(
(
(
= =
(
(


1 2
(1/ )
i
I o

=
2
independen untuk setiap fitur i
i
I o =
Penurunan rumusan matematisnya adalah sebagai berikut:
Nilai
1
ln dan ln 2
2 2
i
n
K t
dapat diabaikan karena akan konstan, maka
2
2
|| ||
( ) ln ( )
2
i
i i
X X
y X P C
o

= +
, dengan
2
|| || ( ) ( )
T
i X X X X X X =
2
1
( ) [ 2 ] ln ( )
2
T T T
i i
i i i
y X X X X X X X P C
o
= + +
, dengan
T
X X konstan

0
( )
T
i
i i i
y X w X w = + (linear discriminant)
Dimana
2
1
i i
w X
o
=
dan
0 2
1
ln ( )
2
T
i i i i
w X X P C
o
= +

Kemungkinan kedua adalah jika matriks kovarians yang dibentuk kovarians yang terbentuk acak
namun nilainya sama untuk semuafitur yang ada
i
K K = , maka fitur-fitur tersebut akan membentuk
14

hyper-ellipsoidal clusters dengan ukuran dan bentuk yang sama. Untuk kasus ini decision boundary yang
dibentuk adalah linier namun masih belum dapat menentukan decision region-nya.
Penurunan rumusan matematisnya adalah sebagai berikut:
Nilai
1
ln dan ln 2
2 2
i
n
K t
dapat diabaikan karena akan konstan, maka
1
1
( ) ( ) ( ) ln ( )
2
T
i i
i i
y X X X K X X P C

= +

0
( )
T
i
i i i
y X w X w = + (linear discriminant)
Dimana
1
i i
w K X

= dan
1
0
1
ln ( )
2
T
i i i i
w X K X P C

= +


Kemungkinan ketiga seperti yang diperoleh pada percobaan ini adalah dimana kovarians yang
terbentuk nilainya acak dan memiliki nilai yang berbeda-beda untuk tiap-tiap kategori yang ada. Dalam
kasus ini decision boundary yang terbentuk adalah hyperquadratics (hyperplanes, pasangan
hyperplanes, hyperspheres, hyperellipsoids, hyperparaboloids, hyperhyperboloids). Decision boundary
yang terbentuk telah dapat memisahkan region dari masing-masing kategori.
Penurunan rumusan matematisnya adalah sebagai berikut:
Nilai
ln 2
2
n
t
dapat diabaikan karena akan konstan, maka
0
( )
T
i
i i i
y X X WX w X w = + + (quadratic discriminant)
Dimana
1
1
2
i i
W K

=
,
1
i i
w K X

= dan
1
0
1 1
ln | | ln ( )
2 2
T
i i i i i
w X K X K P C

= +

Penjelasan diatas juga menambahkan pengetahuan kita mengenai penambahan jumlah fitur akan
memperkecil rata-rata peningkatan akurasi. Karena dengan menambahkan jumlah fitur yang digunakan
untuk menggambarkan sebuah kategori, maka nilai kovarian dari masing-masing kategori akan semakin
15

kecil sehingga membuat decision boundary yang terbentuk makin mempersempit decision region dari
masing-masing kategori yang ada sehingga dengan nave bayes biasa sudah memberikan akurasi yang
cukup baik dan penambahan parameter prior probability dari parent category hanya memberi sedikit
informasi tambahan dari fitur-fitur parent category nya. Hal tersebut dapat dicapai dengan
memaksimalkan nilai Maximum Likelihood Estimation dengan penambahan parameter prior probability
dari parent category sebgai berikut:
1
( | ) ( | )
n
i
i
p D p x 0 0
=
=
[
,
i
x adalah fitur-fitur yang digunakan dalam model probabilistik Nave
Bayes. Untuk memaksimalkan ( | ) p D 0 , maka:
( | ) 0 p D
0
0 V = , untuk mempermudah perhitungan maka digunakan ln ( | ) p D 0
ln ( | ) 0 p D
0
0 V =
1
ln ( | ) 0
n
k
i
p x
0
0
=
V =

argmax ln ( | ) p D
0
0 0 = , untuk meyakinkan bahwa penambahan fitur dapat memperkecil
kovarians, maka digunakan distribusi gausian sebagai berikut:
1
1 1
ln ( | ) ( ) ( ) ln 2 ln | |
2 2 2
T
i i i
n
p x x K x K t

= , dengan gradien
1
ln ( | ) ( )
i i
p x K x
0

V = , untuk mendapatkan nilai optimum, maka ln ( | ) 0


i
p x
0
V =
1
1
( ) 0
n
i
i
K x

=
=

, maka
1
1

n
i
i
x
n

=
=

, maka semakin banyak fitur yang berkorelasi dengan sebuah kategori akan
memperbesar nilai sehingga decision region yang terbentuk semakin optimal.
Dilihat dari nilai kovarians probabilitas hasil klasifikasi dokumen, didapatkan hasil bahwa nilai
kovarians dari Nave Bayes biasa lebih besar daripada nilai kovarians yang diperoleh dari algoritma Nave
Bayes dengan penambahan parameter prior probability dari parent category. Hal ini menunjukkan
bahwa probabilitas yang didapatkan dengan penambahan parameter prior probability dari parent
16

category lebih stabil dan presisi, dan menghasilkan decision boundary yang lebih baik. Dari hasil tersebut
juga meunjukkan bahwa terdapat keterkaitan antara fitur-fitur dari category dengan parent category-
nya sehingga dapat memberikan informasi fitur tambahan yang diperlukan. Berikut gambaran decision
boundary dari dua buah metode yang digunakan:



Gambar 5. a) Decision Boundary dari Metode Nave Bayes Biasa b) Decision Boundary dari Metode Nave
dengan Penambahan Parameter Prior Probability dari Parent Category



Kesimpulan dan Saran
Dari hasil yang diperoleh dapat ditarik beberapa kesimpulan sebagai berikut:
1. Penambahan parameter prior probability dari parent category dapat meningkatkan akurasi
klasifikasi dokumen teks dengan mengurangi kesalahan klasifikasi antar dokumen yang memiliki
domain yang berbeda.
2. Dengan penambahan parameter prior probability dari parent category dimungkinkan terjadi
kesalahan klasifikasi dimana pada penggunaan metode Nave Bayes biasa diklasifikasikan benar
a b
17

menjadi salah diklasifikasikan apabila menggunakan penambahan parameter prior probability
dari parent categor. Walaupun jumlah kesalahan ini sangat kecil, namun dapat mempengaruhi
hasil klasifikasi secara keseluruhan. Hal ini dapat dikurangi dengan penambahan jumlah fitur
yang digunakan untuk membangun model probabilistik yang ada.
Saran yang mungkin dapat dipertimbangkan untuk pengembangan metode klasifikasi dokumen teks
selanjutnya antara lain:
1. Mempergunakan berbagai macam jenis fitur seperti TF-IDF, frequency normalized dan lain
sebagainya, karena pada eksperimen ini hanya digunakan satu jenis fitur saja, yaitu jenis fitur
frekuensi.
2. Mempergunakan metode hierarchical document classification untuk melihat sisi lain dari
pengaruh penggunaan parameter prior probability dari parent category.

You might also like