Professional Documents
Culture Documents
NPM: 0906593750
Universitas Indonesia
Mei 2011
Daftar isi
Daftar gambar
Daftar isi....................................................................................................................................2
Daftar gambar............................................................................................................................2
1. Pendahuluan...........................................................................................................................1
3. Penambangan teks..................................................................................................................3
Daftar pustaka...........................................................................................................................ii
Indeks.......................................................................................................................................iii
1. Pendahuluan
Penambangan teks (text mining) berkembang dari kebutuhan untuk memproses data tak
terstruktur (unstructured data) dalam bentuk teks. Penambangan teks diturunkan dari
penambangan data (data mining) dan karenanya banyak memiliki kesamaan metode dalam
penerapannya. Penambangan teks juga memiliki ketergantungan erat dengan bidang
pemrosesan bahasa alami (natural language processing, NLP) karena masukan yang
diolahnya adalah teks dalam bentuk bahasa alami.
Makalah ini membahas sedikit dasar NLP yang terkait, dilanjutkan dengan penjabaran
konsep, proses, dan perangkat lunak untuk penambangan teks. Makalah ditutup dengan
pembahasan penerapan penambangan teks dalam beberapa bidang umum serta contoh
penerapan untuk bahasa Indonesia.
Makalah ini diharapkan dapat menjadi dasar untuk memahami penambangan teks dan potensi
pemanfaatannya.
Pemrosesan bahasa alami (NLP) adalah penerapan ilmu komputer, khususnya kecerdasan
buatan (artificial intelligence), dan linguistik, khususnya linguistik komputasional
(computational linguistics), untuk mengkaji interaksi antara komputer dengan bahasa (alami)
manusia. NLP berupaya memecahkan masalah untuk memahami bahasa alami manusia,
dengan segala aturan gramatika dan semantiknya, dan mengubah bahasa tersebut menjadi
representasi formal yang dapat diproses oleh komputer.
Dalam penerapannya, tujuan NLP untuk memahami bahasa manusia ini memiliki banyak
tantangan, yang antara lain adalah sebagai berikut:
1. Penandaan kelas kata (part-of-speech tagging). Sulit untuk menandai kelas kata (kata
benda, kata kerja, kata sifat, dsb.) suatu kata dalam teks karena pengelasan kata sangat
bergantung kepada konteks penggunaannya.
3. Disambiguasi makna kata (word sense disambiguation). Banyak kata memiliki lebih
dari satu makna, baik dalam bentuk homonim (makna berbeda dan tidak terkait, mis.
“bisa” dalam makna “dapat” dan “racun”) maupun polisemi (makna berbeda, namun
terkait, mis. “ragu” dalam makna “bimbang” dan “sangsi”). Pembedaan makna hanya
dapat dilakukan dengan melihat konteks penggunaan.
5. Masukan yang tak sempurna atau tak teratur (imperfect or irregular input). Aksen
dalam bahasa lisan serta kesalahan ejaan dan gramatikal dalam bahasa tulis
menyulitkan pemrosesan bahasa alami.
6. Pertuturan (speech act). Struktur kalimat saja kadang tidak dapat dengan tepat
menggambarkan maksud penutur atau penulis. Kadang gaya bahasa dan konteks
menentukan maksud yang diinginkan.
Di luar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk berbagai tugas
yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang populer dalam penerapan
NLP adalah sebagai berikut:
6. Sintesis wicara (speech synthesis). Pengubahan bahasa tulis menjadi bahasa lisan,
kebalikan dari pengenalan wicara.
Penambangan Teks 3
8. Analisis sentimen (sentiment analysis). Ekstraksi informasi dari sumber data teks
untuk mendeteksi pandangan positif atau negatif terhadap suatu objek. Biasanya
diterapkan untuk mengidentifikasi tren opini publik terhadap suatu produk atau
perusahaan.
3. Penambangan teks
Penambangan teks adalah proses semiotomatis untuk mengekstraksi pola (informasi dan
pengetahuan yang berguna) dari sejumlah besar sumber data tak terstruktur. Penambangan
teks memiliki tujuan dan menggunakan proses yang sama dengan penambangan data, namun
memiliki masukan yang berbeda. Masukan untuk penambangan teks adalah data yang tidak
(atau kurang) terstruktur, seperti dokumen Word, PDF, kutipan teks, dll., sedangkan masukan
untuk penambangan data adalah data yang terstruktur. Penambangan teks dapat dianggap
sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks
dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks
terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data.
2. Pelacakan topik (topic tracking): Penentuan dokumen lain yang menarik seorang
pengguna berdasarkan profil dan dokumen yang dilihat pengguna tersebut.
Penambangan teks memerlukan model proses standar berdasarkan praktik terbaik seperti
model CRISP-DM (Cross-Industry Standard Process for Data Mining) untuk penambangan
data. Delen & Crossland (2008) telah mengusulkan suatu diagram konteks untuk proses
penambangan teks seperti pada Gambar 1. Diagram tersebut menggambarkan masukan
(panah dari arah kiri), keluaran (panah ke arah kanan), batasan (panah dari arah atas), serta
mekanisme (panah dari arah bawah) untuk proses penambangan data. Tujuan utama dari
penambangan data adalah memproses data tak terstruktur (teks) untuk memperoleh pola yang
bermakna dan dapat ditindaklanjuti untuk pengambilan keputusan yang lebih baik.
Turban et.al. (2011) membagi proses penambangan data menjadi tiga urutan proses utama
sebagai berikut:
1. Pembuatan korpus. Proses ini mengumpulkan semua dokumen yang terkait dengan
topik kajian, termasuk transkripsi rekaman suara. Semua dokumen ini selanjutnya
Penambangan Teks 5
diubah menjadi satu bentuk yang seragam (mis. berkas teks ASCII) untuk diproses
oleh komputer.
2. Pembuatan daftar istilah. Proses ini bertujuan untuk membuat daftar istilah dan
frekuensi kemunculannya dalam bentuk matriks istilah-dokumen (term-document
matrix, TDM). Beberapa hal yang harus diperhatikan dalam pembuatan daftar istilah
ini adalah sebagai berikut:
a. Kata hentian (stop words) seperti partikel “yang” atau “dan” yang ada pada
semua dokumen dan tidak memiliki daya pembeda dan harus dikecualikan dari
daftar.
b. Kamus atau istilah cakupan (include terms) berupa daftar istilah yang disusun
lebih dulu untuk disertakan dalam daftar.
Daftar istilah yang diperoleh perlu diolah lebih lanjut dengan menentukan dua hal
sebagai berikut:
b. Pengurangan dimensi matriks. Jumlah istilah yang ditemukan sering kali harus
dikurangi agar memudahkan pengelolaan. Metode pengurangan yang dapat
dilakukan antara lain adalah (1) pemilihan istilah yang kontekstual oleh pakar,
(2) penghapusan istilah dengan kemunculan yang sangat sedikit pada sangat
sedikit dokumen, dan (3) pengubahan matriks dengan menggunakan
dekomposisi nilai tunggal (singular value decomposition, SVD).
Penambangan Teks 6
3. Ekstraksi pengetahuan. TDM yang telah diolah dengan baik selanjutnya dapat
diekstraksi, kadang dengan tambahan data terstruktur lain, untuk mendapatkan pola
pada masalah yang dikaji. Beberapa kategori metode ekstraksi utama adalah sebagai
berikut:
penambangan teks yang pernah dilakukan dilakukan dengan metode ini adalah
identifikasi evolusi topik sistem informasi yang dibahas dalam jurnal
akademis pada berbagai waktu.
Berikut ini beberapa perangkat lunak komersial dan bebas yang dapat digunakan sebagai alat
untuk melakukan penambangan teks.
A. Komersial
Berikut ini daftar beberapa perangkat lunak komersial untuk penambangan teks.
1. ClearForest http://www.clearforest.com/solutions.html
2. IBM Intelligent Miner Data Mining Suite (bagian dari IBM InfoSphere Warehouse)
http://www.ibm.com/infosphere/warehouse/
7. VantagePoint http://www.thevantagepoint.com/
8. WordStat http://www.provalisresearch.com/wordstat/wordstat.html
B. Bebas
Berikut ini daftar beberapa perangkat lunak bebas untuk penambangan teks. Beberapa di
antaranya juga merupakan perangkat lunak sumber terbuka.
2. LingPipe http://alias-i.com/lingpipe/
4. RapidMiner http://www.rapidminer.com/
5. UIMA http://uima.apache.org/
Penambangan Teks 8
C. Daring
Berikut beberapa alat daring yang dapat digunakan untuk penerapan spesifik penambangan
teks.
1. Ranks.nl http://www.ranks.nl/
2. Wordle http://www.wordle.net/
Penambangan data telah diaplikasikan dalam beberapa bidang seperti dijabarkan berikut ini.
2. Keamanan. Penambangan teks telah digunakan antara lain sebagai sumber intelijen
dalam Perang Dingin (Echelon oleh Amerika Serikat, Australia, Inggris, Kanada, dan
Selandia Baru), pelacakan kejahatan terorganisasi lintas negara (OASIS oleh Europol,
Uni Eropa), serta pemantauan keamanan gabungan oleh FBI, CIA, dan Departemen
Keamanan AS. Selain itu, penambangan teks telah dipakai untuk mendeteksi
kebohongan terhadap pernyataan tertulis, sebagai alternatif dari metode poligraf yang
hanya dapat diterapkan untuk pernyataan lisan.
3. Biomedis. Penambangan teks berpotensi untuk memproses literatur dalam bidang ini
secara otomatis karena (1) jumlah publikasi meningkat pesat, (2) literatur bidang
medis lebih terstandardisasi dan teratur, dan (3) terminologi yang digunakan relatif
konstan dengan ontologi yang cukup baku.
National Centre for Text Mining (University of Manchester and Liverpool), serta
BioText (University of California, Barkeley).
Berikut adalah beberapa contoh penerapan penambangan data untuk bahasa Indonesia yang
dapat ditemukan di Internet.
1
http://www.sitti.co.id/tentang-sitti.html
Penambangan Teks 11
sedang mengembangkan analisis sentimen dan pengenalan entitas bernama yang juga
merupakan bagian dari penerapan NLP.2
2
http://www.gresnews.com/about
Penambangan Teks ii
Daftar pustaka
Berry, M.W., & Kogan, J. (2010). Text Mining: Application and Theory. Chichester: John
Wiley & Sons, Ltd.
Feldman, R., & Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in
Analyzing Unstructured Data. New York: Cambridge University Press.
Turban, E., et.al. (2011). Decision Support and Business Intelligence Systems 9th Edition.
New Jersey: Pearson Education, Inc.
Penambangan Teks iii
Indeks