Professional Documents
Culture Documents
TAR
DATA
MINING
PROGRAM PASCA SARJANA
PROGRAM STUDI MAGISTER
TEKNIK ELEKTRO
UNIVERSITAS UDAYANA
NI KADEK ARIASIH,S.KOM 1)
PUTU BENNY
ADNYANA,S.KOM 2),
SATRIA PRATAMA,ST
3),
KATA PENGANTAR
Puji syukur penulis panjatkan kehadapan Ida Sang Hyang Widhi Wasa atas
segala berkat dan rahmat-Nya sehingga paper mata kuliah Data Mining yang
berjudul Pengantar Data Mining ini dapat diselesaikan tepat pada waktunya.
Paper ini merupakan sebuah pengantar awal sebelum memahami lebih
mendalam mengenai Data Mining. Penulis berharap paper ini dapat memberikan
gambaran secara umum yang cukup jelas mengenai apa itu Data Mining.
Penulis menyadari sepenuhnya bahwa paper ini masih jauh dari sempurna
mengingat keterbatasan pengetahuan dan kemampuan penulis, oleh karena itu
kritik dan saran dari semua pihak yang bersifat membangun selalu penulis
harapkan demi kesempurnaan paper ini. Akhir kata, penulis berharap semoga
paper ini bermanfaat bagi semua pihak yang berkompeten.
DAFTAR ISI
DAFTAR TABEL
DAFTAR GAMBAR
Bab 1
PENGANTAR DATA MINING DAN
PROSES DATA MINING
Bab ini merupakan pengantar awal mengenai data mining yang akan
memberikan gambaran mengenai apa yang dimaksud dengan data mining dan
aktivitas apa saja yang yang terkait dengan data mining.
Arles,
tulisan-tulisan
kuno
pada
lempengan
tanah
liat
yang
mendokumentasikan bongkar muat kapal pada zaman Babilonia kuno, dan batu
Rosetta merupakan beberapa contoh yang menggambarkan karakteristik manusia
dalam memahami dunia melalui catatan-catatan simbolis atau numeris. Gambargambar pada dinding gua merupakan catatan yang menceritakan pengalaman
mereka sehari-hari di zaman itu, seperti kehidupan, kematian, masa perburuan,
masa panen, merayakan hari besar (berpesta), dan masa berkeluarga. Tulisantulisan kuno pada lempengan tanah liat merupakan catatan mengenai rincian
aktivitas perdagangan mereka di zaman itu, seperti mengukur bobot dan
menghitung jumlah batu berharga atau menghitung jumlah dan volume dari
amphorae yang diisi dengan minyak zaitun. Sedangkan batu Rosetta membuka
jalan dalam memecahkan makna dari tulisan hieroglif milik bangsa Mesir [1].
Di manapun dan kapanpun, orang-orang selalu menggambarkan dan mencatat
peristiwa-peristiwa pada kehidupannya dalam berbagai media perekaman. Pelaku
data mining yang pertama kali mencatat peristiwa dalam kehidupannya melalui
gambar-gambar yang dibuat pada dinding gua untuk menggambarkan dan
memprediksi aktivitas manusia di masa itu. Di wilayah Laut Mediterania kuno,
orang-orang telah dapat menggambarkan dan memprediksi pola perdagangan dan
akibat dari cuaca yang berubah-ubah terhadap hasil panen dari pohon zaitun.
menyerupai
aliran,
seperti
aplikasi
pengawasan
melalui
video,
telekomunikasi, dan jaringan sensor. Analisis data yang efisien dan efektif dalam
bentuk yang berbeda berkembang menjadi tugas yang menantang [3].
Ketersediaan data yang berlimpah, disertai dengan kebutuhan terhadap tools
analisis data yang tangguh telah digambarkan sebagai suatu situasi dimana data
yang dimiliki berlimpah, tetapi miskin informasi (data rich but information poor).
Perkembangan pesat dalam jumlah data, dihimpun dan disimpan pada repositori
berkapasitas besar yang berjumlah banyak, telah jauh melampaui kemampuan
manusia dalam memahami himpunan data yang tersedia tanpa bantuan tools yang
tangguh. Hal ini menyebabkan data-data yang dihimpun dalam repositori
berukuran besar lambat laun hanya akan menjadi pusara data (arsip data yang
jarang disinggahi). Sebagi konsekuensi, keputusan penting seringkali dihasilkan
tanpa menggunakan dasar berlimpahnya informasi yang dimiliki oleh data yang
tersimpan pada repositori data, tetapi cenderung didasarkan pada intuisi pembuat
keputusan hanya dikarenakan mereka tidak memiliki tools yang dapat digunakan
untuk mengekstrak pengetahuan berharga dari data yang berlimpah tersebut.
Namun patut disayangkan, prosedur ini cenderung menghasilkan informasi yang
bias dan mengandung kesalahan, dan tentunya memakan waktu dan biaya yang
tidak sedikit. Data mining tools melakukan analisis data dan dapat menyingkap
pola data penting, yang berkontribusi besar dalam strategi bisnis, basis
pengetahuan, dan penelitian ilmiah serta medis. Adanya jurang pemisah antara
data dan informasi telah memicu pengembangan yang sistematis dari data mining
tools yang akan mengubah pusara data menjadi bongkahan emas pengetahuan
[3].
Menurut Han and Kamber, secara sederhana, data mining mengacu pada
pernyataan ekstraksi atau menggali pengetahuan dari sejumlah data yang besar.
Istilah lain yang juga mengacu pada data mining adalah knowledge mining from
data (penggalian pengetahuan dari data), knowledge extraction (ekstraksi
pengetahuan), data/pattern analysis (analisis data/pola), data archaelogy
(arkeologi data), dan data dredging (pengerukan data). Selain istilah-istilah
tersebut, istilah lain yang juga populer sebagai sinonim dari data mining adalah
knowledge discovery from data (KDD) [3].
Gambar 1.4 Data Mining, Pencarian Pengetahuan (Pola Menarik) Dalam Data [3]
Pandangan lain menyatakan bahwa data mining merupakan langkah utama
dalam proses knowledge discovery. Sebagai bagian dalam suatu proses,
knowledge discovery digambarkan pada gambar berikut ini:
d. Data mining engine: merupakan hal yang penting dalam sistem data
mining dan secara ideal terdiri dari sekumpulan modul-modul fungsional
yang digunakan untuk characterization, association dan correlation
analysis, classification, prediction, cluster analysis, outlier analysis, dan
evolution analysis.
10
11
12
13
a. Classification
b. Estimation
c. Prediction
d. Association rules
e. Clustering
f. Description dan visualization
Tiga aktivitas pertama (classification, estimation, prediction) merupakan
contoh dari directed data mining atau supervised learning. Pada directed data
mining, tujuan yang hendak dicapai adalah menggunakan data yang tersedia untuk
membangun sebuah model yang menggambarkan satu atau lebih atribut-atribut
khusus dari pusat perhatian (atribut target atau atribul kelas) sesuai dengan atributatribut yang tersedia. Sedangkan tiga aktivitas berikutnya (association rules,
clustering, description dan visualization) merupakan contoh dari undirected data
mining, yakni tidak atribut yang dikhususkan sebagai target. Tujuan dari
undirected data mining adalah untuk membangun beberapa hubungan di antara
semua atribut [5].
4.1 Klasifikasi (Classification)
Klasifikasi terdiri dari pengujian terhadap karakteristik yang dimiliki oleh
objek baru dan menentukan di kelas mana objek baru tersebut berada. Pada
klasifikasi, kelas-kelas yang digunakan sudah ditentukan sebelumnya. Tugas
klasifikasi ditandai dengan pendefinisian yang baik dari kelas-kelasnya, dan satu
set pelatihan terdiri dari contoh-contoh yang belum diklasifikasikan. Tujuan dari
klasifikasi adalah untuk membangun suatu model yang dapat digunakan untuk
mengklasifikasikan data-data yang belum terklasifikasi. Contoh dari klasifikasi
meliputi [5]:
a. Pengklasifikasian para pengaju kredit ke dalam kategori resiko rendah,
sedang, atau tinggi
b. Pengklasifikasian jamur ke dalam kategori jamur yang aman dikonsumsi
atau jamur beracun
c. Penentuan saluran telepon rumah yang digunakan untuk mengakses internet
14
15
16
5.
Summary
Data mining merupakan suatu analisis yang dilakukan terhadap suatu
17
Bab 2
PERKAKAS DAN TEKNIK DATA MINING
Pada bab ini akan membahas tentang tools apa saja yang dapat digunakan
sebagai acuan untuk melakukan proses data mining, serta teknik-teknik apa saja
yang dapat digunakan untuk melakukan proses data mining.
1. Perkakas Data Mining
Data mining tidak hanya membahas tentang alat atau perangkat lunak
database yang Anda gunakan. Anda dapat melakukan data mining dengan sistem
database relatif sederhana dan alat-alat yang sederhana, termasuk membuat dan
menulis sendiri, atau menggunakan paket perangkat lunak yang ada. Manfaat data
mining yang kompleks dari pengalaman masa lalu dan algoritma didefinisikan
dengan perangkat lunak dan paket perangkat lunak yang ada, dengan alat tertentu
memperoleh afinitas yang lebih besar atau reputasi dengan teknik yang berbeda.
Misalnya, IBM SPSS, yang memiliki akarnya dalam analisis statistik dan
survei, dapat membangun model prediksi yang efektif dengan melihat tren masa
lalu dan membangun perkiraan yang akurat. IBM InfoSphere Warehouse
menyediakan data sourcing, preprocessing, mining, dan analisis informasi dalam
satu paket, yang memungkinkan Anda untuk mengambil informasi dari database
sumber langsung ke output yang berupa laporan akhir.
Baru-baru ini bahwa data set yang sangat besar dan cluster dan pengolahan
data skala besar yang dapat memungkinkan data mining untuk menyusun dan
melaporkan kelompok dan korelasi data yang lebih rumit. Sekarang banyak sekali
alat dan sistem baru yang tersedia, termasuk penyimpanan data gabungan dan
sistem pengolahan. Anda dapat menambang data dengan berbagai set data yang
berbeda, termasuk, database SQL tradisional, data teks baku, simpanan kunci /
nilai, dan database dokumen. Clustered database, seperti Hadoop, Cassandra,
CouchDB, dan Couchbase Server, menyimpan dan menyediakan akses ke data
sedemikian rupa sehingga tidak sesuai dengan struktur tabel tradisional.
18
konten
sebelum
Anda
mulai
untuk
memproses
dan
menghubungkannya [6].
Organisasi-organisasi yang ingin menggunakan alat data mining dapat
membeli program mining yang dirancang untuk perangkat lunak dan platform
perangkat keras yang ada, yang dapat diintegrasikan ke dalam produk baru dan
sistem seperti yang dibeli secara online, atau mereka dapat membangun solusi
custom mining mereka sendiri. Misalnya, memasukkan output dari latihan mining
data ke sistem komputer lain, seperti jaringan saraf, adalah sangat umum dan
dapat memberikan nilai lebih pada data yang di-mining. Hal ini karena alat data
mining mengumpulkan data, sedangkan program kedua (misalnya, jaringan saraf)
membuat keputusan berdasarkan data yang dikumpulkan.
Berbagai jenis alat data mining yang tersedia di pasaran, masing-masing
dengan kekuatan dan kelemahan mereka sendiri. Auditor internal perlu menyadari
pada
berbagai
jenis
alat-alat
pertambangan
data
yang
tersedia
dan
data dan tren dengan menggunakan beberapa algoritma dan teknik yang
19
kompleks. Beberapa dari alat ini diinstal pada desktop untuk memantau data dan
menyorot tren dan lainnya mengangkap informasi yang berada di luar database.
Mayoritas tersedia di Windows dan versi UNIX, meskipun beberapa spesialisasi
dalam satu sistem operasi saja. Selain itu, beberapa mungkin berkonsentrasi pada
satu jenis database, sebagian besar akan mampu menangani data menggunakan
pengolahan analisis online atau teknologi serupa.
b.
Dashboards
Diinstal di komputer untuk memantau informasi dalam database, dashboard
Alat Text-Mining
Terkadang
disebut
alat
teks-mining
karena
kemampuannya
untuk
menambang data dari berbagai jenis teks - dari Microsoft Word dan PDF Acrobat
dokumen ke file teks sederhana, misalnya. Alat ini memindai isi dan
mengkonversi data yang dipilih ke format yang kompatibel dengan database alat
tersebut, sehingga memberikan pengguna dengan cara yang mudah dan nyaman
untuk mengakses data tanpa perlu membuka aplikasi yang berbeda. Konten yang
dipindai dapat terstruktur (misalnya, informasi yang tersebar hampir secara acak
di seluruh dokumen, termasuk e-mail, halaman internet, audio dan data video)
atau terstruktur (misalnya, bentuk data dan tujuan yang dikenal, seperti konten
yang ditemukan dalam database). Menangkap masukan ini dapat memberikan
organisasi dengan banyak informasi yang dapat digali untuk menemukan tren,
konsep, dan sikap.
Selain alat ini, aplikasi dan program lain dapat digunakan untuk tujuan data
mining. Misalnya, audit alat interogasi dapat digunakan untuk menyoroti
penipuan, data anomali, dan pola. Contoh dari hal ini telah diterbitkan oleh kantor
20
Konstanz
Information
21
Miner,
framework
analisis
data
g. ML-Flex:
paket
software
yang
memungkinkan
pengguna
untuk
22
Pohon Keputusan
Pohon berbentuk struktur yang mewakili set keputusan. Keputusan ini
Metode Tetangga-Terdekat
Mengklasifikasikan record dataset berdasarkan data yang sama dalam
23
diekspresikan
secara
numerik,
sehingga
membutuhkan
semacam
interpretasi tergantung pada sifat alami latihan data mining. Teknik pohon
keputusan adalah metodologi yang paling umum digunakan, karena sederhana dan
mudah untuk diimplementasikan. Akhirnya, metode tetangga-terdekat lebih
bergantung pada menghubungkan barang serupa dan, karenanya, bekerja lebih
baik untuk ekstrapolasi daripada pertanyaan prediktif.
Cara yang baik untuk menerapkan teknik-teknik canggih data mining adalah
memiliki alat data mining yang fleksibel dan interaktif yang terintegrasi dengan
database atau data warehouse. Menggunakan alat yang beroperasi di luar
database atau data warehouse tidak efisien. Menggunakan alat tersebut akan
melibatkan langkah-langkah ekstra untuk mengekstrak, impor, dan menganalisis
data.
Ketika
alat
data
mining
terintegrasi
dengan
data
warehouse,
24
buatan
dipublikasikan.
Contoh,
analisis
korelasi
Learning
Metode
statistik
mengalami
kesulitan
25
dengan
coding
dari
set
parameter,
bukan
parameternya.
2. GA melakukan pencarian dari poin populasi, bukan dari point
tunggal.
3. GA menggunakan fungsi informasi objektif, bukan turunan atau
pengetahuan tambahan lainnya.
4. GA menggunakan aturan transisi probabilistik, bukan aturan
deterministik.
b.3 Support Vector Machines SVM adalah mesin pembelajaran yang
dapat melakukan klasifikasi biner dan tugas estimasi regresi. Mereka
menjadi semakin populer sebagai paradigma baru klasifikasi dan
pembelajaran karena dua faktor penting. Pertama, tidak seperti teknik
klasifikasi lainnya, SVM meminimalkan kesalahan yang diharapkan
bukannya
meminimalkan
menggunakan
dualitas
kesalahan
teori
klasifikasi.
pemrograman
Kedua,
SVM
matematika
untuk
26
27
Gambar 2.3 Pohon keputusan yang didapatkan dari dataset sunburn [5]
c. Fuzzy Logic Fuzzy logic, yang dapat dipandang sebagai perluasan dari
sistem logika klasik, menyediakan kerangka kerja konseptual yang efektif
untuk mengatasi masalah representasi pengetahuan dalam lingkungan
ketidakpastian dan ketidaktepatan. Beberapa karakteristik penting dari
logika fuzzy berhubungan dengan berikut:
c.1 Dalam logika fuzzy, penalaran yang tepat dipandang sebagai kasus
terbatas perkiraan penalaran.
c.2 Dalam logika fuzzy segalanya tentang masalah derajat.
c.3 Semua sistem logika dapat difuzzifikasi.
c.4 Dalam logika fuzzy, pengetahuan diartikan sebagai kumpulan elastisitas
atau ekuivalen, batasan fuzzy terletak pada kumpulan variabel.
Ringkasan konsep dasar dan teknik yang mendasari penerapan logika fuzzy
untuk representasi pengetahuan dan gambaran sejumlah contoh yang
berkaitan
dengan
penggunaannya
sebagai
sistem
komputasi
yang
28
29
30
peluang
cross-selling,
melakukan
analisis
promosi,
contoh-contoh
untuk
menemukan
pola
dalam
data
atau
31
3. Summary
Data mining melibatkan ekstraksi aturan yang berguna atau pola yang
menarik dari data historis. Ada banyak tugas data mining yang masing-masing
memiliki lebih lanjut banyak teknik. Sebuah teknik tunggal tidak cocok untuk
32
semua jenis data untuk semua jenis domain. Kadang-kadang, teknik hybrid telah
diteliti dapat berkinerja lebih baik dibandingkan dengan yang murni.
Bab 3
APLIKASI DAN CONTOH KASUS DATA MINING
33
34
35
36
Right Point software.Vendor lain bekerja pada masalah yang sama, khususnya di
web, di mana memprediksi apa yang pelanggan terbaik akan sangat merespon
penting. Perusahaan perbankan web seperti Jaminan Pertama dan BroadVision,
antara lain, juga berusaha untuk memasukkan satu persatu pemasaran, dengan
menggunakan teknologi prediksi, ke situs perbankan mereka.
Pemasaran The Right Point Real-Time Suite mengambil data-mining model
dan memanfaatkan mereka dalam real-time interaksi dengan pelanggan.
Pemasaran The Right Point Real-Time Suite Tepat dirancang untuk membuat,
mengelola, dan memberikan 1:1 promosi pemasaran untuk industri high touch
(seperti perbankan, telekomunikasi, dan penjualan ritel) yang mengandalkan
interaksi pelanggan langsung untuk melakukan bisnis. Untuk bisnis ini dan yang
sejenis, adalah penting untuk memastikan bahwa setiap interaksi pelanggan
merebut kesempatan untuk meningkatkan kepuasan pelanggan, loyalitas, dan
pendapatan-generasi
potensial.
Model
prediksi
yang
digunakan
untuk
37
38
39
40
Ditunjukkan pada Gambar 3.1, adalah array dari grafik yang menunjukkan,
bersisian, cerita tentang aktivitas antibakteri Cefdinir dari waktu ke waktu.
Gambar 3.1 berguna untuk membandingkan tingkat kemanjuran dari patogen
antibakteri yang berbeda dari waktu ke waktu. Dalam kasus ini, zat antimikroba,
Cefdinir, sedang dipelajari terhadap zat lainnya untuk periode delapan jam [10].
41
Jasa
Telekomunikasi,
efektif
Januari
1998,
liberalisasi
jasa
telekomunikasi di Eropa, dan menawarkan kompetisi penuh di antara negaranegara Eropa yang berpartisipasi. Enam puluh delapan negara liberalisasi pasar
telekomunikasi mereka pada tanggal 1 Januari 1998 sampai bertepatan dengan
komitmen Eropa berdasarkan Perjanjian Telekomunikasi Organisasi Perdagangan
Dunia.
Tidak hanya telah ada deregulasi yang besar-besaran, namun di Amerika
Serikat, telah terjadi aksi jual oleh FCC dari gelombang radio kepada perusahaan
pelopor dengan cara baru untuk berkomunikasi. Industri seluler dengan cepat
mengambil langkah sendiri.
Data visualisasi daerah lain dengan menggunakan strategi banyak
telekomunikasi.
Gambar
4.1 menunjukkan
peta,
yang
diciptakan
oleh
Gambar 4.1. Sebuah Peta dari Titik-titik Jaringan Telekomunikasi Nirkabel yang
Menjatuhkan Panggilan [10]
42
43
efektif, jika W di atas 1, peluang t1 jenis yang lebih efektif daripada peluang jenis
t2 (dan sebaliknya berlaku jika W adalah di bawah 1).
Seluruh populasi siswa, nilai rata-rata W untuk membaca kembali diperoleh
oleh Beck dan Mostow adalah 0,49, menunjukkan bahwa re-membaca cerita
mengarah ke sekitar setengah belajar sebanyak membaca cerita baru. 95 dari 346
siswa memiliki parameter W statistik signifikan di bawah 1, sedangkan hanya 7
siswa memiliki nilai parameter W statistik signifikan lebih dari 1, hasil yang
signifikan secara statistik di seluruh kelas.
Beck dan Mostow selanjutnya menggunakan nilai W dari model dalam
analisis regresi logistik berikutnya (contoh pada table 3.1.yaitu penemuan dengan
model). Dalam analisis ini, model dekomposisi pembelajaran digunakan untuk
membagi populasi menjadi siswa yang diuntungkan dari membaca ulang dan
siswa yang tidak mendapat manfaat dari membaca ulang, dan berbagai variabel
penjelas diuji untuk melihat apakah mereka menjelaskan siswa yang diuntungkan
dari membaca kembali. Analisis ini menetapkan bahwa siswa dengan kecepatan
membaca secara keseluruhan yang rendah maka menerima dukungan kebutuhan
belajar khusus, sebenarnya memperoleh manfaat dari membaca ulang [11].
Tabel/ilustrasi :
Tabel 1.1 Kategori-kategori Utama dari Data Mining Pendidikan
Kategori Metode
Ramalan
Pengelompokan
Hubungan Mining
Tujuan Metode
Mengembangkan model yang
dapat menyimpulkan satu aspek
data (variabel diprediksi) dari
beberapa kombinasi dari aspekaspek lain dari data (variabel
prediktor)
Temukan titik data yang secara
alami kelompok bersama-sama,
membelah data set lengkap ke
set ke dalam seperangkat
kategori
Temukan hubungan antara
variabel
44
Kunci Aplikasi
Mendeteksi perilaku mahasiswa
(misalnya game sistem, offtask
perilaku,
tergelincir);
Mengembangkan model domain,
Memprediksi dan memahami hasil
siswa pendidikan
Discovery kategori pola perilaku
mahasiswa
baru,
kesamaan
Investigasi dan perbedaan antara
sekolah
Penemuan asosiasi kurikuler di
urutan kursus; Menemukan strategi
pengajaran yang menyebabkan lebih
Penemuan
Model
5. Summary
Pada bab ini meliputi contoh industri data mining di bidang perbankan dan
keuangan, ritel, kesehatan, dan telekomunikasi dan contoh kasus penerapan data
mining pada pendidikan. Meskipun ini tentu bukan merupakan daftar termasuk
semua kegiatan datamining dan tidak memberikan contoh tentang bagaimana data
mining digunakan saat ini. Pada bab 4 akan membahas lebih spesifik tentang trend
data mining saat ini dan masa yang akan datang.
45
Bab 4
TOPIK LANJUTAN & TREND KE DEPAN
Sebagai bidang riset yang masih sangat muda sejak penemuan nya pada
tahun delapan puluhan, Data Mining telah banyak membantu untuk menggali
informasi yang terdapat pada data mentah yang di hasilkan baik itu dari suatu
sistem informasi maupun yang dari data yang di dapatkan melalui survey kepada
suatu objek tertentu. Dalam bab ini akan dibahas mengenai topik lanjutan dari
Data Mining beserta bagaimana trend Data Mining di masa mendatang.
1. Topik Lanjutan dari Data Mining
Beberapa aplikasi Data Mining yang telah ada telah mampu mencakup
banyak area dalam kehidupan sehari hari seperti area bisnis dan industri, biomedik
dan kesehatan, organisasi, politik, pencitraan dan tentunya dalam bidang science.
1.1 Intrusion Detection
Dalam perkembangan nya data mining telah di gunakan untuk mendeteksi
intrusi/serangan, dengan cara mencari penyusup dan mendeteksi penyalahgunaan,
dimana kesemua proses tersebut di lakukan dari secara internal. Dari pola yang di
hasilkan tools data mining bisa mengindikasikan apabila sistem telah atau akan di
penetrasi oleh seseorang dimana administrator akan melakukan review kembali
terhadap pola serangan tersebut dan menambahkan proteksi tambahan pada
sistem.
1.2 Identify Theft
Pemalsuan identitas untuk melakukan tindak kejahatan telah menjadi
permasalahan pada institusi sosial dan perbankan. Penipuan dengan menggunakan
identitas palsu marak terjadi, hal tersebut terjadi karena banyaknya orang yang
mampu untuk memalsukan identitas sehingga akan tampak bahkan sesuai dengan
aslinya. Dahulu mengidentifikasi pencurian atau penipuan terjadi apabila kejadian
tersebut sudah terjadi, usaha proaktif yang melibatkan pencarian data pribadi dan
46
rekord kredit secara manual untuk proses penyelidikan adalah sangat menyulitkan
dan tidak efisien karena data yang akan di analisa sangat banyak.
Dengan data mining pencarian tersebut bisa di otomatisasi dan tidak hanya
akan memberikan tanda kepada rekord yang invalid atau mencurigakan, tools data
mining juga bisa menciptakan model pola prilaku pencurian atau penipuan
sehingga pendekatan ini bisa memfasilitasi pengembangan dari strategi proaktif
dalam rangka untuk proses identifikasi pencurian [....]
1.3 Syndrome Surveilance
Sistem pengawasan Syndromic telah di kembangkan untuk mendeteksi
penyebaran penyakit menular dan bioterorisme, dengan mengunakan deteksi
anomali sistem ini mampu mendeteksi cluster gejala yang tidak biasa dan
perubahan tingkat penyakit yang tidak terantisipasi. Dengan mengembangkan
sistem deteksi anomali standar dan menambahkan rule keputusan yang tepat
kemampuan proses penyaringan data ini bisa maksimal dan menghasilkan
informasi yang tepat guna. [..]
1.4 Data Collection, Fusion dan Preposition
Kumpulan data, penggabungan berbagai macam data dan preposisi data
adalah tehnik mining sangat sangat mendukung surveilance atau pengawasan
terhadap suatu bidang tertentu. Banyak nya data yang ada baik itu data yang di
dapat dari pengawasan secara online maupun pengawasan secara offline,
membuat tingkat kesulitan untuk mendapatkan informasi penting yang di
butuhkan semakin tinggi.
Dengan adanya tools data mining, kesemua data yang ada baik yang di dapat
melalui pengawasan online maupun offline (pengawasan langsung) bisa di
gabungkan lalu kemudian di pilah pilah untuk mendapatkan beberapa data yang
bersifat krusial sehingga bisa di analisa secara menyeluruh untuk mendapatkan
knowledge discovery baru yang bisa di gunakan untuk menindaklanjuti
permasalahan yang ada. Dengan data mining suatu model pengawasan baru yang
lebih kompleks bisa di kembangkan yang bisa meliputi pengawasan gegografi
tertentu dan objek yang terisolasi dengan mengunakan gabungan sumberdaya data
dan tools data mining terkait.
47
48
sehari pada bidang perbankan telah membuat data transaksi menjadi sulit untuk di
telusuri secara manual. Implementasi model algoritma seperti yang di sebutkan di
atas bisa membantu melakukan pembentukan model pola normal dan
pendeteksian terhadap pola yang menyimpang dari pola normal.
Demikian pula pada bidang keamaanan, dengan menggabungkan semua
informasi kejahatan dan menerapkan tehnik clustering dan deteksi anomali seperti
yang di sebutkan di atas, petugas bisa menentukan apakah kejahatan tersebut di
lakukan oleh orang yang sama, sekaligus memprediksi kapan kejahatan lain akan
terjadi sehingga bisa di lakukan tindakan pencegahan sekaligus menangkap pelaku
kejahatan.
1.7 Bio-Informatics & Medical Research
Saat ini berbagai tehnik dan tools data mining telah banyak di gunakan dalam
riset biologi dan medis, dalam riset tersebut hasil yang di harapkan adalah
informasi baru yang di hasilkan dari data yang ada. Penerapan data mining dalam
bio-informatics dan medical research lebih banyak kepada riset tentang pengaruh
DNA manusia terhadap suatu penyakit yang di derita seperti kanker, HIV dan
berbagai penyakit lain yang mempunya kemungkinan berkorelasi dengan DNA
[3]. Disamping menelusuri pengaruh genetika terhadap suatu penyakit,
penambangan data juga di lakukan pada DNA untuk menemukan pengobatan
terhadap penyakit mematikan seperti HIV dan kanker sekaligus mengalisa
penyebab kelainan fisik bawaan.
1.8 Business Trends
Perkembangan dunia usaha sangat dinamis pada saat ini membuat pelaku
usaha harus bereaksi secara cepat terhadap terhadap perubahan, lebih banyak
memberikan quality service guna mendapatkan profit yang di inginkan. Pada
sektor ini data mining berperan untuk membuat transaksi yang di lakukan oleh
konsumen menjadi semakin cepat dan akurat, penggunaan tehnik data mining
seperti classification, regression dan cluster analysis di gunakan untuk
menentukan keputusan yang tepat di samping menciptakan suatu lingkungan
usaha pintar (Business Inteligence) yang berbasis informasi [3].
49
50
Gambar 4.2. Ilustrasi model konseptual dari pemberian analisa informasi kepada
proses operasional [..]
Dari gambar konseptual di atas berdasarkan data yang di dapat dari hasil
interview lalu di lakukan pencarian dengan menggunakan tools voice recognition
dimana input dari voice recognition akan di proses menggunakan metode text
mining. Knowledge discovery yang di hasilkan lalu di analisa dalam analytical
fusion center dimana informasi external juga bisa di dapatkan dari fusion center
yang lain guna memperkaya dan melengkapi informasi yang di perlukan. Setelah
di analisa dalam fusion center, scoring algorithm bertugas untuk memberikan
ranking kepada informasi baru yang di hasilkan setelah proses perankingan lalu di
tetapkan strategi interview yang sesuai dan kemudian strategi tersebut akan di
bawa pada proses interview kembali.
2.2 Image Data Mining
Semantic dan image mining di perkirakan akan menjadi trend kedepan, dalam
hal ini analyst bisa menemukan informasi tersembunyi dalam data gambar
menggunakan kecerdasan buatan dan structural analysis software, karakteristik
atau pola yang terkandung dalam gambar bisa di identifikasi dan informasi
51
keluaran nya bisa di pergunakan untuk kemajuan dalam bidang science lain nya
dan tentunya business sectors [2].
2.3 Data Mining dalam Industri Keuangan
Menggali informasi dari data yang ada pada bursa saham dan pasar valas
tentunya akan sangat sulit di kerjakan karena banyak nya data dan faktor faktor
lain yang dapat menciptakan perubahan terhadap data, penggunaan tools dan
tehnik data mining dalam bidang tersebut akan sangat membantu para brooker
untuk mendapatkan informasi penting yang sangat mereka butuhkan [3].
Tujuan penggunaan data mining dalam area ini adalah untuk mendapatkan
lebih banyak profit melalui prediksi yang lebih akurat yang didapat dari analisa
pola dan model sehingga keputusan yang di ambil bisa berdasarkan sumber
informasi yang terpercaya.
2.4 Mendeteksi Gangguan Ekosistem
Ekosistem adalah suatu area study yang luas yang mencakup remote sensing,
earth-science, biosphere, study kelautan, dan prediksi ekosistem, dalam bidang ini
data mining di gunakan untuk mendapatkan pola yang tejadi pada ekosistem,
sehingga bisa di tarik informasi baru atau kesimpulan tentang siklus bumi yang
terjadi [3]. Informasi mengenai perubahan keadaan tanah, pergerakan air laut, dan
informasi tentang ekosistem lain akan menjelaskan tentang kejadian alam luar
biasa seperti gempa bumi, tsunami, badai es, dan pencairan es kutub serta
peninggian level air laut dari tahun ke tahun.
2.5 Fusion Centre
Beragam informasi yang di hasilkan oleh beberapa bidang tertentu,
berkemungkinan akan berguna bagi suatu bidang lain nya. dimana informasi
tersebut bisa berguna apabila di lakukan analisa menyeluruh dengan metode
metode yang terdapat pada data mining.
Karena data dari beberapa bidang saling memiliki korelasi, maka terciptalah
ide untuk menggabungkan semua data tersebut kedalam sentral data (Fusion
Centre) [..]. Fungsi analitis yang yang di hadirkan oleh fusion centre memiliki
keterbatasan hanya pada pencarian repository data dan penciptaan statistik, dari
52
pusat gabungan data ini bisa di buat suatu tools untuk melakukan analisa prediktif
untuk melakukan analisa terhadap repository yang ada.
Gambar 4.3. Ilustrasi informasi dari tools konseptual yang berisi inti analisa dan
fusion centre [..]
Dari gambar di atas menunjukan susunan node yang saling berhubungan yang
di dukung oleh suatu fusion centre, dimana model di atas sudah menggunakan
analytic filter untuk memproses data menjadi informasi yang dapat mendukung
suatu keputusan. Node di atas melambangkan informasi yang terhubung dengan
fusion center dimana pembaharuan informasi tersebut akan selalu di teruskan ke
fusion center.
2.6 Virtual Warehouse
Pembuatan data warehosue dapat menghabiskan banyak biaya dan juga tidak
mampu memberikan kecepatan proses yang di butuhkan analyst keamanan.
Banyaknya informasi yang ada pada word wide web telah memungkinan
terciptanya virtual warehouse yang mampu memberikan yang tidak bisa di
berikan oleh data warehouse tradisional. Semua informasi dari virtual warehouse
dapat di refresh dan update secara mudah sehingga selalu mampu memberikan
knowledge discovery yang baru kepada pengguna nya.
53
3. Summary
Perkembangan tehnik data mining dari semenjak di temukan nya telah
berhasil mencakup area study yang sangat luas, dimana pada masing masing area
study tehnik data mining mampu membantu memberikan solusi terbaik yang di
dapat dari pengolahan data dan pengetahuan baru (discovery knowledge).
54
DAFTAR PUSTAKA
[1]
Enterprise
Outcomes:
Knowledge
Management.
Sidney:
DigitalPress.
[2]
Hand, David, Heikki Mannila and Padhraic Smith. 2001. Principles of Data
Mining. Massachusets: The MIT Press.
[3]
Han, Jiawei and Micheline Kamber. 2006. Data Mining: Concepts and
Techniques. California: Morgan Kauffman Publishers.
[4]
[5]
[6]
[7]
[8]
[9]
[10] Industry Application of Data Mining. Tersedia online : http://www.pearsonhighered.com/samplechapter/0130862711.pdf. Diakses tanggal : 23 Februari
2013.
[11] Baker, Ryan S.J.d. Data Mining for Education. Carnegie Mellon University,
Pittsburgh, Pennsylvania, USA.
[12] Witten, Ian H. Text Mining. Tersedia online : http://www.cs.waikato.ac.nz/~
ihw/papers/04-IHW-Textmining.pdf. Diakses tanggal : 22 Februari 2013.
[13] http://invensis.net/blog/industry-news/data-mining-future-trends-predicted2012. Diakses tanggal : 20 Februari 2013.
55
[14] Kumar, Dharminder and Deepak Bhardwaj. Rise of Data Mining: Current
and Future Application Area. International Journal of Computer Science
Issues, vol.8, Issue 5. 2011. Tersedia online : http://www.cs.xu.edu/csci390/
12s/RiseofDataMining.pdf. Diakses tanggal : 20 Februari 2013.
56