Professional Documents
Culture Documents
Pertemuan ke-5
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Ikhtisar
Arsitektur Information Retrieval System Proses Indexing Proses Retrieval
Boolean Vector Space Model
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Tahapan Indexing
Document Linearization
Markup and format Removal Tokenization
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Dokumen Contoh
D1: Torres dukung Arsenal juara liga bukan MU dan Chelsea D2: Tempuh pengobatan khusus, Rooney siap bela MU D3: Newcastle United akan kembali meramaikan Liga Inggris musim depan D4: Gerrard percaya The Reds bakal masuk Big Four lagi D5: Rooney berpeluang pulih lebih awal
7
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Indexing
Membuat daftar yang memetakan suatu term ke satu atau lebih dokumen dimana term tersebut berada Term tertentu boleh dihilangkan, sesuai domain masalah dan bahasa Term boleh diberikan bobot sesuai tingkat kepentingannya di dalam domain masalah
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Ilustrasi Indexing
Id 1 2 3 4 5 6 7 8 9 Term Doc# Id Term 10 11 12 13 14 15 16 17 18 Doc#
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Retrieval Boolean
Hanya dokumen yang mempunyai kemiripan tepat yang dikembalikan sebagai jawaban query. Tidak ada perankingan berdasarkan tingkat kemiripan dengan query Perangkingan dapat didasarkan pada panjang dokumen, tanggal dokumen atau sumber dokumen. Query berupa gabungan string dan operator logika (AND, OR, NOT)
10
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Query:
Hasil:
Query:
Hasil:
Query:
Hasil:
Query:
Hasil:
11
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Pembobotan
Bobot Lokal. Bobot suatu term di dalam dokumen tertentu. Biasanya tf Bobot Global. Bobot suatu term dalam koleksi dokumen. Biasanya idf = log(N/ni) Normalisasi. Berfungsi menormalkan pengaruh panjang dokumen. Bobot total = tfi x idfi = tfi x log(N/ni)
N: jumlah total dokumen, n: jumlah dokumen yang mengandung term i.
13
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Ilustrasi Pembobotan
Tuliskan!
14
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Ukuran Kemiripan
Paling ngetop: Cosinus dalam ruang vektor Lain? Ada jarak euclidean, jarak manhattan, ... Teknik machine learning ...
15
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
16
Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010
Tugas Kelompok
Ambil 10 dokumen contoh dari Internet (panjang 1 halaman, 500 kata, English atau Indonesia), tiap kelompok beda (diusahakan) Buat program (indexing) untuk membangun index. Buat program berbasis web untuk retrieval (searching) menggunakan konsep Model Ruang Vektor Laporan: listing program, contoh output (3 kali query). Dikumpulkan (diprint) dan diupload ke blog.
17