You are on page 1of 17

Ilustrasi Indexing & Retrieval

Pertemuan ke-5

Sistem Temu-Balik Informasi


Husni http://husni.trunojoyo.ac.id http://komputasi.wordpress.com husni@if.trunojoyo.ac.id YM, GMail, Facebook, Twitter: Lunix96

Jurusan Teknik Informatika Universitas Trunojoyo

Semester Genap 2009/2010

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ikhtisar
Arsitektur Information Retrieval System Proses Indexing Proses Retrieval
Boolean Vector Space Model

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Tahapan Indexing
Document Linearization
Markup and format Removal Tokenization

Filtration Stemming Weighting Indexing

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ilustrasi Tahapan Indexing

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Dokumen Contoh
D1: Torres dukung Arsenal juara liga bukan MU dan Chelsea D2: Tempuh pengobatan khusus, Rooney siap bela MU D3: Newcastle United akan kembali meramaikan Liga Inggris musim depan D4: Gerrard percaya The Reds bakal masuk Big Four lagi D5: Rooney berpeluang pulih lebih awal
7

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Indexing
Membuat daftar yang memetakan suatu term ke satu atau lebih dokumen dimana term tersebut berada Term tertentu boleh dihilangkan, sesuai domain masalah dan bahasa Term boleh diberikan bobot sesuai tingkat kepentingannya di dalam domain masalah

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ilustrasi Indexing
Id 1 2 3 4 5 6 7 8 9 Term Doc# Id Term 10 11 12 13 14 15 16 17 18 Doc#

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Retrieval Boolean
Hanya dokumen yang mempunyai kemiripan tepat yang dikembalikan sebagai jawaban query. Tidak ada perankingan berdasarkan tingkat kemiripan dengan query Perangkingan dapat didasarkan pada panjang dokumen, tanggal dokumen atau sumber dokumen. Query berupa gabungan string dan operator logika (AND, OR, NOT)
10

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ilustrasi Retrieval Boolean


Query:
Hasil:

Query:
Hasil:

Query:
Hasil:

Query:
Hasil:

Query:
Hasil:
11

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Model Ruang Vektor


Dokumen (termasuk query) direpresentasikan dalam bentuk vektor (atau matriks) Kemiripan antar dokumen ditentukan oleh cosinus sudut antar vektor yang mewakili dokumen tersebut Semakin besar nilai cosinus (maksimal 1) maka semakin mirip dokumen yang dibandingkan Nilai cosinus 1 menyatakan kemiripan 100%, sedangkan nol menyatakan ketidakmiripan 100%.
12

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Pembobotan
Bobot Lokal. Bobot suatu term di dalam dokumen tertentu. Biasanya tf Bobot Global. Bobot suatu term dalam koleksi dokumen. Biasanya idf = log(N/ni) Normalisasi. Berfungsi menormalkan pengaruh panjang dokumen. Bobot total = tfi x idfi = tfi x log(N/ni)
N: jumlah total dokumen, n: jumlah dokumen yang mengandung term i.
13

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ilustrasi Pembobotan
Tuliskan!

14

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ukuran Kemiripan
Paling ngetop: Cosinus dalam ruang vektor Lain? Ada jarak euclidean, jarak manhattan, ... Teknik machine learning ...

15

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Ilustrasi Kemiripan Cosinus


Tuliskan!

16

Ilustrasi Indexing & Retrieval Ilustrasi Indexing & Retrieval

Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010 Sistem Temu-Balik Informasi 2010 Keamanan Komputer 2010

Tugas Kelompok
Ambil 10 dokumen contoh dari Internet (panjang 1 halaman, 500 kata, English atau Indonesia), tiap kelompok beda (diusahakan) Buat program (indexing) untuk membangun index. Buat program berbasis web untuk retrieval (searching) menggunakan konsep Model Ruang Vektor Laporan: listing program, contoh output (3 kali query). Dikumpulkan (diprint) dan diupload ke blog.
17

You might also like