Materi 3

Pengantar Sistem Manajemen Data, Informasi, dan Pengetahuan
Muhammad Nasar
Outline
Information system (overview) Information retreival
Overview Sistem Informasi

1. Sistem Temu Kembali Informasi (Information Retrieval System - IRS) 2. Sistem Manajemen Basis Data (Data Base Management System DBMS), 3. Sistem Informasi Manajemen (Management Information System MIS), 4. Sistem Pendukung Keputusan (Decision Support System - DSS), dan 5. Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).
Flatform sebuah sistem informasi

[1] Information Retrieval System - IRS Berhubungan dengan
Representasi (gambaran) Storage (penyimpanan) Organisasi, dan Akses ke informasi
Tujuan /fokus
Pencarian informasi yang relevan
(akan dikenalkan)

[2] Data Base Management System DBMS
Merupakan sistem yang didisain untuk memanipulasi dan mengurus basis data. Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur data yang spesifik dan tersimpan dalam tabel-tabel. Setiap satuan data, atau disebut record (cantuman) terdiri dari ruas-ruas (fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang mengidentifikasikan satuan data yang dimaksud. Proses yang berkaitan dengan manajemen basis data meliputi penyimpanan, temu kembali, updating atau deletion, proteksi dari kerusakan, dan kadang-kadang mencakup transimi data. Output dapat mengandung record individual, sebagian record, tabel, atau bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi cantuman-cantuman yang pasti sesuai dengan permintaan.

[3] Management Information System MIS Sistem Informasi Manajemen adalah sistem yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi. Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan

[4] Decision Support System DSS Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen. Bertujuan untuk bahan pengambilan keputusan

[5] Artificial Intelligent System AI antara lain sistem pakar, permainan komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.

[5] Keuntungan AI
Memungkinkan orang awam bisa mengerjakan pekerjaan para ahli. Bisa melakukan proses secara berulang secara otomatis. Menyimpan pengetahuan dan keahlian para pakar. Meningkatkan output dan produktivitas. Meningkatkan kualitas. Mampu mengambil dan melestarikan keahlian para pakar (terutama yang termasuk keahlian langka).
IRS vs DBMS vs AI
Perbedaan utama terletak pada objek data masing-masing sistem informasi Persamaan : dokumen pada umumnya tekstual
Pertanyaan ?
Information Retrieval System - IRS

Sekilas sejarah (1) Pra Internet
Berawal di Perpustakaan, sekitar tahun 1952 Mulai diteliti sejak 1961.
Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan. Tidak sekedar menyimpan buku dan menyajikan katalog

Sekilas sejarah (2) Era Internet
Tahun 80-90an : internet masih sangat sederhana Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar gambar, > 1 milyar pesan Berbagai kebutuhan informasi
Mencari topik tertentu / informasi spesifik Mencari jawaban dari suatu pertanyaan Mencari informasi dalam bahasa berbeda dll
Contoh-contoh penerapan IRS

Conventional (katalog perpustakaan)
Pencarian dengan kata kunci, judul, penulis, dll.
Text-based (Google, Yahoo, ASK).

Pencarian dengan kata kunci (keyword). Pencarian
terbatas menggunakan query dalam bahasa alami. Multimedia (Youtube)

Pencarian dengan penampilan visual (bentuk, warna, gerak,)
Sistem jawaban pertanyaan (AskJeeves, Answerbus)

Pencarian dalam bahasa alami (terbatas)
Lainnya:

Konsep dasar
Indexing Searching / matching Perangkingan relevansi bds keyword query
Model matematika nya
dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan. Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.
[2] Indexing
Berfungsi menghasilkan database index Merupakan proses persiapan sehingga dokumen siap untuk diretrive.
Tahap-tahap dalam proses indexing

Parsing
Pengambilan kata-kata (term) dari tumpukan dokumen Menghapus karakter tanda baca Mengubah kumpulan term menjadi lowercase.
Stopword Removal
Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.
Stemming
Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.
Term Weighting
Pemberian bobot setiap term di dalam dokumen.
Algoritma stemming
Contoh stemming bahasa Indonesia
Masalah pada Stemming

Understemming,
Pemotongan terlalu sedikit, misalnya pengorbanan menjadi korbanan
Overstemming
Pemotongan terlalu banyak, misalnya mencapai menjadi capa
More info about stemming

http://tartarus.org/~martin/PorterStemm er/
[2] Searching / matching

Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).
Bagian-bagian IRS
Text Operations (operasi terhadap teks) meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). Indexing (pengindeksan), membangun basis Query formulation (formulasi data indeks dari koleksi dokumen. terhadap query) yaitu memberi Dilakukan terlebih dahulu sebelum bobot pada indeks kata-kata query. pencarian dokumen dilakukan. (perangkingan), mencari Ranking dokumen-dokumen yang relevan terhadap query dan mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query.
Operator query (1)

Model boolean
AND, OR dan NOT tanda kurung () untuk menentukan scope operator
Kekurangan
Hasil pencarian dokumen berupa himpunan Sulit melihat dokumen yang paling relevan atau agak relevan (partial match). Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean
Operator query (2)

Model ruang vektor (1)
Kelebihan : query dapat berupa sekumpulan kata-kata / kalimat Misalkan terdapat sejumlah n kata yang berbeda. Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.
Operator query (2)

Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :
D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3
Operator query (2)

Maka representasi grafis ketiga vektor tsb adalah
Operator query (2)

Representasi dalam bentuk matrik katadokumen
D1 D2 : : Dm
T1 T2 . w11 w21 w12 w22 : : : : w1m w2m
: : wnm
Tn wn1 wn2
Operator query (3)

Model Pembobotan Kata
Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf
Parameter pengujian
1. Precision (ketepatan)
Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh
dokumen yang terambil 2. Recall (kelengkapan/perolehan)

Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).
Parameter pengujian
3. Interpolate Average Precision (IAP)
Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking. Dapat dilakukan dengan interpolasi antara precision dan recall. IAP akan mencatat semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.
Contoh
Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5. Maka perhitungan recall precision adalah
Rangking 1 2 3 4 5 6 7 8 9 10 Relevan Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak
Precision = 1 / 1 = 1 Recall = 1 / 4 = 0.25 Precision = 2 / 4 = 0.5 Recall = 2 / 4 = 0.5 Precision =3 / 5 = 0.6 Recall = 3 / 4 = 0.75
simpulan
semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).
Beberapa teknik meningkatkan performansi IRS

Relevance Feedback (RF),
ada tanda/input/klik dari user untuk memperbaiki query
Query Expansion (QE),

tidak ada tanda (sistem secara automatis memperbaiki query)
Contoh teknik QE
Refer to

http://en.wikipedia.org/wiki/Information_retriev http://en.wikipedia.org/wiki/Vector_space_mod http://www.cse.unt.edu/~rada/CSCE5200/ http://tartarus.org/~martin/PorterStemmer/ http://en.wikipedia.org/wiki/Tf-idf
Pertanyaan?

Materi 3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Materi 3

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengantar Sistem Manajemen Data, Informasi, dan Pengetahuan

Overview Sistem Informasi

Flatform sebuah sistem informasi

Overview Sistem Informasi

Overview Sistem Informasi

Overview Sistem Informasi

Overview Sistem Informasi

Overview Sistem Informasi

Overview Sistem Informasi

Information Retrieval System - IRS

Information Retrieval System - IRS

Contoh-contoh penerapan IRS

Text-based (Google, Yahoo, ASK).

terbatas menggunakan query dalam bahasa alami. Multimedia (Youtube)

Sistem jawaban pertanyaan (AskJeeves, Answerbus)

Information Retrieval System - IRS

Model matematika nya

Tahap-tahap dalam proses indexing

Masalah pada Stemming

More info about stemming

[2] Searching / matching

Operator query (1)

Operator query (2)

Operator query (2)

Operator query (2)

Operator query (2)

T1 T2 . w11 w21 w12 w22 : : : : w1m w2m

Operator query (3)

dokumen yang terambil 2. Recall (kelengkapan/perolehan)

Beberapa teknik meningkatkan performansi IRS

Query Expansion (QE),

http://en.wikipedia.org/wiki/Information_retriev http://en.wikipedia.org/wiki/Vector_space_mod http://www.cse.unt.edu/~rada/CSCE5200/ http://tartarus.org/~martin/PorterStemmer/ http://en.wikipedia.org/wiki/Tf-idf

Anda mungkin juga menyukai