Anda di halaman 1dari 37

Pengantar Sistem Manajemen Data, Informasi, dan Pengetahuan

Muhammad Nasar

Outline
Information system (overview) Information retreival

Overview Sistem Informasi


1. Sistem Temu Kembali Informasi (Information Retrieval System - IRS) 2. Sistem Manajemen Basis Data (Data Base Management System DBMS), 3. Sistem Informasi Manajemen (Management Information System MIS), 4. Sistem Pendukung Keputusan (Decision Support System - DSS), dan 5. Sistem Kecerdasan Buatan (Artificial Intelligent System - AI).

Flatform sebuah sistem informasi

Overview Sistem Informasi


[1] Information Retrieval System - IRS Berhubungan dengan
Representasi (gambaran) Storage (penyimpanan) Organisasi, dan Akses ke informasi

Tujuan /fokus
Pencarian informasi yang relevan

(akan dikenalkan)

Overview Sistem Informasi


[2] Data Base Management System DBMS
Merupakan sistem yang didisain untuk memanipulasi dan mengurus basis data. Data yang tersimpan dalam basis data dinyatakan dalam bentuk unsur-unsur data yang spesifik dan tersimpan dalam tabel-tabel. Setiap satuan data, atau disebut record (cantuman) terdiri dari ruas-ruas (fields) yang berisi nilai yang menunjukkan karakteristik yang spesifik atau atribut yang mengidentifikasikan satuan data yang dimaksud. Proses yang berkaitan dengan manajemen basis data meliputi penyimpanan, temu kembali, updating atau deletion, proteksi dari kerusakan, dan kadang-kadang mencakup transimi data. Output dapat mengandung record individual, sebagian record, tabel, atau bentuk susunan data yang lain dari basis data. Informasi yang ditemukan berisi cantuman-cantuman yang pasti sesuai dengan permintaan.

Overview Sistem Informasi


[3] Management Information System MIS Sistem Informasi Manajemen adalah sistem yang didisain untuk kebutuhan manajemen, untuk mendukung fungsi-fungsi dan aktivitas manajemen pada suatu organisasi. Oleh karena itu, jenis data dan fungsi-fungsi operasi disesuaikan

Overview Sistem Informasi


[4] Decision Support System DSS Sistem Pendukung Keputusan menggambarkan operasi-operasi spesifik dalam satuan-satuan informasi yang homogen. Bertujuan untuk bahan pengambilan keputusan

Overview Sistem Informasi


[5] Artificial Intelligent System AI antara lain sistem pakar, permainan komputer (games), logika fuzzy, jaringan syaraf tiruan dan robotika.

Overview Sistem Informasi


[5] Keuntungan AI
Memungkinkan orang awam bisa mengerjakan pekerjaan para ahli. Bisa melakukan proses secara berulang secara otomatis. Menyimpan pengetahuan dan keahlian para pakar. Meningkatkan output dan produktivitas. Meningkatkan kualitas. Mampu mengambil dan melestarikan keahlian para pakar (terutama yang termasuk keahlian langka).

IRS vs DBMS vs AI

Perbedaan utama terletak pada objek data masing-masing sistem informasi Persamaan : dokumen pada umumnya tekstual

Pertanyaan ?

Information Retrieval System - IRS


Sekilas sejarah (1) Pra Internet
Berawal di Perpustakaan, sekitar tahun 1952 Mulai diteliti sejak 1961.
Mulai disadari bahwa sistem temu kembali informasi memiliki peran khusus dalam kegiatan perpustakaan / ilmu pengetahuan. Tidak sekedar menyimpan buku dan menyajikan katalog

Information Retrieval System - IRS


Sekilas sejarah (2) Era Internet
Tahun 80-90an : internet masih sangat sederhana Tahun 2006 : > 25 milyar halaman web, > 1,3 milyar gambar, > 1 milyar pesan Berbagai kebutuhan informasi
Mencari topik tertentu / informasi spesifik Mencari jawaban dari suatu pertanyaan Mencari informasi dalam bahasa berbeda dll

Contoh-contoh penerapan IRS


Conventional (katalog perpustakaan)
Pencarian dengan kata kunci, judul, penulis, dll.

Text-based (Google, Yahoo, ASK).


Pencarian dengan kata kunci (keyword). Pencarian

terbatas menggunakan query dalam bahasa alami. Multimedia (Youtube)


Pencarian dengan penampilan visual (bentuk, warna, gerak,)

Sistem jawaban pertanyaan (AskJeeves, Answerbus)


Pencarian dalam bahasa alami (terbatas)

Lainnya:

Information Retrieval System - IRS


Konsep dasar
Indexing Searching / matching Perangkingan relevansi bds keyword query

Model matematika nya

dimana Q = pertanyaan (queri), D = dokumen, n = jumlah dokumen, 2n = jumlah kemungkinan himpunan bagian dari dokumen yang ditemukan. Sistem temu-kembali akan mengambil salah satu dari kemungkinan tersebut.

[2] Indexing
Berfungsi menghasilkan database index Merupakan proses persiapan sehingga dokumen siap untuk diretrive.

Tahap-tahap dalam proses indexing


Parsing
Pengambilan kata-kata (term) dari tumpukan dokumen Menghapus karakter tanda baca Mengubah kumpulan term menjadi lowercase.

Stopword Removal
Pembuangan kata seperti : tetapi, yang, sedangkan, dan sebagainya.

Stemming
Pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.

Term Weighting
Pemberian bobot setiap term di dalam dokumen.

Algoritma stemming
Contoh stemming bahasa Indonesia

Masalah pada Stemming


Understemming,
Pemotongan terlalu sedikit, misalnya pengorbanan menjadi korbanan

Overstemming
Pemotongan terlalu banyak, misalnya mencapai menjadi capa

More info about stemming


http://tartarus.org/~martin/PorterStemm er/

[2] Searching / matching


Penemuan kembali informasi (dokumen) yang relevan terhadap query yang diberikan Tidak semua dokumen yang diambil (retrieved) sesuai dengan keinginan user (relevant).

Bagian-bagian IRS
Text Operations (operasi terhadap teks) meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam pentransformasian dokumen atau query menjadi terms index (indeks dari kata-kata). Indexing (pengindeksan), membangun basis Query formulation (formulasi data indeks dari koleksi dokumen. terhadap query) yaitu memberi Dilakukan terlebih dahulu sebelum bobot pada indeks kata-kata query. pencarian dokumen dilakukan. (perangkingan), mencari Ranking dokumen-dokumen yang relevan terhadap query dan mengurukan dokumen tersebut berdasarkan kesesuaiannya dengan query.

Operator query (1)


Model boolean
AND, OR dan NOT tanda kurung () untuk menentukan scope operator

Kekurangan
Hasil pencarian dokumen berupa himpunan Sulit melihat dokumen yang paling relevan atau agak relevan (partial match). Hasilnya kaku, menyulitkan pengguna yang tidak mengerti tentang ekpresi boolean

Operator query (2)


Model ruang vektor (1)
Kelebihan : query dapat berupa sekumpulan kata-kata / kalimat Misalkan terdapat sejumlah n kata yang berbeda. Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i diberikan bobot sebesar wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

Operator query (2)


Model ruang vektor (2)
Misalkan terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai :
D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3

Operator query (2)


Model ruang vektor (3)
Maka representasi grafis ketiga vektor tsb adalah

Operator query (2)


Model ruang vektor (4)
Representasi dalam bentuk matrik katadokumen

D1 D2 : : Dm

T1 T2 . w11 w21 w12 w22 : : : : w1m w2m

: : wnm

Tn wn1 wn2

Operator query (3)


Model Pembobotan Kata
Salah satu cara untuk memberi bobot terhadap suatu kata adalah memberikan nilai jumlah kemunculan suatu kata (term frequency) sebagai bobot Prinsipnya, semakin besar kemunculan suatu kata dalam dokumen akan memberikan nilai kesesuaian yang semakin besar Silahkan pelajari lebih lanjut, http://en.wikipedia.org/wiki/Tf-idf

Parameter pengujian
1. Precision (ketepatan)
Precision ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. precision = Jumlah dokumen yang relevan dengan query dan terambil. jumlah seluruh

dokumen yang terambil 2. Recall (kelengkapan/perolehan)


Recall ialah perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen relevan yang ada dalam koleksi dokumen (terambil ataupun tak terambil sistem).

Parameter pengujian
3. Interpolate Average Precision (IAP)
Pengukuran performansi dengan mempertimbangkan aspek keterurutan atau rangking. Dapat dilakukan dengan interpolasi antara precision dan recall. IAP akan mencatat semua dokumen yang relevan dan urutan dokumen tersebut pada hasil IRS dan menghitung nilai precisionnya.

Contoh
Misal terdapat 10 buah dokumen hasil perangkingan berdasarkan suatu query. Misalkan diketahui terdapat 4 buah dokumen relevan berdasarkan query tadi, tiga diantaranya ditemukan yaitu pada rangking 1, 4 dan 5. Maka perhitungan recall precision adalah
Rangking 1 2 3 4 5 6 7 8 9 10 Relevan Ya Tidak Tidak Ya Ya Tidak Tidak Tidak Tidak Tidak

Precision = 1 / 1 = 1 Recall = 1 / 4 = 0.25 Precision = 2 / 4 = 0.5 Recall = 2 / 4 = 0.5 Precision =3 / 5 = 0.6 Recall = 3 / 4 = 0.75

simpulan
semakin tinggi ketepatan (precison), semakin rendah perolehan (recall).

Beberapa teknik meningkatkan performansi IRS


Relevance Feedback (RF),
ada tanda/input/klik dari user untuk memperbaiki query

Query Expansion (QE),


tidak ada tanda (sistem secara automatis memperbaiki query)

Contoh teknik QE

Refer to

http://en.wikipedia.org/wiki/Information_retriev http://en.wikipedia.org/wiki/Vector_space_mod http://www.cse.unt.edu/~rada/CSCE5200/ http://tartarus.org/~martin/PorterStemmer/ http://en.wikipedia.org/wiki/Tf-idf

Pertanyaan?

Anda mungkin juga menyukai