Anda di halaman 1dari 9

Presentasi berjudul: "Sistem Temu-Balik Pengantar Temu-Balik

Informasi Pertemuan ke-2"— Transcript presentasi:

1 Sistem Temu-Balik Pengantar Temu-Balik Informasi Pertemuan ke-2

2 ...akan dibahas • Information Retrieval (IR) Sistem IR


Pengantar Temu-Balik Informasi...akan dibahas•Information Retrieval (IR)Sistem IRIstilah
dalam IRIR Berbasis TeksArsitektur Sistem IRSejarah IRArea Terkait2

3 • Pencarian materi (biasanya dokumen) dari sesuatu


Pengantar Temu-Balik InformasiDefinisi IR• Pencarian materi (biasanya dokumen) dari
sesuatuyang sifatnya tak-terstruktur (unstructured, biasanyateks) untuk memenuhi
kebutuhan informasi daridalam koleksi besar (biasanya disimpan dalamkomputer).•
Representasi, penyimpanan, organisasi, pencariandan akses ke item informasi untuk
memenuhikebutuhan informasi pengguna.• Penekanan pada proses retrieval informasi
(bukandata).• Karakterisasi kebutuhan informasi tidaklah mudah.Harus ditranslasi ke dalam
suatu query terlebihdahulu.3

4 • Information retrieval
Pengantar Temu-Balik InformasiMotivasi• Data retrieval– Dokumen mana yang
mengandung himpunankeyword?– Semantik didefinisikan dengan baik– Error dari suatu
obyek mengakibatkan kegagalan!• Information retrieval– Informasi mengenai suatu subyek
atau topik– Semantik dapat bersifat lepas (longgar)– Error kecil ditoleransi4

5 • IR di tengah pertunjukan
Pengantar Temu-Balik Informasi...Motivasi• IR di tengah pertunjukan– IR dalam 20 tahun
terakhir:• Klasifikasi dan kategorisasi• Sistem dan bahasa• Antarmuka pengguna dan
visualisasi– Masih, area dilihat sebagai bidang yang sempit– Web mengubah persepsi ini•
Repository pengetahuan universal• Akses universal gratis (biaya rendah)• Volume raksasa
dari informasi tanpa editorial boardterpusat• Meskipun banyak masalah: IR merupakan
kunci untukmenemukan solusi!5

6 • Menerima query pengguna yang mewakili


Pengantar Temu-Balik InformasiSistem IR• Menerima query pengguna yang
mewakilikebutuhan informasi• Mencari dan menginterpretasikan content(isi) dari item-item
informasi• Membangkitkan suatu ranking yangmencerminkan relevansi terhadapkebutuhan
informasi tersebut• Ide mengenai relevansi adalah sangatpenting6

77

8 • WWW: lebih 25 milyar halaman web, 1.3 milyar


Pengantar Temu-Balik InformasiKebutuhan IR• WWW: lebih 25 milyar halaman web, 1.3
milyargambar dan lebih 1 milyar pesan Usenet yangdiindeks pada Google (2006)• Berbagai
kebutuhan informasi:–Mencari dokumen yang masuk dalam topik tertentuMencari suatu
informasi spesifikMencari jawaban dari suatu pertanyaanMencari informasi dalam bahasa
berbeda...8
9 Penjualan Software Text Retrieval
Pengantar Temu-Balik InformasiPenjualan Software Text Retrieval9

10 • Secara teknis: indexing (pembuatan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiInformation Retrieval (IR)• Secara teknis: indexing (pembuatanindex) dan retrieval
(pencarianketerangan) dokumen textual.• Pencarian halaman pada WWW adalahaplikasi
paling “ngetop” saat ini• Fokus pertama: meretrieve dokumen-dokumen yang relevan
dengan query.• Fokus kedua: meretrieve himpunan besardokumen secara efisien.10

11 • Sistem data retrieval (seperti database) berurusan dengan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiInformation vs Data Retrieval• Sistem data retrieval (seperti database) berurusan
denganstructured data yang mempunyai semantik terdefinisidengan baik dan kebutuhan
meretrieve hasil yang pasti(exact)• Sistem IR berurusan dengan dokumen bahasa
alami(natural language) dan error kecil dapat diabaikan.• Sistem IR harus
menginterpretasikan content kemudianmeranking daftar content sesuai dengan
tingkatrelevansinya.• Tujuan: Meretrieve semua dokumen yang relevansekaligus meretrieve
sesedikit mungkin dokumenyang tidak relevan11

12 • Diberikan: • Temukan: Tugas IR Dasar


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiTugas IR
Dasar• Diberikan:– Suatu corpus dokumen bahasa alamitekstual.– Suatu query pengguna
dalam bentuk string• Temukan:– Suatu himpunan dokumen terurut menurun(ranking) yang
relevan dengan querytersebut.12

13 Sistem IR 13 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiSistem IR13

14 • Conventional (katalog perpustakaan)


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiContoh
Sistem IR• Conventional (katalog perpustakaan)Pencarian dengan kata kunci, judul, penulis,
dll.• Text-based (Google, Yahoo, ASK).Pencarian dengan kata kunci (keyword).
Pencarianterbatas menggunakan query dalam bahasa alami.• Multimedia (QBIC, WebSeek,
SaFe)Pencarian dengan penampilan visual (bentuk, warna,…)• Sistem jawaban pertanyaan
(AskJeeves, Answerbus)Pencarian dalam bahasa alami (terbatas)• Lainnya:IR lintas-bahasa,
music retrieval14

15 • Pencarian halaman web http://www.google.com


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiSistem IR
di Web• Pencarian halaman web• Pencarian gambar• Pencarian isi (content) gambar•
Pencarian jawaban pertanyaan• Pencarian musik? Hari-hati, jangan melanggarhukum.15

16 • Relevansi merupakan suatu judgment


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiRelevansi• Relevansi merupakan suatu judgment(keputusan) subyektif dan dapat
didasarkanpada:–topik yang tepat.waktu (informasi terbaru).otoritatif (dari suatu sumber
terpercaya).kebutuhan informasi dari pengguna.• Kriteria relevansi utama: suatu sistem
IRsebaiknya (harus) memenuhi kebutuhaninformasi pengguna.16

17 • Ide paling sederhana dari relevansi:


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiPencarian
Keyword• Ide paling sederhana dari relevansi:apakah string query ada di dalamdokumen
(kata demi kata, verbatim)?• Ide yang lebih fleksibel: Berapa seringkata-kata di dalam query
muncul di dalamdokumen, tanpa melihat urutannya (bagof words)?17

18 • Mungkin tidak meretrieve dokumen relevan yang


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiMasalah
dengan Keyword• Mungkin tidak meretrieve dokumen relevan yangmenyertakan
synonymous terms.– “restaurant” vs. “café”– “NDHU” vs. “National Dong Hwa University”•
Mungkin meretrieve dokumen tak-relevan yangmenyertakan ambiguous terms.– “bat”
(baseball vs. mamalia)– “Apple” (perusahaan vs. buah-buahan)– “bit” (unit data vs. perilaku
menggigit)18

19 • Kita akan mendiskusikan dasar-dasar IR


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiBukan
Sekedar Keyword• Kita akan mendiskusikan dasar-dasar IRberbasis keyword, tetapi…– Fokus
pada perluasan dan pengembanganterakhir untuk mendapatkan hasil terbaik.• Kita akan
membahas dasar-dasarpembangunan sistem IR yang efisien,tetapi…– Fokus pada algoritma
dan kemampuan dasar,bukan masalah sistem yang memungkinkanpengembangan ke
database ukuran industri.19

20 • Memanfaatkan pengertian atau makna dari kata


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIR
Cerdas• Memanfaatkan pengertian atau makna dari katayang digunakan.• Melibatkan
urutan kata di dalam query.• Beradaptasi dengan pengguna berdasarkanpada feedback,
langsung atau tidak langsung.• Memperluas pencarian dengan term terkait.• Mengerjakan
pemeriksaan ejaaan/perbaikantanda pengenal otomatis.• Memanfaatkan Otoritas dari
sumber informasi.20

21 • Sistem IR jarang mencari koleksi dokumen


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIndeks•
Sistem IR jarang mencari koleksi dokumensecara langsung. Berdasarkan pada
koleksidokumen, dibangun sebuah index. Penggunamencari index tersebut.21

22 • Tujuan dari automatic indexing adalah


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIndexing
Otomatis• Tujuan dari automatic indexing adalahmembangun index dan meretrieve
informasitanpa intervensi manusia.• Ketika informasi yang dicari adalah teks,metode
automatic indexing akan sangat efektif.• Penelitian automatic indexing fundamentaldimulai
oleh Gerald Salton, Professor ofComputer Science di Cornell & mahasiswaPasca-Sarjananya
(Sistem SMART).22
23 • Information retrieval dari koleksi sangat besar
Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIR dari
Koleksi Besar• Information retrieval dari koleksi sangat besarbersandar pada:– Jumlah
computer power yang besar untukmengerjakan algoritma sederhana terhadap jumlahdata
yang sangat banyak.komputasi kinerja-tinggi– Pemahaman pengguna terhadap informasi
dankemampuan dari sistem.Interaksi manusia - komputer• Machine-learning banyak
digunakan untukmendapatkan kinerja terbaik.23

24 • Orang dalam perulangan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiSearching
& Browsing• Orang dalam perulangan24

25 • Kategori utama dari metode:


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIR dari
Koleksi Dokumen Teks• Kategori utama dari metode:– Ranking kemiripan terhadap query
(vector spacemodel).– Pencocokan exact (Boolean).– Ranking berdasarkan tingkat
kepentingan dokumen(PageRank)– Kombinasi beberapa metode• Contoh: Web search
engine, seperti Google &Yahoo, menggunakan metode kombinasi,berdasarkan pada
pendekatan pertama danketiga, dengan kombinasi exact dipilihmenggunakan machine
learning.25

26 • Information retrieval: sub-bidang ilmu


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIstilah
Penting• Information retrieval: sub-bidang ilmukomputer yang berurusan dengan
penemuankembali dokumen (khususnya teks) terotomasiberdasarkan pada content dan
contextnya.• Searching: Pencarian informasi spesifik didalam badan informasi. Hasilnya
adalahsehimpunan hit.• Browsing: Eksplorasi tak-terstruktur dari badaninformasi.• Linking:
Berpindah dari satu item ke item lainmengikuti link (sambungan) seperti
rujukan(referensi).26

27 • Query: Suatu string teks, menggambarkan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Istilah•
Query: Suatu string teks, menggambarkaninformasi yang sedang dicari pengguna.
Setiapkata dari query dinamakan search term.• Query dapat berupa search term tunggal,
string dariterm, frase atau ekspresi tertentu menggunakansimbol khusus, misalnya regular
expression.• Pencarian Full text: Metode yang membandingkanquery dengan setiap kata di
dalam teks, tanpamembedakan fungsi dari berbagai kata.• Pencarian Bidang : Metode
pencarian pada bidangstruktural atau bibliografis spesifik, seperti penulisatau judul.27

28 • Corpus: Koleksi dokumen yang diindeks dan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Istilah•
Corpus: Koleksi dokumen yang diindeks dandijadikan target pencarian.• Daftar kata:
Himpunan semua term yang digunakandalam indeks untuk suatu corpus (dikenal
sebagaivocabulary file).• Pada pencarian full text, word list adalah semuaterm di dalam
corpus, stop words dihapus. Term-term terkait dikombinasi dengan stemming.• Controlled
vocabulary: Metode indexing dimanaword list bersifat tetap. Term-term dari
vocabularytersebut dipilih untuk mendeskripsikan setiapdokumen.• Keyword: Nama untuk
term-term dalam word list,terutama dengan controlled vocabulary.28

29 • Ketika pengguna men-submit suatu query ke


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiMengurutan & Ranking Hit• Ketika pengguna men-submit suatu query kesistem IR,
sistem mengembalikan sehimpunan hit.Pada koleksi dokumen besar, himpunan hit
akansangat besar.• Nilai untuk pengguna sering tergantung padaurutan hit ditampilkan.•
Tiga metode utama:– Mengurutkan hit, misal berdasarkan tanggal– Meranking hit
berdasarkan kemiripan antara querydan dokumen– Meranking hit berdasarkan
kepentingan dari dokumen29

30 • Sebagian besar metode ranking didasarkan pada model


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIR
Berbasis Teks• Sebagian besar metode ranking didasarkan pada modelruang vektor (vector
space model).• Sebagian besar metode pencocokan (matching)didasarkan ada operator
Boolean.• Metode Web search mengkombinasikan model ruangvektor dengan ranking
berdasarkan pada tingkatkepentingan dokumen.• Banyak sistem (dalam praktek)
menggabungkan fitur-fitur dari beberapa pendekatan.• Pada bentuk dasar, semua
pendekatan menganggapkata sebagai token terpisah, dengan usaha minimaluntuk
memahami kata-kata secara linguistik.30

31 • Observasi: Beberapa kata lebih umum


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiFrekuensi
Kata• Observasi: Beberapa kata lebih umumdaripada yang lain.• Statistika: Koleksi sangat
besar daridokumen teks tak-terstruktur mempunyaikarakteristik statistik serupa. Statistik
ini:– Mempengaruhi efektifitas dan efisiensi daristruktur data yang digunakan
untukmengindeks dokumen– Banyak model retrieval memanfaatkannya.31

32 • Contoh: Contoh berikut ini diambil dari :


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
Informasi...Frekuensi Kata• Contoh: Contoh berikut ini diambil dari :– Jamie Callan,
Characteristics of Text, 1997– 19 Juta kata sampel– Slide berikut memperlihatkan 50 kata
yangpaling umum, diranking (r) berdasarkanfrekuensinya (f).32

33 ...Frekuensi Kata 33 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan Informasi...Frekuensi Kata33

34 • Untuk semua kata di dalam suatu dokumen,


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiDistribusi
Ranking Frekuensi• Untuk semua kata di dalam suatu dokumen,untuk setiap kata w– f
adalah frekuensi munculnya w– r ranking dari w disusun menurut frekuensi. (katayang
paling umum muncul mempunyai rank =1)34

35 • Slide berikut memperlihatkan kata-kata di


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiContoh
Frekuensi Rank• Slide berikut memperlihatkan kata-kata didalam data Callan yang telah
dinormali-sasi. Dalam contoh ini:– r adalah ranking dari kata w dalam sampel.– f adalah
frekuensi kata w di dalam sampel.– n adalah jumlah total kemunculan kata didalam
sampel.35

36 ...Contoh Ranking Frekuensi


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Contoh
Ranking Frekuensi36

37 • Jika kata-kata di dalam suatu koleksi


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiHukum
Zipf• Jika kata-kata di dalam suatu koleksidiranking, r, berdasarkan frekuensinya, f,maka
memenuhi relasi:r × (f/n) = cdimana n adalah jumlah kemunculan katadi dalam koleksi, 19
juta dalam contoh.• Koleksi berbeda mempunyai konstanta cberbeda.• Dalam teks bahasa
Inggris, c sekitar 0.1.37

38 • Stop lists: Abaikan kata-kata yang sangat


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiMetode
pada Hukum Zipf• Stop lists: Abaikan kata-kata yang sangatsering (upper cut-off). Digunakan
oleh hampirsemua sistem.• Significant words: Abaikan kata yang palingsering dan paling
sedikit (upper and lower cut-off). Jarang digunakan.• Term weighting: Berikan bobot
berbeda untukterm-term berdasarkan pada frekuensinya, kata-kata yang paling sering
dibobot kurang.Digunakan oleh hampir semua metodeperankingan.38

39 • Representasi dokumen dipandang


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiPandangan Logik Dokumen• Representasi dokumen dipandangsebagai suatu
continuum (rangkaiankesatuan).39

40 Arsitektur Sistem IR 40 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiArsitektur Sistem IR40

41 Arsitektur IR: Contoh 41 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiArsitektur IR: Contoh41

42 • Operasi Teks membentuk kata-kata indeks


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiKomponen Sistem IR• Operasi Teks membentuk kata-kata indeks(token)–
Tokenization (pemisahan kata)– Penghapusan Stopword (seperti ‘the’, ‘of’, …)– Stemming
(mengubah kata-kata berbeda ke bentukakarnya)• Indexing membangun suatu inverted
index darikata ke penunjuk dokumen.– Pemetaan dari kata kunci ke Id dokumen.42

43 • Searching meretrieve dokumen-dokumen yang


Pengantar Temu-Balik Informasi...Komponen Sistem IR• Searching meretrieve dokumen-
dokumen yangmengandung token query yang diberikan dariinverted index.• Ranking
memberikan score kepada semuadokumen yang diretrieve sesuai denganrelevance metric.•
User Interface menangani interaksi denganpengguna:– Input query dan output dokumen.–
Feedback relevansi– Visualisasi hasil.43
44 • Operasi Query mentransformasi query untuk
Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
Informasi...Komponen Sistem IR• Operasi Query mentransformasi query
untukmeningkatkan retrieval:– Query expansion menggunakan thesaurus.– Query
transformation menggunakan feedbackrelevansi.– Optimisasi query untuk meningkatkan
kinerja. (kurangpenting daripada dalam sistem data retrieval)• Pertanyaan: bagaimana
menambahkan suatukomponen personalisasi ke sistem IR?44

45 • Aplikasi IR terhadap dokumen pada WWW • Perbedaan:


Pengantar Temu-Balik InformasiPencarian Web• Aplikasi IR terhadap dokumen pada WWW•
Perbedaan:– Ukuran – lebih dari 25 milyar dokumen diindeks padaGoogle, terus
bertambah– Perubahan dokumen tidak dapat dikendalikan.– Harus menghimpun corpus
dokumen denganmenjaring (spidering) web.– Dapat mengeksploitasi informasi layout
strukturaldalam HTML (XML).– Dapat mengeksploitasi struktur link dari web.45

46 Sistem Pencarian Web 46 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiSistem Pencarian Web46

47 Tugas lain terkait IR • Kategorisasi dokumen otomatis


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiTugas lain
terkait IR•Kategorisasi dokumen otomatisPenyaringan informasi (spam filtering)Perutean
(routing) informasiClustering dokumen otomatisMerekomendasikan informasi atau
produkEkstraksi informasiIntegrasi informasiJawaban pertanyaan...47

48 Timeline Sistem IR 48 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiTimelineSistemIR 48

49 Pengantar Temu-Balik Informasi


Sistem Temu-Balik KomputerKeamanan InformasiSejarah IR• an:– Eksplorasi awal dari
sistem text retrieval untukcorpora abstrak ilmiah “kecil”, dan dokumenhukum dan bisnis.–
Pengembangan model retrieval dasarBoolean dan ruang vektor.– Prof. Salton dan
mahasiswanya di CornellUniversity mengawali penelitian di bidang ini.49

50 • 1980-an: ...Sejarah IR – Sistem database dokumen besar, banyak


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Sejarah
IR• an:– Sistem database dokumen besar, banyakdijalankan oleh perusahaan:• LexisNexis –
arsip yang dapat dicari (searchable)dari content surat kabar, majalah, dokumen
legal(hukum) dan sumber tercetak lain.• Dialog• MEDLINE50

51 • 1990-an: ...Sejarah IR – Pencarian dokumen FTPable di Internet


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Sejarah
IR• an:– Pencarian dokumen FTPable di Internet• Archie• WAIS (Wide Area Information
System)– Pencarian World Wide Web• Lycos• Yahoo• Altavista51

52 • 1990-an (lanjutan): ...Sejarah IR – Kompetisi Terorganisir


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Sejarah
IR• an (lanjutan):– Kompetisi Terorganisir• NIST(National Institute of Standards
andTechnology) TREC(Text REtrieval Conference)dimulai tahun 1992– Sistem rekomendasi•
Ringo (musik)• Amazon (buku)• NetPerceptions (collaborative filtering)– Katagorisasi dan
clustering teks otomatis52

53 • 2000-an Sejarah IR Terakhir – Analisis link untuk pencarian web


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiSejarah IR
Terakhir• an– Analisis link untuk pencarian web• Google– Ekstraksi informasi otomatis•
Whizbang• Fetch• Burning Glass– Jawaban pertanyaan• TREC Q/A track53

54 • 2000-an (lanjutan): ...Sejarah IR Terkini – IR Multimedia • Image


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan Informasi...Sejarah
IR Terkini• an (lanjutan):– IR Multimedia• Image• Audio dan musik• Video– IR lintas-bahasa•
DARPA TIDES(Translingual Information Detection,Extraction and Summarization)–
Perangkuman dokumen54

55 Area Terkait • Manajemen Basis Data Ilmu Perpustakaan dan Informasi


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiArea
Terkait•Manajemen Basis DataIlmu Perpustakaan dan InformasiKecerdasan
BuatanPemrosesan bahasa alamaiPembelajaran Mesin55

56 • Fokus pada data terstruktur yang disimpan


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiManajemen Basis Data• Fokus pada data terstruktur yang disimpandalam tabel-
tabel relasional, bukan teksbentuk bebas.• Fokus pada pemrosesan yang efisien dariquery
yang terdefinisi baik dalam suatubahasa formal (SQL).• Semantik lebih jelas bagi data dan
query.• Terkini: bergerak ke data semi-structured(XML) membawa ini lebih dekat ke IR.56

57 • Fokus pada apsek pengguna manusia dari


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiIlmu
Perpustakaan & Informasi• Fokus pada apsek pengguna manusia dariinformation retrieval
(interaksi manusia-komputer, antarmuka pengguna, visualisasi).• Berurusan dengan
efektifitas katagorisasi daripengetahuan manusia.• Terkait dengan analisis kutipan (citation)
danbibliometrics (struktur informasi).• Terkini: kerja pada pustaka digital membawabidang
ini dengan ke Ilmu Komputer dan IR.57

58 • Fokus pada representasi pengetahuan,


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiKecerdasan Buatan• Fokus pada representasi pengetahuan,penalaran (reasoning)
dan tindakan cerdas.• Formalisasi representasi pengetahuan danquery:– First-order
Predicate Logic– Bayesian Networks– ...• Terkini: Kerja pada web ontology & agentinformasi
cerdas membawa AI dekat ke IR.58

59 • Natural Language Processing (NLP)


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiPemrosesan Bahasa Alami• Natural Language Processing (NLP)• Difokuskan pada
analisis sintaktis, semantik,dan pragmatis dari teks dan percakapan bahasaalami.•
Kemampuan untuk menganalisa sintaks(struktur fase) dan semantik
memungkinkanretrieval berdasarkan pada pengertian (makna)daripada keyword.• Semua
sistem IR membutuhkan berbagaiderajat NLP.59

60 • Metode untuk menentukan makna dari


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiNLP: Arah
IR• Metode untuk menentukan makna darikata yang ambigu berdasarkan padacontext
(word sense disambiguation).• Metode untuk mengidentifikasi potonganspesifik dari
informasi dalam suatudokumen (information extraction).• Metode untuk menjawab
pertanyaan NLspesifik dari document corpora.60

61 Pembelajaran Mesin (Machine Learning)


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan
InformasiPembelajaran Mesin (Machine Learning)• Fokus pada pengembangan
sistemkomputasional yang meningkatkan kinerjanyadengan pengalaman (pembelajaran).•
Klasifikasi contoh secara otomatis berdasarkanpada konsep pembelajaran dari contoh
trainingyang diberi label (supervised learning).• Metode otomatis untuk meng-cluster
contoh-contoh tak-berlabel dalam kelompok yangsesuai arti (unsupervised learning).61

62 • Text Categorization (pengelompokan teks)


Pengantar Temu-Balik InformasiSistem Temu-Balik KomputerKeamanan InformasiMachine
Learning: Arah IR• Text Categorization (pengelompokan teks)– Klasifikasi hirarki otomatis
(Yahoo).– Rekomendasi, penyaringan, routing adaptif.– Penyaringan spam terotomasi.• Text
Clustering– Clustering dari hasil query IR.– Formasi hirarki otomatis (Yahoo).• Pembelajaran
pada ekstraksi informasi• Text Mining• Web Mining62

Anda mungkin juga menyukai