Penulis
ii
DAFTAR ISI
iii
2.1. Pengertian Information Retrieval (IR) .................. 12
2.2. Definisi Information Retrieval .............................. 13
2.3. Peranan Information Retrieval (IR) ...................... 14
2.4. Cara Kerja Information Retrieval (IR) .................. 15
2.5. Model Information Retrieval (IR) ......................... 16
2.6. Contoh-Contoh Information Retrieval (IR) .......... 17
BAB III INVERTED INDEX ............................................... 19
iv
6.2. Cara Kerja HITS ................................................... 45
6.3. Algoritma HITS .................................................... 46
6.4. Contoh Perhitungan .............................................. 46
BAB VII PAGE RANK ........................................................ 49
v
11.3.3. Data Prepocessing ..................................... 92
11.3.4. Training ..................................................... 93
11.3.5. Analytic ..................................................... 94
DAFTAR PUSTAKA ........................................................... 95
vi
DAFTAR GAMBAR
vii
Gambar 6. 1 HITS ................................................................. 43
Gambar 6. 2 Sejarah HITS .................................................... 43
Gambar 6. 3 Dua Atribut Utama HITS ................................. 44
Gambar 6. 4 Gambaran Perbedaan Hub dan Authority ........ 44
Gambar 6. 5 Cara Kerja HITS .............................................. 45
Gambar 6. 6 Contoh Perhitungan.......................................... 46
Gambar 6. 7 Nilai Perkalian Matriks .................................... 47
Gambar 6. 8 Proses Perkalian Matriks .................................. 47
Gambar 6. 9 Pengertian Sentimen Analysis Menurut Para Ahli
.............................................................................................. 86
Gambar 6. 10 Text Mining.................................................... 87
viii
Gambar 8. 9 Menghapus Tanda Baca yang Tidak Diperlukan
.............................................................................................. 63
Gambar 8. 10 Melakukan Mapping Text .............................. 63
ix
Gambar 10. 16 Import Library NLTK, Download punkt dan
stopwords .............................................................................. 82
Gambar 10. 17 Melakukan Analisis Teks ............................. 82
Gambar 10. 18 Menghapus Tanda Baca yang Tidak Diperlukan
.............................................................................................. 83
Gambar 10. 19 Melakukan Mapping Text ............................ 83
Gambar 10. 20 Hasil Mapping Text...................................... 84
x
BAB I
DATA SCIENCE
Data Science/ilmu data adalah sebuah bidang ilmu
pengetahuan yang berfokus untuk memecahkan suatu masalah
menggunakan data. baik data yang terstruktur maupun tidak
terstruktur.
1
2
• Sisense
• Collibra
• Tableau
• MapR
• Qualtrics
• Oracle
• MongoDB
• Datameer
5. Soft Skill
Seorang data scientist juga dituntut memiliki
soft skill yang berguna untuk menunjang karirnya.
Seperti contoh, memiliki skill komunikasi yang
bagus, intuisi yang tinggi terhadap data, Mampu
bekerja sama dalam team, dll, beberapa soft skill
didapat dari sifat alami orang tersebut namun kamu
bisa mengasahnya dengan telus berlatih, bekerja
atau mengikuti pelatihan dan bootcamp.
1.6. Cara Mendapatkan Data
1.6.1. Survei
Cara pertama mendapatkan data adalah dengan cara
survey, banyak sekali perusahaan swasta yang melakukan
survei untuk mengetahui apa yang sangat di inginkan oleh
penggunanya.
12
13
1. Menurut Kowalaski
Informasi Retrieval adalah konsep sederhana dalam
pencarian yang dilakukan oleh seseorang. seperti contoh
ketika user akan mencari informasi yang dia butuhkan,
maka sistem menerjemahakan kepada bentuk statment
yang kemudian di eksekusi oleh sistem pencari.
2. William Hersh Menyatakan:
Information Retrieval adalah “bidang di
persimpangan ilmu informasi dan ilmu komputer.
Berkutat dengan pengindeksan dan pengambilan
informasi dari sumber informasi heterogen dan sebagian
besar-tekstual. Istilah ini diciptakan oleh Mooers pada
tahun 1951, yang menganjurkan bahwa diterapkan ke
“aspek intelektual” deskripsi informasi dan sistem untuk
pencarian (Mooers, 1951).”
3. Kutipan Dari Wikipedia
Wikipedia menjelaskan Information Retrieval (IR)
adalah seni dan ilmu mencari informasi dalam dokumen,
mencari dokumen itu sendiri, mencari metadata yang
menjelaskan dokumen, atau mencari dalam database,
apakah relasional database itu berdiri sendiri atau database
14
19
20
1. Windows
2. Search Engine
3. Mainframe-based DBMS (DATACOM/DB, ADABAS,
Model 204)
4. SDK (Java, Delphi, Python, dll)
1. Logical AND
Memperbolehkan penelusur untuk menggunakan
pernyataan query ke dalam suatu lebih konsep sehingga
hasil penelusuran menjadi lebih terbatas. Formula
24
25
= 00001
29
30
Gambar 5. 1 IR Evaluation
1. Precision
Precision mengukur ketepatan sebuah clasifier. Precision
menggambarkan tingkat keakuratan antara data yang
diminta dengan hasil prediksi. Precision didapatkan dari
rasio prediksi true positif dibandingkan semua data positif.
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑃) =
𝑇𝑃 + 𝐹𝑃
2. Recall
Recall mengukur kelengkapan atau sensitifitas dari sebuah
clasifier. Recall menggambarkan keberhasilan model
dalam menemukan kembali sebuah informasi. Recall
didapat dari rasio prediksi benar positif dibandingkan
dengan keseluruhan data true positif.
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙(𝑅) =
𝑇𝑃 + 𝐹𝑁
3. Accuracy
Accuracy menggambarkan seberapa akurat sebuah sistem
melakukan klasifikasi dengan benar. Akurasi didapatkan
dari perbandingan prediksi benar (positif & negatif)
dengan keseluruhan data.
𝑇𝑃 + 𝑇𝑁
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦(𝐴𝑐𝑐) =
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
36
𝑇𝑃 3 3
𝑅𝑒𝑐𝑎𝑙𝑙(𝑅) = = = = 0.6
𝑇𝑃 + 𝐹𝑁 3 + 2 5
𝑇𝑃 + 𝑇𝑁
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦(𝐴𝑐𝑐) =
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
3+2 5
= = = 0.625
3+2+1+2 8
37
Gambar 5. 8 TF IDF
Gambar 6. 1 HITS
43
44
Dimana:
H_i = Nilai H pada iterasi ke i
M = Matriks adjacency dari relasi antar halaman
M^T = Nilai transpose dari Matriks M
H_(i-1) = Nilai H dari iterasi sebelumnya
Algoritma HITS dapat dilihat diatas, dimana ada iterasi
terhadap nilai H. yang didapat dari matrik link website
dikalikan nilai transpose matrik tersebut dan dikalikan dengan
nilai H pada iterasi sebelumnya.
6.4. Contoh Perhitungan
• Page Rank
Cara kerja page rank adalah melakukan perankingan pada
seluruh pagian website dengan menggunakan metode link
analysis.
• HITS
Cara kerja hits adalah melakukan perankingan pda
sebagian halaman website yang sebelumnya telah di filter
berdasarkan query yang dilakukan oleh pengguna.
49
50
Gambar 7. 3 Inlink
Gambar 7. 4 Outlink
Gambar 7. 5 Popularitas
Dimana :
PR(A) : Page Rank dari Halaman A
t1…tn : Halaman yang memiliki link ke Halaman A
c : Jumlah outlink yang dimiliki masing-masing halaman
t1…tn
d : Damping factor, biasanya di set 0.85
• Cara 1
a. Case Folding,
Tidak semua dokumen teks konsisten dalam
penggunaan huruf kapital. Oleh karena itu, peran Case
Folding dibutuhkan dalam mengkonversi keseluruhan teks
dalam dokumen menjadi suatu bentuk standar (biasanya
huruf kecil atau lowercase). Sebagai contoh, user yang
ingin mendapatkan informasi “KOMPUTER” dan
mengetik “KOMPOTER”, “KomPUter”, atau
“komputer”, tetap diberikan hasil retrieval yang sama
yakni “komputer”. Case folding adalah mengubah semua
huruf dalam dokumen menjadi huruf kecil. Hanya huruf
‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf
dihilangkan dan dianggap delimiter.
56
57
b. Tokenizing,
Tahap Tokenizing adalah tahap pemotongan string
input berdasarkan tiap kata yang menyusunnya.
Tokenisasi secara garis besar memecah sekumpulan
karakter dalam suatu teks ke dalam satuan kata,
bagaimana membedakan karakter-karakter tertentu yang
dapat diperlakukan sebagai pemisah kata atau bukan.
c. Filtering,
Tahap Filtering adalah tahap mengambil kata-kata
penting dari hasil token. Bisa menggunakan algoritma
stoplist (membuang kata kurang penting) atau wordlist
(menyimpan kata penting). Stoplist/stopword adalah kata-
kata yang tidak deskriptif yang dapat dibuang dalam
pendekatan bag-of-words. Contoh stopwords adalah
“yang”, “dan”, “di”, “dari” dan seterusnya.
d. Stemming.
Pembuatan indeks dilakukan karena suatu dokumen
tidak dapat dikenali langsung oleh suatu Sistem Temu
Kembali Informasi atau Information Retrieval System
(IRS). Oleh karena itu, dokumen tersebut terlebih dahulu
perlu dipetakan ke dalam suatu representasi dengan
menggunakan teks yang berada di dalamnya.
1. Mendapatkan Leads
Dalam berburu leads untuk bisnis baru, tidak ada salahnya
jika anda mendekati follower akun media sosial
64
65
5.
Gambar 9. 5 Posisi Pengambilan Data
69
Selection 1
Data yang diambil merupakan data Nama, Url profil,
Ringkasan Review, & Review Full text
Selection 2
Merupakan pengambilan data pada tab Pagination review.
6. Klik untuk menjalankan proses scraping.
73
74
Gambar 10. 4 Memasukkan API Key, API Secret Key, Access Token dan
Access Token Secret
10. Lakukan export table, dengan klik menu Export Table, isi
nama file dan pada menu graph, pilih Visible Only,
kemudian klik Save.
12. Agar dapat mengambil data dari google drive, kita perlu
melakukan ijin akses terlebih dahulu.
15. Kita akan mengolah data pada kolom Label saja, maka
ambil data yang berada dalam tabel.
Kesimpulan:
Dari hasil mapping di atas, yang dilakukan pada tanggal 14
April 2020, pukul 20.30 WIB, dari 4 keyword yaitu corona,
ekonomi, ojol, bantuan. Maka diperoleh 3 topik utama yaitu:
• Tolong bantu
• Mata pencaharian
• Gada yang beli (Tidak ada yang beli)
BAB XI
SENTIMEN ANALYSIS
85
86
Contoh
Contoh
1. Status Negatif
Dalam twit di atas mengandung kata "tidak" yang bisa
menimbulkan efek negatif, kemungkinan kombinasi
dengan tidak berpuasa ramadhan itu yang membuat
kalimat ini dianggap negatif.
2. Status Netral
Karena twitt di atas mangandung unsur informasi yang
dianggap biasa. karena APD yg dulu dianggap langkah
saat ini sudah banyak di produksi bahkan dibagikan oleh
beberapa komunitas.
3. Status Positif
Karena twitt di atas mengandung kata yang mengandung
informasi penting, jadi twit tersebut memberikan
informasi untuk pemeriksaan dini covid 19
91
11.3.4. Training
11.3.5. Analytic
Tahap akhir pada proses ini adalah pada tahap
analytic dimana komputer akan menebak atau
memprediksi terhadap kata atau komentar baru yang
belum diajarkan pada training.
[1]
Elninoru, Rifaldy. “Pengertian Data Science dan contoh
pemanfaatannya” 2020. [Online]. Available:
https://anaktik.com/data-
science/#Perbedaan_Business_Intelligence_BI_Dan_Data_S
cience
[2]
Prapta, Ligia. “Pengertian Information Retrieval (IR),
Peranan IR dan Contoh-contoh IR” 2015. [Online].
Available:
https://ligiaprapta17.wordpress.com/2015/03/03/pengertian-
information-retrieval-ir-peranan-ir-dan-contoh-contoh-ir/
[3]
Advernesia, “Pengertian Data Science dan Data Scientist”.
[Online]. Available: https://www.advernesia.com/blog/data-
science/apa-itu-data-science-dan-data-scientist/
[4]
Markijar. “Information Retrieval” 2015. [Online]. Available:
http://www.markijar.com/2015/07/information-
retrieval.html
[5]
“Boolean Retrieval” 2015. [Online]. Available:
https://1104505027unud.wordpress.com/2015/04/07/boolean
-retrieval/
95
96
[6]
Nayoan, Aldwin. “Apa itu Web Scraping? Pengertian,
Teknik, dan Manfaatnya” 2020. [Online]. Available:
https://www.niagahoster.co.id/blog/web-
scraping/#:~:text=Dengan%20kata%20lain%2C%20web%2
0scraping,copy%20paste%20dari%20sebuah%20website