Anda di halaman 1dari 6

BAB II

LANDASAN TEORI
2.1 Proses Pemerolehan Informasi
Proses pemerolehan informasi adalah proses pencarian material (bisa berupa
dokumen ataupun kata) yang bertujuan untuk memenuho kebutuhan informasi
dari suatu kumpulan dokumen yang besar. Proses ini biasanya berhubungan
dengan dengan representasi, media penyimpanan, pengaksesan, dan
pengorganisasian sesuatu yang memiliki informasi [1].
Proses pemerolehan informasi digunakan untuk mengurangi terlalu besarnya
jumlah informasi sehingga pada proses pencarian informasi akan menjadi lebih
efektif dan memberikan hasil pencarian dokumen yang relevan dengan query.
Query merupakan kata kunci yang diberikan oleh pengguna kepada sistem sebagai
acuan untuk mendapatkan informasi yang relevan terhadap kebutuhan query.
Query yang dimasukkan ke dalam sistem akan diolah menggunakan metode yang
diterapkan ke dalam sistem pemerolehan informasi untuk kemudian ditampilkan
berdasarkan urutan nilai relevansi yang paling tinggi. Untuk lebih mempermudah
proses pemerolehan informasi maka data bisa diklasifikasikan [2].

2.2 Text mining


Text mining adalah sebuah teknik/pendekatan algoritmik berbasis komputer
untuk mendapatkan suatu pengetahuan baru yang tersembunyi dari sekumpulan
teks. Text mining merupakan bagian dari keilmuan information retrieval (temu
balik informasi) yang bekerja pada data bertipe teks yang cenderung tidak
terstruktur[3]. Mekanisme kerja algoritma-algoritma text mining memiliki
kemiripan dengan algoritma-algoritma data mining secara umum. Perbedaan dari
text mining dan data mining adalahdari segi tipe data yang menjadi objek
kerjanya. Jika data mining bekerja pada data terstruktur yang maka text mining
bekerja pada data yang tidak terstruktur. Kombinasi antara text mining dan data

II-7
II-8

mining dapat digunakan untuk menyelesaikan masalah-masalah klasifikasi,


klastering, maupun prediksi pada informasi yang bersifat tekstual[4].
Seperti halnya data mining, text mining merupakan pendekatan algoritmik
yang secara sistematis memproses data teks melalui beberapa tahapan. Secara
umum, tahapan besar dalam text mining terdiri dari tiga bagian utama yakni
text preprocessing, feature selection, dan text analytic.
Penjelasan lebih lanjut dari tahap-tahap tersebut adalah sebagai berikut :
1. Text Preprocessing
Tahapan ini adalah tahapan yang berfungsi untuk membersihkan teks
sebelum diolah lebih lanjut. Data teks mentah yang tidak terstruktur
memiliki cukup banyak noise seperti tanda baca, angka, imbuhan,
karakter-karakter khusus, slang word dan lain sebagainya. Dalam tahapan
ini, data teks tersebut dibersihkan sehingga tersisa bentuk dasarnya saja
untuk keperluan analisis teks lebih lanjut.
2. Feature Selection
Tahapan ini berperan dalam menentukan term/kata kunci yang menjadi ciri
dari suatu dokumen yang membedakan dokumen tersebut dengan
dokumen yang lain dalam satu korpus. Dalam text mining, feature
selection merupakan tahapan yang paling penting yang memiliki peran
yang sangat signifikan dalam akurasi text analytic. Empat pendekatan
yang paling umum digunakan dalam feature selection adalah Document
Frequency (DF), Term Frequency (TF), Inverse Document Frequency
(IDF) dan Term Frequency/Inverse Document Frequency (TF/IDF).
a. Document Frequency (DF). Prinsip kerja dari DF adalah membuang
term-term yang umum terdapat di dokumendokumen yang ada pada
suatu korpus dokumen teks. Sehingga term yang tersisa dalam suatu
dokumen adalah term-term yang memiliki tingkat overlapping yang
rendah dengan term-term yang terdapat di dokumen lain dalam suatu
korpus.
b. Term Frequency (TF). Berbeda dengan DF, pendekatan TF tidak
mengindahkan term yang terkandung dalam dokumen lain. Metode TF
II-9

hanya secara sederhana menghitung kemunculan term dalam suatu


dokumen. Term-term yang memiliki frekuensi kemunculan tinggi akan
menjadi ciri dari suatu dokumen dimana term tersebut berada.
Term Frequency (TF) memiliki beberapa formula yang digunakan:
1. TF biner, dengan memperhatikan apakah kata atau biner, dengan
memperhatikan apakah kata atau term di dalam dokumen ada,
apabila ada diberi nilai satu (1), dika tidak ada diberi nilai nol (0).
2. TF murni, untuk nilai TF didasarkan pada jumlah kemunculan
suatu term pada dokumen. Misal apabila kata muncul 5 kali maka
nilai yang digunakan adalah lima (5).
3. TF logaritmik, hal ini dilakukan untuk menghindari dominansi
pada dokumen yang mengandung sedikit term pada query, namun
mempunyai frekuensi yang tinggi.

Untuk mencari TF logaritmik biasanya menggunakan rumus:


TF={1+ log10 ( ft ,d )0,, ftft,d,d>10
=0

Dimana TF adalah Term Frequency dan ft,d frekuensi term (t)


terhadap document (d).
4. TF Normalisasi, dengan menerapkan perbandingan antara
frekuensi sebuah term terhadap nilai maksimum dari keseluruhan
atau sekumpulan frekuensi term yang ada pada dokumen

TF=0.5+0.5 X
[ '
ft , d
'
max {f t , d :t , d ∈d } ]
c. Inverse Document Frequency (IDF). Pendekatan IDF mirip dengan TF,
yakni menghitung frekuensi kemunculan suatu term. Namun, jika TF
menghitung kemunculan suatu term hanya di satu dokumen teks, maka
IDF menghitung kemunculan suatu term di keseluruhan korpus
dokumen.
II-10

d. Term Frequency/Inverse Document Frequency (TF/IDF). TF/IDF


adalah gabungan dari pendekatan TF dan IDF dengan mengambil rasio
antara nilai TF dan nilai IDF.
3. Text Analytic
Tahapan terakhir dari proses text mining adalah text analytic. Dalam
tahapan ini data teks yang sudah dibersihkan dan diidentifikasikan
berdasarkan term/kata kunci yang menjadi ciri dokumen teks tersebut
diolah dengan menggunakan berbagai macam algoritma untuk berbagai
kebutuhan analisis. Dua jenis text analytic yang paling sering dilakukan
adalah topic modelling dan sentiment analysis. Topic modelling adalah
sebuah pendekatan untuk mengelompokkan teks/dokumen teks kedalam
beberapa kategori secara otomatis berdasarkan tingkat kesamaan term/kata
kunci. Sedangkan sentiment analysis adalah sebuah pendekatan untuk
mengestimasi/mengklasifikasikan teks ke dalam berbagai macam
sentiment (positif, negative, netral, sarkas, dan lain sebagainya).

2.3 Klasifikasi Dokumen


Klasifikasi dokumen adalah proses penanggulangan munculnya masalah
sederhana pada jumlah dokumen yang setiap hari semakin bertambah jumlah
dokumennya. Kegunaan dari pengklasifikasian dokumen sendiri adalah untuk
pengorganisasian dokumen, membantu proses pencarian sebuah dokumen secara
cepat dan tepat. Klasifikasifikasi dokumen akan mengelompokkan dokumen
terhadap kategori yang terkandung didalam dokumen tersebut [5].

2.4 K-Nearest Neighbor


K-Nearest Neighbor adalah salah satu metode pengenalan pola yang umum
dan sering digunakan untuk proses klasifikasi sekelompok data yang jaraknya
paling dekat dengan obyek. Metode ini termasuk ke dalam algoritma yang
supervised learning. Supervised learning sendiri adalah pembelajaran yang
terawasi, karena output yang diharapkan telah diketahui sebelumnya. Penggunaan
metode ini biasanya digunakan pada data yang sudah ada[2].
II-11

Metode ini mengkategorikan sebuah sampel data tetangga terdekat pada data
training. Semakin mirip suatu dokumen maka semakin tinggi peluang untuk
dikelompokkan kedalam satu dokumen. Sebaliknya, apabila dokumen semakin
tidak mirip maka peluang untuk dikelompokkan ke dalam satu dokumen semakin
rendah. Dalam pengukuran kemiripan ini biasanya menggunaka Cosine
Similiarity, kovarian dan kolerasi[6].
Cosine similiarity adalah metode yang digunakan untuk mencari kemiripan
antara vector dokumen dengan vector query. Semakin mirip vector dokumen
dengan vector query maka dokumen semakin sesuai dengan query[5]. Rumus
untuk perhitungan cosine similiarity antara dua vector adalah sebagai berikut:
t

∑ ( Wik .Wjk )
k=1
CosSim ( Di , Dj )=

√∑
t t
2 2
Wik . ∑ Wjk
k=1 k=1

Dimana :

T = Banyaknya kata unik pada dokumen di kategori


Di = Dokumen uji
Dj = Dokumen training
Wik = Bobot nilai elemen ke-� dari vektor kata
Wjk = Bobot nilai dari elemen ke-� dari vektor kata

2.5 Python
Python merupakan bahasa pemrograman yang interpretative, interactive,
object-oriented, dan bisa digunakan pada semua platform. Python juga salah satu
bahasa pemrograman yang mudah digunakan dengan menggabungkan kapabilitas,
kemampuan dan sintaksis kode yang sangat jelas[7]. Bahasa pemrograman
Python termasuk dinamis karena adanya fitur manajemen memori yang otomatis
[8].

2.6 K-Fold Cross Validation


Cross validation merupakan teknik untuk melakukan validasi keakuratan sebuah
model berdasarkan dataset tertentu. Model yang dimaksud bisa berupa klasifikasi
II-12

sebuah data baru yang belum pernah muncul pada sebuah dataset. Data yang
digunakan biasanya disebut dengan data training Salah satu metode yang paling
popular yaitu k-fold cross validation, dimana metode ini digunakan untuk
melakukan pengujian data, dimana data akan dilipat sebanyak k dan mengulangi
atau melakukan iterasi sebanyak k[9] .

Gambar 2.1 K-Fold Cross Validation

Anda mungkin juga menyukai