Anda di halaman 1dari 20

BAB 2

TINJAUAN PUSTAKA



2.1 Pendahuluan

Tugas akhir yang dikerjakan oleh penulis ini adalah menganalisis dan
mengimplementasikan sebuah metode yang nantinya akan digunakan untuk
melakukan pencarian sebuah dokumen yang dilakukan dalam sebuah PC (Personal
Computer). Adapun teori-teori yang mendasari dan saling melengkapi dalam
pembuatan tugas akhir ini adalah tentang Sistem Temu Kembali Informasi, metode
Latent Semantic Indexing dan Bahasa Pemrograman Delphi.

Pada saat ini informasi sangat lah mudah didapat salah satunya adalah dari
internet kita dapat mendapatkan informasi yang sangat luas. Dengan semakin
bertambahnya informasi, pendayagunaan sistem temu kembali informasi menjadi
penting agar dapat menghemat waktu dan kerja untuk mendapatkan informasi yang
terkandung di dalam dokumen-dokumen tersebut. Misalnya pencarian dokumen-
dokumen yang relevan terhadap kebutuhan informasi pengguna.

Pada prinsipnya, penyimpanan informasi dan proses pencarian kembali
informasi tersebut sifatnya sederhana, selama ada kumpulan dokumen yang disimpan
dan pengguna yang memberikan pertanyaan ataupun kebutuhan. Maka sistem temu
balik informasi dapat mengembalikan kumpulan dokumen yang dianggap relevan
dengan menghitung similarity atau tingkat kesamaan antara dokumen dengan query
yang diberikan [7].


2.2 Information Retrieval
Universitas Sumatera Utara

Information Retrieval (IR) adalah suatu sistem yang digunakan untuk menemukan
kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna
dari suatu kumpulan informasi secara otomatis [2].

Salah satu aplikasi dari IR adalah mesin pencari yang dapat diterapkan di
berbagai bidang. Pada mesin pencari dengan IR pengguna dapat memasukkan query
yang bebas dalam arti kata query yang sesuai dengan bahasa manusia dan sistem dapat
menemukan dokumen yang sesuai dengan query yang ditulis oleh user [5].

Model sistem IR menentukan detail sistem IR yaitu, meliputi:
1. Representasi dokumen dan query.
2. Fungsi pencarian.
3. Notasi kesesuaian (relevance notation) dokumen terhadap query.

Yang dimaksud dengan representasi dokumen atau query adalah kumpulan
kalimat yang menyatu menjadi paragrap kemudian menjadi bab dan menjadi satu
buku, atau disebut juga dengan kumpulan kata yang menyusun menjadi kalimat.
Sedangkan yang dimaksud dengan fungsi pencarian adalah bagaimana mesin
mengolah query untuk dicocokkan dengan dokumen, lalu mengambil dokumen yang
relevan.

Bagian ini terbagi menjadi beberapa bagian, yaitu:
1. Cara memilih kata (term) untuk indeks.
2. Cara mengindeks kata.
3. Cara membobot kata.

Bagian yang paling signifikan pengaruhnya adalah pembobotan kata. Cara
pembobotan kata mencirikan bagaimana sebuah sistem temu kembali informasi di
bangun. Notasi kesesuaian adalah hubungan yang terjadi antara query dengan hasil
pencarian. Sistem temu kembali informasi digunakan untuk menemukan kembali
informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan
informasi secara otomatis.
Universitas Sumatera Utara








Gambar 2.1 Bagian-Bagian Sistem Temu Kembali Informasi [5]

Gambar 2.1 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem
temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua
dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi
dokumen menjadi pangkalan data indeks dan tidak tergantung pada alur kedua.
Sedangkan alur kedua tergantung dari keberadaan pangkalan data indeks yang
dihasilkan pada alur pertama [12].

Bagian-bagian dari sistem IR menurut gambar 2.1 meliputi:
1. Text operation (operasi terhadap teks) yang meliputi pemilihan kata-kata
dalam query maupun dokumen (term selection) dalam transformasi
dokumen atau query menjadi term index (indeks dari kata-kata).
2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada
kata indeks query.
3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan
terhadap query dan mengurutkan dokumen tersebut berdasarkan
kesesuaiannya dengan query.
4. Indexing (indeks), membangun pangkalan data indeks dari koleksi
dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen
dilakukan.

Universitas Sumatera Utara
Sistem Temu Kembali Informasi menerima query dari pengguna, kemudian
melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya
dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan
dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen
terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi
banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna.

Sistem temu kembali informasi terutama berhubungan dengan pencarian
informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan
pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan
sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh
informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada
pembuat dokumen tersebut [16].

Sistem Temu Kembali Informasi sebagai sistem yang berfungsi untuk
menemukan informasi yang relevan dengan kebutuhan pemakai, merupakan salah satu
tipe sistem informasi. Salah satu hal yang perlu diingat adalah bahwa informasi yang
diproses terkandung dalam sebuah dokumen yang bersifat tekstual.

Dalam konteks ini, temu kembali informasi berkaitan dengan representasi,
penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang
ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi
pengguna yang dinyatakan dalam query. Pengguna Sistem Temu Kembali Informasi
sangat bervariasi dengan kebutuhan informasi yang berbeda-beda.

Tujuan dari sistem IR adalah:
1. Menemukan seluruh dokumen yang relevan terhadap suatu query.
2. Hanya menemukan dokumen relevan saja, artinya tidak terdapat dokumen
yang tidak relevan pada dokumen hasil pencarian.
2.3 Searching

Searching adalah program komputer yang digunakan untuk menemukan dokumen-
dokumen yang ada dalam komputer pribadi. Searching berusaha meminta content
Universitas Sumatera Utara
yang akan menjadi patokan pencarian sebuah dokumen dengan kriteria yang spesifik
(biasanya yang berisi kata atau frasa yang kita tentukan) dan memperoleh daftar file
yang memenuhi kriteria tersebut. Searching biasanya menggunakan indeks untuk
mencari dokumen setelah pengguna memasukkan kriteria pencarian [2].

Searching dapat dilakukan dengan 2 cara, yaitu dengan cara umum dan
canggih. Perbedaannya pada informasi yang Anda masukkan tempat pencarian,
semakin banyak dan akurat kata yang bersangkutan dan parameter pencariannya akan
semakin akurat pula hasilnya. Pada pencarian canggih Anda dapat memasukkan cukup
banyak parameter pencarian. Metode searching umum akan mencari kata kunci yang
Anda masukkan ke semua informasi dalam katalog dan naskah data. Karenanya
cenderung hasil pencarian cukup banyak dan kurang akurat, namun semua data yang
berhubungan dengan kata kunci tersebut akan ditampilkan [5].

Pencarian dapat dibagi 2 bagian, yaitu:
1. Pencarian internal adalah pencarian terhadap sekumpulan data yang
disimpan di dalam memori utama.
2. Pencarian eksternal adalah pencarian terhadap sekumpulan data yang
disimpan di dalam memori sekunder, seperti disk.


2.4 Pengantar Umpan Balik Relevansi

Mendapatkan hasil pencarian yang sesuai dengan kebutuhan dalam suatu koleksi
dokumen yang besar merupakan hal sulit. Usaha pengguna secara manual untuk
memilah-milah dokumen yang sesuai dengan kebutuhannya ternyata sangat besar.
Hasil pencarian merupakan sejumlah dokumen yang relevan menurut sistem, namun
relevansi merupakan hal yang subjektif.

Query yang baik adalah query yang mampu merangkum kebutuhan informasi
pengguna. Kunci pencarian yang tepat adalah formulasi query yang baik dan sesuai.
Namun bagi kebanyakan pengguna, memformulasikan query yang baik tidak mudah.
Karena sangat bergantung berbagai faktor seperti latar belakang pengetahuan
Universitas Sumatera Utara
pengguna terhadap koleksi dokumen, lingkungan sistem temu kembali informasi,
maupun pengetahuan pengguna mengenai koleksi dokumen maupun topik kebutuhan
yang dicari.

Penanganan umpan balik relevansi merupakan proses formulasi ulang query
awal berdasarkan informasi umpan balik relevansi dari pengguna terhadap dokumen-
dokumen hasil pencarian awal. Berdasarkan umpan balik, sistem secara otomatis akan
menentukan query baru dan melakukan pencarian berdasarkan query baru tersebut.
Proses umpan balik dapat diulang terus, sampai pengguna menilai bahwa
kebutuhannya sudah terpenuhi.


2.5 Istilah Pencarian

Apa saja yang diketik dalam kotak pertanyaan dianggap sebagai daftar kata atau
istilah pencarian. Suatu istilah dapat mengandung hanya huruf A-Z dan angka 0-9.
Istilah dipisahkan dengan spasi. Semua tanda lain (seperti tanda baca) diabaikan. Kata
yang mengandung tanda baca tidak dapat dicari.

Misalnya, pertanyaan
Lada di Bangka Belitung: peluang untuk agribisnis

Dianggap sebagai
Lada di Bangka Belitung peluang untuk agribisnis





2.6 Preferensi Pencarian

Penyesuaian dalam pencarian dengan menggunakan pemakaian huruf besar/kecil
dianggap sama. Penggunaan preferensi pencarian ini dilakukan semata-mata karena
Universitas Sumatera Utara
tidak menggunakan case sensitive, karena penggunaan ini digunakan untuk
mempermudah pencarian.

Misalnya, pertanyaan:

PETRONAS BUILDING

Akan dianggap sama dengan:

Petronas building


2.7 Antarmuka Pencarian

Berbagai macam model antarmuka pencarian, ada yang menggunakan antarmuka
dengan menggunakan operator dan tanda-tanda baca, ada juga menggabungkannya
dengan fungsi-fungsi lain. Penggunaan keyword dilakukan dengan mengetikkan frasa
tanpa menggunakan operator Boolean ataupun tanda-tanda baca.

Penggunaan antarmuka pencarian pada searching dokumen ini hanya dengan
menggunakan teks atau frasa yang akan menjadi patokan dalam pencarian dokumen
yang dilakukan. Proses pencarian dokumen tidak mengenal operator atau tanda-tanda
baca dan sejenisnya.






2.8 Ranking

Universitas Sumatera Utara
Ranking adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan
dokumen-dokumen yang lebih sesuai. Ranking merupakan sebuah fitur utama dalam
pencarian.

Halaman yang penting tidak akan berarti jika tidak cocok dengan kata kunci
yang dicari. Jadi, dengan memadukan ranking halaman dengan teks yang cocok
dengan teknik dekomposisi nilai singular untuk mencari halaman yang keduanya
penting dan relevan untuk pencarian.

Cara yang digunakan untuk menentukan kualitas ranking sebuah halaman
dengan menentukan isi dokumen tersebut. Pendekatan yang digunakan adalah dengan
mengetahui isi dokumen yang memiliki kesesuaian dengan kata kunci merupakan
ranking tertinggi.

Dengan menggunakan pendekatan ranking, proses terjadi secara rekursif
dimana sebuah ranking akan ditentukan dengan cocoknya kata kunci dengan isi
dokumen. Hal inilah yang menjadi patokan utama dalam menentukan ranking
dokumen. Oleh karena itu penggunaan sebuah ranking sangat mempengaruhi seberapa
cocok atau tidaknya dokumen yang dihasilkan dalam pencarian. Ranking juga
digunakan sebagai patokan seberapa besar keterkaitan dokumen dengan kata kunci.


2.8.1 Cara Meranking

Dalam melakukan pencarian sebuah dokumen, terlebih dahulu dengan memasukkan
keyword sebagai acuan yang akan digunakan.

Contoh: sistem informasi geografis
Maka dapat disimpulkan, kata-kata yang akan ditemukan pada keyword diatas adalah:


Sistem informasi geografis

Universitas Sumatera Utara
Sistem informasi

Informasi geografis

sistem

informasi

geografis

Proses meranking dilakukan dengan mengetahui seberapa besar hubungan
yang ada antara keyword dengan dokumen yang ditemukan. Maka dapat disimpulkan
dokumen tersebut merupakan dokumen yang relevan dan berada dikedudukan paling
atas.


2.9 Algoritma pencarian

Algoritma pencarian (searching algorithm) adalah algoritma yang menerima sebuah
argumen kunci dan dengan langkah-langkah tertentu akan mencari rekaman dengan
kunci tersebut. Setelah proses pencarian dilaksanakan, akan diperoleh salah satu dari
dua kemungkinan, yaitu data yang dicari ditemukan (successful) atau tidak ditemukan
(unsuccessful) [14].

Metode pencarian data dapat dilakukan dengan dua cara yaitu pencarian
internal (internal searching) dan pencarian eksternal (external searching). Pada
pencarian internal, semua rekaman yang diketahui berada dalam pengingat komputer
sedangkan pada pencarian eksternal, tidak semua rekaman yang diketahui berada
dalam pengingat komputer, tetapi ada sejumlah rekaman yang tersimpan dalam
penyimpan luar misalnya pita atau cakram magnetis.

Kata atau frasa kunci yang dimasukkan pemakai merupakan masalah yang
harus dipecahkan. Mekanisme evaluasi akan mengakses database untuk menganalisis
Universitas Sumatera Utara
dari berbagai sisi dibandingkan dengan kata atau frasa kunci yang diterima. Sebagai
solusi searching memberikan sejumlah referensi terhadap sumber data yang dianggap
ketika pengguna mencari dokumen maka search engine akan mengakses data yang
telah dikumpulkan sebelumnya. Pencarian tersebut dilakukan berdasarkan kata kunci
yang dimasukkan oleh pengguna.

Pada umumnya algoritma searching mencari kata dalam dokumen dan
menghitung banyaknya kemunculan kata tersebut. Dengan cara membandingkan pola
dengan teks, maka didapatlah hubungan antar kata kunci dengan dokumen. Kemudian
dokumen yang memiliki lebih banyak jumlah kata kunci tersebut berada di urutan
paling atas. Tetapi cara ini kurang efektif sebab banyaknya kemunculan kata tidak
selalu menentukan isi dokumen. Dan bahkan tidak berhubungan sama sekali dengan
apa yang dicari oleh pengguna [13].


2.10 Latent Semantic Indexing

Latent Semantic Indexings (LSI) adalah metode pengindeksan dan pencarian yang
menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD)
untuk mengidentifikasi pola hubungan antara istilah dan konsep-konsep yang
terkandung dalam sebuah koleksi teks yang tidak terstruktur. LSI didasarkan pada
prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung
memiliki makna yang sama [3].

Dengan memanfaatkan semantic structure (struktur asosiasi kata-kata/term
dengan dokumen) yang secara implisit terdapat dalam suatu dokumen, LSI dapat
melakukan pencarian dokumen-dokumen yang relevan dengan term yang terdapat
dalam query. Metode ini menggunakan teknik SVD untuk melakukan dekomposisi
terhadap term-document matrix menjadi 3 matriks singular. Kemudian dilakukan
rank-lowering terhadap ketiga matriks tersebut dengan cara menyimpan beberapa nilai
singular terbesar dan mengabaikan sisanya, sehingga diharapkan dapat diperoleh
semantic structure yang sesuai.

Universitas Sumatera Utara
Metode LSI mengasumsikan bahwa terdapat sebuah latent semantic structure,
yaitu sebuah struktur semantic dalam setiap dokumen yang tersembunyi (latent) oleh
adanya noise yang disebabkan oleh keberagaman pemakaian kata dalam penulisan
dokumen tersebut. LSI menggunakan metode statistik untuk mengestimasi struktur
tersebut, dan menghilangkan noise yang ada. Penggambaran terms dan dokumen
berdasarkan struktur tersebut digunakan untuk proses indexing dan retrieval. Dengan
menggunakan SVD, dapat dibangun sebuah semantic space, yaitu sebuah vectorial
model di mana terms dan dokumen-dokumen yang relevan di letakkan berdekatan satu
dengan yang lainnya, sehingga terms yang tidak terdapat dalam suatu dokumen dapat
berada berdekatan dengan dokumen tersebut, jika memiliki pola asosiasi yang sesuai.
Query yang diberikan pada proses pencarian akan ditranslasikan sebagai sebuah titik
dalam semantic space tersebut dan akan mengembalikan dokumen-dokumen yang
berada di dekatnya.

Ide yang melandasi LSI adalah kumpulan semua kata dalam konteks tertentu
di mana kata yang muncul atau tidak muncul, menyediakan batasan untuk menentukan
kesamaan arti dari sebuah kata dan kumpulan kata yang lainnya [1].

Pada LSI arti dari sebuah kata direpresentasikan sebagai rata-rata dari semua
bagian kata yang muncul dalam setiap kalimat. Demikian pula, makna dari sebuah
kalimat adalah rata-rata dari makna semua kata yang terkandung di dalam kalimat
tersebut. LSI memiliki kemampuan untuk secara bersama mendapatkan pengetahuan
akan kata-kata maupun kalimat sedemikian rupa dengan menggunakan Singular Value
Decomposition (SVD) sebagai pondasi matematikanya.

Proses pencarian dengan metode LSI pada sistem ini menerima masukan
berupa sebuah keyword yang akan dicari pada dokumen. Pada proses pencarian
dengan metode LSI kata-kata yang unik pada setiap dokumen akan direpresentasikan
sebagai baris matriks dan dokumen-dokumen akan direpresentasikan sebagai kolom
matriks. Nilai dari matriks tersebut adalah banyaknya kemunculan sebuah kata di
setiap dokumen yang akan dibandingkan.


2.10.1 Singular Value Decomposition
Universitas Sumatera Utara

Metode LSI menggunakan metode Singular Value Decomposition (SVD) pada
matriks kata-dokumen untuk membentuk suatu semantic space di mana kata-kata dan
dokumen-dokumen yang hampir sama di letakkan berdekatan satu sama lain [6].

Sebuah matriks A berukuran m x n dapat difaktorkan menjadi
A=Q1Q
2
T
=(orthogonal) (diagonal) (orthogonal). Kolom dari matriks Q
1
(m x m)
adalah eigenvector dari matriks AA
T
, dan kolom dari matriks Q
2
(n x n) adalah
eigenvector dari matriks A
T
A. Singular values dalam diagonal dari matriks ( m x n)
adalah akar kuadrat dari eigenvalues yang tidak bernilai 0 dari kedua matriks AA
T
dan
A
T
A [1].

Persamaan untuk SVD dapat dituliskan sebagai berikut.

A=USV
T

Dimana:
A adalah matriks asal
U adalah matriks singular kiri
S adalah matriks diagonal dari nilai singular
V
T
transpose dari matrik singular kanan

Perhitungan SVD meliputi pencarian eigenvalues dan eigenvector dari AA
T
dan A
T
A.
kolom-kolom matriks singular kiri U berisikan eigenvector dari AA
T
, eigenvector dari
A
T
A mengisi kolom-kolom matriks singular kanan V, dan akar kuadrat dari
eigenvalues dari AA
T
atau A
T
A mengisi nilai singular dari matriks S.

2.10.2 Eigenvalue dan Eigenvector Matriks

Permasalahan transformasi matriks regular menjadi matriks singular disebut sebagai
eigenvalues problem.

Sebuah vektor v dengan N dimensi adalah eigenvector dari sebuah matriks
persegi (NxN) A jika memenuhi persamaan:
Av=v
Universitas Sumatera Utara
Di mana adalah skalar terhadap v, yaitu eigenvalue dari matriks A. Untuk
mendapatkan eigenvalue digunakan persamaan:
P():=det(A-I)=0
Di mana:
P() adalah characteristic polynomial, yaitu sebuah persamaan polinomial terhadap ,
yang memiliki N
2
solusi yan berbeda, di mana 1N
2
N.
I adalah matriks identitas NxN.


2.11 Term-Document Matrix

Term-document matrix adalah sebuah matriks yang berisikan jumlah
kemunculan terms dalam suatu koleksi dokumen. Terms yang digunakan dalam hal ini
tidak meliputi terms berupa frasa namun hanya dibatasi pada terms berupa kata
tunggal, karena penyimpanan frasa akan menambah jumlah kata yang tidak sesuai
karena frasa terdiri atas 1 atau lebih kata. Pada matriks ini, kolom mewakili dokumen,
dan baris mewakili terms.





Berikut ini diberikan contoh data dari dokumen-dokumen dan matriks kata-
dokumen.












Example of text data: Titles of Some Technical Memos
c1: Human machine interface for Lab ABC computer application
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user perceived response time to error measurement
m1: The generation of random, binary, ordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey

Universitas Sumatera Utara

Gambar 2.2 Contoh Teks untuk LSI [10]

Pada Gambar 2.2 terdapat 9 judul teks yang masing-masing dianggap sebagai
sebuah dokumen. Dokumen yang namanya diawali huruf "c" berisi judul dengan topik
interaksi manusia-komputer sedangkan dokumen yang namanya diawali huruf "m"
berisi judul dengan topik graph. Kata-kata yang dimasukkan ke dalam matriks hanya
kata-kata yang dicetak miring, yaitu kata yang setidaknya muncul dua kali pada
dokumen yang berbeda. Hasil representasi matriks ini dapat dilihat pada Gambar 2.3.













Tabel 2.1 Contoh Matriks Kata-Dokumen [10]
c1 c2 c3 c4 c5 m1 m2 m3 m4
Human 1 0 0 1 0 0 0 0 0
Interface 1 0 1 0 0 0 0 0 0
Computer 1 1 0 0 0 0 0 0 0
User 0 1 1 0 1 0 0 0 0
System 0 1 1 2 0 0 0 0 0
Response 0 1 0 0 1 0 0 0 0
Time 0 1 0 0 1 0 0 0 0
EPS 0 0 1 1 0 0 0 0 0
Survey 0 1 0 0 0 0 0 0 1
Trees 0 0 0 0 0 1 1 1 0
Graph 0 0 0 0 0 0 1 1 1
Minor 0 0 0 0 0 0 0 1 1

Term-document matrix dapat berukuran sangat besar, terdiri atas ribuan baris
dan kolom, dan tahap selanjutnya perlu dilakukan dekomposisi terhadap matriks ini,
maka untuk mempersingkat proses, perlu dilakukan penyederhanaan terhadap term-
document matrix.

Universitas Sumatera Utara
Term-document matrix hanya perlu menyimpan term yang dapat menjelaskan
isi dari suatu dokumen atau disebut juga sebagai content words. Kata-kata yang
merupakan stopwords, yakni kata-kata yang tidak memiliki makna jika berdiri sendiri
dapat diabaikan.

Dengan term-document matrix yang ada, bobot setiap kata (term weight) hanya
bergantung pada jumlah kata pada tiap dokumen. Bobot tersebut disebut sebagai local
weight karena hanya berlaku pada tiap-tiap dokumen. Pada perhitunga local weight,
terms yang muncul berulang kali pada suatu dokumen akan memiliki bobot yang lebih
besar. Bobot terms untuk keseluruhan koleksi dokumen disebut sebagai global weight,
perhitungan global weight berkebalikan dengan local weight, di mana terms yang
muncul pada dokumen tertentu saja dianggap lebih signifikan sehingga memiliki
bobot yang lebih besar.



2.12 Text Mining

Secara sederhana data mining adalah penambangan atau penemuan informasi baru
dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data
mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa
pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data.
Data mining, sering juga disebut sebagai knowledge discovery in database (KDD).
KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk
menemukan keteraturan, pola atau hubungan dalam set data berukuran besar [8].

Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan
potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.
Ekstraksi informasi dari sekumpulan dokumen teks dapat dilakukan dengan text
mining. Text mining, sering disebut juga teks data mining, merupakan proses
menghasilkan informasi berkualitas dari sekumpulan dokumen teks [4].

Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data
mining adalah suatu teknik menggali informasi berharga yang terpendam atau
Universitas Sumatera Utara
tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan
suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti
usaha untuk mendapatkan sedikit barang dari sejumlah besar material dasar. Karena
itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti
kecerdasan buatan, machine learning, statistik dan database.

Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna
dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah
kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi
terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorian teks
(text categorization) dan pengelompokkan teks (text clustering) [5].

Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan
perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature
yang sering digunakan:
1. Character, merupakan komponen individual, biasa huruf, angka, karakter
spesial dan spasi.
2. Words.
3. Term merupakan single word dan frasa multiword yang terpilih secara
langsung dari teks.
4. Concept, merupakan feature yang degenerate dari sebuah dokumen secara
manual.

Proses text mining meliputi proses tokenizing, filtering, dan stemming.
1. Tokenizing
Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada
dalam dokumen sehingga menghasilkan kata-kata yang berdiri sendiri.
2. Filtering
Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil
tokenizing.
3. Stemming
Universitas Sumatera Utara
Stemming adalah proses mengubah kata menjadi kata dasarnya dengan
menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau
mengubah kata kerja menjadi kata benda.

Namun pada penelitian kali ini proses text mining yang dilakukan hanya pada
tahap tokenizing dan filtering.


2.13 Bahasa Pemrograman Delphi

Aplikasi Borland Delphi akan digunakan dalam pengimplementasian program yang
akan mendukung skripsi ini.

Borland Delphi merupakan salah satu bahasa pemrograman yang bekerja
dalam sistem operasi windows. Fasilitas-fasilitas Delphi mirip dengan fasilitas-
fasilitas visual basic. Keunggulan Delphi adalah pada produktivitas, kualitas
pengembangan software, kecepatan, pola desain menarik dan sebagainya [11].


2.13.1 Mengenal Lingkungan Delphi

Lingkungan pengembangan terpadu atau Integrated Development Environment (IDE)
adalah sebuah lingkungan di mana semua tombol perintah yang diperlukan untuk
mendesain aplikasi, menjalankan dan menguji apakah sebuah aplikasi disajikan
dengan baik untuk memudahkan pengembangan program. [15]








Form
Desainer
Toolbar
Main
Window
Universitas Sumatera Utara










Gambar 2.3 Tampilan Layar Delphi 2010 [15]




IDE dalam Delphi terbagi menjadi enam bagian utama, yaitu sebagai berikut:
1. Main Window (Jendela Utama)
Jendela utama adalah bagian dari IDE yang mempunyai fungsi yang sama
dengan semua fungsi utama dari program aplikasi Windows lainnya. Jendela
utama Delphi terbagi menjadi tiga bagian, berupa Main Menu, ToolBar dan
Compnent Palette.
2. Toolbar
Toolbar berfungsi sebagai pengganti suatu menu perintah yang sering
digunakan. Pada kondisi default Delphi memiliki enam bagian toolbar, antara
lain Standart, View, Debug, Desktop, Custom dan Component Palette.
3. Component Palette
Bagian ini berisi ikon yang melambangkan komponen-komponen yang
terdapat pada Visual Component Library (VCL). Ada beberapa page control
seperti Standart, Additional, Win32, System, Data Access dan lain-lain.
4. Form Desainer
Form Desainer merupakan suatu objek yang dapat dipakai sebagai tempat
untuk merancang program aplikasi. Komponen-komponen yang diambil dari
Component Palette ditempatkan di form ini.
Object
Inspector
Componen
t
Palette
Universitas Sumatera Utara
5. Code Editor
Code Editor merupakan tempat untuk menuliskan kode program.








Gambar 2.4 Layar Code Editor [15]

6. Object Inspector
Object Inspector digunakan untuk mengubah properti atau karakteristik dari
sebuah komponen. Di dalamnya terbagi menjadi dua tab, yaitu tab properties
(untuk mengubah property komponen) dan tab event (untuk menangani
kejadian yang dapat direspon oleh komponen).


2.13.2 Kelebihan Borland Delphi

Borland Delphi merupakan pilihan bagi sebagian kalangan programmer untuk
membuat aplikasi. Hal ini disebabkan kelebihan yang ada pada Borland Delphi.

Berikut ini sebagian kecil dari banyak kelebihan Borland Delphi:
1. Berbasis Object Oriented Programming (OOP). Setiap bagian yang ada pada
program dipandang sebagai suatu object yang mempunyai sifat-sifat yang
dapat diubah dan diatur. Programming (OOP) Bahasa pemrograman Delphi
merupakan pengembangan dari bahasa Pascal . Tetapi bukan berarti untuk
mempelajari bahasa pemrograman Delphi harus mempelajari Pascal terlebih
dahulu, karena Borland Delphi 7 sudah dirancang sedemikian rupa sehingga
memudahkan bagi seorang pemula untuk merancang aplikasi berbasis
windows dengan Borland Delphi.
Universitas Sumatera Utara
2. Satu file .exe. Setelah program dirancang dalam IDE (Intergrated Development
Environment) Delphi , Delphi akan mengkompilasinya menjadi sebuah file
executable tunggal.
3. Program yang dibuat dapat langsung didistribusikan dan dijalankan pada
komputer lain tanpa perlu menyertakan file DLL dari luar. Ini merupakan
sebuah kelebihan yang sangat berarti.
4. Borland Delphi 7 hadir bersama Borland Kylix 3 yang berbasiskan Linux ,
sehingga memungkinkan programmer untuk membuat aplikasi multi-platform.

Khusus untuk pemrograman database, Delphi menyediakan object yang sangat
kuat, canggih dan lengkap, sehingga memudahkan pemrogram dalam merancang,
membuat dan menyelesaikan aplikasi database yang diinginkan. Selain itu Delphi
juga dapat menangani data dalam berbagai format database, misalnya format Ms-
Access, SyBase, Oracle, Interbase, FoxPro, Informix, DB2 dan lain-lain. Format
database yang dianggap asli dari Delphi adalah Paradox dan dBase [9].

























Universitas Sumatera Utara

Anda mungkin juga menyukai