The Beginning Dissertation Report

Usulan Topik Tesis
USULAN TOPIK PENELITIAN

CALON MAHASISWA BARU PROGRAM MAGISTER
PROGRAM PASCASARJANA ITS
Nama : _____________________________________________________
Program Studi : _____________________________________________________
Bidang Keahlian : _____________________________________________________
Usulan Topik :
-----------------------
Calon mahasiswa dapat menambahkan lembar sendiri apabila diperlukan
Usulan Topik Disertasi
RANCANGAN USULAN PENELITIAN DISERTASI

CALON MAHASISWA BARU PROGRAM DOKTOR
PROGRAM PASCASARJANA ITS
Nama : Dwija Wisnu Brata
Program Studi : FTIK - Ilmu Komputer
Calon Pembimbing yang sudah dihubungi:
1. Prof. Ir. Arif Djunaidy, M.Sc., Ph.D.

2. Prof. Drs. Basuki Widodo, M.Sc., Ph.D.
3. Daniel Oranova Siahaan, S.Kom, M.Sc, PD.Eng
______________________________________________________________________
Lampirkan RANCANGAN USULAN PENELITIAN DISERTASI sebanyak 15 – 20 halaman,

sesuai format yang disediakan
-----------------------
Calon mahasiswa dapat menambahkan lembar sendiri apabila diperlukan
Proposal Disertasi
Unsupervised Similar data tulisan kandungan obat

pada media online menggunakan scraper
Disusun Oleh :
Dwija Wisnu Brata
BAB I
Pendahuluan
1.1 Latarbelakang
Penggunaan obat sebaiknya harus senantiasa diiringi dengan kewaspadaan dan kehati-
hatian dalam memakainya, dikarenakan obat yang dipakai akan masuk kedalam tubuh dan
diproses sedemikian rupa hingga obat tersebut dapat larut dalam tubuh. Hal ini menjadi
perhatian penting bagi masyarakat, karena dibeberapa berita dan media online
mengabarkan bahwa peredaran obat palsu sudah sangat masif dan meresahkan masyarakat.
Menurut Andi Mardana, bahwa di Indonesia, berdasarkan data pengawasan Badan
Pengawasan Obat dan Makanan (BPOM) hingga periode januari-juni 2016, BPOM telah
mengidentifikasi 17 merek obat palsu temuan obat palsu didominasi oleh obat golongan
disfungsi ereksi, antibiotika, antipiretik-analgetik, antihipertensi, dan antihistamin
(Mardana, 2016). Peredaran obat palsu tersebut dapat meresahkan masyarakat, dan juga
sangat berbahaya bagi kesehatan masyarakat. Permasalahan tentang obat palsu, juga
didukung dengan permasalahan lain yaitu rendahnya tingkat pemahaman tentang
penggunaan obat, juga obat bebas secara berlebihan. Hal ini diakibatkan karena
menggampangkan cara mendapatkan obat (misal di warung terdekat rumah), dan tidak
berkonsultasi dengan ahli. Model seperti itu dapat mengakibatkan pemahaman yang gagal
akan kandungan obat yang digunakan.
Media online merupakan media yang banyak dirujuk masyarakat (APJII, 2016, h. 7)
sebagai sarana penyedia segala macam informasi. Hal ini dapat dikaitkan dengan beberapa
media online yang memberikan informasi tentang kandungan obat. Tulisan-tulisan yang
terdapat di media online bagi masyarakat penikmat informasi sangat membantu dalam
pemahaman kandungan obat. Tetapi, apakah setiap portal website atau blog sudah sesuai
dalam menyampaikan informasi kandungan obat sesuai dengan ketentuan BPOM atau
apakah sudah sesuai dengan referensi ilmu seperti yang dimiliki oleh apoteker?.
Penelitian yang dilakukan memfokuskan pada kesamaan data yang sudah discraping
dari 5 situs yang menyediakan informasi tentang kandungan obat. Teknik scraping dapat
dilakukan dengan berbagai cara diantaranya menggunakan analisa html DOM (document
object model) dan dengan menggunakan teknik pemrograman regular expression (Vargiu &
Urru, 2013) Kedua teknik ini mempunyai keunggulan tersendiri dan menghasilkan hasil yang
tidak jauh berbeda. Pada teknik DOM dibutuhkan Xquery untuk mengekstrak konten utama
dari halaman situs sedangkan pada teknik regular expression ditentukan pola yang
mengawali dan mengakhiri suatu konten utama pada halaman situs. Dengan menggunakan
teknik scraping ini maka kita dapat mengambil data dari situs penyedia informasi
kandungan obat tersebut untuk kemudian diproses agar dapat memberikan informasi
kepada pengguna/masyarakat mengenai pembandingan ketepatan tulisan kandungan obat
yang berkesesuaian.
1.2 Rumusan Masalah

Penelitian yang dilakukan memiliki beberapa rumusan masalah yang dapat diteliti :
1. Bagaimana meng-extract data dari sebuah situs penyedia informasi kandungan obat
2. Apakah sistem dapat menyajikan komparasi data dari dua atau lebih situs online
sekaligus
3. Bagaimana menerapkan pengujian menggunakan Recall & Precisson pada program
komparasi data
1.3 Batasan Masalah

1 Sistem filter mengabaikan konten iklan dan hanya mengambil konten didalam tag
HTML yang dideteksi sebagai record informasi dengan pola seragam.
2 Ekstraksi data record tidak bersifat non-contiguous
3 Situs target scraping dibatasi 4 situs saja yaitu klikdokter.com, doktersehat.com,
honestdocs.id, dan hallosehat.com.
1.4 Tujuan
1 Menyajikan informasi – informasi dari berbagai situs internet yang relevan tentang
kesamaan layanan informasi terutama kandungan obat
2 Membantu pemerintah (Menkominfo/BPOM) dalam hal memfilter konten-konten
atau informasi obat yang tidak sesuai guna tidak terjadi salah penggunaan obat dan
pemalsuan obat dari informasi yang didapat.
BAB II
TINJAUAN PUSTAKA
2.1 Kajian Teori
Tabel 2.1. Komparasi Beberapa Penelitian

No Nama jurnal Sekilas metode Bentuk
perubahan
1 Unsupervised Meningkatkan
Information Extraction akurasi
from Unstructured, ektraksi dan
Ungrammatical Data kesamaan
Sources on the World data, seperti
Wide Web (M. penggunaan
Michelson & Craig A. domain yang
Knoblock, 2007) spesifik,
singkatan kata
seperti “DT”
menjadi
“Down Town”
2 Unsupervised
Structured Data
Extraction from
template-generate web
pages (Tomas Grigalis
& Antanas Cenys, 2013)
3 A Structure-oriented  Web crawling Improve
unsupervised crawling strategy crawling
strategy for social  Web pages accuracy
media sites (Keyang clustering
Xu, Kyle Y. Gao, &
Jamie Callan, 2017)
4 Pengkategorian Berita  Metode PLSA Pengkategorian
Online Secara Otomatis layanan berita
Menggunakan Metode otomatis dengan
PLSA (Nur C. W., Dhian tingkat presisi
S. Y. K., & Septiyawan tertinggi 0,68%
R. W., 2018)
2.2 Information Retrieval System

Sistem Temu Kembali Informasi (Information Retrieval System - IRS) merupakan salah
satu tipe sistem informasi. Selain Sistem Temu Kembali Informasi, kita kenal beberapa
sistem informasi yang lain seperti Sistem Manajemen Basis Data (Data Base Management
System – DBMS), Sistem Informasi Manajemen (Management Information System – MIS),
Sistem Pendukung Keputusan (Decision Support System - DSS) dan Sistem Kecerdasan
Buatan (Artificial Intelligent System - AI).
2.2.1 Definisi Information Retrieval System
Sistem Temu Kembali Informasi merupakan sistem yang berfungsi untuk menemukan
informasi yang relevan dengan kebutuhan pemakai (Lancaster, 1979). Salah satu hal yang
perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen
yang bersifat tekstual. Dalam konteks ini, temu kembali informasi berkaitan dengan
representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen
yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi
pengguna yang dinyatakan dalam query. Pengguna Sistem Temu Kembali informasi sangat
bervariasi dengan kebutuhan informasi yang berbeda-beda.
Menurut Chowdhury (1999) Sistem temu-kembali informasi dibagi menjadi dua

kategori besar, yaitu:
1 Sistem temu-kembali informasi in house, yaitu Sistem temu-kembali informasi
dibangun oleh perpustakaan atau pusat informasi tertentu untuk melayani
terutama para pemakai dalam organisasi tersebut. Salah satu bentuk sistem
temu-kembali informasi in house adalah OPAC (Online Public Access Catalogue)
2 Sistem temu-kembali informasi online, yaitu Sistem temu-kembali informasi

didesain untuk memberikan akses ke remote database kepada
berbagai user. Sistem online ini menghubungkan para pemakai pada berbagai
tempat melalui jaringan komunikasi elektronik. Bentuk yang paling populer dari
sistem temu-kembali informasi online adalah CD-ROM dan internet.
2.2.2 Manfaat Information Retrieval System

Adapun manfaat utama Sistem Temu Kembali Informasi seperti dikemukakan oleh
Lancaster (1979) dan Kent (1971) adalah sebagai berikut :
1. Untuk mengidentifikasi informasi (sumber informasi) yang relevan dengan
bidang-bidang yang sesuai dengan minat dan tujuan komunitas pemakai.
2. Untuk menganalisis isi dari sumber informasi (dokumen).
3. Untuk merepresentasikan isi dan sumber informasi yang telah dianalisis dengan
cara yang sesuai untuk kemudian menyesuaikannya dengan permintaan
pemakai.
4. Untuk menganalisis permintaan-permintaan pemakai dan
merepresentasikannya ke dalam bentuk yang disesuaikan, untuk disesuaikan
dengan database.
5. Untuk menyesuaikan pernyataan penelusuran dengan database.
6. Untuk menemukan informasi yang relevan.
7. Untuk membuat penyesuaian kebutuhan pada dasar sistem arus balik dari
pemakai.
2.2.3 Komponen Information Retrieaval System
Menurut Lancaster (1979) Sistem Temu Kembali Informasi terdiri dari 6 (enam)
subsistem, yaitu:
1. Subsistem dokumen
2. Subsistem pengindeksan
3. Subsistem kosa kata
4. Subsistem pencarian
5. Subsistem antarmuka pengguna-sistem
6. Subsistem penyesuaian
Dokumen sebagai objek data dalam Sistem Temu Kembali Informasi merupakan
sumber informasi. Dokumen biasanya dinyatakan dalam bentuk indeks atau kata kunci.
Kata kunci dapat diekstrak secara langsung dari teks dokumen atau ditentukan secara
khusus oleh spesialis subjek dalam proses pengindeksan yang pada dasarnya terdiri dari
proses analisis dan representasi dokumen. Pengindeksan dilakukan dengan menggunakan
sistem pengindeksan tertentu, yaitu himpunan kosa kata yang dapat dijadikan sebagai
bahasa indeks sehingga diperoleh informasi yang terorganisasi. Sementara itu, pencarian
diawali dengan adanya kebutuhan informasi pengguna. Dalam hal ini Sistem Temu Kembali
Informasi berfungsi untuk menganalisis pertanyaan (query) pengguna yang merupakan
representasi dari kebutuhan informasi untuk mendapatkan pernyataan-pernyataan
pencarian yang tepat. Selanjutnya pernyataan-pernyataan pencarian tersebut
dipertemukan dengan informasi yang telah terorganisasi dengan suatu fungsi penyesuaian
(matching function) tertentu sehingga ditemukan dokumen atau sekumpulan dokumen.
Proses tersebut di atas dapat diilustrasikan seperti Gambar 2.1
Sumber Analisis dan Informasi

informasi representasi terorganisasi
Informasi
Penyesuaian
ditemukan
Pernyataan
pencarian
Pengguna Analisis query
Gambar 2.1 Outline Sistem Information Retrieval

2.2.4 Recall And Precission
Menurut Kurniawan (2010) Recall adalah perbandingan jumlah dokumen relevan

yang terambil sesuai dengan query yang diberikan dengan total kumpulan dokumen yang
relevan dengan query. Precision adalah perbandingan jumlah dokumen yang relevan
terhadap query dengan jumlah dokumen yang terambil dari hasil pencarian.
Precision dapat diartikan sebagai ketepatan atau kecocokan (antara permintaan
informasi dengan jawaban terhadap permintaan itu). Sedangkan istilah recall dibidang
sistem temu kembali informasi (information retrival) berkaitan dengan kemampuan
menemukan kembali informasi yang sudah tersimpan. (Pendit, 2007)
 Rumus Recall And Precission :
Recall = [a/ (a+c)] x 100%
Precision = [a/ (a+b)] x 100%
Keterangan :
a = data relevan
b = data tidak relevan
c = data relevan yang tidak ditemukan
Contoh Kasus :
Misalkan suatu file dalam database menyimpan 100 dokumen. Pada suatu
penelusuran menggunakan query “Chemical Industry”, ternyata diperkirakan ada 10
dokumen yang mungkin dapat terambil (retrieved) menggunakan query tersebut, akan
tetapi dalam kenyataannya setelah dilakukan penelusuran hanya 4 dokumen yang terambil
dalam pencarian sedangkan 6 dokumen lain tidak terambil karena mungkin kurang/tidak
relevan.
Kemudian diketahui bahwa ada 2 dokumen lain dalam file database diketahui relevan
kepada query akan tetapi tidak terambil (not retrieved). Untuk menghitung rasio recall
dan precision dari seperti disebut pada soal di atas, sering digunakan tabel berikut :
Tabel 2.2 Perhitungan Recall And Precission

Relevant Not Relevant Total
Retrieved 4 (a) 6(b) 10
Not Retrieved 2(c) 88 ( d ) 90
Total 6 94 100
Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan mengacu

kepada kepada rasio yang telah dikemukakan sebelumnya. Untuk menghitung rasio recall,
terlebih dahulu kita tentukan jumlah dokumen relevan yang terambil, berdasarkan data
pada tabel yaitu a , sedangkan Jumlah dokumen relevan yang ada dalam database adalah
a + c. Dengan demikian rasio recall ( R ) tersebut dapat dinyatakan sebagai berikut :
a
R = ------ x 100%
a+c
4
R = ------- = 66%
4+2
Selanjutnya untuk menghitung precision, hal yang sama pada penghitungan recall
diberlakukan yaitu jumlah dokumen relevan yang terambil adalah a , sedangkan Jumlah
dokumen yang terambil dalam pencarian adalah a + b.
Dengan demikian rasio precision ( P ) dapat dinyatakan sebagai berikut :
a
Precision = -------- x 100%
a+b
4
Precision (P) = ------- = 40%
4+6
2.3 Web Mining

Menurut Liu (2007) web mining bertujuan untuk menemukan informasi atau
pengetahuan yang bermanfaat dari struktur web hyperlinks, halaman web, dan data
penggunaan web. Berdasarkan jenis data primer yang digunakan dalam proses penggalian
informasi, web mining dapat dikategorikan menjadi 3 jenis, yaitu :
1. Web Structure Mining
Web structure mining bertujuan untuk menemukan pengetahuan yang
bermanfaat dari hyperlinks, dimana hyperlinks tersebut menggambarkan mengenai
struktur Web. Hyperlink merupakan sebuah tautan yang terdapat pada suatu
halaman web dan merujuk ke bagian lain pada halaman yang sama atau ke halaman
lain. Pemanfaatan yang paling populer dari web structure mining adalah untuk
menentukan tingkat otoritas suatu halaman web. Mesin pencari Google
menggunakan informasi tersebut untuk menentukan urutan hasil pencariannya.
Sebuah algoritma web structure mining, PageRank, ditemukan oleh dua pendiri
Google: Larry Page dan Sergey Brin. Web structure mining dapat juga diaplikasikan
untuk mengkluster atau mengklasifikasikan halaman web. (Gomes & Gong, 2005)
2. Web Content Mining
Web content mining adalah proses untuk mendapatkan informasi yang
berguna dari isi (content) di web. Isi (content) dapat berupa text, image, audio
dan video. Web content mining terkadang disebut sebagai web text mining,
karena teks merupakan bagian dari web yang paling banyak tersedia. Teknologi
yang umumnya digunakan dalam web content mining adalah NLP (Natural
Language Processing), dan IR (Informational Retrieval).
Secara umum web content mining akan berusaha mengubah kumpulan data
di web yang begitu besar menjadi pengetahuan (knowledge) yang berguna bagi
banyak orang. (Zdravko & Daniel , 2007)
3. Web Usage Mining
Menurut Srivastava, web usage mining merupakan teknik data mining yang
berusaha mengungkap pola penggunaan dari halaman web, dalam rangka coba
untuk memahami dan meningkatkan pelayanan kebutuhan dari aplikasi berbasis
web. Jadi web usage mining sedikit berbeda dengan kedua jenis sebelumnya. Pada
jenis structure dan content mining, yang dianalisa atau digali adalah data didalam
web itu sendiri, namun pada web usage mining yang dianalisa adalah pengguna
atau pengunjung dari halaman web. Sehingga karena yang coba dianalisa adalah
tingkah laku dari pengunjung (pengguna) dari web maka hasil dari web usage mining
banyak digunakan dalam e-marketing dan e-commerce. Hasil analisa dapat
digunakan untuk meningkatkan layanan dari aplikasi web.Hasil web usage mining
antara lain informasi mengenai segmentasi pengunjung dari situs (aplikasi web).
Segmentasi dapat dilihat berdasarkan lokasi (negara, kota atau wilayah), waktu
akses (pagi, siang, sore atau malam), penggunaan browser dan sebagainya. Dalam
situs ecommerce misalnya dapat digunakan untuk melihat pola pengunjung dalam
pembelian produk seperti produk apa saja yang paling banyak dibeli (diakses),
pengunjung dari mana saja yang banyak melakukan pembelian, dan sebagainya.
(Zdravko & Daniel , 2007)
2.4 Mining Data Record

Metode MDR (Liu, Grossman, & Zhai, 2003) memiliki kelebihan tidak membuat
asumsi awal. Memanfaatkan sifat parent child pada tree dan juga perilaku berurutnya
suatu record pada anak pertama kedua dst membentuk pola record pada struktur tag HTML
yang mirip. Suatu tabel seumpama dalam database dapat dikatakan data region dalam
metode ini.
Gambar 2.2. Data Region dengan dua record pada tag tree dokumen page
Contoh dalam Gambar 2.2 dapat dilihat setiap record terdiri 5 tr. Tapi MDR tidak
menggunakan terminologi tag node melainkan generalize node sebagai istilah cikal bakal
sebuah record. Sehingga ada 2 generalize node dengan masing-masing 5 tr.
Untuk edit distance komparasi dua node dipilih lavenstein (Navarro, 2001). Hal ini
disebabkan jika dua karakter berdekatan pada tag html maka visualisasi pada browser
dipastikan error misal <div> ditulis <dvi>.
Algoritma MDR(Node, K)
1. if TreeDepth(Node) >= 3 then
2. CombComp(Node, Children,K);
3. for each ChildNode Є Node.children
4. MDR(ChildNode, K);
5. end
Gambar 2.3. Algoritma MDR
Pada Gambar 2.3 parameter K biasanya kurang dari 10 tagnode (Liu, Grossman, &
Zhai, 2003). Operasi CombComp(arrayChildren, KombinasiMax) merupakan fungsi untuk
melakukan komparasi satu persatu dan kemudian menyimpan hasil komparasi untuk
digunakan kelak saat identifikasi data region.
CombComp(NodeList, K)
1. for(i=1; i<=K; i++)
2. for(j=i; j<=K; j++)
3. if NodeList[i+2*j-1] exist then
4. St=i;
5. for(k=i+j; k<size(NodeList);
k+j)
6. if NodeList[k+j-1] exist then
7. EditDist(NodeList[St..(k-1)],
NodeList[k..(k+j-1)]);
8. St=k;
9. end
Gambar 2.4 Algoritma Komparasi
Parameter nodelist dan k dalam Gambar 2.4 adalah array node-node yg contiguous
sedangkan k adalah maksimal bentuk kombinasi.
Gambar 2.5 Ilustrasi Generalize Node dan Data Region

Sebuah web page dapat memiliki lebih dari satu data region ilustrasi dalam Gambar
2.5 menunjukkan ada 3 region. Dengan terminologi :
1. Data region (DR) adalah kumpulan dua/lebih generalized node.
2. Generalized Node adalah satu boleh kombinasi node dengan string tag mirip
dengan tetangga yg berdekatan dan satu parent.
3. Kemiripan diukur edit distance(menggunakan levenstein).
Satu data
region dg
lima data
record
Gambar 2.6 Pola berulang tiap generalize node dalam satu data region
Dalam Gambar 2.6 diatas, tag pertama <div class="s9ShovelerCell" style="width:

20%; float: left; overflow: hidden;"> memiliki anak berupa sub tag tree yang dapat berbeda
tapi mirip.
2.4.1 Identifikasi Data Region

Data region diidentifikasi dengan menemukan generalized nodenya menggunakan
fungsi FindDRs (Liu, Grossman, & Zhai, 2003). Parameter Node, K dan T, prosedur FindDRs
dan IdentDRs dari Gambar 2.7 di bawah, masing masing adalah Node adalah sembarang
tagNode, K kombinasi node dan T threshold edit distance levenshtein.
Node.DRs dalam Gambar 2.6 dibawah adalah dataregion-dataregion yang ditemukan
dibawah node Node. Dan Temp.DRs variabel sementara untuk menyimpan data region yang
lolos seleksi dari setiap child dari node.
EditDistance dalam fungsi identDRs pada Gambar 2.7 menggunakan nilai dari array
hasil algoritma kombinasi komparasi pada Gambar 2.3 dan Gambar 2.4. Array hasil
kombinasi komparasi disimpan di setiap tagnode sebanyak k kombinasi. Nilai-nilai array
hasil kombinasi komparasi merupakan hasil bobot kemiripan antar node atau kombinasi
node dengan saudaranya atau tetangganya. Nilai ini yang banyak digunakan selama
penentuan klaster data region yang sebenarnya dan mengabaikan klaster tidak sesuai
prinsip kesatuan data region.
Adapun prinsip penentuan data region adalah sbb:
1. Jika data region pada level yang lebih tinggi meliputi data region yang berlevel
lebih rendah. Maka pilih dataregion berlevel tinggi dan abaikan dataregion yang
terliputi didalamnya.
2. Jika sederetan string s1, s2, s3,… ,sn membentuk kombinasi satu sama lain
berapapun bentuk k kombinasinya, maka pilihlah kombinasi terpendek sebagai
generalized node dalam dataregion tersebut.
3. Dua string dikatakan mirip jika nilai edit distance berada dibawah threshold T.
Gambar 2.7 Algoritma FindDRs untuk menemukan semua Data Region
Traverse tagtree kebawah dilakukan pada baris 2 Gambar 2.7, setiap node
diperlakukan fungsi IdentDRs. Dan data region yang berhasil ditemukan belum tentu hasil
final tapi masih kandidat. Jadi dicek apakah data region level parent dalam Node.DRs
mengcover data region level child, selanjutnya musnahkan data region yang tercover pada
level child. FindDRs menyimpan data region level child tapi tidak child.DRs yang berada
dalam temp.DRs (baris 6). Gabungan dari Node.DRs U tempDRs memunculkan current data
region yang ditemukan dari subtree yang dimulai sejak node Node (baris 7).
2.4.2 Ekstraksi Data Record

Genaralized Node, yang tercover dalam data region, diidentifikasi pada sub bab 2.4.1
belum tentu merupakan object tunggal record. Hal ini dikarenakan UnCoveredDRs dalam
Gambar 2.7 memilih data region berlevel lebih tinggi sebagai data region. Data record asli
bisa saja berada pada level yang lebih rendah. Karena generalized node (G) bisa saja
sebenarnya berisi lebih satu data record. Dengan kata lain identifikasi data region subbab
2.4.1 hanyalah melakukan segmentasi dalam konten dokumen HTML.
Gambar 2.8 Contoh organisir data record : (a) tabel dimana setiap baris lebih dari
satu record. (b) data table berupa <table>,<tr>,<td>. (c) Generalized node terdiri
dari data record tunggal. (d) Object dalam bentuk multi baris.
Setiap baris/generalized node dalam Gambar 2.8a sebenarnya bukanlah individual

data record melainkan nampak dua record pada setiap generalized node. Data record
dalam Gambar 2.7a diidentifikasi berdasarkan pada kemiripan edit-distance setiap tag
tree(root setiap tree adalah tagNode yang selevel dengan generalized node).
Data record diidentifikasi dari generalized node berdasarkan pada hasil komparasi
edit distance per K hasil dari identifikasi data region. Hanya saja identifikasi data record
masih memerlukan pengetahuan heuristic bagamana manusia menvisualisasikan record
informasi.
Dalam Gambar 2.8b setiap sel(attribute value) terdiri dari satu tagNode yang hanya
terdiri satu potongan innerText. Maka daripada mencatat setiap sel sebagai data record
lebih mencatat G sebagai data record.
2.5 Ekstraksi Data Web

Tujuan melakukan ekstraksi web adalah untuk mengumpulkan informasi secara
terintegrasi dan otomatis dari berbagai sumber yang heterogen (May , 2000) . Cara kerja
ekstraksi web pada dasarnya hampir sama dengan cara kerja search engine. Search engine
akan menyediakan informasi mengenai halaman yang memuat kata kunci yang dimasukkan
atau diberikan oleh pengguna. Adanya search engine ini tentu saja sangat memudahkan
pengguna dalam mencari informasi yang ia butuhkan, namun terdapat batasan – batasan
tertentu dalam penggunaanya. Saat pengguna menggunakan search engine, ada beberapa
langkah yang harus dilakukan setelah hasil pencariannya ditampilkan oleh search engine
hingga ia mendapatkan informasi yang dibutuhkannya, yaitu:
1. Membaca cepat (scanning) halaman web tersebut utnuk mencari informasi yang
dicari
2. Menandai informasi tersebut
3. Mengopi informasi tersebut
4. Membuka program lain semisal spreadsheet atau word processor dan mem-paste
hasil kopian di dalamnya
Keterbatasan penggunaan search engine yang lain adalah kita tidak mengetahui
perubahan informasi dalam halaman web yang kita telusuri yang seringkali terjadi setiap
hari. Dari keterbatasan tersebut mencul teknik-teknik ekstraksi web yang memiliki tujuan
dan kemampuan untuk mengotomatisasi proses membaca, meng-copy, dan mem-paste
informasi dari suatu halaman website. Ekstraksi web ini juga bertujuan untuk mendapatkan
informasi tertentu yang berubah secara dinamis dari waktu ke waktu, seperti harga
barang, saham,data keuangan,dan lain sebagainya.
Penggunaan ekstraksi web untuk mendapatkan informasi tertentu paling banyak
menurut web2DB adalah untuk informasi sebagai berikut :
1. Membangun daftar kontak dan data penjualan
2. Mengekstraksi katalog produk (Nama, deskripsi, harga, stok, dsb.)
3. Mengekstraksi informasi Real Estate (Nama, Lokasi, Harga, Kepemilikan,
Kontak, dsb.)
4. Mengotomatisasi pencarian daftar iklan
5. Melakukan klipping artikel berita (Judul, Kata kunci, Sumber, dsb)
6. Otomatisasi situs lelang
7. Mengekstraksi situs perjudian
8. Migrasi server
9. Catatan resmi (Legal Notices)
10. Tujuan militer tertentu
2.5.1 Teknik Ekstraksi Web

A. Screen Scraping
Menurut (Wikipedia Free Encyclopedia, 2016) Screen scraping adalah suatu

teknik dimana suatu program dalam komputer mengutip data dari tampilan keluaran
program lain, dan program yang melakukannya disebut screen scrapper. Yang
membedakannya dengan parsing biasa adalah dimana untuk screen scraping ini datanya
lebih diperuntukkan untuk ditampilkan ke pengguna akhir daripada untuk inputan
program lain. Screen scraping sering mengabaikan data biner (biasanya foto atau data
multimedia) dan format elemennya, sehingga cenderung pada data penting berupa teks.
Awalnya screen scraping digunakan untuk membaca data teks dari tampilan
layar komputer. Hal ini dilakukan dengan membaca terminal memori dan dengan
menggunakan port tambahan. Alternatif lainnya menjadikan output port dari suatu
komputer menjadi input bagi port komputer lainnya.
Umumnya transfer data antara program dilakukan dengan struktur data yang
cocok untuk diproses secara otomatis dengan komputer, seperti pada pertukaran format
dan protokol yang berstruktur kaku, didokumentasikan dengan baik. Seringnya transmisi
ini tidak dibaca manusia sama sekali. Tetapi untuk output yang berkebalikan dengan
hal di atas seperti label yang berlebih atau komentar yang berlebih atau informasi
lainnya yang tidak dapat dilakukan dengan proses otomasi. Akan tetapi, meskipun output
yang tersedia adalah sebuah tampilan untuk manusia, screen scraping menjadi suatu
cara untuk mengerjakan transfer data tersebut.
Screen scraping sering digunakan juga untuk antarmuka antara suatu legacy
sistem yang tidak kompatibel lagi dengan perangkat keras sekarang atau antarmuka
untuk sistem ketiga yang tidak menyediakan API yang tepat.
B. Web Scraping
Web Scraping (Turland , 2010) adalah adalah proses pengambilan sebuah dokumen
semi-terstruktur dari internet, umumnya berupa halaman halaman web dalam bahasa
markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data
tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain. Aplikasi web
scraping berfokus pada cara memperoleh data melalui pengambilan dan ekstraksi data
dengan ukuran data yang bervariasi. Web scraping memiliki sejumlah langkah meliputi :
1. Create Scraping Template

Pembuat program mempelajari dokumen HTML dari website yang akan diambil
informasinya untuk tag HTML yang mengapit informasi yang akan diambil.
2. Explore Site Navigation

Pembuat program mempelajari teknik navigasi pada website yang akan diambil
informasinya untuk ditirukan pada aplikasi web scraper yang akan dibuat.
3. Automate Navigation and Extraction

Berdasarkan informasi yang didapat pada langkah 1 dan 2 di atas, aplikasi web
scraper dibuat untuk mengotomatisasi pengambilan informasi dari website yang
ditentukan.
4. Extracted Data and Package History

Informasi yang didapat dari langkah 3 disimpan dalam tabel database. Cara kerja
web scraping dapat dilihat pada Gambar 2.9 . (Computer Advisor , 2015)
Gambar 2.9 Cara Kerja Web Scraping
2.5.2 Tipe Web Crawler
Tipe dari Web Crawler (Vinay, 2014) secara Umum di Klasifikasikan Kedalam 4
Tipe, yaitu :
1. Fokus Crawler
Fokus Crawler adalah Web Crawler yang mendownload halaman yang
berhubungan untuk topik tertentu yang diminati. mengumpulkan dokumen yang
fokus dan relevan pada topik tertentu. dari caranya berkerja sering di sebut Topik
Crawler. Fokus Crawler menentukan halaman yang relevan sebelum melakukan
crawling halaman web. Mengestimasi halaman yang diberikan untuk topik tertentu
dan bagaimana memproses. Keuntungan utama dari Focus Crawler adalah
membutuhkan hardware dan resource network yang kecil dan biaya kecil. dan juga
terus melakukan cek pada lalulintas jaringan (traffic network).
2. Traditioanal Crawler
Tradisional Crawler secara berkala mengcrawler URL yang telah di Crawling
dan mengganti dokumen lama dengan dokumen baru untuk menyegarkan
koleksinya. Sebaliknya, sebuah crawler tambahan merefresh secara bertahap
koleksi yang telah ada dari halaman web yang telah sering dikunjungi. hal ini
berdasarkan estimasi rating (tingkat) seberapa sering sebuah halaman web itu
diubah. Hal ini juga menggantikan halaman lama dan kurang penting dengan
halaman baru yang lebih relevan. ini memecahkan masalah fresness of data
(kesegaran data). Keuntungan dari Traditional Crawler adalah data yang disedikan
hanya bernilai untuk user. menghemat bandwith jaringan dan mencapai pengayaan
data.
3. Distributed Crawler
Teknik komputasi terdistribusi adalah fondasi utama untuk mengcrawler web
yang didistribusikan. Banyak crawler bekerja pada waktu yang sama ditandem dan
mendistribusikan beban kerja mengcrawler web untuk mendapatkan cakupan
maksimum dari internet. Pusat server mengelola komunikasi, singkronisasi node dan
berkomunikasi antara bot yang berbeda. Hal ini juga secara geografis
didistribusikan terutama menggunakan Page Rank Algorithm (Algoritma Peringkat
Halaman) untuk meningkatkan efisiensi dan kualitas pencarian. keuntungan
dari Crawler Web Terdistribusi adalah Kokoh (Robust). Hal ini tahan terhadap
sistem crash dan lainnya. dan dapat diadopsi untuk berbagai kebutuhan Crawler.
4. Paralel Crawler
Paralel Crawler adalah beberapa crawler berjalan pada waktu yang sama.
Hal ini terdiri dari beberapa proses crawling disebut sebagai C-Procs yang dapat
berjalan pada jaringan workstation. Crawler paralel tergantung pada pilihan
halaman dan freshness page (kesegaran halaman). Sebuah crawler paralel dapat
didistribusikan di lokasi geografis jauh atau berada pada jaringan lokal. Paralelisasi
sistem mengcrawler sangat penting dari sudut pandang download dokumen dalam
jumlah waktu yang wajar.
2.6 Document Object Model (DOM)

Document Object Model atau DOM adalah Platform atau anatarmuka bahasa netral
yang menyediakan model standar bagaimana objek dalam suatu objek XML diletakkan
bersama-sama dan interface standar untuk mengakses dan memanipulasi objek-objek dan
berhubungan dengan mereka.
DOM adalah antarmuka yang mengekspos dokumen XML sebagai struktur pohon yang
terdiri dari node. DOM memungkinkan kita untuk menavigasi pohon dan menambah,
mengubah dan menghapus setiap elemen. Standar pemograman antarmuka DOM
didefinisikan oleh World Wide Web Consortium(W3C).
Untuk dapat menggunakan fitur-fitur XML, DOM menggunakan parser DOM-enabled,
misalnya JAXP. Parser DOM-enabled membaca dokumen XML, menelusurinya, meyakinkan
bahwa ia valid. Kemudian, ia membuat representasi memori dalam struktur data tree.
Struktur tree terbuat dari node-node. Anda dapat menggunakan object-object DOM yang
disediakan parser DOM-enabled untuk memanipulasi node-node ini.
2.7 Regular Expression
Regular expression (Fitzgerald, 2012) merupakan sebuah pola yang

menggambarkan dan menyamakan sejumlah teks. Penggunaan Regex dapat digunakan
untuk menemukan, mengganti, dan membagi teks sesuai dengan pola tertentu. Selain itu,
dapat digunakan untuk memverifikasi input data dan sejumlah teks yang terlihat seperti
email, nomor telepon, tanggal, kode negara, dan lainnya.
Regex terdiri dari string yang merupakan kombinasi antara karakter normal dan
metakarakter khusus. Dalam implementasi dari kombinasi ini, karakter normal mewakili
karakter itu sendiri. Sedangkan metakarakter khusus adalah karakter yang
merepresentasikan maksud tertentu.
Regex merupakan bagian dari bahasa pemrograman dan library yang terus
berkembang.Bahasa pemrograman yang dapat menggunakan regex yaitu .NET, Java,
JacaScript Perl, PHP, Python, Java, Javascript, Ruby, dan lainnya Selain itu dapat
digunakan pada Unix melalui utility ed, sed, vi editors, grep, AWK, dan lainnya. Contoh
pola menggambarkan alamat email yaitu “\b[A-Z0-9._%+- ]+@[A-Z0-9.-]+\.[A-Z]{2,4}\b”.
Penggunaan pola tersebut merupakan pola yang kompleks. Pola menggambarkan
kumpulan yang terdiri dari huruf, angka, titik, garis bawah, simbol persen, dan tanda
hubung. Kemudian diikuti oleh sebuah titik tunggal di antara 2-4 huruf. (Goyvaerts, 2015)
Tabel 2.3 Simbol Regular expression

[abc] single karakter, teks hanya boleh mempunyai karakter
abjad a atau b atau c (huruf kecil)
[a-z] teks hanya boleh mempunyai karakter antara a sampai
z (huruf kecil)
[a-zA-Z] teks hanya boleh mempunyai karakter antara a sampai z
(huruf kecil) atau A sampai Z (huruf besar)
[123] Single karakter , text hanya boleh mempunyai karakter
digit 1 atau 2 atau 3
\d teks boleh mengandung semua digit atau sama dengan [0-
9]
\D Cocok dengan semua karakter kecuali digit (nondigit)
\w Cocok dengan semua karakter kata (huruf maupun digit

,besar maupun kecil)
\W Hanya cocok dengan karakter yang bukan kata
. Cocok dengan semua single karakter (huruf,angka,spasi dll)
\s Cocok dengan spasi atau Setara dengan [\t\n\r\f].
\S Hanya akan cocok dengan karakter yang bukan spasi
+ Cocok dengan 0 atau lebih karakter dari sebelum ekspresi
* Cocok dengan 1 atau lebih karakter dari sebelum ekspresi
? Cocok dengan 0 atau 1 kejadian sebelum ekspresi
[..] Cocok dengan karakter tunggal dalam tanda kurung.
[^..] Cocok dengan satu karakter apapun tidak dalam kurung
{n} Matches sama persis n jumlah kemunculan sebelumnya

ekspresi.
{n,..} Matches n atau lebih kejadian dari sebelumnya ekspresi.
{n,m} Matches setidaknya n dan paling banyak kejadian m dari

sebelumnya ekspresi.
a|b Matches baik a atau b.
(...) Grup ekspresi reguler dan mengingat matches teks.
(^...$) Diawali dengan ^ dan di akhiri dengan $

(.*) Cocok dengan semua jenis karakter apapun dan mengambil
semuanya
2.7.1 Prinsip Kerja Regular Expression

Engine RegEx terdiri dari 2 jenis Text-directed engine dan regex-directed
engine atau ada juga yang mengatakan DFA (Deterministic Finite Automaton) dan NFA
(Nondeterministic Finite Automaton) engines. Namun jenis mesin engine yang lebih banyak
diminati adalah regex-directed engine, disamping itu featurenya lebih hebat dari text-
directed engine.
Misalnya saja kita mencocokan kata “regex” dengan kata “belajar regex sekarang”,
pertama-tama regex akan memulai mencocokan karakter pertama yaitu huruf “R” dengan
“B”, karena tidak cocok maka akan dilanjutkan ke tempat selanjutny yaitu “R” dengan
“E”, karena masih belum cocok juga proses ini akan terus berlanjut, hingga akhirnya
menemukan hurup “R” yaitu di posisi ke-7, hasil ini akan disimpan di memori bahwa telah
valid pada posisi ke-7, kemudian akan meneruskan langkah selanjutnya mencocokan hurup
“E” dengan ” ” dan ternyata tidak cocok, engine akan mulai melakukan pencocokan
kembali.
Karena huruf “E” tidak ditemukan maka kali ini engine akan kembali menggunakan
huruf “R” dan dicocokan pada posisi ke-9 yakni huruf “R”. Karena valid, engine
menggunakan huruf berikutnya yakni huruf “E” dan dicocokan dengan posisi ke-10 yakni
huruf=”E”. Proses ini akan terus diulang hingga mencapai posisi akhir suatu himpunan
string. Nah jika kata “regex” ditemukan oleh kata “belajar regex sekarang” maka engine
akan melaporkan bahwa Regular expression telah valid, meskipun masih ada karakter yang
belum di validasi (kata “sekarang”). Itu adalah cara kerja NFA yang lama, berbeda dengan
mesin NFA yang sekarang, sudah lebih baik, yaitu meskipun string yang dicari telah match
tetap akan diteruskan sampai benar-benar valid ditemukan. Setelah itu baru dibuat
laporan sukses. Berbeda dengan engine dari NFA, engine DFA memilik cara kerja yakni
membandingkan semua karakter secara serempak, hal ini membuat total memory yang
dibutuhkan lebih besar dari NFA, sehingga teknologi NFA lebih diminati.
Beberapa sistem yang telah menggunakan teknologi NFA ini diantaranya adalah
Perl, Java, .NET languages, PHP, Python, Ruby dan masih banyak lagi. (Mudafiq. R , 2012)
2.8 MySQL
Menurut (Hendra Kurniawan, Eri dan Nur , 2011) SQL (Structured Query Language)
adalah sebuah bahasa yang dipergunakan untuk mengakses data dalam basis data
relasional. SQL juga dapat diartikan sebagai antar muka standar untuk sistem manajemen
basis data relasional, termasuk sistem yang beroperasi pada komputer pribadi. SQL
memungkinkan seorang pengguna untuk mengakses informasi tanpa mengetahui dimana
lokasinya atau bagaimana informasi tersebut disusun.
MySQL adalah sebuah perangkat lunak sistem manajemen basis data SQL (bahasa
Inggris: database management system) atau DBMS yang multi thread, dan multi-user.
MySQL dimiliki dan di sponsori oleh sebuah perusahaan komersial Swedia MySQL AB, dimana
memegang hak cipta hampir atas semua kode sumbernya. Kedua orang Swedia dan satu
orang Finlandia yang mendirikan MySQL AB adalah: David Axmark, Allan Larsson, dan
Michael "Monty" Widenius.
MySQL adalah Relational Database Management System (RDBMS) yang
didistribusikan secara gratis dibawah lisensi GPL (General Public License), dimana setiap
orang bebas untuk menggunakan MySQL, namun tidak boleh dijadikan produk turunan yang
bersifat komersial. MySQL sebenarnya merupakan turunan salah satu konsep utama dalam
database sejak lama, yaitu SQL (Structured Query Language). SQL adalah sebuah konsep
pengoperasian database, terutama untuk pemilihan atau seleksi dan pemasukan data, yang
memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis.’
2.8.1 Keunggulan MySQL

Ada beberapa keunggulan dari MySQL, diantaranya adalah :
 MySQL merupakan program yang multi-threaded, sehingga dapat dipasang

pada server yang memiliki multi-CPU.
 Didukung program-program umum seperti C, C++, Java, Perl, PHP, Python,
TCL API.
 Bekerja pada berbagai platform. tersedia berbagai versi untuk berbagai sistem
operasi.
 Memiliki jenis kolom yang cukup banyak sehingga memudahkan konfigurasi
sistem database.
 Memiliki sistem sekuriti yang cukup baik dengan verifikasi host.
 Mendukung record yang memiliki kolom dengan panjang tetap atau panjang
bervariasi.
2.8.2 Sistem Server Database MySQL

Sistem database MySQL memiliki sistem keamanan dengan tiga verifikasi yaitu
username, password dan host. Verifikasi host memungkinkan untuk membuka
keamanan di localhost, tetapi tertutup bagi host lain (bekerja di lokal komputer).
Sistem keamanan ini ada di dalam database mysql dan pada tabel user. Proteksi juga
dapat dilakukan terhadap database, tabel, hingga kolom secara terpisah.(Kadir, 2008)
2.8.3 Fungsi – Fungsi MySQL
MySQL memiliki fungsi-fungsi standar SQL dan beberapa kemampuan tambahan.
Secara lengkap dokumentasi ini terdapat pada manual MySQL. Namun demikian pada
bagian ini perlu disajikan beberapa fungsi SQL yang sering digunakan dalam halaman
Web.
1. SELECT <column,...> FROM <table_name,...> WHERE

<where_definition> ORDER BY <column, ...> [ASC|DESC].
Fungsi ini berfungsi untuk memilih atau mengambil data dari sebuah tabel
dengan kolom yang telah ditentukan kemudian dipanggil dari kolom yang
diinginkan.
2. INSERT INTO <table_name> VALUES(<list_of_data>). Fungsi ini berfungsi

untuk memasukkan data kedalam sebuah tabel dengan nilai atau data yang
diinginkan.
3. UPDATE <table_name> SET column=<expression> WHERE
<where_definition>.
Fungsi ini berfungsi untuk mengganti data pada sebuah tabel dengan data yang
diinginkan berdasarkan syarat yang dinginkan.
4. DELETE FROM <table_name> WHERE <where_definition>. Fungsi ini berfungsi

untuk menghapus data pada sebuah tabel berdasarkan syarat yang diinginkan.
2.8.4 PHP MyAdmin

Menurut (Sibero,2011) “PhpMyAdmin adalah aplikasi web yang dibuat oleh
phpMyAdmin.net. phpMyAdmin digunakan untuk administrasi database MySQL”. Program
ini digunakan untuk mengakses database MySQL. Perintah untuk membuat tabel dapat
menggunakan form yang sudah tersedia pada PhpMyAdmin atau dapat langsung menuliskan
script pada menu SQL. PhpMyAdmin dijalankan dengan cara mengetik
http://localhost/phpmyadmin pada web browser.
Menurut (Arief,2011) ”phpMyAdmin adalah salah satu aplikasi GUI (Graphical User
Interface) yang digunakan untuk mengelola database MySQL”. Menurut (Kurniawan,2008)
“PhpMyAdmin adalah halaman yang terdapat pada web server”. Fungsi dari halaman ini
adalah sebagai pengendali database MySQL menggunakan web server.
2.9 Netbeans
Sekilas Tentang Netbean IDE 7.0 NetBeans adalah Integrated Development

Environment (IDE) berbasiskan Java dari Sun Microsystems yang berjalan di atas Swing.
Swing sebuah teknologi Java untuk pengembangan aplikasi desktop yang dapat bejalan di
berbagai macam platforms seperti Windows, Linux, Mac OS X and Solaris.
http://fhenyfhen. blogspot. com/2011/02/sejarah-netbeans.html. 2 Februari 2012
Netbeans merupakan software development yang Open Source, dengan kata lain
software ini di bawah pengembangan bersama, bebas biaya NetBeans merupakan sebuah
proyek kode terbuka yang sukses dengan pengguna yang sangat luas, komunitas yang
terus tumbuh, dan memiliki hampir 100 mitra. Sun Microsystems mendirikan proyek kode
terbuka NetBeans pada bulan Juni 2000 dan terus menjadi sponsor utama.
Suatu IDE adalah lingkup pemrograman yang diintegrasikan kedalam suatu aplikasi
perangkat lunak yang menyediakan pembangun Graphic User Interface (GUI), suatu text
atau kode editor, suatu compiler atau interpreter dan suatu debugger. 22 The NetBeans
IDE adalah sebuah lingkungan pengembangan, sebuah kakas untuk pemrogram menulis,
mengompilasi, mencari kesalahan dan menyebarkan program. Netbeans IDE ditulis dalam
Java, namun dapat mendukung bahasa pemrograman lain. Netbeans IDE adalah sebuah
produk bebas dengan tanpa batasan bagaimana digunakan. NetBeans IDE mendukung
pengembangan semua tipe aplikasi Java (J2SE, web, EJB, dan aplikasi mobile). Fitur
lainnya adalah sistem proyek berbasis Ant, kontrol versi, dan refactoring.
2.10 Flowchart
Flowchart atau diagram alir merupakan sebuah diagram dengan simbol-simbol grafis
yang menyatakan aliran algoritma atau prosesyang menampilkan langkah-langkah yang
disimbolkan dalam bentuk kotak, beserta urutannya dengan menghubungkan masing
masing langkah tersebut menggunakan tanda panah. Diagram ini bisa memberi solusi
selangkah demi selangkah untuk penyelesaian masalah yang ada di dalam proses atau
algoritma tersebut.
2.10.1 Simbol-Simbol Flowchart

Flowchart disusun dengan simbol-simbol. Simbol ini dipakai sebagai alat bantu
menggambarkan proses di dalam program. Simbol-simbol yang dipakai antara lain :
Tabel 2.4 Simbol Flowchart
Nama Symbol Keterangan

Flow Direction symbol Yaitu simbol yang digunakan
untuk menghubungkan antara
simbol yang satu dengan simbol
yang lain. Simbol ini disebut juga
connecting line
Yaitu simbol untuk permulaan
Terminator Symbol (start) atau akhir (stop) dari suatu
kegiatan
Connector Symbol Yaitu simbol untuk keluar – masuk

atau penyambungan proses dalam
lembar / halaman yang sama
Yaitu simbol untuk keluar – masuk

Connector Symbol atau penyambungan proses pada
lembar / halaman yang berbeda
Processing Symbol Simbol yang menunjukkan

pengolahan yang dilakukan oleh
computer
Simbol Manual Simbol yang menunjukkan
Operation pengolahan yang tidak dilakukan
oleh computer
Simbol Decision Simbol pemilihan proses
berdasarkan kondisi yang ada.
Simbol Input-Output Simbol yang menyatakan proses

input dan output tanpa
tergantung dengan jenis
peralatannya
Simbol Manual Input Simbol untuk pemasukan
data secara manual on-line
keyboard
Simbol Preparation Simbol untuk mempersiapkan

penyimpanan yang akan
digunakan sebagai tempat
pengolahan di dalam storage.
Simbol Predefine Simbol untuk pelaksanaan suatu
Proses bagian (sub-program)/procedure
Simbol Display Simbol yang menyatakan
peralatan output yang digunakan
yaitu layar, plotter, printer dan
sebagainya
Simbol disk and On- Simbol yang menyatakan input
line Storage yang berasal dari disk atau
disimpan ke disk
2.10.2 Kaidah-kaidah pembuatan Flowchart

Dalam pembuatan flowchart tidak ada rumus atau patokan yang bersifat mutlak.
Karena flowchart merupakan gambaran hasil pemikiran dalam menganalisa suatu masalah
dengan komputer. Sehingga flowchart yang dihasilkan dapat bervariasi antara satu
pemrogram dengan pemrogram lainnya.Namun secara garis besar, setiap pengolahan selalu
terdiri dari tiga bagian utama, yaitu:
1. Input berupa bahan mentah
2. Proses pengolahan
3. Output berupa bahan jadi
2.10.3 Jenis-Jenis Flowchart

Ada beberapa jenis flowchart diantaranya:
1. Bagan alir sistem (systems flowchart).
System flowchart dapat didefinisikan sebagai bagan yang menunjukkan
arus pekerjaan secara keseluruhan dari sistem. Bagan ini menjelaskan urut-
urutan dari prosedur-prosedur yang ada di dalam sistem. Bagan alir sistem
menunjukkan apa yang dikerjakan di sistem.
2. Bagan alir dokumen (document flowchart).
Bagan alir dokumen (document flowchart) atau disebut juga bagan
alir formulir (form flowchart) atau paperwork flowchart merupakan bagan
alir yang menunjukkan arus dari laporan dan formulir termasuk tembusan-
tembusannya.
3. Bagan alir skematik (schematic flowchart).
Bagan alir skematik (schematic flowchart) merupakan bagan alir yang
mirip dengan bagan alir sistem, yaitu untuk menggambarkan prosedur di dalam
sistem. Perbedaannya adalah, bagan alir skematik selain menggunakan simbol-
simbol bagan alir sistem, juga menggunakan gambar-gambar komputer dan
peralatan lainnya yang digunakan. Maksud penggunaan gambar-gambar ini
adalah untuk memudahkan komunikasi kepada orang yang kurang paham dengan
simbol-simbol bagan alir. Penggunaan gambar-gambar ini memudahkan untuk
dipahami, tetapi sulit dan lama menggambarnya.
4. Bagan alir program (program flowchart).
Bagan alir program (program flowchart) merupakan bagan yang
menjelaskan secara rinci langkah-langkah dari proses program. Bagan alir
program dibuat dari derivikasi bagan alir sistem. Bagan alir program dapat
terdiri dari dua macam, yaitu bagan alir logika program (program logic
flowchart) dan bagan alir program komputer terinci (detailed computer
program flowchart). Bagan alir logika program digunakan untuk
menggambarkan tiap-tiap langkah di dalam program komputer secara logika.
Bagan alat- logika program ini dipersiapkan oleh analis sistem. Gambar berikut
menunjukkan bagan alir logika program. Bagan alir program komputer terinci
(detailed computer program flow-chart) digunakan untuk menggambarkan
instruksi-instruksi program komputer secara terinci. Bagan alir ini dipersiapkan
oleh pemrogram.
5. Bagan alir proses (process flowchart).
Bagan alir proses (process flowchart) merupakan bagan alir yang
banyak digunakan di teknik industri. Bagan alir ini juga berguna bagi analis
sistem untuk menggambarkan proses dalam suatu prosedur.
BAB III
PERANCANGAN
3.1 Metode Penelitian
Media Online
Database
Scraping
info obat
Clustering
Result
Informasi
Gambar 3.1 Metode Penelitian
3.2 Blok Sistem
ADMIN
HalamanWeb
Halaman Web
BukalapakObat
Informasi / OLX
Proses Scraping
Halaman Web
Database Hasil
Scraping
Merk Obt Proses

Merk & Type Pencarian
Hasil :
Hasil :
1. Alamat URL
1. Alamat URL
2. Nama Obat
2. Merk
3. Kandungan
3. Harga
4. Efek Samping
4. Foto
5. Tanggal Download
Gambar 3.2 Blok Diagram Sistem

Keterangan :
1. Pada bagian dari admin : admin bertugas untuk pengambilan data melalui
proses scraping pada halaman situs dan kemudian hasil dari datanya disimpan
kedalam database hasil scraping.
2. Pada bagian dari user : user dapat menginputkan merk obat sesuai keinginan
kemudian sistem akan mencari kedalam database hasil scraping admin tadi.
Setelah ditemukan maka data akan di tampilkan pada user sesuai dengan
keyword yang diinputkan.
3.3 Flowchart Proses Scraping
ADMIN WEB USER
Start
Buka alamat URL yang

Database alamat
sudah tersimpan
URL
dalam database
Simpan tanggal Download Halaman

download HTML dari URL tersebut
Baca text HTML yang

sudah di download
Mencari pola data record

Menggunakan REGEX
Menemukan
Pola ?
ketemu
Mencari
Mencaripola data
pola region
data region
misal
Misal : judul,harga
: nama obat, kandungan
Menggunakan
Menggunakan REGEX
REGEX
Tidak ketemu
Mendapatkan
Mencari pola data Menemukan
Dataregion
judul dan ketemu
Pola ?
Misal :harga
nama obat,
kandungan
Menggunakan
REGEX Tidak ketemu
Simpan Data
Stop
dalam database
Gambar 3.3 Flowchart Scraping
Keterangan :
1. Dimulai dari membuka alamat URL yang di simpan di database.
2. Download halaman HTML dari URL tersebut, catat tanggal download karena
harus disimpan kedalam database.
3. Jika sudah terdownload halaman HTMLnya kemudian baca text HTML yang
ada pada Halaman tersebut.
4. Kemudian tahap selanjutnya mencari pola dari data recordnya menggunakan
Regular expression.
5. Jika sudah menemukan pola dari data recordnya maka kita bisa melanjutkan
untuk menemukan pola dari data regionnya menggunakan Regular
expression juga.
6. Tapi jika tidak dapat menemukan pola dari data recordnya maka proses
tidak dapat dilanjutkan.
7. Hasil dari menemukan pola data region adalah data berupa judul dan harga
yang nantinya akan di komparasi.
8. Kemudian simpan data dalam database
3.4 Studi Kasus

Studi kasus yang coba diangkat dan mendekati penelitian yang sedang atau akan
diteliti adalah scraping data handphone pada situs jual beli online bukalapak dan olx.
Adapaun data yang diambil dimulai dari tanggal 1 Maret sampai 2 Maret 2017. Data yang
diambil yaitu berupa data alamat url, merk handphone, harga handphone, foto dan tanggal
download data. Berikut adalah bentuk data hasil dari proses scraping :
Tabel 3.1 Bentuk Data Hasil Scraping

No Nama Harga Alamat URL URL Foto Tanggal
1 jual 120000 http://olx.co.id/ik https://img.olx.biz.id 01
samsung 0 lan/jual-samsung- /7C3D/31805/2949508 Maret
galaxy galaxy-grand-2- 13_1_261x203_jual- 2017
grand 2 komplit-bu- samsung-galaxy-grand-
komplit IDlmoh4.html#536f 2-komplit-bu-
BU 5d98c4 surabaya-
kota_rev001.jpg
2 Samsung 167500 http://olx.co.id/ik https://img.olx.biz.id 01
Galaxy 0 lan/samsung- /C66A/50794/2949497 Maret
j3 Pro galaxy-j3-pro- 05_1_261x203_samsun 2017
IDlmnVB.html#536f g-galaxy-j3-pro-
5d98c4 yogyakarta-kota.jpg
3 iPhone 550000 http://olx.co.id/ik https://img.olx.biz.id 01
6S 16GB 0 lan/iphone-6s- /3879/79992/2949299 Maret
FU Gold 16gb-fu-gold- 97_1_261x203_iphone- 2017
Fullset fullset- 6s-16gb-fu-gold-
IDlmjYm.html#536 fullset-denpasar-
f5d98c4 kota.jpg
4 Oppo 150000 http://olx.co.id/ik https://img.olx.biz.id 01
neo7 0 lan/oppo-neo7- /839C/33692/2949296 Maret
msih msih-segel-ori- 33_1_261x203_oppo- 2017
segel lengkap-ninggal- neo7-msih-segel-ori-
handset-soalnya- lengkap-ninggal-
hilang- handset-soalnya-
IDlmjPE.html#536f hilang-sidoarjo-
5d98c4 kab.jpg
5 0pp0 N3 220000 http://olx.co.id/ik https://img.olx.biz.id 01
alone 0 lan/0pp0-n3-alone- /C88A/51338/2948833 Maret
mulus mulus- 15_1_261x203_0pp0- 2017
IDlm9BE.html#536f n3-alone-mulus-
5d98c4 semarang-kota.jpg
6 180000 http://olx.co.id/ik https://img.olx.biz.id 01
xiaomi 0 lan/xiaomi-redmi- /277E/75645/2948546 Maret
redmi 3s 3s-pro-gold- 57_1_261x203_xiaomi- 2017
pro gold IDlm3hd.html#536f redmi-3s-pro-gold-
5d98c4 jakarta-pusat.jpg
3.5 Analisa Algoritma

Regular Expression (RegEx) berperan dalam pengambilan data pada situs jual beli
online. RegEx akan mencocokkan string menggunakan simbol-simbol yang dibentuk
menjadi sebuah pola yang mengawali dan mengakhiri sebuah stuktur data yang akan
diambil nantinya. Berikut ini adalah tahapan pengambilan data menggunakan metode web
scraping dengan regular expression :
3.5.1 Pengambilan alamat URL

Pada saat akan mengambil data dari sebuah halaman web di internet, maka
diperlukan untuk menyimpan atau mengambil alamat url dari halaman web tersebut ,
berikut adalah prosesnya :
1. Buka web browser kemudian tulis alamat url pada address bar.
2. Karena data yang akan diambil adalah handphone , maka klik kategori dan pilih
handphone
3. Setelah itu simpan alamat url yang ada di dalam address bar
Gambar 3.4 Pengambilan Alamat URL
3.5.2 Membaca Halaman HTML

Untuk mengetahui data yang akan diambil berada di posisi mana dan bagaimana
struktur atau pola htmlnya maka diperlukan untuk membaca halaman html dari url yang
tadi sudah disimpan.
1. Pertama klik kanan pada halaman web, kemudian pilih inspect.
2. Setelah itu bisa dilihat struktur htmlnya pada sisi kanan halaman web.
Gambar 3.5 Inspect Halaman Web
3.5.3 Pencarian Pola Struktur HTML

Setelah membaca halaman html dari proses inspect halaman web maka ditemukan
struktur html yang memuat keseluruhan data yang akan diambil. Berikut ini adalah struktur
yang diambil pada halaman web bukalapak :
1. Struktur pertama adalah bagian yang memuat keseluruhan data yang akan
diambil, pengambilan diawali dengan struktur “a” dan berhenti distrukur “b”.
a : <div class ="basic-products basic-products--grid
b : <section class="endorsed-products
 Hasil dari pengambilan struktur ini akan digunakan untuk mengambil struktur
data record.
2. Struktur kedua adalah bagian dari data record. Data record adalah struktur
yang memiliki informasi mengenai handphone yang akan diambil. Berikut
strukturnya diawali dengan struktur “a” dan diakhiri dengan struktur “b”.
a : <li class ="product—sem col-12--2">
b: <\/li>
3. Setelah menemukan data record, tahapan selanjutnya adalah mencari struktur
dari data yang akan diambil yaitu nama barang, harga barang, alamat url
barang dan alamat url foto. Berikut ini adalah struktur yang menyimpan data-
data tersebut .
• Nama : data-name=”nama barang”
• Harga : <span class="amount positive">harga barang<\span>
• Alamat url : data-url=”alamat url”
• Url foto : data-src=”url foto”
3.5.4 Merubah Struktur HTML Menjadi Pola Regular Expression
Struktur yang sudah didapatkan tadi tidak langsung bisa digunakan untuk
pengambilan data, harus dirubah terlebih dahulu kedalam pola regular expression. Berikut
adalah perubahan struktur sebelum dan sesudah dirubah kedalam pola regular expression :
Tabel 3.2 Perubahan Struktur ke Pola Regex

Struktur HTML Sesudah Menjadi Pola Regex
Bagian a : <div class ="basic-products <div\s*class\s*\=\"basic-
Body basic-products--grid products+([^"]*)\s*.*?<section
b : <section class="endorsed- class="endorsed-products
products
Bagian a : <li class ="product—sem <li\s*class\s*\=\"product--

Record col-12--2"> sem\s*col-12--2\">\s*.*?<\/li>
b : <\/li>
Nama data-name=”nama barang” data-name=\"([^\"]+)
Harga <span class = "amount <span\s*class\=\"amount

positive">harga barang<\span> positive\">([^<]+)
Alamat data-url=”alamat url” data-url=\”([^”]+)

URL
URL data-src=”url foto” data-src=\”([^”]+)

Foto
Ketika melakukan pemotongan data menggunakan pola diatas, data masih

terdapat didalam struktur sehingga diperlukan proses Replace First untuk
menghilangkan struktur html tersebut. Setelah dilakukan pembersihan
menggunakan Replace First barulah data disimpan kedalam database.
Tabel 3.3 Hasil Replace First

Hasil penerapan pola Replace First Data yang disimpan
Nama data-name=”Samsung Data- Samsung Galaxy J3
Galaxy J3 Pro name\s*=\s*\"\s* Pro
Harga <span class = "amount ^\<span\s*class\=\ 167500
positive">167500 "amount
positive\">
Alamat Data- data- http://olx.co.id/ikla
URL url=”http://olx.co.id/ikla url\s*\=\s*\"\s*" n/samsung-galaxy-j3-
n/samsung-galaxy-j3-pro- pro-
IDlmnVB.html#536f5d98c4 IDlmnVB.html#536f5d
98c4
Url data- data- https://img.olx.biz.i
Foto src=”https://img.olx.biz.i src\s*=\s*\"\s* d/C66A/50794/29494
d/C66A/50794/294949705 9705_1_261x203_sam
_1_261x203_samsung- sung-galaxy-j3-pro-
galaxy-j3-pro-yogyakarta- yogyakarta-kota.jpg
kota.jpg
Berikut ini adalah hasil dari proses scraping selama dua hari yang
ditampilkan hanya 20 data dari keseluruhan data yang berjumlah 539 data.
Tabel 3.4 Hasil Scraping Data

No Nama Harga Alamat URL URL Foto Tanggal
1 jual samsung 1200000 http://olx.co.id/iklan/jual- https://img.olx.biz.id/7C3D/3180 01 Maret
5/294950813_1_261x203_jual-
galaxy grand samsung-galaxy-grand-2- 2017
samsung-galaxy-grand-2-
2 komplit BU komplit-bu- komplit-bu-surabaya-
kota_rev001.jpg
IDlmoh4.html#536f5d98c4
2 Samsung 1675000 http://olx.co.id/iklan/samsu https://img.olx.biz.id/C66A/5079 01 Maret
Galaxy j3 Pro 4/294949705_1_261x203_sam
ng-galaxy-j3-pro- 2017
sung-galaxy-j3-pro-yogyakarta-
IDlmnVB.html#536f5d98c4 kota.jpg
3 iPhone 6S 5500000 http://olx.co.id/iklan/iphone https://img.olx.biz.id/3879/7999 01 Maret
16GB FU 2/294929997_1_261x203_ipho
-6s-16gb-fu-gold-fullset- 2017
Gold Fullset ne-6s-16gb-fu-gold-fullset-
IDlmjYm.html#536f5d98c4 denpasar-kota.jpg
4 Oppo neo7 1500000 http://olx.co.id/iklan/oppo- https://img.olx.biz.id/839C/3369 01 Maret
msih segel 2/294929633_1_261x203_oppo
neo7-msih-segel-ori- 2017
-neo7-msih-segel-ori-lengkap-
lengkap-ninggal-handset- ninggal-handset-soalnya-hilang-
sidoarjo-kab.jpg
soalnya-hilang-
IDlmjPE.html#536f5d98c4
5 0pp0 N3 2200000 http://olx.co.id/iklan/0pp0- https://img.olx.biz.id/C88A/5133 01 Maret
alone mulus n3-alone-mulus- 8/294883315_1_261x203_0pp0
2017
IDlm9BE.html#536f5d98c4 -n3-alone-mulus-semarang-
kota.jpg
6 xiaomi redmi 1800000 http://olx.co.id/iklan/xiaomi https://img.olx.biz.id/277E/7564 01 Maret
3s pro gold -redmi-3s-pro-gold- 5/294854657_1_261x203_xiao 2017
IDlm3hd.html#536f5d98c4 mi-redmi-3s-pro-gold-jakarta-
pusat.jpg
7 New Xiomi 1599000 http://olx.co.id/iklan/new- https://img.olx.biz.id/7026/9424 01 Maret
Redmi 4a xiomi-redmi-4a-2-16- 5/294854249_1_261x203_new- 2017
2/16 garansi garansi-resmi-tam- xiomi-redmi-4a-2-16-garansi-
resmi Tam IDlm3ff.html#536f5d98c4 resmi-tam-semarang-
kota_rev002.jpg
8 iphone 4 950000 http://olx.co.id/iklan/iphone https://img.olx.biz.id/DB01/5606 01 Maret
32gb mulus -4-32gb-mulus-seken- 5/294856065_1_261x203_ipho 2017
seken IDlm3uQ.html#536f5d98c4 ne-4-32gb-mulus-seken-jakarta-
timur.jpg
9 vivo Y15 750000 http://olx.co.id/iklan/vivo- https://img.olx.biz.id/BD36/4843 01 Maret
dijual murah y15-dijual-murah- 8/294883484_1_261x203_vivo- 2017
IDlmacz.html#536f5d98c4 y15-dijual-murah-malang-
kota_rev017.jpg
10 asuz zenfone 2350000 http://olx.co.id/iklan/asuz- https://img.olx.biz.id/D834/5534 01 Maret
3 alone zenfone-3-alone- 8/294884355_1_261x203_asuz 2017
IDlma05.html#536f5d98c4 -zenfone-3-alone-semarang-
kota.jpg
11 asus Zefone 1000000 http://olx.co.id/iklan/asus- https://img.olx.biz.id/21B9/7416 01 Maret
5 ram 2/16 zefone-5-ram-2-16- 8/294886147_1_261x203_asus 2017
IDlmae1.html#536f5d98c4 -zefone-5-ram-2-16-tangerang-
kota.jpg
12 oppo a39 bisa 2599000 http://olx.co.id/iklan/oppo- https://img.olx.biz.id/1106/0435 01 Maret
kredit a39-bisa-kredit-telefonia- 8/294885340_1_261x203_oppo 2017
Telefonia godean- -a39-bisa-kredit-telefonia-
godean IDlmad9.html#536f5d98c4 godean-sleman-kab.jpg
13 850000 http://olx.co.id/iklan/samsu https://img.olx.biz.id/3F82/1625 01 Maret
Samsung ng-galaxi-grand-duos- 8/294885261_1_261x203_sam 2017
galaxi grand IDlma3P.html#536f5d98c4 sung-galaxi-grand-duos-
duos tangerang-selatan-kota.jpg
14 samsung 1800000 http://olx.co.id/iklan/samsu https://img.olx.biz.id/918A/3725 01 Maret
galaxy on7 ng-galaxy-on7-pro-lite-4g- 8/291585273_1_261x203_sam 2017
pro lite 4g dualsim-16gb- sung-galaxy-on7-pro-lite-4g-
dualsim 16gb kamera13mp-fullset- dualsim-16gb-kamera13mp-
kamera13mp mulus- fullset-mulus-bandung-kota.jpg
fullset mulus IDl9S4v.html#536f5d98c4;
promoted
15 xiaomi redmi 2030000 http://olx.co.id/iklan/xiaomi https://img.olx.biz.id/FE8B/6516 01 Maret
note 3 ram -redmi-note-3-ram-3gb- 3/290036156_1_261x203_xiao 2017
3gb internal internal-32gb-free- mi-redmi-note-3-ram-3gb-
32gb free tempered-glass- internal-32gb-free-tempered-
tempered IDl4mmG.html#536f5d98c glass-denpasar-kota.jpg
glass 4;promoted
16 iphone 6 4900000 http://olx.co.id/iklan/iphone https://img.olx.biz.id/7F6E/3262 01 Maret
64gb mulus -6-64gb-mulus-fullset- 2/293522623_1_261x203_ipho 2017
fullset normal normal- ne-6-64gb-mulus-fullset-normal-
IDlgYvL.html#536f5d98c4; jakarta-timur.jpg
promoted
17 ADVAN I4D ( 709000 https://www.bukalapak.co https://s2.bukalapak.com/img/7 01 Maret
4G LTE ) m/p/handphone/hp- 12306598/s-194- 2017
NEW 4" smartphone/6c91bq-jual- 194/ADVAN_I4D___4G_LTE__
RAM 1GB / advan-i4d-4g-lte-new-4- _NEW_4__RAM_1GB___INTE
INTERNAL ram-1gb-internal-8gb- RNAL_8GB___GARANSI.jpg
8GB ( garansi-resmi
GARANSI
RESMI )
18 XIAOMI 1575000 https://www.bukalapak.co https://s3.bukalapak.com/img/3 01 Maret
REDMI 4 m/p/handphone/hp- 60043988/s-194- 2017
NEW GOLD ( smartphone/6aqtnn-jual- 194/XIAOMI_REDMI_4_NEW_
2/16 ) xiaomi-redmi-4-new-gold- GOLD___2_16___FINGERPRI
FINGERPRIN 2-16-fingerprint-garansi- NT___GARANSI_DISTR.jpg
T ( GARANSI distributor
DISTRIBUTO
R)
REDMINOTE m/p/handphone/hp- 89003277/s-194- 2017
4 NEW (3/32) smartphone/5j88tw-jual- 194/XIAOMI_REDMINOTE_4_
GOLD ( xiaomi-redminote-4-new- NEW__3_32__GOLD___GARA
GARANSI 3-32-gold-garansi- NSI_DISTRIBUTOR_.jpg
DISTRIBUTO distributor
R)
REDMI 3S m/p/handphone/hp- 43705677/s-194- 2017
PRO NEW smartphone/5k7cjb-jual- 194/XIAOMI_REDMI_3S_PRO_
(3/32) GOLD xiaomi-redmi-3s-pro-new- NEW__3_32__GOLD___GARA
( GARANSI 3-32-gold-garansi- NSI_DISTRIBUTOR_.jpg
DISTRIBUTO distributor
R)
3.6 Pengujian Program Menggunakan Recall And Precission

Berikut ini adalah tabel hasil pengujian program komparasi data yaitu dengan
melakukan 20 kali inputan atau percobaan dan kemudian dihitung menggunakan Recall And
Precission.
Tabel 3.5 Tabel Hasil Pengujian

Tidak Tidak
Releva Total Total Rec Precis
Inputan Relevan DItemuka
n (a) (a+b) (a+c) all sion
No (b) n(c)
Samsung
100
Grand 4 0 4 0 4 100%
%
1 Prime
Samsung 100
3 0 3 0 3 100%
2 J3 %
Xiaomi
3 0 3 1 4 75% 100%
3 Mi Max
Xiaomi 100
3 6 9 0 3 33%
4 Redmi 4 %
Asus
Zenfone 1 0 1 2 3 33% 100%
5 5
Asus
Zenfone 1 1 2 1 2 50% 50%
6 2
100
Nokia X 1 3 4 0 1 25%
7 %
100
Nokia XL 1 0 1 0 1 100%
8 %
Lenovo 100
2 0 2 0 2 100%
9 a2010 %
Lenovo 100
1 0 1 0 1 100%
10 Vibe C %
100
Oppo F1s 5 0 5 0 5 100%
11 %
Oppo
2 0 2 1 3 67% 100%
12 Neo 7
Iphone 100
1 0 1 0 1 100%
13 5c %
Iphone 100
18 1 19 0 18 95%
14 5s %
Advan 100
1 0 1 0 1 100%
15 M6 Barca %
Advan 100
1 0 1 0 1 100%
16 S5D %
Evercros 100
1 0 1 0 1 100%
17 s Ysmart %
Evercros 100
1 0 1 0 1 100%
18 s A74R %
Sony
100
xperia 3 0 3 0 3 100%
%
19 Z5
Sony
xperia 1 0 1 1 2 50% 100%
20 ZR
rata-
89% 90%
rata
Dari hasil pengujian diatas dapat disimpulkan bahwa tingkat keefektifan temu
kembali pada program komparasi data bisa dikatakan sudah efektif. Hal ini terlihat dari
rata-rata tingkat perolehan (recall) sebesar 89% dan rata-rata tingkat ketepatan (precision)
yang dihasilkan sebesar 90%. Dari sejumlah kata kunci yang dicari, kata kunci yang
nilai recall dan precision yang tinggi terdapat pada kata kunci “Samsung Grand Prime”,
”Samsung J3”, ”Nokia XL”, “Lenovo a2010”, ”Lenovo Vibe C”, ”Oppo F1S”, ”Iphone 5c”, ”
Advan M6 Barca”, ”Advan S5D ”, ”Evercross Ysmart”, ”Evercross A74R” dan ” Sony xperia
Z5” yang masing-masing mendapat recall dan precision 100%. Hal tersebut dikarenakan
jumlah yang relevan lebih besar atau seimbang jika dibandingkan dengan yang tidak
relevan. Hal ini membuktikan bahwa nilai recall dan precision tinggi karena sistem dapat
mengendalikan pencarian yang dilakukan dengan menggunakan kumpulan istilah atau kata
kunci yang lebih spesifik dan kata yang digunakan sesuai dengan data sistem.
DAFTAR PUSTAKA
Arief M Rudianto.Pemrograman Web Dinamismenggunakan PHP dan MySQL.Yogyakarta.C.V

ANDI OFFSET.2011
Alexander F.K Sibero.KitabSuci Web Programing.Yogyakarta. MediaKom.2011
Chowdhury, G.G., Introduction to Modern Information Retrieval, Library Association

Publishing, London, 1999.
Gomes, M. and Gong, Z, Web Structure Mining: An Introduction, Proceedings of the 2005
IEEE International Conference on Information Acquisition. 2005
Goyvaerts, J. Regular Expressions Tutorial Learn How to Use and Get The Most Out of
Regular Expressions. http://www.regular-expressions.info/tutorial.html. 2015.
(diaksesterakhir 1 juli 2016)
https://en.wikipedia.org/wiki/Data_scraping#Screen_scraping(diaksesterakhir 30 juni
2016)
Kent, A. Information Analysis and Retrieval, 3 rd Edition, Becker and Heys.New York.1971.
Kurniawan, D 2010.Evaluasisistemtemukembaliinformasi model ruang vector

denganpendekatan user judgement, JurusanMatematika Program
StudiIlmuKomputer FMIPA Universitas Lampung, Lampung. J. Sains MIPA, Desember
2010, Vol. 16, No. 3, Hal.: 155 – 162
Kadir, Abdul. DasarPemrograman Web DinamisMenggunakan PHP, Yogyakarta.Penerbit

ANDI.2008
Lancaster, F.W. Information Retrieval Systems: Characteristics, Testing, and Evaluation, 2

nd Edition. New York. John Wiley.1979.
Liu, B.Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Springer. 2007
Liu, B., Grossman, R., & Zhai, Y. Mining data records in Web pages.Proceedings of the
ninth ACM SIGKDD international conference on Knowledge discovery and data
mining (hal. 601-606). New York: ACM.2003
May, Wolfgang; Lausen, Georg. Information Extraction from The Web. Institut fur
Informatik, Albert-Ludwigs-Universitat, Germany: 2000.
Mudafiq, R. PengenalanRegex(Regular
Expression).http://www.mudafiqriyan.net/2012/07/pengenalan-regex/ . 2012.
(diaksesterakhir 1 juli 2016)
Navarro, G. A guided tour to approximate string matching.ACM Computing Surveys (CSUR) ,

31-88. 2001
Pendit, PL. Perpustakaandigital :perspektifperpustakaanperguruantinggi Indonesia,

SagungSeto, Jakarta. 2007
Turland, M. PHP/Architect’s Guide to Web Scraping with PHP. Canada: Marco Tabini&
Associates, Inc. 2010
Zdravko Markov and Daniel T. Larose, Data mining The Web : Uncovering Patterns in Web
Content, Structure, and Usage, John Wiley & Sons, Inc, 2007

The Beginning Dissertation Report

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

The Beginning Dissertation Report

Diunggah oleh

Hak Cipta:

Format Tersedia

Usulan Topik Tesis

USULAN TOPIK PENELITIAN

Program Studi : _____________________________________________________

Bidang Keahlian : _____________________________________________________

RANCANGAN USULAN PENELITIAN DISERTASI

Program Studi : FTIK - Ilmu Komputer

Calon Pembimbing yang sudah dihubungi:

1. Prof. Ir. Arif Djunaidy, M.Sc., Ph.D.

Lampirkan RANCANGAN USULAN PENELITIAN DISERTASI sebanyak 15 – 20 halaman,

Unsupervised Similar data tulisan kandungan obat

1.2 Rumusan Masalah

1.3 Batasan Masalah

2.1 Kajian Teori

Tabel 2.1. Komparasi Beberapa Penelitian

2.2 Information Retrieval System

Menurut Chowdhury (1999) Sistem temu-kembali informasi dibagi menjadi dua

2 Sistem temu-kembali informasi online, yaitu Sistem temu-kembali informasi

2.2.2 Manfaat Information Retrieval System

Sumber Analisis dan Informasi

Gambar 2.1 Outline Sistem Information Retrieval

Menurut Kurniawan (2010) Recall adalah perbandingan jumlah dokumen relevan

Tabel 2.2 Perhitungan Recall And Precission

Berdasarkan tabel di atas, sekarang perhitungannya dapat dilakukan dengan mengacu

2.3 Web Mining

2.4 Mining Data Record

Gambar 2.5 Ilustrasi Generalize Node dan Data Region

Dalam Gambar 2.6 diatas, tag pertama <div class="s9ShovelerCell" style="width:

2.4.1 Identifikasi Data Region

2.4.2 Ekstraksi Data Record

Setiap baris/generalized node dalam Gambar 2.8a sebenarnya bukanlah individual

2.5 Ekstraksi Data Web

2.5.1 Teknik Ekstraksi Web

Menurut (Wikipedia Free Encyclopedia, 2016) Screen scraping adalah suatu

1. Create Scraping Template

2. Explore Site Navigation

3. Automate Navigation and Extraction

4. Extracted Data and Package History

2.5.2 Tipe Web Crawler

2.6 Document Object Model (DOM)

2.7 Regular Expression

Regular expression (Fitzgerald, 2012) merupakan sebuah pola yang

Tabel 2.3 Simbol Regular expression

\w Cocok dengan semua karakter kata (huruf maupun digit

. Cocok dengan semua single karakter (huruf,angka,spasi dll)

\s Cocok dengan spasi atau Setara dengan [\t\n\r\f].

\S Hanya akan cocok dengan karakter yang bukan spasi

+ Cocok dengan 0 atau lebih karakter dari sebelum ekspresi

* Cocok dengan 1 atau lebih karakter dari sebelum ekspresi

? Cocok dengan 0 atau 1 kejadian sebelum ekspresi

[..] Cocok dengan karakter tunggal dalam tanda kurung.

[^..] Cocok dengan satu karakter apapun tidak dalam kurung

{n} Matches sama persis n jumlah kemunculan sebelumnya

{n,m} Matches setidaknya n dan paling banyak kejadian m dari

(...) Grup ekspresi reguler dan mengingat matches teks.

(^...$) Diawali dengan ^ dan di akhiri dengan $

2.7.1 Prinsip Kerja Regular Expression

2.8.1 Keunggulan MySQL

 MySQL merupakan program yang multi-threaded, sehingga dapat dipasang

2.8.2 Sistem Server Database MySQL

1. SELECT <column,...> FROM <table_name,...> WHERE

2. INSERT INTO <table_name> VALUES(<list_of_data>). Fungsi ini berfungsi

4. DELETE FROM <table_name> WHERE <where_definition>. Fungsi ini berfungsi

2.8.4 PHP MyAdmin

Bagian a : <li class ="product—sem <li\sclass\s\=\"product--