The Beginning Dissertation Report
The Beginning Dissertation Report
Nama : _____________________________________________________
Usulan Topik :
-----------------------
Calon mahasiswa dapat menambahkan lembar sendiri apabila diperlukan
Usulan Topik Disertasi
______________________________________________________________________
-----------------------
Calon mahasiswa dapat menambahkan lembar sendiri apabila diperlukan
Proposal Disertasi
Disusun Oleh :
Dwija Wisnu Brata
BAB I
Pendahuluan
1.1 Latarbelakang
Penggunaan obat sebaiknya harus senantiasa diiringi dengan kewaspadaan dan kehati-
hatian dalam memakainya, dikarenakan obat yang dipakai akan masuk kedalam tubuh dan
diproses sedemikian rupa hingga obat tersebut dapat larut dalam tubuh. Hal ini menjadi
perhatian penting bagi masyarakat, karena dibeberapa berita dan media online
mengabarkan bahwa peredaran obat palsu sudah sangat masif dan meresahkan masyarakat.
Menurut Andi Mardana, bahwa di Indonesia, berdasarkan data pengawasan Badan
Pengawasan Obat dan Makanan (BPOM) hingga periode januari-juni 2016, BPOM telah
mengidentifikasi 17 merek obat palsu temuan obat palsu didominasi oleh obat golongan
disfungsi ereksi, antibiotika, antipiretik-analgetik, antihipertensi, dan antihistamin
(Mardana, 2016). Peredaran obat palsu tersebut dapat meresahkan masyarakat, dan juga
sangat berbahaya bagi kesehatan masyarakat. Permasalahan tentang obat palsu, juga
didukung dengan permasalahan lain yaitu rendahnya tingkat pemahaman tentang
penggunaan obat, juga obat bebas secara berlebihan. Hal ini diakibatkan karena
menggampangkan cara mendapatkan obat (misal di warung terdekat rumah), dan tidak
berkonsultasi dengan ahli. Model seperti itu dapat mengakibatkan pemahaman yang gagal
akan kandungan obat yang digunakan.
Media online merupakan media yang banyak dirujuk masyarakat (APJII, 2016, h. 7)
sebagai sarana penyedia segala macam informasi. Hal ini dapat dikaitkan dengan beberapa
media online yang memberikan informasi tentang kandungan obat. Tulisan-tulisan yang
terdapat di media online bagi masyarakat penikmat informasi sangat membantu dalam
pemahaman kandungan obat. Tetapi, apakah setiap portal website atau blog sudah sesuai
dalam menyampaikan informasi kandungan obat sesuai dengan ketentuan BPOM atau
apakah sudah sesuai dengan referensi ilmu seperti yang dimiliki oleh apoteker?.
Penelitian yang dilakukan memfokuskan pada kesamaan data yang sudah discraping
dari 5 situs yang menyediakan informasi tentang kandungan obat. Teknik scraping dapat
dilakukan dengan berbagai cara diantaranya menggunakan analisa html DOM (document
object model) dan dengan menggunakan teknik pemrograman regular expression (Vargiu &
Urru, 2013) Kedua teknik ini mempunyai keunggulan tersendiri dan menghasilkan hasil yang
tidak jauh berbeda. Pada teknik DOM dibutuhkan Xquery untuk mengekstrak konten utama
dari halaman situs sedangkan pada teknik regular expression ditentukan pola yang
mengawali dan mengakhiri suatu konten utama pada halaman situs. Dengan menggunakan
teknik scraping ini maka kita dapat mengambil data dari situs penyedia informasi
kandungan obat tersebut untuk kemudian diproses agar dapat memberikan informasi
kepada pengguna/masyarakat mengenai pembandingan ketepatan tulisan kandungan obat
yang berkesesuaian.
1.4 Tujuan
1 Menyajikan informasi – informasi dari berbagai situs internet yang relevan tentang
kesamaan layanan informasi terutama kandungan obat
2 Membantu pemerintah (Menkominfo/BPOM) dalam hal memfilter konten-konten
atau informasi obat yang tidak sesuai guna tidak terjadi salah penggunaan obat dan
pemalsuan obat dari informasi yang didapat.
BAB II
TINJAUAN PUSTAKA
Informasi
Penyesuaian
ditemukan
Pernyataan
pencarian
Pengguna Analisis query
Contoh Kasus :
Misalkan suatu file dalam database menyimpan 100 dokumen. Pada suatu
penelusuran menggunakan query “Chemical Industry”, ternyata diperkirakan ada 10
dokumen yang mungkin dapat terambil (retrieved) menggunakan query tersebut, akan
tetapi dalam kenyataannya setelah dilakukan penelusuran hanya 4 dokumen yang terambil
dalam pencarian sedangkan 6 dokumen lain tidak terambil karena mungkin kurang/tidak
relevan.
Kemudian diketahui bahwa ada 2 dokumen lain dalam file database diketahui relevan
kepada query akan tetapi tidak terambil (not retrieved). Untuk menghitung rasio recall
dan precision dari seperti disebut pada soal di atas, sering digunakan tabel berikut :
4
Precision (P) = ------- = 40%
4+6
Algoritma MDR(Node, K)
1. if TreeDepth(Node) >= 3 then
2. CombComp(Node, Children,K);
3. for each ChildNode Є Node.children
4. MDR(ChildNode, K);
5. end
Gambar 2.3. Algoritma MDR
Pada Gambar 2.3 parameter K biasanya kurang dari 10 tagnode (Liu, Grossman, &
Zhai, 2003). Operasi CombComp(arrayChildren, KombinasiMax) merupakan fungsi untuk
melakukan komparasi satu persatu dan kemudian menyimpan hasil komparasi untuk
digunakan kelak saat identifikasi data region.
CombComp(NodeList, K)
1. for(i=1; i<=K; i++)
2. for(j=i; j<=K; j++)
3. if NodeList[i+2*j-1] exist then
4. St=i;
5. for(k=i+j; k<size(NodeList);
k+j)
6. if NodeList[k+j-1] exist then
7. EditDist(NodeList[St..(k-1)],
NodeList[k..(k+j-1)]);
8. St=k;
9. end
Gambar 2.4 Algoritma Komparasi
Parameter nodelist dan k dalam Gambar 2.4 adalah array node-node yg contiguous
sedangkan k adalah maksimal bentuk kombinasi.
Satu data
region dg
lima data
record
Gambar 2.6 Pola berulang tiap generalize node dalam satu data region
Traverse tagtree kebawah dilakukan pada baris 2 Gambar 2.7, setiap node
diperlakukan fungsi IdentDRs. Dan data region yang berhasil ditemukan belum tentu hasil
final tapi masih kandidat. Jadi dicek apakah data region level parent dalam Node.DRs
mengcover data region level child, selanjutnya musnahkan data region yang tercover pada
level child. FindDRs menyimpan data region level child tapi tidak child.DRs yang berada
dalam temp.DRs (baris 6). Gabungan dari Node.DRs U tempDRs memunculkan current data
region yang ditemukan dari subtree yang dimulai sejak node Node (baris 7).
Keterbatasan penggunaan search engine yang lain adalah kita tidak mengetahui
perubahan informasi dalam halaman web yang kita telusuri yang seringkali terjadi setiap
hari. Dari keterbatasan tersebut mencul teknik-teknik ekstraksi web yang memiliki tujuan
dan kemampuan untuk mengotomatisasi proses membaca, meng-copy, dan mem-paste
informasi dari suatu halaman website. Ekstraksi web ini juga bertujuan untuk mendapatkan
informasi tertentu yang berubah secara dinamis dari waktu ke waktu, seperti harga
barang, saham,data keuangan,dan lain sebagainya.
Penggunaan ekstraksi web untuk mendapatkan informasi tertentu paling banyak
menurut web2DB adalah untuk informasi sebagai berikut :
1. Membangun daftar kontak dan data penjualan
2. Mengekstraksi katalog produk (Nama, deskripsi, harga, stok, dsb.)
3. Mengekstraksi informasi Real Estate (Nama, Lokasi, Harga, Kepemilikan,
Kontak, dsb.)
4. Mengotomatisasi pencarian daftar iklan
5. Melakukan klipping artikel berita (Judul, Kata kunci, Sumber, dsb)
6. Otomatisasi situs lelang
7. Mengekstraksi situs perjudian
8. Migrasi server
9. Catatan resmi (Legal Notices)
10. Tujuan militer tertentu
Awalnya screen scraping digunakan untuk membaca data teks dari tampilan
layar komputer. Hal ini dilakukan dengan membaca terminal memori dan dengan
menggunakan port tambahan. Alternatif lainnya menjadikan output port dari suatu
komputer menjadi input bagi port komputer lainnya.
Umumnya transfer data antara program dilakukan dengan struktur data yang
cocok untuk diproses secara otomatis dengan komputer, seperti pada pertukaran format
dan protokol yang berstruktur kaku, didokumentasikan dengan baik. Seringnya transmisi
ini tidak dibaca manusia sama sekali. Tetapi untuk output yang berkebalikan dengan
hal di atas seperti label yang berlebih atau komentar yang berlebih atau informasi
lainnya yang tidak dapat dilakukan dengan proses otomasi. Akan tetapi, meskipun output
yang tersedia adalah sebuah tampilan untuk manusia, screen scraping menjadi suatu
cara untuk mengerjakan transfer data tersebut.
Screen scraping sering digunakan juga untuk antarmuka antara suatu legacy
sistem yang tidak kompatibel lagi dengan perangkat keras sekarang atau antarmuka
untuk sistem ketiga yang tidak menyediakan API yang tepat.
B. Web Scraping
Web Scraping (Turland , 2010) adalah adalah proses pengambilan sebuah dokumen
semi-terstruktur dari internet, umumnya berupa halaman halaman web dalam bahasa
markup seperti HTML atau XHTML, dan menganalisis dokumen tersebut untuk diambil data
tertentu dari halaman tersebut untuk digunakan bagi kepentingan lain. Aplikasi web
scraping berfokus pada cara memperoleh data melalui pengambilan dan ekstraksi data
dengan ukuran data yang bervariasi. Web scraping memiliki sejumlah langkah meliputi :
Tipe dari Web Crawler (Vinay, 2014) secara Umum di Klasifikasikan Kedalam 4
Tipe, yaitu :
1. Fokus Crawler
Fokus Crawler adalah Web Crawler yang mendownload halaman yang
berhubungan untuk topik tertentu yang diminati. mengumpulkan dokumen yang
fokus dan relevan pada topik tertentu. dari caranya berkerja sering di sebut Topik
Crawler. Fokus Crawler menentukan halaman yang relevan sebelum melakukan
crawling halaman web. Mengestimasi halaman yang diberikan untuk topik tertentu
dan bagaimana memproses. Keuntungan utama dari Focus Crawler adalah
membutuhkan hardware dan resource network yang kecil dan biaya kecil. dan juga
terus melakukan cek pada lalulintas jaringan (traffic network).
2. Traditioanal Crawler
Tradisional Crawler secara berkala mengcrawler URL yang telah di Crawling
dan mengganti dokumen lama dengan dokumen baru untuk menyegarkan
koleksinya. Sebaliknya, sebuah crawler tambahan merefresh secara bertahap
koleksi yang telah ada dari halaman web yang telah sering dikunjungi. hal ini
berdasarkan estimasi rating (tingkat) seberapa sering sebuah halaman web itu
diubah. Hal ini juga menggantikan halaman lama dan kurang penting dengan
halaman baru yang lebih relevan. ini memecahkan masalah fresness of data
(kesegaran data). Keuntungan dari Traditional Crawler adalah data yang disedikan
hanya bernilai untuk user. menghemat bandwith jaringan dan mencapai pengayaan
data.
3. Distributed Crawler
Teknik komputasi terdistribusi adalah fondasi utama untuk mengcrawler web
yang didistribusikan. Banyak crawler bekerja pada waktu yang sama ditandem dan
mendistribusikan beban kerja mengcrawler web untuk mendapatkan cakupan
maksimum dari internet. Pusat server mengelola komunikasi, singkronisasi node dan
berkomunikasi antara bot yang berbeda. Hal ini juga secara geografis
didistribusikan terutama menggunakan Page Rank Algorithm (Algoritma Peringkat
Halaman) untuk meningkatkan efisiensi dan kualitas pencarian. keuntungan
dari Crawler Web Terdistribusi adalah Kokoh (Robust). Hal ini tahan terhadap
sistem crash dan lainnya. dan dapat diadopsi untuk berbagai kebutuhan Crawler.
4. Paralel Crawler
Paralel Crawler adalah beberapa crawler berjalan pada waktu yang sama.
Hal ini terdiri dari beberapa proses crawling disebut sebagai C-Procs yang dapat
berjalan pada jaringan workstation. Crawler paralel tergantung pada pilihan
halaman dan freshness page (kesegaran halaman). Sebuah crawler paralel dapat
didistribusikan di lokasi geografis jauh atau berada pada jaringan lokal. Paralelisasi
sistem mengcrawler sangat penting dari sudut pandang download dokumen dalam
jumlah waktu yang wajar.
2.8 MySQL
Menurut (Hendra Kurniawan, Eri dan Nur , 2011) SQL (Structured Query Language)
adalah sebuah bahasa yang dipergunakan untuk mengakses data dalam basis data
relasional. SQL juga dapat diartikan sebagai antar muka standar untuk sistem manajemen
basis data relasional, termasuk sistem yang beroperasi pada komputer pribadi. SQL
memungkinkan seorang pengguna untuk mengakses informasi tanpa mengetahui dimana
lokasinya atau bagaimana informasi tersebut disusun.
MySQL adalah sebuah perangkat lunak sistem manajemen basis data SQL (bahasa
Inggris: database management system) atau DBMS yang multi thread, dan multi-user.
MySQL dimiliki dan di sponsori oleh sebuah perusahaan komersial Swedia MySQL AB, dimana
memegang hak cipta hampir atas semua kode sumbernya. Kedua orang Swedia dan satu
orang Finlandia yang mendirikan MySQL AB adalah: David Axmark, Allan Larsson, dan
Michael "Monty" Widenius.
MySQL adalah Relational Database Management System (RDBMS) yang
didistribusikan secara gratis dibawah lisensi GPL (General Public License), dimana setiap
orang bebas untuk menggunakan MySQL, namun tidak boleh dijadikan produk turunan yang
bersifat komersial. MySQL sebenarnya merupakan turunan salah satu konsep utama dalam
database sejak lama, yaitu SQL (Structured Query Language). SQL adalah sebuah konsep
pengoperasian database, terutama untuk pemilihan atau seleksi dan pemasukan data, yang
memungkinkan pengoperasian data dikerjakan dengan mudah secara otomatis.’
2.9 Netbeans
Suatu IDE adalah lingkup pemrograman yang diintegrasikan kedalam suatu aplikasi
perangkat lunak yang menyediakan pembangun Graphic User Interface (GUI), suatu text
atau kode editor, suatu compiler atau interpreter dan suatu debugger. 22 The NetBeans
IDE adalah sebuah lingkungan pengembangan, sebuah kakas untuk pemrogram menulis,
mengompilasi, mencari kesalahan dan menyebarkan program. Netbeans IDE ditulis dalam
Java, namun dapat mendukung bahasa pemrograman lain. Netbeans IDE adalah sebuah
produk bebas dengan tanpa batasan bagaimana digunakan. NetBeans IDE mendukung
pengembangan semua tipe aplikasi Java (J2SE, web, EJB, dan aplikasi mobile). Fitur
lainnya adalah sistem proyek berbasis Ant, kontrol versi, dan refactoring.
2.10 Flowchart
Flowchart atau diagram alir merupakan sebuah diagram dengan simbol-simbol grafis
yang menyatakan aliran algoritma atau prosesyang menampilkan langkah-langkah yang
disimbolkan dalam bentuk kotak, beserta urutannya dengan menghubungkan masing
masing langkah tersebut menggunakan tanda panah. Diagram ini bisa memberi solusi
selangkah demi selangkah untuk penyelesaian masalah yang ada di dalam proses atau
algoritma tersebut.
Media Online
Database
Scraping
info obat
Clustering
Result
Informasi
ADMIN
HalamanWeb
Halaman Web
BukalapakObat
Informasi / OLX
Proses Scraping
Halaman Web
Database Hasil
Scraping
Hasil :
Hasil :
1. Alamat URL
1. Alamat URL
2. Nama Obat
2. Merk
3. Kandungan
3. Harga
4. Efek Samping
4. Foto
5. Tanggal Download
Start
Menemukan
Pola ?
ketemu
Mencari
Mencaripola data
pola region
data region
misal
Misal : judul,harga
: nama obat, kandungan
Menggunakan
Menggunakan REGEX
REGEX
Tidak ketemu
Mendapatkan
Mencari pola data Menemukan
Dataregion
judul dan ketemu
Pola ?
Misal :harga
nama obat,
kandungan
Menggunakan
REGEX Tidak ketemu
Simpan Data
Stop
dalam database
Keterangan :
1. Dimulai dari membuka alamat URL yang di simpan di database.
2. Download halaman HTML dari URL tersebut, catat tanggal download karena
harus disimpan kedalam database.
3. Jika sudah terdownload halaman HTMLnya kemudian baca text HTML yang
ada pada Halaman tersebut.
4. Kemudian tahap selanjutnya mencari pola dari data recordnya menggunakan
Regular expression.
5. Jika sudah menemukan pola dari data recordnya maka kita bisa melanjutkan
untuk menemukan pola dari data regionnya menggunakan Regular
expression juga.
6. Tapi jika tidak dapat menemukan pola dari data recordnya maka proses
tidak dapat dilanjutkan.
7. Hasil dari menemukan pola data region adalah data berupa judul dan harga
yang nantinya akan di komparasi.
8. Kemudian simpan data dalam database
Dari hasil pengujian diatas dapat disimpulkan bahwa tingkat keefektifan temu
kembali pada program komparasi data bisa dikatakan sudah efektif. Hal ini terlihat dari
rata-rata tingkat perolehan (recall) sebesar 89% dan rata-rata tingkat ketepatan (precision)
yang dihasilkan sebesar 90%. Dari sejumlah kata kunci yang dicari, kata kunci yang
nilai recall dan precision yang tinggi terdapat pada kata kunci “Samsung Grand Prime”,
”Samsung J3”, ”Nokia XL”, “Lenovo a2010”, ”Lenovo Vibe C”, ”Oppo F1S”, ”Iphone 5c”, ”
Advan M6 Barca”, ”Advan S5D ”, ”Evercross Ysmart”, ”Evercross A74R” dan ” Sony xperia
Z5” yang masing-masing mendapat recall dan precision 100%. Hal tersebut dikarenakan
jumlah yang relevan lebih besar atau seimbang jika dibandingkan dengan yang tidak
relevan. Hal ini membuktikan bahwa nilai recall dan precision tinggi karena sistem dapat
mengendalikan pencarian yang dilakukan dengan menggunakan kumpulan istilah atau kata
kunci yang lebih spesifik dan kata yang digunakan sesuai dengan data sistem.
DAFTAR PUSTAKA
Gomes, M. and Gong, Z, Web Structure Mining: An Introduction, Proceedings of the 2005
IEEE International Conference on Information Acquisition. 2005
Goyvaerts, J. Regular Expressions Tutorial Learn How to Use and Get The Most Out of
Regular Expressions. http://www.regular-expressions.info/tutorial.html. 2015.
(diaksesterakhir 1 juli 2016)
https://en.wikipedia.org/wiki/Data_scraping#Screen_scraping(diaksesterakhir 30 juni
2016)
Kent, A. Information Analysis and Retrieval, 3 rd Edition, Becker and Heys.New York.1971.
Liu, B.Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data, Springer. 2007
Liu, B., Grossman, R., & Zhai, Y. Mining data records in Web pages.Proceedings of the
ninth ACM SIGKDD international conference on Knowledge discovery and data
mining (hal. 601-606). New York: ACM.2003
May, Wolfgang; Lausen, Georg. Information Extraction from The Web. Institut fur
Informatik, Albert-Ludwigs-Universitat, Germany: 2000.
Mudafiq, R. PengenalanRegex(Regular
Expression).http://www.mudafiqriyan.net/2012/07/pengenalan-regex/ . 2012.
(diaksesterakhir 1 juli 2016)
Turland, M. PHP/Architect’s Guide to Web Scraping with PHP. Canada: Marco Tabini&
Associates, Inc. 2010
Zdravko Markov and Daniel T. Larose, Data mining The Web : Uncovering Patterns in Web
Content, Structure, and Usage, John Wiley & Sons, Inc, 2007