Scraper Dan Crawler

HALAMAN JUDUL
MAKALAH
DATA CRAWLING DAN DATA SCRAPING
Disusun untuk memenuhi tugas mata kuliah Data Mining
oleh :
1. Laila Aprina Bastian P. 17.11.1245

2. Iqbal Rilo Pambudi 17.11.1259
3. Awaliyatul Hikmah 17.11.1262
17-INFORMATIKA-5
PROGRAM STUDI INFORMATIKA

FAKULTAS ILMU KOMPUTER
UNIVERSITAS AMIKOM YOGYAKARTA
YOGYAKARTA
2019
DAFTAR ISI
HALAMAN JUDUL ................................................................................................................. 1

DAFTAR ISI .............................................................................................................................. 2
1. PENGERTIAN ................................................................................................................... 3
1.1 Crawling ...................................................................................................................... 3
1.2 Scraping ........................................................................................................................ 3
2. TOOLS ............................................................................................................................... 4
2.1 Crawling ...................................................................................................................... 4
2.2 Scraping ........................................................................................................................ 7
3. PERCOBAAN (Study Kasus : kumparan.com) ............................................................... 10
3.1 Crawling .................................................................................................................... 10
3.2 Scraping ...................................................................................................................... 12
2
1. PENGERTIAN
1.1. Crawling
Web Crawler adalah suatu program atau script otomat yang relatif simple, yang
dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman
internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl
adalah web spider, web robot, bot, crawl dan automatic indexer.1
Proses crawling dalam suatu website dimulai dari mendata seluruh url dari
website, menelusurinya satu-persatu, kemudian memasukkannya dalam daftar
halaman pada indeks search engine, sehingga setiap kali ada perubahan pada website,
akan terupdate secara otomatis.
Web crawler dirancang secara algoritmik untuk mencapai kedalaman maksimum
halaman dan merayapnya secara iteratif, menggali setiap data yang ada di internet
seperti seperti : meta data, keyword, dan lain sebagainya. Kemudian web crawler
atau si (spider man) ini akan meng index seluruh data kita ke dalam data base search
engine. Sampai pada akhirnya halaman website akan ditampilkan di SERP (search
engine rage page).
Banyak situs menggunakan web crawling namun yang paling canggih dan
paling populer saat ini adalah mesin pencari seperti Google dan Bing yang menjaga
hasil pencarian mereka tetap segar dengan spidering sebagai cara menyediakan data
terbaru.
1.2. Scraping
Data scrapping adalah sebuah teknik untuk mengambil data yang bisa
didapatkan dari website, sosial media, informasi dari mesin local, database, dan
lainnya. Data yang telah di scrapping akan dikumpulkan jadi satu di dalam sebuah
berkas/file, bisa jadi file excel atau json.
Biasanya teknik scraping diimplementasikan pada sebuah bot agar bisa
membuat proses yang harusnya dilakukan secara manual menjadi otomatis. Ketika
kita menjumpai sebuah situs yang membatasi kuota API (Application Programming
Interface) atau bahkan tidak menyediakan sama sekali, maka perayapan web akan
sangat dibutuhkan sebagai langkah pengambilan data.2
1
https://idcloudhost.com/glossary/web-crawler/
2
https://id.wikipedia.org/wiki/Web_scraping
3
Web scraping dilakukan dengan menggunakan web scraper, bot, web spider,
atau web crawler. Web scraper sendiri adalah program yang masuk ke halaman
website, download kontennya, mengekstrak data dari konten, dan menyimpan data ke
satu file atau database.3 Teknik ini biasa digunakan untuk menganalisa sebuah
kejadian yang sedang ramai di dunia internet. Atau bisa juga digunakan untuk
aplikasi berita seperti BaBe, Kurio, Opera News, Line Today untuk mengumpulkan
banyak berita yang nantinya akan diambil datanya dan kemudian diolah kembali.
Ada banyak alasan mengapa web scraping semakin diperlukan di zaman
sekarang. Dengan semakin berkembangnya big data, jumlah data yang tersedia sudah
tidak terhitung lagi. Web scraping bisa membantu untuk mengumpulkan data dengan
lebih cepat dan melakukan automation.
2. TOOLS
2.1. Crawling
a. Visual SEO Studio
Menawarkan saran SEO komprehensif, kontrol penuh atas XML Sitemap pengguna dan
mesin kueri berorientasi SEO yang kuat. 4
3
https://www.dewaweb.com/blog/web-scraping-panduan-dan-teknik-tekniknya/
4
http://visual-seo.com/
4
b. WildShark SEO Spider Tool
Web crawler standar dan memberi user akses ke tag H seperti biasa, tag judul, dan tag
ALT, menemukan tautan rusak dan menduplikasi tag meta. User harus mengisi formulir
sebelum dapat mengunduh dan berlangganan basis data buletin mereka. Hanya tersedia
untuk Windows.5
c. CocoScan
CocoScan adalah alat pemindaian SEO sederhana yang menganalisis situs web dan
menemukan semua faktor yang memblokir indeksasi halaman web.6
5
https://wildshark.co.uk/spider-tool/
6
https://cocoscan.io
5
d. Screaming Frog SEO Spider
Screaming Frog SEO Spider adalah web clrawler yang memungkinkan untuk
melakukan crawl atau merayapi URL situs web dan mengambil elemen penting di lokasi
untuk menganalisis SEO di tempat.7
e. Raptorbot
(Raptorbot) berbasis cloud, artinya dapat merayapi jutaan halaman web dengan cepat dan
efisien tanpa perlu menginstal perangkat lunak apa pun. Yang di butuhkan untuk
memulai adalah browser web dan akses ke internet. 8
7
https://www.screamingfrog.co.uk/seo-spider/
8
https://raptor-dmt.com/
6
2.2. Scraping
a. Import.io
Import.io menawarkan pembangun untuk membentuk dataset sendiri dengan
hanya mengimpor data dari halaman web tertentu dan mengekspor data ke CSV.
Scraping dapat dilakukan dengan mudah dalam hitungan menit tanpa menulis
satu baris kode dan membangun 1000 + API berdasarkan kebutuhan.9
b. Webhose.io
Webhose.io menyediakan akses langsung ke real-time dan data terstruktur dari
ribuan sumber online. Web scraper mendukung penggalian data web di lebih dari
240 bahasa dan menyimpan data output dalam berbagai format termasuk XML,
JSON dan RSS.10
9
https://import.io/
10
https://webhose.io/
7
c. Data-miner.io
Adalah alat ekstraksi data yang memungkinkan pengguna melakukan scraping
halaman web HTML apa pun. Anda dapat mengekstrak tabel dan daftar dari
halaman mana saja dan mengunggahnya ke Google Sheets atau Microsoft Excel.
Dengan Scraper Anda dapat mengekspor halaman web ke file XLS, CSV, XLSX
atau TSV (.xls .csv .xlsx .tsv)11
d. Dexi.io
Dexi.io adalah aplikasi scraping berbasis website. Artinya, tidak perlu download
aplikasi untuk bisa mulai scraping web. Kamu bisa menyiapkan crawlers dan
fetch data secara real-time.
Dexi.io juga memiliki fitur dimana kamu bisa menyimpan data yang telah di-
scrape pada cloud seperti Box.net dan Google Drive. Penyimpanan juga bisa
dilakukan secara konvensional dengan ekspor menjadi file JSON atau CSV.12
11
https://data-miner.io/
12
https://dexi.io/
8
e. ParseHub
ParseHub adalah aplikasi web scraping yang mendukung ekstraksi data kompleks
dari website yang menggunakan AJAX, JavaScript, redirects, dan cookies.
Dilengkapi dengan teknologi machine learning yang bisa membaca dan
menganalisis dokumen pada website untuk menghasilkan data yang relevan. 13
13
https://www.parsehub.com/
9
3. PERCOBAAN (Study Kasus : kumparan.com)
3.1. Crawling
Melakukan web crawling pada situs kumparan.com menggunakan Raptorbot
1. Kunjungi situs https://tools.raptor-dmt.com/ dan lakukan registrasi akun
2. Buat project baru dan isikan data yang dibutuhkan. Kemudian klik Start
Crawling.
3. Tunggu proses crawling hingga selesai
10
4. Klik Reporting untuk melihat hasilnya
5. Klik export untuk mengekspor hasil laporannya
6. Pilih data yang ingin di export (misalnya : SEO Exel Report), klik Build Report,
tunggu hingga selesai, kemudian download
11
7. Berikut adalah hasil dari web crawling kumparan.com yang kemudian bisa
digunakan untuk melakukan analisis lebih lanjut.
3.2. Scraping
Contoh penggunaan teknik Data Scrapping untuk mengumpulkan berita yang sedang
trending, bersumber dari website berita kumparan.com
1. Memasang Ekstensi Data Scrapping dari data-miner.io
2. Membuka website yang akan diambil datanya, disini kami mengambil data dari
kumparan.com/trending
12
3. Menjalankan extension Data Scrapper untuk pengambilan data dari website
kumparan. Metode yang digunakan adalah dengan mencari sebuah elemen dan
class pada halaman HTML yang mengacu pada data yang akan dicari. Semisal
data untuk judul artikel berada di elemen H1 dengan class title, maka elemen
tersebutlah yang akan discrapping dan akan diambil valuenya. Contoh ada
dibawah.
4. Disini kami akan mengambil data berupa judul artikel, sumber berita, dan URL
berita. Dan hasil pengambilan data dari website kumparan.com adalah sebagai
berikut.
13
5. Data tersebut dapat di export dan menjadi file excel
14

Scraper Dan Crawler

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Scraper Dan Crawler

Diunggah oleh

Hak Cipta:

Format Tersedia

HALAMAN JUDUL

Disusun untuk memenuhi tugas mata kuliah Data Mining

1. Laila Aprina Bastian P. 17.11.1245

PROGRAM STUDI INFORMATIKA

HALAMAN JUDUL ................................................................................................................. 1

3. Tunggu proses crawling hingga selesai

5. Klik export untuk mengekspor hasil laporannya

Anda mungkin juga menyukai