Data Crawling

Selain teknik pengumpulan data kualitatif dan teknik pengumpulan data kuantitatif, kamu
juga perlu mengetahui teknik pengumpulan data sekunder. Teknik pengumpulan data
sekunder merupakan teknik pengumpulan data baik itu kualitatif ataupun kuantitatif yang
dilakukan dalam penelitian yang sudah ada untuk menggali suatu permasalahan baru atau
menguji hasil penelitian terdahulu tanpa perlu melakukan wawancara, survey, observasi dan
teknik pengumpulan data tertentu lainnya. Sumber data sekunder biasanya berupa catatan,
arsip atau dokumentasi yang diperoleh dari sekolah dan lembaga pemerintahan.
Seiring dengan perkembangan teknologi yang menyebabkan terjadinya era big data, membuat
sumber data sekunder sangat mudah untuk kita dapatkan. Hal ini juga selaras dengan
perkembangan teknik pengumpulan data sekunder seperti teknik crawling yang akan kita
bahas pada artikel di bawah ini. Jika kebetulan kamu sedang mengulik tentang teknik
pengumpulan data sekunder yang fleksibel dan cocok diterapkan pada era pandemi seperti
ini, kamu berada pada artikel yang tepat. Karena kami akan membahas tentang teknik
crawling. Penasaran? Mari simak artikel DQLab sampai selesai, ya!
1. Apa Itu Crawling?
Sebelum kami membahas lebih jauh tentang web crawling, pertama-tama mari kita pelajari
bersama tentang apa itu web crawling. Mungkin sebagian dari kamu sudah sering mendengar
istilah web crawling atau crawling data. Ya, web crawling adalah teknik pengumpulan data
yang digunakan untuk mengindeks informasi pada halaman menggunakan URL (Uniform
Resource Locator) dengan menyertakan API (Application Programming Interface) untuk
melakukan penambangan dataset yang lebih besar. Data yang dapat kamu kumpulkan dapat
berupa text, audio, video, dan gambar. Kamu dapat memulai dengan melakukan
penambangan data pada API yang bersifat open source seperti yang disediakan oleh Twitter.
Untuk melakukan crawling data di Twitter kamu dapat menggunakan library scrapy ataupun
tweepy pada python.
Baca juga : Data Analisis : 2 Jenis Metode yang Penting Untuk Kamu Tahu dalam Analisis
Data
2. Bagaimana Cara Kerjanya?
Yang pertama adalah dengan mencari URL yang dituju, kemudian menjelajahi daftar alamat
web untuk check out. Web crawling akan mengunjungi setiap URL yang ada pada daftar,
mengidentifikasi tautan di setiap halaman dan menambahkannya ke daftar URL untuk
dikunjungi. Kemudian menambah indeks berupa teks, gambar, video dan file lainnya. Setelah
itu, barulah memperbarui indeks, seperti konten, kata kunci untuk mencoba memahami
halaman tersebut. Selanjutnya web frequency dan menggunakan protokol robots.txt untuk
berkomunikasi dengan web crawler dan mengetahui mana konten mana saja yang dapat kita
ekstrak datanya.
3. Library Apa yang Digunakan Untuk Crawling Data Twitter?
Untuk melakukan crawling data bahasa yang paling sering digunakan adalah python. Python
memiliki banyak library yang masing-masing punya fungsi atau kegunaan yang berbeda-
beda. Salah satu fungsinya untuk melakukan crawling data twitter yaitu menggunakan
tweepy. Tweepy merupakan salah satu library python yang populer dan mudah digunakan
untuk mengakses API dari twitter. Dengan Tweepy memudahkan kita untuk mendapatkan
data dari twitter berdasarkan keyword yang digunakan. Kamu bisa mendapatkan data
sekunder berupa kumpulan komentar atau text di twitter yang bisa kamu gunakan untuk
bahan penelitian, misalnya kamu ingin mengetahui sentimen dan opini orang-orang terhadap
suatu produk kosmetik tertentu dengan cara melakukan crawling data tweet atau komentar
yang menyebutkan nama produk atau akun twitter produk tersebut.
4. Apa Bedanya dengan Scraping?
Banyak orang yang merasa sulit untuk mengidentifikasi perbedaan antara web crawling dan
web scraping. Untuk itu kami akan membahas perbedaan antara web crawling dan web
scraping. Web scraping itu mengacu pada ekstraksi data dari situs web atau halaman web
yang biasanya data ini diekstraksi ke dalam format file yang baru misalnya data dari situs
web dapat diekstraksi ke dalam spreadsheet excel, ataupun csv. Web scraping juga dapat
dilakukan secara manual dengan cara melakukan parsing menggunakan HTML atau XML,
meskipun dalam banyak kasus automation tools dapat digunakan untuk mengekstrak data.
Sementaran web crawling itu mengacu pada proses penggunaan BOT atau spider untuk
membaca dan menyimpan semua konten di situs web untuk tujuan pengarsipan dan
pengindeksan mesin pencari seperti bing atau google menggunakan web crawling untuk
mengekstrak semua informasi dari situs web dan mengindeksnya di situs mereka. Selain itu,
web crawling biasanya dapat menggunakan API tanpa harus melakukan parsing HTML. Jadi,
meskipun web scraping dan web crawling memiliki istilah yang mengacu pada ekstraksi data
tapi, mereka memiliki perbedaan tujuan serta aplikasi-aplikasi untuk web scraping dan web
crawling juga sangat berbeda.
Baca juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif
5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab
Bersama DQLab kamu akan disediakan sumber data primer dan sekunder sehingga kamu bisa
langsung mengasah skill tanpa perlu mencari sumber data untuk berlatih atau membangun
portfolio kamu. Selain itu, belajar kamu jadi lebih terarah dan kamu juga dapat terhindar dari
overdosis informasi, selain itu kamu tidak perlu bingung dengan urusan waktu, karena
dengan kursus data science online waktu belajar kamu bisa lebih fleksibel dan dapat diakses
dimanapun dan kapanpun. Materi-materi yang ditawarkan lengkap dan sesuai dengan
kebutuhan industri, disusun oleh mentor-mentor yang kompeten di bidangnya dari
perusahaan unicorn dan startup. Jadi, jangan khawatir, kamu bisa mulai kursus data science
online bersama DQLab! Sign up sekarang di DQLab.id atau klik button dibawah ini untuk
nikmati pengalaman belajar yang seru dan menyenangkan!
Penulis: Rian Tineges
Editor: Annissa Widya Davita
Sign Up & Mulai Belajar Gratis di DQLab!

Email
No. Whatsapp
Password
Saya memahami dan menyetujui DQLab Terms of Service

Data Crawling

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Crawling

Diunggah oleh

Hak Cipta:

Format Tersedia

Selain teknik pengumpulan data kualitatif dan teknik pengumpulan data kuantitatif, kamu

1. Apa Itu Crawling?

2. Bagaimana Cara Kerjanya?

4. Apa Bedanya dengan Scraping?

Baca juga : Langkah-Langkah Menggunakan Teknik Analisis Data Kualitatif

5. Belajar Teknik Pengumpulan Data Sekunder dari Modul DQLab

Penulis: Rian Tineges

Editor: Annissa Widya Davita

Sign Up & Mulai Belajar Gratis di DQLab!

Saya memahami dan menyetujui DQLab Terms of Service

Anda mungkin juga menyukai