Anda di halaman 1dari 2

Nama : Rezeki Sembiring Pandia

NPM : 205080027
Prodi : S1 Akuntansi
Matkul : Analisa Big Data

1. yaitu dengan analisa data kualitatif karena untuk penulisan karya ilmiah /skripsi
yg menjadi alat ukur adalah manusia atau si penulis tsb.

2. Jenis data structured dapat diproses, disimpan, dan diambil dalam format tetap.
Jenis data ini disimpan dalam bentuk tabel, baris dan kolom yang normalnya
disimpan dalam excel atau spreadsheet, dimana informasi pada data sangat
terorganisir dan dapat dengan mudah diakses dari database dengan algoritma mesin
pencari sederhana.
Contoh data terstruktur adalah, data sensor, data penjualan pada suatu perusahaan,
data karyawan dalam database perusahaan dengan detail yang terstruktur seperti
detail data diri karyawan, posisi pekejaan, gaji, dan lainnya ditampilkan secara
terorganisir.

3. Pertama, web scraper akan diberikan sejumlah URL untuk dimuat sebelum
dilakukan proses scraping. Scraper kemudian memuat kode HTML laman yang dituju.
Beberapa scraper yang lebih canggih bahkan mampu memuat seluruh isi
dalam website, termasuk CSS dan elemen Javascript.

Dari data yang sudah dimuat, scraper kemudian akan mengekstrak data yang
sebelumnya sudah dipilih oleh pengguna sebelum program dijalankan. Misalnya,
seorang data scientist membutuhkan informasi mengenai harga dan model dalam
satu platform e-commerce. Dia akan memprogram scraper dengan mengutamakan
dua informasi tersebut dan mengabaikan review produk atau komentar pembeli.

Data yang sudah diekstrak kemudian akan dikumpulkan dalam satu format, yang
nantinya akan digunakan oleh data scientist untuk proses analisis. Format yang
digunakan dapat berupa CSV, Excel, atau bahkan format JSON yang nantinya bisa
digunakan sebagai API.

Kelebihan :

-Mendapatkan Leads

- Mendalami kebutuhan konsumen dari kompetitor

- Optimasi harga produk maupun layanan

-Mencari Informasi
-Memantau berita dan konten

Kekurangan :

 -Tidak ada teknik web scraping yang 100% efektif

 Data yang diperoleh tidak selalu rapi

 Pemahaman tentang struktur halaman website tetap penting

 Akses ke suatu laman bisa diblokir

 Tidak semua laman mudah di ekstrak datanya

 Tidak semua laman mudah di ekstrak datanya

4. Apache Spark merupakan sebuah framework atau environtment yang dapat


digunakan untuk mengakses data dari berbagai sumber berbeda, kemudian
mengolah data tersebut, kemudian menyimpannya kedalam penyimpanan data
untuk dianalisis. Fitur yang dimiliki oleh Apache Spark memungkinkan para
data engineer untuk membangun sebuah aplikasi pipa pemrosesan Big Data.

5. -Chart : Pie Charts, line graph, bar chart, stacked bar graph.
- Table
- Graph
- Geospatial
- Infograpich
- Dashboard

Anda mungkin juga menyukai