Anda di halaman 1dari 5

Nama : Ilham Susanto

Bp : 191400013

Uts : Aplikasi Database

1. Apa yang Anda ketahui mengenai:


 Data Science
 Data science merupakan ilmu yang dibangun berdasarkan disiplin ilmu
matematika, statistik, dan komputer. Kombinasi disiplin ilmu tersebut
membuat data science powerful untuk mengolah big data. Data science
dapat membantu proses pengolahan data yang meliputi pengumpulan data,
manipulasi data, hingga analisis data dengan melakukan pemodelan pada
kumpulan data untuk menghasilkan informasi berupa insight yang berguna
dan bisa bisa dijadikan pedoman dalam pengambilan keputusan di masa
depan.
 Big Data Analytics
 adalah proses penggalian informasi yang berguna dengan menganalisis
berbagai jenis kumpulan data yang berukuran besar. Big data analytics
digunakan untuk menemukan pola tersembunyi, tren pasar, dan preferensi
konsumen untuk kepentingan pengambilan keputusan suatu perusahaan.
Dalam proses big data analytics, ada beberapa langkah dan teknologi yang
digunakan.
 Skill Data Science
 bertanggung jawab dalam mengumpulkan, mengolah, dan menganalisa
data untuk menghasilkan informasi yang berguna dalam pengambilan
keputusan
2. Ambil contoh kasus di mana suatu organisasi menggunakan data science / big data
analytics. Jelaskan langkah-langkah yang dilakukan oleh organisasi tersebut dalam
memanfaatkan data science / big data analytics.
 Perusahaan Traveloka
 Melilih review dengan machine learning.
merekomendasikan barang- yang popular dan di minati mata orang awam.
 Vitual online xperience dengan Artifisial Intelegence.
Di tengah pandemi yang memaksamu untuk tetap dirumah pasti rasa bosan
kerap kali muncul. Dengan memanfaatkan penggunaan artificial
intelligence, Traveloka membuat suatu inovasi berupa Virtual Tour, di
mana orang-orang dapat tetap merasakan sensasi bepergian walaupun
secara online melalui Virtual Online Xperience.
 Mesin pencarian User-Frendly dengan machine Learning.
Traveloka berusaha menciptakan kolom pencarian yang efisien bagi
penggunanya. Hanya dalam satu kali klik, pelanggan bisa menemukan
layanan yang dicari tanpa harus memilah-milah rangkaian produk lainnya.
Algoritma yang diciptakan dengan Machine Learning Traveloka ini akan
meningkatkan customer experience saat berbelanja, baik
melalui website maupun aplikasi Traveloka.
 Menjadi Data Scientist Di Taveloka

3. a. Jelaskan apa tujuan ETL.


 mengumpulkan, menyaring, mengolah, menggabungkan data dari berbagai
sumber untuk disimpan ke dalam data warehouse, dan menganalisa data
tersebut. 
b. Apa saja kegiatan yang dilakukan dalam tahap:

 Extract
 Proses extract merupakan tahap pertama dari sistem ETL. Extract
merupakan proses memilih dan mengambil data dari satu atau beberapa
sumber (misalnya database), kemudian mengakses data yang diambil.
 Transform
 Setelah data telah diambil melalui proses extract, selanjutnya
dilakukan cleaning data dengan menghilangkan data yang tidak dibutuhkan
(misalnya data anomali). Kemudian mengubah data dari bentuk aslinya
menjadi bentuk yang sesuai dengan kebutuhan.
 Load (proses terakhir)
 Penyimpanan data ke data warehouse (tempat penyimpanan data)
 Menampilkan data ke aplikasi

4. Dalam proses data science diketahui ada proses: pengumpulan data, analisis data, dan
penyajian data.
 Langkah-langkah apa saja yang dilakukan dalam data crawling?
 Menentukan sumber-sumber informasi
Langkah pertama adalah menentukan atau membuat daftar sumber-
sumber informasi. Misalnya untuk web crawling, membuat daftar-
daftar URL website yang akan diambil informasinya. Daftar website
harus kredibel dan hindari website yang tidak mengijinkan automated
crawling pada konfigurasi robots.txt atau di halaman TOS.
 Mengkonfigurasi aplikasi crawler
Langkah kedua membutuhkan kemampuan teknis khususnya
kemampuan pemrograman untuk memahami struktur data pada
sumber informasi dan mengidentifikasi poin-poin yang bisa diambil
dari sumber informasi tersebut sesuai dengan tugas yang sudah
ditentukan.
 Melakukan cleansing dan menghilangkan duplikasi data.
Data awal hasil crawler umumnya penuh dengan data-data anomali
dan mengandung duplikasi informasi. Kondisi ini dapat mempengaruhi
akurasi dari proses dan analisa data. Karena itu, langkah ini menjadi
penting untuk membersihkan data dari data-data anomali serta data
yang terduplikasi.
 Restrukturisasi data.
Data yang didapat dari hasil cleansing dan penghilangan duplikasi,
perlu diubah struktur-nya ke dalam skema yang dipahami oleh
komputer. Dengan data yang terstruktur, akan mempermudah
pemrosesan dan analisa lebih lanjut.

 Apa saja sumber data yang bisa digunakan dalam data crawling?
 Sumber data crawling yang paling umum adalah “website”, Data
crawling yang bersumber dari website biasa disebut web crawling.

 Apa saja parameter kualitas data?


 accuracy = data yang tersimpan nilainya benar
 domain integrity = nilai atributnya sesuai batasan yang diperkenankan
 data type = nilai data disimpan dalam tipe data yang sesuai
 consistency = nilai sebuah field data akan semua dalam berbagai
berkas
 redudancy = tidak boleh data yang sama disimpan di tempat yang
berbeda dalam suatu sistem.
 completness = tidak ada nilai atribut salah yang diberikan dalam
sistem
 data normally = sebuah field hanya digunakan sesuai keinginannya
 clarity = kejelasan arti kegunaan dan cara penulisan sebuah kata
 timely = mempresentasikan waktu dari data yang dimasukkan
berdasarkan waktu
 usefulness = setiap data harus benar digunakan oleh user
 adherence to data integrity rules = tata aturan keterhubungan data

5. Apa tindakan yang bisa dilakukan untuk mengatasi data:


 Kosong
 menggunakan missing values/ data hilang dimana hilangkan data
sepenuhnya secara acak, hilang secara acak, dan hilang tidak secara
acak.
 Menghapus baris
 Mengganti Dengan Mean / Median / Mode
 Mengganti dengan kategori unik
 Memprediksi nilai yang hilang dengan Linear Regression
 Outlier
 mengganti metode yang digunakan dengan metode-metode yang lebih
peka terhadap adanya outlier atau yang dikenal dengan non parametrik.
Statistik Parametrik merupakan ilmu statistik yang mempertimbangkan
jenis sebaran atau distribusi data, yaitu apakah data menyebar
secara normal atau tidak.
 Redundan
 Cukup sekali dalam menyimpan Data
 Gunakan perangkat lunak dapat melakukan dua hal sekaligus
 Gunakan aplikasi yang menyediakan fitur Import Data

Anda mungkin juga menyukai