Anda di halaman 1dari 4

YAYASAN AMAL BAKTI MUKMIN PADANG

STMIK INDONESIA
Jln. Khatib Sulaiman Dalam No.1 Telp. (0751) 56199, 58322, 58325 Padang

Soal Ujian Tengah Semester Ganjil 2020/2021

Mata Kuliah : Aplikasi Database Program Studi : Sistem Informasi


Hari/Tgl : Selasa/ 16-11-2021 Dosen : Heru Saputra, M.Kom
Jam : 11:00-13:00 Sifat ujian :-

Nama : Wahidatul Muharomia


NIM : 211200006
Kelas : 1SIM

1. Apa yang Anda ketahui mengenai:


- Data Science
- Big Data Analytics
- Skill Data Science
Jawab:
- Data Science adalah yang dibangun berdasarkan disiplin ilmu matematika,
statistik, dan komputer. Kombinasi disiplin ilmu tersebut membuat data science
powerful untuk mengolah big data. Data science dapat membantu proses
pengolahan data yang meliputi pengumpulan data, manipulasi data, hingga
analisis data dengan melakukan pemodelan pada kumpulan data untuk
menghasilkan informasi berupa insight yang berguna dan bisa bisa dijadikan
pedoman dalam pengambilan keputusan di masa depan. Data science mengolah
big data dimana berisi data terstruktur maupun tidak terstruktur. Jadi tidak
hanya data numerik saja, tetapi juga data berupa suara, gambar, teks, dan
sebagainya.
- Big Data Analytics adalah proses penggalian informasi yang berguna dengan
menganalisis berbagai jenis kumpulan data yang berukuran besar. Big data
analytics digunakan untuk menemukan pola tersembunyi, tren pasar, dan
preferensi konsumen untuk kepentingan pengambilan keputusan suatu
perusahaan.
- Skill Data Science, terbagi menjadi dua, hard skills dan soft skills
Hard Skill : a. Memahami analisis statistik
b. Memahami tools analisis
c. Data mining
d. Kemampuan programing
Soft Skill : a. Detail
b. Ketajaman bisnis
c. Komunikasi
d. Memiliki intuisi terhadap data
2. Ambil contoh kasus di mana suatu organisasi menggunakan data science / big data
analytics. Jelaskan langkah-langkah yang dilakukan oleh organisasi tersebut dalam
memanfaatkan data science / big data analytics.
Jawab:
Implementasi Big Data pada Instansi Pemerintah
Bidang pemerintahan ada himbauan untuk mengalihkan informasi/ dokumen fisik
menjadi data elektronik. Hal bertujuan untuk memudahkan pengelolaan dan
penggunaan data saat dibutuhkan.

Pemerintah tentunya memiliki data yang sangat beragam dan dengan jumlah yang
sangat banyak. Untuk dapat mengambil keputusan yang tepat, dalam hal ini
pemerintah selaku pembuat kebijakan, memerlukan cara yang efektif untuk mengelola
data–data tersebut menjadi informasi yang berguna sebagai pertimbangan dalam
membuat keputusan. Namun dengan adanya perkembangan teknologi saat ini, proses
penanganan data tersebut bisa menjadi lebih cepat dan efisien. Big Data sebagai salah
satu peluang yang dapat digunakan untuk membuat beragam kebijakan dengan lebih
cepat, akurat dan murah.

Diperlukan cara yang cepat dan tepat untuk dapat mengolah data tersebut menjadi
informasi. Oleh karena itu prinsip Big Data sangat cocok diterapkan, dimana prinsip
Big Data yaitu untuk dapat mengelola data yang sangat banyak dan beragam, serta
mengolahnya menjadi informasi yang dibutuhkan dalam waktu yang sangat singkat.

3. a. Jelaskan apa tujuan ETL.


Jawab:
ETL adalah singkatan dari extract, transform, dan load. ETL adalah
mengumpulkan, menyaring, mengolah, menggabungkan data dari berbagai sumber
untuk disimpan ke dalam data warehouse, dan menganalisa data tersebut.

b. Apa saja kegiatan yang dilakukan dalam tahap:


- Extract
- Transform
- Load
Jawab:
- Extract merupakan tahap pertama dari sistem ETL. Extract merupakan proses
memilih dan mengambil data dari satu atau beberapa sumber (misalnya
database), kemudian mengakses data yang diambil.
- Transform, setelah data diambil melalui proses extract, selanjutnya dilakukan
cleaning data dengan menghilangkan data yang tidak dibutuhkan (misalnya
data anomali).kemudian mengubah data dari bentuk aslinya menjadi bentuk
yang sesuai dengan kebutuhan.
- Load, proses load terjadi adalah penyimpanan data ke data warehouse dan
menampilkan data ke aplikasi.
4. Dalam proses data science diketahui ada proses: pengumpulan data, analisis data, dan
penyajian data.
- Langkah-langkah apa saja yang dilakukan dalam data crawling?
Jawab:
1. Menentukan sumber-sumber informasi
Langkah pertama adalah menentukan atau membuat daftar sumber-sumber
informasi. Misalnya untuk web crawling, membuat daftar-daftar URL website
yang akan diambil informasinya. Daftar website harus kredibel dan hindari
website yang tidak mengijinkan automated crawling pada konfigurasi robots.txt
atau di halaman TOS.
2. Mengkonfigurasi aplikasi crawler
Langkah kedua membutuhkan kemampuan teknis khususnya kemampuan
pemrograman untuk memahami struktur data pada sumber informasi dan
mengidentifikasi poin-poin yang bisa diambil dari sumber informasi tersebut
sesuai dengan tugas yang sudah ditentukan.
3. Melakukan cleansing dan menghilangkan duplikasi data
Data awal hasil crawler umumnya penuh dengan data-data anomali dan
mengandung duplikasi informasi. Kondisi ini dapat mempengaruhi akurasi dari
proses dan analisa data. Karena itu, langkah ini menjadi penting untuk
membersihkan data dari data-data anomali serta data yang terduplikasi.
4. Restrukturisasi data
Data yang didapat dari hasil cleansing dan penghilangan duplikasi, perlu
diubah struktur-nya ke dalam skema yang dipahami oleh komputer. Dengan
data yang terstruktur, akan mempermudah pemrosesan dan analisa lebih lanjut.

- Apa saja sumber data yang bisa digunakan dalam data crawling?
Jawab:
Sumber data yang digunakan adalah sekumpulan website yang ada di internet.

- Apa saja parameter kualitas data?


Jawab:
a. Completeness, sejauh mana data cukup luas, mendalam, dan ruang lingkup
untuk tugas yang dihadapi
b. Correctness/free of error, sejauh mana data benar dan dapat diandalkan
c. Representation, sejauh mana usia data tepat untuk tugas yang dihadapi
d. Consistency, sejauh mana data selalu disajikan dalam format yang sama dan
kompatibel dengan data sebelumnya

5. Apa tindakan yang bisa dilakukan untuk mengatasi data:


- Kosong
- Outlier
- Redundan
Jawab:
- Kosong
➢ Dengan memasukkan nilai mean dari masing-masing variabel tersebut pada
cell yang mengandung missing value.
➢ Menghilangkan/membuang kasus atau objek yang mengandung missing value.
➢ Menghapus variabel (kolom) yang mengandung missing value
- Outlier
➢ Data outlier dihilangkan, karena dianggap tidak mencerminkan sebaran data
yang sesungguhnya, atau mungkin didapat karena kesalahan pengambilan
data, kesalahan inputing, dan sebagainya.
➢ Data outlier tetap dipertahankan karena dianggap memang terdapat data yang
seperti itu, atau tidak dapat dikatakan ada kesalahan pada proses sampling
maupun inputing data. Namun pada saat melakukan analisis hendaknya data
outlier tersebut dipisahkan dari data yang lain karena akan mempengaruhi
hasil analisis. Selanjutnya data outlier tersebut perlu dilakukan analisis
tersendiri

- Redundan
➢ Mengurangi banyaknya integrasi dari database
➢ Melakukan analisis korelasi
➢ Integrasi data dari banyak sumber untuk membantu mengurangi/mencegah
redundansi.

Team Teaching
Nama NIDN Ttd
1. Tri A. Sundara 1003048201 (………….)
2. Heru Saputra 1001058403 (………….)
3 (………….)
4 (………….)

Anda mungkin juga menyukai