Anda di halaman 1dari 5

Nama : Redo Almavigo Harris

NPM : 15119379
Kelas : 3KA10

Tugas 1 - PDS - Format Data

1. Berikan contoh implementasi data analisis yang dimanfaatkan dalam dunia nyata.
Jelaskan alasan mengapa anda tertarik dengan implementasi pada bidang tersebut Jawab
: Retail, Layanan pelanggan telah berevolusi dalam beberapa tahun terakhir, karena
pembeli yang berpengalaman berharap para peritel memahami dengan tepat apa yang
mereka butuhkan, ketika mereka membutuhkannya. Alasannya saya berpengalaman
dalam bidang ini.

2. Gambarkan dan jelaskan alur pengolahan data untuk machine learning Jawab :
a. Data Collection proses mengumpulkan dan memastikan informasi pada
variable of interest (subjek yang akan dilakukan uji coba), dengan cara yang
sistematis yang memungkinkan seseorang dapat menjawab pertanyaan dari uji
coba yang dilakukan, uji hipotesis, dan mengevaluasi hasil.
b. Data Preparation suatu proses/langkah yang dilakukan untuk membuat data
mentah menjadi data yang berkualitas(input yang baik untuk data mining
tools).
c. Exploratory Data Analysis bagian dari proses data science. EDA menjadi
sangat penting sebelum melakukan feature engineering dan modeling karena
dalam tahap ini kita harus memahami datanya terlebih dahulu.
d. Machine Learning
Melakukan Classification, predictive, scoring, models, clustering, density,
estimation, etc.
e. Visualization
Melakukan penyebaran dan keputusan pada aplikasi.
3. Jelaskan tipe data yang ada dan dapat dianalisa pada kumpulan data kompleks
dan besar Jawab :
a. Data Terstruktur
Data terstruktur adalah data yang disimpan dalam baris dan kolom, rata-rata
numerik, dan setiap item data ditentukan
b. Data Tidak Terstruktur
Jenis data unstructured adalah data dengan bentuk yang tidak dikenal, harus
disimpan dengan format khusus karena tidak memiliki struktur yang spesifik
seperti jenis data structured. Raw data dari jenis data ini hanya dapat
menghasilkan nilai setelah diproses dan dianalisa.
c. Data semi-terstruktur
Jenis data semi-structured merupakan jenis data yang dimasukan ke dalam sebuah
tabel, tetapi skemanya tidak sama dengan tabel biasa yang hanya terdiri dari baris
dan kolom.

4. Jelaskan sifat dan karakteristik dari jenis data terstruktur dan tidak terstruktur
Jawab :
Terstruktur:
• Model data terdefinisikan sebelumnya
• Format butir data (biasanya) teks.
• Antar butir data terbedakan dengan jelas.
• Ekstraksi/kueri langsung cukup mudah Tidak Terstruktu:
• Model data terdefinisikan sebelumnya
• Format butir data (biasanya) teks.
• Antar butir data terbedakan dengan jelas.
• Ekstraksi/kueri langsung cukup mudah
5. Jelaskan 4 tipe pemanfaatan data secara umum
Jawab :
1) Descriptive Analytics
Descriptive analytics berfokus kepada hal yang telah terjadi. Analytics ini
bertujuan untuk menjawab pertanyaan “Apa yang terjadi?”. 2) Diagnostic
Analytics
Analytics ini bertujuan untuk menjawab pertanyaan “Mengapa hal itu terjadi?”.
Diagnostic analytics mencari akar penyebab dari suatu masalah.
3) Predictive Analytics
Predictive analytics bertujuan untuk menjawab pertanyaan “Apa yang mungkin
terjadi?”, dengan menggunakan data masa lalu untuk memprediksi masa depan. 4)
Prescriptive Analytics
Prescriptive analytics bertujuan untuk menjawab pertanyaan “Apa yang harus
dilakukan?”, yaitu untuk menemukan tindakan yang tepat untuk diambil

6. Jelaskan beberapa format data yang anda bisa sarikan dari materi Jawab :
Format data banyak digunakan untuk pertukaran data pada aplikasi web dan server.
Format ini tidak bergantung pada bahasa pemrograman yang digunakan, walaupun awalnya
diturunkan dari JavaScript. Berkas untuk JSON sering menggunakan ekstension .json
• Format XML
• Format JSON
• Format JSONB
• Format Multimedia
• Format XLS
• Format CSV
7. Jelaskan perbedaan Data Warehouse – Data Mart – Data Lake Jawab :
Data Warehouse:
• Large Database
• Subject-Oriented
• Integrated
• Time-Variant
• Nonvolatile
• User-Friendly Interface
Data Mart:
• Mini data warehouse
• Menyimpan subset data dari datawarehouse
• Fokus untuk spesifik aspek dari organisasi
Data Lake
• Suatu sistem repositori data yang menyimpan data dalam bentuk asli, misal
berkas atau BLOB
• Semua salinan data disimpan di dalam suatu penyimpan utama, termasuk
hasil laporan, hasil analitis dan lain sebagainya
• Datalake dapat menyimpan database relational (kolom dan baris) data semi
terstruktur (CSV, Log, XML, JSON) data tidak terstruktur (email, dokumen,
PDF) dan juga data biner (gambar, suara, dan video)
8. Jelaskan apa yang dimaksud ETL dan bagaimana pemanfaatannya Jawab :
ETL adalah singkatan dari extract, transform, dan load. Melansir IBM, ia merupakan proses
integrasi data. Di sana, data akan dikombinasikan dari berbagai sumber. Setelah itu, mereka
disimpan di tempat bernama data warehouse.
Pemanfaatan ETL :
• Commercial
• Ab Initio
• IBM Datastage
• Informatica PowerCenter
• Microsoft Data Integration Services
• Oracle Data Integrator
• SAS Data Integration Studio
• Open Source
• Adeptia Integration Suite
• Apatar – CloverETL
• Pentaho Data Integration (Kettle)
• Talend Open Studio/Integration Suite

Anda mungkin juga menyukai