Bima Mulya Firmansyah - Quiz 1 1

QUIZ DAN KISI-KISI UTS AD
1. Jelaskan apa yang disebut Analisis Data

2. Jelaskan apa yang dimaksud dengan:
a. Data
b. Value
c. Information
d. Knowledge
3. Jelaskan apa yang maksud dengan Big Data.
4. Jelaskan karakteristik Big Data di bawah ini:
a. Volume
b. Velocity
c. Variety
d. Veracity
e. Value
5. Jelaskan langkah – Langkah di bawah ini dilakukan dalam analisis data.
a. Data Collection
b. Data Preparation
c. Analysis Types
d. Analysis Modes
e. Visualizations
6. Jelaskan metodologi Data Science di bawah ini.
a. KDD
b. SEMMA
c. CRISP-DM
d. IBM Data Science
e. Microsoft’s Team Data Science Process
7. Jelaskan apa yang disebut Visualisasi dalam analisis data
8. Tujuan Visualisasi dalam analisis data
9. Jelaskan Library Visualisasi di bawah ini.
a. Matplotlib
b. Seaborn
10. Jelaskan Visualisasi Variabel di bawah ini.
a. Pie Chart
b. Bar Charts
c. Line Graphs
d. Scatter Plot
e. Heatmap
JAWABAN
1. Analisis data adalah tahap pengolahan data yang bertujuan untuk menemukan informasi
bermanfaat yang dapat digunakan sebagai dasar untuk mengambil keputusan dalam
menyelesaikan masalah tertentu. Dalam proses analisis ini, data dikelompokkan
berdasarkan ciri-cirinya, dilakukan penyiapan data, transformasi data, serta pembuatan
model data untuk menggali informasi penting dari kumpulan data tersebut.
2. a. Data adalah sekumpulan keterangan ataupun fakta yang dibuat dengan kata - kata,
kalimat, simbol, angka, dan lainnya.
b. Value adalah representasi hasil dari informasi yang bermakna atau relevan, merujuk
pada sejauh mana data tersebut dapat digunakan sesuai dengan tujuan tertentu.
c. Information adalah data yang telah diolah sehingga memiliki makna atau bisa juga
diartikan sebagai data yang telah disempurnakan dengan konteks, tujuan analisis, dan
metode analisis.
d. Knowledge adalah pemahaman atau wawasan yang kita peroleh dari informasi yang
telah kita pahami. Ini adalah hasil dari akumulasi informasi dari berbagai sumber dan
bisa datang melalui pengalaman kita sendiri atau petunjuk dari orang lain. Dalam
intinya, knowledge adalah kumpulan informasi yang berguna dan dapat membantu kita
dalam berbagai cara.
3. Big Data adalah istilah yang mengacu pada volume data yang sangat besar, rumit,
bergerak dengan cepat, dan memiliki berbagai format. Data ini terlalu besar untuk
diurus dengan satu komputer, sehingga diperlukan alat khusus dan sistem untuk
menyimpan, mengelola, dan menganalisisnya.
4. a. Volume data mengacu pada seberapa besar jumlah data yang dihasilkan dan disimpan.
Meskipun tidak ada ambang batas tetap untuk volume data yang akan dianggap sebagai
big data, namun, biasanya, istilah big data digunakan untuk data dengan skala masif
yang sulit untuk menyimpan, mengelola, dan memproses menggunakan database
tradisional dan arsitektur pemrosesan data.
b. Velocity (Kecepatan) data mengacu data mengacu pada seberapa cepat data
dihasilkan. Data yang dihasilkan oleh sumber tertentu dapat tiba dengan kecepatan yang
sangat cepat. Kecepatan data yang tinggi menghasilkan volume data yang terakumulasi
menjadi sangat besar, dalam rentang waktu yang singkat. Alat khusus diperlukan untuk
menyerap data berkecepatan tinggi tersebut ke dalam infrastruktur big data dan
menganaslis data secara real-time.
c. Variety (Variasi) mengacu pada bentuk data. Big data hadir dalam berbagai bentuk
seperti terstruktur, tidak terstruktur atau semi-terstruktur, termasuk data teks, gambar,
audio, video, dan data sensor. Sistem Big Data harus cukup fleksibel untuk menangani
berbagai data tersebut.
d. Veracity (Kebenaran) mengacu pada seberapa akurat data tersebut. Untuk
mengekstrak nilai dari data, data perlu dibersihkan untuk menghilangkan kebisingan.
Aplikasi berbasis data hanya dapat menuai manfaat dari big data ketika data bermakna
dan akurat. Oleh karena itu, pembersihan data penting agar data yang salah dan salah
dapat disaring.
e. Value (Nilai) data mengacu pada kegunaan data untuk tujuan yang dimaksudkan.
Tujuan akhir dari setiap sistem analitik big data adalah untuk mengekstrak nilai dari
data. Nilai data juga terkait dengan kebenaran atau keakuratan data. Untuk beberapa
nilai aplikasi juga tergantung pada seberapa cepat kita dapat memproses data.
5. a. Data Collection : Tahap awal dalam setiap aplikasi analitik adalah pengumpulan data.
Sebelum data dapat dianalisis, data harus dikumpulkan dan dimasukkan ke dalam
tumpukan Big Data. Pemilihan alat dan kerangka kerja (framework) untuk
pengumpulan data bergantung pada sumber data dan jenis data yang diambil. Untuk
mengumpulkan data, berbagai jenis alat koneksi dapat digunakan, seperti kerangka
kerja publikasi-langganan (publish-subscribe), antrian pesan (messaging queues),
penghubung sumber-tujuan (source-sink connectors), penghubung basis data (database
connectors), dan penghubung kustom (custom connectors).
b. Data Preparation : Data seringkali datang dalam kondisi yang kurang ideal dan dapat
menghadapi berbagai masalah yang perlu diatasi sebelum data dapat diolah, seperti
rekaman yang rusak, nilai yang hilang, duplikat, singkatan yang tidak konsisten, satuan
yang tidak konsisten, kesalahan pengetikan, ejaan yang salah, dan pemformatan yang
tidak tepat. Proses persiapan data melibatkan berbagai tindakan seperti membersihkan
data, merapikan data, menghapus duplikat, mengubah data menjadi format yang
seragam, mengambil sampel data, dan menerapkan penyaringan.
c. Analysis Types : Langkah selanjutnya dalam alur analisis adalah menentukan jenis
analisis untuk aplikasi, diantaranya adalah Basic Statistics, Regression,
Recommendation, Graph Analytics, Classification, Clustering, Time Series Analysis,
Text Analysis, Pattern Mining.
d. Analysis Modes : Setelah menentukan jenis analisis yang sesuai untuk sebuah
aplikasi, langkah berikutnya adalah memilih mode analisis, yang dapat berupa batch,
real-time, atau interaktif. Pilihan mode ini disesuaikan dengan kebutuhan aplikasi. Jika
aplikasi Anda memerlukan pembaruan hasil dalam waktu singkat (misalnya, setiap
beberapa detik), maka mode analisis real-time yang cocok. Namun, jika aplikasi Anda
hanya memerlukan hasil yang diperbarui pada interval tertentu (misalnya, harian atau
bulanan), maka mode batch dapat digunakan. Mode interaktif berguna jika aplikasi
Anda memerlukan kemampuan untuk mengkueri data sesuai permintaan dengan
fleksibilitas.
e. Visualizations : Setelah menentukan jenis analisis yang sesuai untuk sebuah aplikasi,
langkah berikutnya adalah memilih mode analisis, yang dapat berupa batch, real-time,
atau interaktif. Pilihan mode ini disesuaikan dengan kebutuhan aplikasi. Jika aplikasi
Anda memerlukan pembaruan hasil dalam waktu singkat (misalnya, setiap beberapa
detik), maka mode analisis real-time yang cocok. Namun, jika aplikasi Anda hanya
memerlukan hasil yang diperbarui pada interval tertentu (misalnya, harian atau bulanan),
maka mode batch dapat digunakan. Mode interaktif berguna jika aplikasi Anda
memerlukan kemampuan untuk mengkueri data sesuai permintaan dengan fleksibilitas.
6. a. Knowledge Discovery in Database Process (KDD) adalah salah satu metode yang
bisa digunakan dalam melakukan data mining. KDD merupakan proses pemanfaatan
metode Data Mining untuk mengekstraksi pengetahuan sesuai dengan ukuran atau
threshold yang ditentukan.
b. SEMMA merupakan singkatan dari Sample, Emplore, Modify, Model, dan Assess.
Metode ini dapat ditemukan oleh SAS Institute yang dapat digunakan untuk
memudahkan penggguna untuk memprediksi tentang variable-variabel yang mengacu
melakukan proses sebuah proyek data mining.
c. Cross-Industry Standard Process for Data Mining atau CRISP-DM adalah salah satu
model proses datamining (datamining framework). Tahapan proses dalam CRISP-DM
ada 6 tahapan yang bersifat adaptif dan terurut antara lain Business Understanding, Data
Understanding, Data Preparation, Modeling, Evaluation, Deployment.
d. IBM Data Science merupakan pendekatan IBM dalam praktik Data Science. Tujuan
dari metodologi data science adalah untuk berbagi metodologi yang dapat digunakan
dalam data science, untuk memastikan bahwa data yang digunakan dalam pemecahan
masalah adalah relevan dan dimanipulasi dengan benar untuk menjawab pertanyaan.
e. Microsoft’s Team Data Science Process merupakan pendekatan Microsoft dalam
manajemen proyek Data Science. Tim Data Science Proses (TDSP) adalah suatu
metode data science yang efisien dan fleksibel untuk menghadirkan solusi analisis
prediksi dan aplikasi cerdas. TDSP mendukung kerja sama tim dan pembelajaran
dengan memberikan panduan tentang bagaimana peran individu dalam tim dapat
berkolaborasi secara efektif. Ini mengintegrasikan praktik terbaik dari Microsoft dan
pemimpin industri lainnya untuk membantu kesuksesan implementasi proyek data
science. Tujuannya adalah membantu perusahaan memaksimalkan manfaat dari
program analitik mereka.
7. Visualisasi dalam analisis data adalah penggunaan grafik atau representasi visual untuk
memahami dan mengkomunikasikan data. Dengan visualisasi yang baik dapat
membantu kita untuk menafsirkan dan menginterpretasi suatu data serta memahami
informasi yang telah dihasilkan, serta penyajian data menjadi lebih informatif dan
komunikatif, dengan kata lain visualisasi dapat memudahkan kita memahami data lebih
mudah dan lebih baik daripada menggunakan kalimat. Dalam menganalisa data, sering
kali menggunakan visualisasi data untuk memahami karakteristik maupun trend di
dalam data yang dimiliki.
8. Tujuan Visualisasi dalam analisis data adalah menyajikan data dengan cara yang mudah
dipahami, mengidentifikasi pola atau tren, dan memungkinkan pengambilan keputusan
yang lebih baik. Secara garis besar, ada empat tujuan visualisasi yang disampaikan oleh
Andrew Abela, yaitu Comparison (Perbandingan), Relationship (Keterhubungan/Relasi),
Composition (Komposisi), Distribution (Distribusi).
9. a. Matplotlib diciptakan oleh John D. Hunter (1968 – 2012), seorang ahli saraf dan
merupakan bagian dari tim peneliti yang menganalisis sinyal elektrokortikografi
(ECOG). Matplotlib adalah Library Python yang mengkhususkan diri dalam
pengembangan grafik dua dimensi (termasuk grafik 3D). Dalam beberapa tahun terakhir,
telah banyak digunakan oleh peneliti ilmiah dan juga kalangan teknik.
b. Seaborn diciptakan oleh Michael Waskom seorang mahasiswa doctoral bidang
Neurosains pada tahun 2014. Seaborn adalah perpustakaan untuk membuat grafik
statistik dengan Python yang dibangun di atas matplotlib dan terintegrasi erat dengan
struktur data Pandas. Dengan kata lain, Seaborn adalah "ekstensi" dari Matplotlib.
Seaborn bersifat open-source dengan lisensi Berkeley Software Distribution (BSD).
10. a. Pie Chart atau yang sering disebut Diagram Lingkaran adalah gambar bulat yang
dibagi-bagi menjadi bagian-bagian kecil untuk menunjukkan berapa besar bagian
masing-masing dalam data. Setiap bagian ini memiliki panjang lengkung yang sesuai
dengan banyaknya data yang diwakilinya.
b. Grafik batang atau Bar Charts digunakan untuk membandingkan nilai dalam kategori
yang berbeda. Ini adalah alat visualisasi yang membantu kita melihat perbandingan
antara kategori dalam data. Seperti Pie Chart, Bar Charts juga berguna untuk
membandingkan kategori satu sama lain.
c. Grafik garis atau Line Graphs digunakan untuk menunjukkan bagaimana data
berubah seiring berjalannya waktu. Sementara diagram lingkaran dan diagram batang
membantu kita memahami hubungan antara kategori data, grafik garis lebih cocok
untuk menunjukkan perkembangan data dalam beberapa periode, seperti perubahan
suhu sepanjang waktu, pergerakan harga saham, atau data yang berkelanjutan.
d. Scatter Plot atau Grafik Sebaran adalah jenis grafik yang digunakan untuk
menunjukkan hubungan antara dua angka atau data numerik. Grafik ini berguna
terutama untuk mengidentifikasi pola atau titik data yang berbeda dari yang lain dalam
hubungan tersebut.
e. Heatmap adalah cara untuk menampilkan data dalam bentuk matriks dengan
menggambarkan intensitasnya melalui warna. Ini seringkali digambarkan dalam bentuk
tabel berwarna, tetapi juga dapat digunakan dalam konteks visualisasi data lainnya.

Bima Mulya Firmansyah - Quiz 1 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bima Mulya Firmansyah - Quiz 1 1

Diunggah oleh

Hak Cipta:

Format Tersedia

QUIZ DAN KISI-KISI UTS AD

1. Jelaskan apa yang disebut Analisis Data

Anda mungkin juga menyukai