Minggu 7
Outcome:
• Analisis
• Alur Analisis untuk Big Data
• Big Data Stack
• Teknik Analisis Big Data
• Pola Analisis
1. Analisis
Analytics adalah istilah luas yang mencakup proses, teknologi, kerangka kerja, dan
algoritme untuk mengekstrak wawasan yang berarti dari data. Data mentah itu sendiri
tidak memiliki arti sampai dikontekstualisasikan dan diproses menjadi informasi yang
berguna. Analytics adalah proses mengekstraksi dan membuat informasi dari data
mentah dengan memfilter, memproses, mengkategorikan, memadatkan, dan
mengontekstualisasikan data. Informasi yang diperoleh ini kemudian diatur dan disusun
untuk menyimpulkan pengetahuan tentang sistem dan/atau penggunanya,
lingkungannya, dan operasinya serta kemajuannya menuju tujuannya, sehingga
membuat sistem lebih cerdas dan lebih efisien.
Gambar 6.2 Menunjukkan pemetaan antara tipe analitik dan tujuh raksasa komputasi.
a. Analitik Deskriptif
Analisis deskriptif terdiri dari menganalisis data masa lalu untuk menyajikannya
dalam bentuk ringkasan yang dapat dengan mudah ditafsirkan. Analisis deskriptif
bertujuan untuk menjawab - Apa yang telah terjadi? Sebagian besar analitik yang
dilakukan saat ini adalah analitik deskriptif melalui penggunaan fungsi statistik
seperti jumlah, maksimum, minimum, rata-rata, top-N, persentase, misalnya.
Statistik ini membantu dalam menggambarkan pola dalam data dan menyajikan data
dalam bentuk ringkasan.
b. Analisis Diagnostik
Analisis diagnostik terdiri dari analisis data masa lalu untuk mendiagnosis alasan
mengapa peristiwa tertentu terjadi. Analisis diagnostik bertujuan untuk menjawab -
Mengapa itu terjadi? Mari kita perhatikan contoh sistem yang mengumpulkan dan
menganalisis data sensor dari mesin untuk memantau kesehatannya dan
memprediksi kegagalan.
c. Analisis Prediktif
Analisis prediktif terdiri dari memprediksi terjadinya suatu peristiwa atau
kemungkinan hasil dari suatu peristiwa atau memperkirakan nilai masa depan
menggunakan model prediksi. Analisis prediktif bertujuan untuk menjawab - Apa
yang mungkin terjadi? Misalnya, analitik prediktif dapat digunakan untuk
memprediksi kapan kesalahan akan terjadi pada mesin, memprediksi apakah tumor
jinak atau ganas, memprediksi terjadinya keadaan darurat alam (peristiwa seperti
kebakaran hutan atau banjir sungai), atau memperkirakan tingkat polusi. Analisis
prediktif dilakukan dengan menggunakan model prediktif yang dilatih oleh data yang
ada. Model-model ini mempelajari pola dan tren dari data yang ada dan
memprediksi terjadinya suatu peristiwa atau kemungkinan hasil dari suatu peristiwa
(model klasifikasi) atau angka perkiraan (model regresi). Keakuratan model prediksi
tergantung pada kualitas dan volume data yang ada yang tersedia untuk melatih
Langkah pertama dalam analisis data adalah mendefinisikan masalah bisnis yang harus
diselesaikan dengan analisis data. Langkah selanjutnya dalam proses ini adalah
mengidentifikasi sumber data yang diperlukan untuk memecahkan masalah. Ini adalah
langkah penting karena data adalah kunci untuk setiap proses analitis. Kemudian
dilakukan pemilihan data. Pemilihan data adalah langkah yang paling memakan waktu.
Semua data tersebut kemudian akan dikumpulkan dalam data mart. Data dari data mart
akan dibersihkan untuk menghilangkan duplikat dan inkonsistensi. Ini akan diikuti oleh
transformasi data, yaitu mengubah data ke format yang diperlukan, seperti mengubah
data dari alfanumerik ke numerik. Selanjutnya adalah analytics pada data yang telah
diproses sebelumnya, yang dapat berupa deteksi penipuan, prediksi churn, dan lain
sebagainya. Setelah ini, model dapat digunakan untuk aplikasi analitik seperti
pengambilan keputusan. Proses analitik ini bersifat iteratif, yang berarti ilmuwan data
a. Pengumpulan data
Pengumpulan data adalah langkah pertama untuk aplikasi analitik apa pun. Sebelum
data dapat dianalisis, data harus dikumpulkan dan dimasukkan ke dalam tumpukan
big data. Pilihan alat dan kerangka kerja untuk pengumpulan data bergantung pada
sumber data dan jenis data yang diserap. Untuk pengumpulan data, berbagai jenis
konektor dapat digunakan seperti kerangka kerja pesan publish-subscribe, antrian
pesan, konektor sumber-sink, konektor database, dan konektor kustom.
b. Persiapan data
Data sering kali kotor dan dapat memiliki berbagai masalah yang harus diselesaikan
sebelum data dapat diproses, seperti catatan yang rusak, nilai yang hilang, duplikat,
singkatan yang tidak konsisten, unit yang tidak konsisten, kesalahan ketik, ejaan
yang salah, dan pemformatan yang salah. Langkah persiapan data melibatkan
berbagai tugas seperti pembersihan data, perselisihan atau munging data, de-
duplikasi, normalisasi, pengambilan sampel, dan penyaringan. Pembersihan data
mendeteksi dan menyelesaikan masalah seperti catatan yang rusak, catatan dengan
nilai yang hilang, catatan dengan format yang buruk, misalnya. Perselisihan atau
Positive Correlation
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Negative Correlation
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
No Correlation
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
• Regresi.
Regresi adalah teknik yang digunakan untuk menentukan hubungan antara
variabel dependen dan variabel independen. Variabel dependen adalah variabel
hasil atau variabel respons atau variabel prediksi, dilambangkan dengan "Y",
dan variabel independen adalah prediktor atau penjelas atau variabel pembawa
atau variabel input, dilambangkan dengan "X." Teknik regresi digunakan ketika
ada hubungan antara variabel. Hubungan tersebut dapat ditentukan dengan
scatterplot. Hubungan tersebut dapat dimodelkan dengan memasang titik-titik
data pada persamaan linier. persamaan linearnya adalah
Y = a + bX,
dimana,
X = variabel bebas,
Y = variabel terikat,
a = intersep, nilai Y saat X = 0, dan
b = kemiringan garis.
5. Pola Analisis
Empat pola analitik: Alpha, Beta, Gamma, dan Delta, yang terdiri dari alat dan kerangka
kerja untuk mengumpulkan dan menyerap data dari berbagai sumber ke dalam
infrastruktur analitik data besar, sistem file terdistribusi, dan database non-relasional
(NoSQL) untuk penyimpanan data, kerangka kerja pemrosesan untuk analitik batch dan
real-time, kerangka kerja kueri interaktif, basis data penyajian, dan kerangka kerja web
dan visualisasi. Pola-pola ini dan metodologi desain sistem aplikasi ilmu data dan analitik
a. Alpha
Pola Alpha untuk analisis data batch. Pola ini dapat digunakan untuk menyerap data
dalam jumlah besar ke dalam sistem file terdistribusi (seperti HDFS) atau database
NoSQL (seperti HBase) menggunakan konektor source-sink (seperti Flume) dan
konektor SQL (seperti Sqoop). Setelah data dipindahkan ke tumpukan, data dapat
dianalisis dalam mode batch dengan kerangka kerja analisis batch termasuk
b. Beta,
pola Beta untuk analisis waktu nyata. Pola ini dapat digunakan untuk menyerap data
streaming menggunakan kerangka kerja perpesanan publikasi-berlangganan,
antrean, dan konektor khusus. Untuk analisis waktu nyata, kita dapat menggunakan
kerangka kerja pemrosesan aliran (seperti Storm) atau kerangka kerja pemrosesan
dalam memori (seperti Spark). Pola Beta dapat digunakan oleh berbagai aplikasi
Internet of Things dan aplikasi pemantauan waktu nyata.
c. Gamma
Pola gamma yang menggabungkan pola analisis batch dan real-time. Pola ini
dimaksudkan untuk menyerap data streaming ke dalam tumpukan data besar dan
menganalisis data baik secara real-time maupun dalam mode batch. Untuk analisis
batch, data dikumpulkan dan dianalisis selama interval tertentu. Sebagai contoh,
mari kita lihat bagaimana pola ini dapat digunakan untuk sistem yang mendeteksi
kebakaran hutan berdasarkan data sensor yang dikumpulkan dari sejumlah besar
perangkat IoT yang digunakan di hutan. Blok analisis waktu nyata dalam pola ini
dapat memfilter dan menganalisis data secara waktu nyata dan membuat prediksi
menggunakan model pembelajaran mesin yang telah dilatih sebelumnya. Sedangkan
d. Delta
pola Delta untuk kueri interaktif. Pola ini menggunakan konektor source-sink (seperti
Flume) atau konektor SQL (seperti Sqoop) untuk menyerap data massal ke dalam
tumpukan data besar. Setelah data dipindahkan ke sistem file terdistribusi, Anda
dapat menggunakan kerangka kerja kueri interaktif (seperti Hive atau Spark SQL)
untuk kueri data dengan kueri seperti SQL dalam mode interaktif. Pola Delta dapat
digunakan oleh aplikasi seperti analisis web, penargetan iklan, manajemen
inventaris, perencanaan dan kontrol produksi, dan berbagai jenis aplikasi
perusahaan.
Keamanan adalah aspek penting lainnya untuk aplikasi big data yang menyimpan dan
memproses data sensitif. Untuk mengamankan kerangka data besar, kerangka kerja
keamanan khusus seperti Apache Ranger dan Apache Knox dapat digunakan. Apache
Ranger, misalnya, menghadirkan fitur keamanan seperti otorisasi, otentikasi, audit,
enkripsi data, dan administrasi keamanan terpusat ke sebagian besar kerangka kerja
yang dapat digunakan untuk mewujudkan pola ini. Apache Knox adalah REST API
Gateway untuk cluster Hadoop, yang menyediakan fitur keamanan seperti otentikasi,
federasi identitas otorisasi, dan audit.