LN07-Big Data Analytics

LECTURE NOTES
Big Data Technologies
Minggu 7
Big Data Analytics
COMP6725 - Big Data Technologies

LEARNING OUTCOMES
LO 2: Menggunakan analisis dan visualisasi big data
Outcome:
Siswa dapat menggunakan analisis dan visualisasi big data.
OUTLINE MATERI (Sub-Topic):
• Analisis
• Alur Analisis untuk Big Data
• Big Data Stack
• Teknik Analisis Big Data
• Pola Analisis

ISI MATERI
1. Analisis
Analytics adalah istilah luas yang mencakup proses, teknologi, kerangka kerja, dan
algoritme untuk mengekstrak wawasan yang berarti dari data. Data mentah itu sendiri
tidak memiliki arti sampai dikontekstualisasikan dan diproses menjadi informasi yang
berguna. Analytics adalah proses mengekstraksi dan membuat informasi dari data
mentah dengan memfilter, memproses, mengkategorikan, memadatkan, dan
mengontekstualisasikan data. Informasi yang diperoleh ini kemudian diatur dan disusun
untuk menyimpulkan pengetahuan tentang sistem dan/atau penggunanya,
lingkungannya, dan operasinya serta kemajuannya menuju tujuannya, sehingga
membuat sistem lebih cerdas dan lebih efisien.
Pic 7.1 Data analytics.

Source: Big Data Concepts, Technology, and Architecture. 2021
Gambar 6.1 menunjukkan jenis-jenis analitik. Empat jenis analitik adalah:

• Analitik Deskriptif—Insight ke masa lalu;
• Analisis Diagnostik— Memahami apa yang terjadi dan mengapa itu terjadi;
• Analisis Prediktif—Memahami masa depan; dan
• Analitik Preskriptif—Saran tentang kemungkinan hasil.
Gambar 6.2 Menunjukkan pemetaan antara tipe analitik dan tujuh raksasa komputasi.

Pic 7.2 Mapping between types of analytics and computational tasks or ‘giants’
Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016.
a. Analitik Deskriptif
Analisis deskriptif terdiri dari menganalisis data masa lalu untuk menyajikannya
dalam bentuk ringkasan yang dapat dengan mudah ditafsirkan. Analisis deskriptif
bertujuan untuk menjawab - Apa yang telah terjadi? Sebagian besar analitik yang
dilakukan saat ini adalah analitik deskriptif melalui penggunaan fungsi statistik
seperti jumlah, maksimum, minimum, rata-rata, top-N, persentase, misalnya.
Statistik ini membantu dalam menggambarkan pola dalam data dan menyajikan data
dalam bentuk ringkasan.
b. Analisis Diagnostik
Analisis diagnostik terdiri dari analisis data masa lalu untuk mendiagnosis alasan
mengapa peristiwa tertentu terjadi. Analisis diagnostik bertujuan untuk menjawab -
Mengapa itu terjadi? Mari kita perhatikan contoh sistem yang mengumpulkan dan
menganalisis data sensor dari mesin untuk memantau kesehatannya dan
memprediksi kegagalan.
c. Analisis Prediktif
Analisis prediktif terdiri dari memprediksi terjadinya suatu peristiwa atau
kemungkinan hasil dari suatu peristiwa atau memperkirakan nilai masa depan
menggunakan model prediksi. Analisis prediktif bertujuan untuk menjawab - Apa
yang mungkin terjadi? Misalnya, analitik prediktif dapat digunakan untuk
memprediksi kapan kesalahan akan terjadi pada mesin, memprediksi apakah tumor
jinak atau ganas, memprediksi terjadinya keadaan darurat alam (peristiwa seperti
kebakaran hutan atau banjir sungai), atau memperkirakan tingkat polusi. Analisis
prediktif dilakukan dengan menggunakan model prediktif yang dilatih oleh data yang
ada. Model-model ini mempelajari pola dan tren dari data yang ada dan
memprediksi terjadinya suatu peristiwa atau kemungkinan hasil dari suatu peristiwa
(model klasifikasi) atau angka perkiraan (model regresi). Keakuratan model prediksi
tergantung pada kualitas dan volume data yang ada yang tersedia untuk melatih

model, sehingga semua pola dan tren dalam data yang ada dapat dipelajari secara
akurat.
d. Analisis Preskriptif
Analitik prediktif menggunakan model prediksi untuk memprediksi kemungkinan
hasil suatu peristiwa, analitik preskriptif menggunakan beberapa model prediksi
untuk memprediksi berbagai hasil dan tindakan terbaik untuk setiap hasil. Analisis
preskriptif bertujuan untuk menjawab - Apa yang dapat kita lakukan untuk
mewujudkannya? Prescriptive Analytics dapat memprediksi kemungkinan hasil
berdasarkan pilihan tindakan saat ini. Kami dapat mempertimbangkan analitik
preskriptif sebagai jenis analitik yang menggunakan model prediksi berbeda untuk
input yang berbeda. Analitik preskriptif menentukan tindakan atau opsi terbaik untuk
diikuti dari opsi yang tersedia. Misalnya, analitik preskriptif dapat digunakan untuk
meresepkan obat terbaik untuk perawatan pasien berdasarkan hasil berbagai obat
untuk pasien serupa.
e. Siklus Hidup Analisis Data
Pic 7.3 Analytics life cycle.

Source: Big Data Concepts, Technology, and Architecture. 2021
Langkah pertama dalam analisis data adalah mendefinisikan masalah bisnis yang harus
diselesaikan dengan analisis data. Langkah selanjutnya dalam proses ini adalah
mengidentifikasi sumber data yang diperlukan untuk memecahkan masalah. Ini adalah
langkah penting karena data adalah kunci untuk setiap proses analitis. Kemudian
dilakukan pemilihan data. Pemilihan data adalah langkah yang paling memakan waktu.
Semua data tersebut kemudian akan dikumpulkan dalam data mart. Data dari data mart
akan dibersihkan untuk menghilangkan duplikat dan inkonsistensi. Ini akan diikuti oleh
transformasi data, yaitu mengubah data ke format yang diperlukan, seperti mengubah
data dari alfanumerik ke numerik. Selanjutnya adalah analytics pada data yang telah
diproses sebelumnya, yang dapat berupa deteksi penipuan, prediksi churn, dan lain
sebagainya. Setelah ini, model dapat digunakan untuk aplikasi analitik seperti
pengambilan keputusan. Proses analitik ini bersifat iteratif, yang berarti ilmuwan data

mungkin harus pergi ke tahap atau langkah sebelumnya untuk mengumpulkan data
tambahan.
2. Alur Analisis untuk Big Data

Alur umum untuk analitik big data, yang merinci langkah-langkah yang terlibat dalam
penerapan aplikasi analitik umum dan opsi yang tersedia di setiap langkah, disajikan.
Gambar 6.4 menunjukkan alur analitik dengan berbagai langkah. Untuk aplikasi, memilih
opsi untuk setiap langkah dalam alur analitik dapat membantu dalam menentukan alat
dan kerangka kerja yang tepat untuk melakukan analisis.
Pic 7.4 Big Data analytics flow

a. Pengumpulan data
Pengumpulan data adalah langkah pertama untuk aplikasi analitik apa pun. Sebelum
data dapat dianalisis, data harus dikumpulkan dan dimasukkan ke dalam tumpukan
big data. Pilihan alat dan kerangka kerja untuk pengumpulan data bergantung pada
sumber data dan jenis data yang diserap. Untuk pengumpulan data, berbagai jenis
konektor dapat digunakan seperti kerangka kerja pesan publish-subscribe, antrian
pesan, konektor sumber-sink, konektor database, dan konektor kustom.
b. Persiapan data
Data sering kali kotor dan dapat memiliki berbagai masalah yang harus diselesaikan
sebelum data dapat diproses, seperti catatan yang rusak, nilai yang hilang, duplikat,
singkatan yang tidak konsisten, unit yang tidak konsisten, kesalahan ketik, ejaan
yang salah, dan pemformatan yang salah. Langkah persiapan data melibatkan
berbagai tugas seperti pembersihan data, perselisihan atau munging data, de-
duplikasi, normalisasi, pengambilan sampel, dan penyaringan. Pembersihan data
mendeteksi dan menyelesaikan masalah seperti catatan yang rusak, catatan dengan
nilai yang hilang, catatan dengan format yang buruk, misalnya. Perselisihan atau

munging data berkaitan dengan transformasi data dari satu format mentah ke
format mentah lainnya. Misalnya, ketika kami mengumpulkan catatan sebagai file
teks mentah dari sumber yang berbeda, kami mungkin menemukan inkonsistensi
dalam pemisah bidang yang digunakan dalam file yang berbeda. Beberapa file
mungkin menggunakan koma sebagai pemisah bidang, yang lain mungkin
menggunakan tab sebagai pemisah bidang. Perselisihan data menyelesaikan
ketidakkonsistenan ini dengan menguraikan data mentah dari sumber yang berbeda
dan mengubahnya menjadi satu format yang konsisten. Normalisasi diperlukan
ketika data dari sumber yang berbeda menggunakan satuan atau skala yang
berbeda atau memiliki singkatan yang berbeda untuk hal yang sama. Misalnya, data
cuaca yang dilaporkan oleh beberapa stasiun mungkin berisi suhu dalam skala
Celsius sementara data dari stasiun lain mungkin menggunakan skala Fahrenheit.
Penyaringan dan pengambilan sampel mungkin berguna ketika kita hanya ingin
memproses data yang memenuhi aturan tertentu. Pemfilteran juga dapat berguna
untuk menolak catatan buruk dengan nilai yang salah atau di luar rentang.
c. Jenis Analisis
Jenis analisis adalah untuk menentukan jenis analisis untuk aplikasi. jenis analisis
dan algoritme beserta implementasi algoritme menggunakan berbagai alat dan
kerangka big data.
d. Mode Analisis
Dengan jenis analisis yang dipilih untuk aplikasi, langkah selanjutnya adalah
menentukan mode analisis, yang dapat berupa batch, real-time, atau interaktif.
Pilihan mode tergantung pada persyaratan aplikasi. Jika aplikasi Anda menuntut
hasil untuk diperbarui setelah interval waktu yang singkat (katakanlah setiap
beberapa detik), maka mode analisis real-time dipilih. Namun jika aplikasi Anda
hanya membutuhkan hasil yang dihasilkan dan diperbarui pada skala waktu yang
lebih besar (misalnya harian atau bulanan), maka mode batch dapat digunakan. Jika
aplikasi Anda menuntut fleksibilitas untuk meminta data sesuai permintaan, maka
mode interaktif berguna. Setelah Anda menentukan jenis analisis dan mode analisis,
Anda dapat menentukan pola pemrosesan data yang dapat digunakan. Misalnya,
untuk statistik dasar sebagai jenis analisis dan mode analisis batch, MapReduce bisa
menjadi pilihan yang baik. Sedangkan untuk analisis regresi sebagai jenis analisis
dan mode analisis real-time (memprediksi nilai secara real-time), pola Stream
Processing adalah pilihan yang baik. Pilihan jenis analisis, mode analisis, dan pola
pemrosesan data dapat membantu Anda memilih alat dan kerangka kerja yang tepat
untuk analisis data.
e. Visualisasi
Pilihan alat visualisasi, database penyajian, dan kerangka kerja web didorong oleh
persyaratan aplikasi. Visualisasi bisa statis, dinamis, atau interaktif. Visualisasi statis
digunakan saat Anda memiliki hasil analisis yang disimpan dalam database penyajian
dan Anda hanya ingin menampilkan hasilnya. Namun, jika aplikasi Anda menuntut
hasil untuk diperbarui secara berkala, maka Anda akan memerlukan visualisasi
dinamis (dengan widget, plot, atau gauges). Jika Anda ingin aplikasi Anda menerima
masukan dari pengguna dan menampilkan hasilnya, maka Anda memerlukan
visualisasi interaktif.

3. Big Data Stack
Pic 7.4 Big Data Stack

a. Raw Data Sources

Dalam aplikasi atau platform analitik big data, sebelum data diproses dan dianalisis,
data tersebut harus ditangkap dari sumber data mentah ke dalam sistem dan
kerangka kerja big data. Beberapa contoh sumber big data mentah meliputi:
• Log: Log yang dihasilkan oleh aplikasi web dan server yang dapat digunakan
untuk pemantauan kinerja
• Data Transaksional: Data transaksional yang dihasilkan oleh aplikasi seperti
eCommerce, Perbankan, dan Keuangan
• Media Sosial: Data yang dihasilkan oleh platform media sosial
• Database: Data terstruktur yang berada di database relasional
• Data Sensor: Data sensor yang dihasilkan oleh sistem Internet of Things (IoT)
• Data Clickstream: Data clickstream yang dihasilkan oleh aplikasi web dapat
digunakan untuk menganalisis pola penelusuran pengguna
• Surveillance Data: Data sensor, gambar, dan video yang dihasilkan oleh
sistem pengawasan
• Healthcare Data: Healthcare Data yang dihasilkan oleh Electronic Health
Record (EHR) dan aplikasi perawatan kesehatan lainnya
• Data Jaringan: Data jaringan yang dihasilkan oleh perangkat jaringan seperti
router dan firewall
b. Konektor Akses Data
Konektor Akses Data mencakup alat dan kerangka kerja untuk mengumpulkan dan
menyerap data dari berbagai sumber ke dalam penyimpanan data besar dan
kerangka kerja analitik. Pilihan konektor data didorong oleh jenis sumber data. Mari
kita lihat beberapa konektor dan kerangka kerja data yang dapat digunakan untuk
mengumpulkan dan mencerna data. Konektor ini dapat mencakup koneksi kabel dan
nirkabel.

• Publish-Subscribe Messaging: Publish-Subscribe adalah model komunikasi
yang melibatkan penerbit, broker, dan konsumen. Penerbit adalah sumber data.
Penerbit mengirimkan data ke topik yang dikelola oleh broker.
• Konektor Source-Sink: Konektor Source-Sink memungkinkan pengumpulan,
penggabungan, dan pemindahan data secara efisien dari berbagai sumber
(seperti log server, database, media sosial, data sensor streaming dari
perangkat Internet of Things, dan sumber lainnya) ke dalam penyimpanan data
terpusat (seperti sistem file terdistribusi).
• Konektor Basis Data: Konektor basis data dapat digunakan untuk mengimpor
data dari sistem manajemen basis data relasional ke dalam penyimpanan data
besar dan kerangka kerja analitik untuk analisis.
• Antrian Pesan: Antrian pesan berguna untuk pengiriman pesan push-pull di
mana produsen mendorong data ke antrian dan konsumen menarik data dari
antrian. Produsen dan konsumen tidak perlu saling menyadari.
• Konektor Kustom: Konektor kustom dapat dibuat berdasarkan sumber data
dan persyaratan pengumpulan data. Beberapa contoh konektor kustom
termasuk konektor kustom untuk mengumpulkan data dari jaringan sosial,
konektor kustom untuk database NoSQL, dan konektor untuk Internet of Things
(IoT).
c. Data Storage
Blok penyimpanan data dalam tumpukan data besar mencakup sistem file
terdistribusi dan database non-relasional (NoSQL), yang menyimpan data yang
dikumpulkan dari sumber data mentah menggunakan konektor akses data. Dalam
Bab-6, kami menjelaskan Hadoop Distributed File System (HDFS), sistem file
terdistribusi yang berjalan pada cluster besar dan menyediakan akses throughput
tinggi ke data. Dengan data yang disimpan dalam HDFS, dapat dianalisis dengan
berbagai kerangka kerja analitik data besar yang dibangun di atas HDFS. Untuk
aplikasi analitik tertentu, lebih baik menyimpan data dalam database NoSQL seperti
HBase. HBase adalah database berorientasi kolom yang skalabel, non-relasional,
terdistribusi, yang menyediakan penyimpanan data terstruktur untuk tabel besar.
d. Analisis Batch
Blok analitik batch di tumpukan data besar mencakup berbagai kerangka kerja yang
memungkinkan analisis data dalam kumpulan. Ini termasuk yang berikut:
• Hadoop-MapReduce: Hadoop adalah kerangka kerja untuk pemrosesan
batch terdistribusi dari data besar. Model pemrograman MapReduce digunakan
untuk mengembangkan pekerjaan analisis batch yang dieksekusi di cluster
Hadoop.
• Pig: Pig adalah bahasa pemrosesan data tingkat tinggi yang memudahkan
pengembang untuk menulis skrip analisis data yang diterjemahkan ke dalam
program MapReduce oleh kompiler Pig.
• Oozie: Oozie adalah sistem penjadwal alur kerja yang memungkinkan
pengelolaan tugas Hadoop. Dengan Oozie, Anda dapat membuat alur kerja
yang merupakan kumpulan tindakan (seperti pekerjaan MapReduce) yang
disusun sebagai Grafik Acyclic Langsung (DAG).
• Spark: Apache Spark adalah kerangka kerja komputasi cluster open-source
untuk analisis data. Spark mencakup berbagai alat tingkat tinggi untuk analisis

data seperti Spark Streaming untuk tugas streaming, Spark SQL untuk analisis
data terstruktur, perpustakaan pembelajaran mesin MLlib untuk Spark, dan
GraphX untuk pemrosesan grafik.
• Solr: Apache Solr adalah kerangka kerja scalable dan open-source untuk
mencari data.
• Machine Learning: Spark MLlib adalah perpustakaan machine learning Spark
yang menyediakan implementasi berbagai algoritme machine learning. H2O
adalah kerangka kerja analitik prediktif sumber terbuka yang menyediakan
implementasi berbagai algoritme machine learning.
e. Analisis Real-time
Blok analitik real-time mencakup kerangka kerja Apache Storm dan Spark
Streaming. Apache Storm adalah kerangka kerja untuk komputasi realtime
terdistribusi dan toleran terhadap kesalahan. Storm dapat digunakan untuk
pemrosesan aliran data secara real-time. Storm dapat menggunakan data dari
berbagai sumber seperti kerangka kerja perpesanan terbitkan-berlangganan (seperti
Kafka atau Kinesis), antrian pengiriman pesan (seperti RabbitMQ atau ZeroMQ), dan
konektor khusus lainnya. Spark Streaming adalah komponen Spark yang
memungkinkan analisis data streaming seperti data sensor, data clickstream, log
server web, misalnya. Data streaming diserap dan dianalisis dalam mikro-batch.
Spark Streaming memungkinkan pemrosesan aliran terukur, throughput tinggi, dan
toleransi kesalahan.
f. Kueri Interaktif
Sistem kueri interaktif memungkinkan pengguna untuk meminta data dengan
menulis pernyataan dalam bahasa seperti SQL.
• Spark SQL: Spark SQL adalah komponen Spark yang memungkinkan kueri
interaktif. Spark SQL berguna untuk membuat kueri data terstruktur dan semi
terstruktur menggunakan kueri seperti SQL.
• Hive: Apache Hive adalah kerangka kerja pergudangan data yang dibangun di
atas Hadoop. Hive menyediakan bahasa kueri seperti SQL yang disebut Bahasa
Kueri Hive, untuk kueri data yang berada di HDFS.
• Amazon Redshift: Amazon Redshift adalah layanan gudang data terkelola
yang cepat dan berskala besar. Redshift mengkhususkan diri dalam menangani
kueri pada kumpulan data berukuran hingga satu petabyte atau lebih yang
memparalelkan kueri SQL di semua sumber daya di cluster Redshift.
• Google BigQuery: Google BigQuery adalah layanan untuk mengkueri
kumpulan data yang sangat besar. BigQuery memungkinkan kueri set data
menggunakan kueri seperti SQL.
g. Melayani Database, Web & Kerangka Visualisasi
Sementara berbagai blok analitik memproses dan menganalisis data, hasilnya
disimpan dalam database penyajian untuk tugas presentasi dan visualisasi
selanjutnya. Basis data penyajian ini memungkinkan data yang dianalisis untuk
ditanyakan dan disajikan dalam aplikasi web. Berikut database SQL dan NoSQL yang
dapat digunakan sebagai database penyajian:
• MySQL: MySQL adalah salah satu Sistem Manajemen Basis Data Relasional
(RDBMS) yang paling banyak digunakan dan merupakan pilihan yang baik

untuk digunakan sebagai basis data penyajian untuk aplikasi analitik data di
mana data terstruktur.
• Amazon DynamoDB: Amazon DynamoDB adalah layanan database NoSQL
yang terkelola sepenuhnya, skalabel, dan berkinerja tinggi dari Amazon.
DynamoDB adalah pilihan yang sangat baik untuk database penyajian untuk
aplikasi analisis data karena memungkinkan penyimpanan dan pengambilan
data dalam jumlah berapa pun dan kemampuan untuk meningkatkan atau
menurunkan throughput yang disediakan.
• Cassandra: Cassandra adalah sistem basis data non-relasional sumber terbuka
yang dapat diskalakan, sangat tersedia, dan toleran terhadap kesalahan.
• MongoDB: MongoDB adalah sistem database non-relasional berorientasi
dokumen. MongoDB adalah database yang kuat, fleksibel, dan sangat skalabel
yang dirancang untuk aplikasi web dan merupakan pilihan yang baik untuk
melayani database untuk aplikasi analisis data.
Pic 7.5 Mapping Analytics Flow to Big Data Stack - Part I

Source: Big Data Science & Analytics: A Hands-On Approach Basic Statistics., 2016
Pic 7.6 Mapping Analytics Flow to Big Data Stack - Part II


Untuk tugas pengumpulan data, pilihan alat atau kerangka kerja tertentu bergantung
pada jenis sumber data (seperti file log, mesin yang menghasilkan data sensor, umpan
media sosial, catatan dalam database relasional, misalnya) dan karakteristik data. Jika
data akan diserap secara massal (seperti file log), maka source-sink seperti Apache
Flume dapat digunakan. Namun, jika data berkecepatan tinggi akan diserap secara real-
time, maka kerangka kerja perpesanan publikasi-berlangganan terdistribusi seperti
Apache Kafka atau Amazon Kinesis dapat digunakan. Untuk menyerap data dari database
relasional, kerangka kerja seperti Apache Sqoop dapat digunakan. Konektor khusus dapat
dibuat berdasarkan HTTP/REST, WebSocket, atau MQTT, jika solusi lain tidak berfungsi
dengan baik untuk aplikasi atau ada kendala tambahan. Misalnya, perangkat IoT yang
menghasilkan data sensor mungkin dibatasi oleh sumber daya dan daya, dalam hal ini
protokol komunikasi ringan seperti MQTT dapat dipilih dan konektor berbasis MQTT
khusus dapat digunakan.
Untuk pembersihan dan transformasi data, alat seperti Open Refine dan Stanford
DataWrangler dapat digunakan. Alat-alat ini mendukung berbagai format file seperti CSV,
Excel, XML, JSON, dan format berbasis garis. Dengan alat ini, Anda dapat menghapus
duplikat, memfilter catatan dengan nilai yang hilang, memangkas spasi awal dan akhir,
mentranspos baris ke kolom, mengubah nilai sel, mengelompokkan sel serupa, dan
melakukan berbagai transformasi lainnya. Untuk memfilter, menggabungkan, dan
transformasi lainnya, kerangka kerja skrip tingkat tinggi seperti Pig bisa sangat berguna.
Manfaat menggunakan Pig adalah Anda dapat memproses data dalam jumlah besar
dalam mode batch, yang mungkin sulit dilakukan dengan alat yang berdiri sendiri. Ketika
Anda tidak yakin Untuk tugas pengumpulan data, pilihan alat atau kerangka kerja
tertentu bergantung pada jenis sumber data (seperti file log, mesin yang menghasilkan
data sensor, umpan media sosial, catatan dalam database relasional, misalnya) dan
karakteristik data. Jika data akan diserap secara massal (seperti file log), maka source-
sink seperti Apache Flume dapat digunakan. Namun, jika data berkecepatan tinggi akan
diserap secara real-time, maka kerangka kerja perpesanan publikasi-berlangganan
terdistribusi seperti Apache Kafka atau Amazon Kinesis dapat digunakan. Untuk
menyerap data dari database relasional, kerangka kerja seperti Apache Sqoop dapat
digunakan. Konektor khusus dapat dibuat berdasarkan HTTP/REST, WebSocket, atau
MQTT, jika solusi lain tidak berfungsi dengan baik untuk aplikasi atau ada kendala
tambahan. Misalnya, perangkat IoT yang menghasilkan data sensor mungkin dibatasi
oleh sumber daya dan daya, dalam hal ini protokol komunikasi ringan seperti MQTT
dapat dipilih dan konektor berbasis MQTT khusus dapat digunakan.
Untuk pembersihan dan transformasi data, alat seperti Open Refine dan Stanford
DataWrangler dapat digunakan. Alat-alat ini mendukung berbagai format file seperti CSV,
Excel, XML, JSON, dan format berbasis garis. Dengan alat ini, Anda dapat menghapus
duplikat, memfilter catatan dengan nilai yang hilang, memangkas spasi awal dan akhir,
mentranspos baris ke kolom, mengubah nilai sel, mengelompokkan sel serupa, dan
melakukan berbagai transformasi lainnya. Untuk memfilter, menggabungkan, dan
transformasi lainnya, kerangka kerja skrip tingkat tinggi seperti Pig bisa sangat berguna.
Manfaat menggunakan Pig adalah Anda dapat memproses data dalam jumlah besar
dalam mode batch, yang mungkin sulit dilakukan dengan alat yang berdiri sendiri. Ketika
Anda tidak yakin tentang transformasi apa yang harus diterapkan dan ingin menjelajahi

data dan mencoba berbagai transformasi, maka kerangka kerja kueri interaktif seperti
Hive, SparkSQL dapat berguna. Dengan alat ini, Anda dapat membuat kueri data dengan
kueri yang ditulis dalam bahasa seperti SQL.
Untuk jenis analisis statistik dasar (dengan analisis seperti penghitungan komputasi,
maks, min, rata-rata, top-N, perbedaan, korelasi, misalnya), sebagian besar analisis
dapat dilakukan menggunakan kerangka Hadoop-MapReduce atau dengan skrip Pig. Baik
MapReduce dan Pig memungkinkan analisis data dalam mode batch. Untuk statistik dasar
dalam mode batch, kerangka kerja Spark juga merupakan pilihan yang baik. Untuk
statika dasar dalam mode waktu nyata, kerangka kerja Spark Streaming dan Storm dapat
digunakan. Untuk statistik dasar dalam mode interaktif, kerangka kerja seperti Hive dan
SparkSQL dapat digunakan. Seperti, statistik dasar, kita juga dapat memetakan jenis
analisis lain ke salah satu kerangka kerja di tumpukan data besar.
4. Teknik Analisis Big Data

Berbagai teknik analitik yang terlibat dalam data besar adalah:
a. Analisis kuantitatif.
Data kuantitatif adalah data yang didasarkan pada angka. Analisis kuantitatif dalam
big data adalah analisis data kuantitatif. Tujuan utama dari jenis analisis statistik ini
adalah kuantifikasi. Hasil dari populasi sampel dapat digeneralisasikan ke seluruh
populasi yang diteliti. Berbagai jenis data kuantitatif yang digunakan untuk analisis
kuantitatif adalah:
• Data nominal—Ini adalah jenis data kategorikal di mana data dijelaskan
berdasarkan kategori. Jenis data ini tidak memiliki signifikansi numerik. Operasi
aritmatika tidak dapat dilakukan pada jenis data ini. Contohnya adalah jenis
kelamin (laki-laki, perempuan) dan tinggi badan (tinggi, pendek).
• Data ordinal—Urutan atau peringkat data adalah yang terpenting dalam data
ordinal, bukan perbedaan antar data. Operator aritmatika > dan < digunakan.
Misalnya, ketika seseorang diminta untuk mengekspresikan kebahagiaannya
pada skala 1-10, skor 8 berarti orang tersebut lebih bahagia daripada skor 5,
yang lebih dari skor 3. Nilai-nilai ini hanya mengungkapkan urutan
kebahagiaan. Contoh lainnya adalah peringkat yang berkisar dari satu bintang
hingga bintang lima, yang digunakan di beberapa aplikasi seperti peringkat film,
konsumsi perangkat elektronik saat ini, dan kinerja aplikasi android.
• Data interval—Dalam kasus data interval, tidak hanya urutan data yang
penting, tetapi perbedaan di antara mereka juga penting. Salah satu contoh
umum dari data ordinal adalah perbedaan suhu dalam Celcius. Perbedaan
antara 50 °C dan 60 °C sama dengan perbedaan antara 70 °C dan 80 °C.
Dalam skala waktu, peningkatannya konsisten dan terukur.
• Data rasio—Variabel rasio pada dasarnya adalah data interval dengan properti
tambahan yang nilainya dapat benar-benar nol. Nilai nol pada rasio
menunjukkan bahwa variabel tersebut tidak ada. Tinggi badan, berat badan,
dan umur adalah contoh data rasio. Misalnya 40 dari 10 tahun. Sedangkan
data-data seperti suhu merupakan variabel rasio karena 0°C bukan berarti suhu
tidak ada.

b. Analisis kualitatif.
Analisis kualitatif dalam data besar adalah analisis data dalam pengaturan alami
mereka. Data kualitatif adalah data yang tidak mudah direduksi menjadi angka.
Cerita, artikel, komentar survei, transkripsi, percakapan, musik, grafik, seni, dan
gambar adalah data kualitatif. Analisis kualitatif pada dasarnya menjawab
pertanyaan “bagaimana”, “mengapa”, dan “apa”. Pada dasarnya ada dua
pendekatan dalam analisis data kualitatif, yaitu pendekatan deduktif dan pendekatan
induktif. Analisis deduktif dilakukan dengan menggunakan pertanyaan penelitian
untuk mengelompokkan data yang diteliti dan kemudian dicari persamaan atau
perbedaannya. Pendekatan induktif dilakukan dengan menggunakan kerangka
penelitian yang muncul untuk mengelompokkan data dan kemudian mencari
hubungan di dalamnya.
Sebuah analisis kualitatif memiliki tipe dasar berikut:
• Content analysis— Content analysis digunakan untuk tujuan klasifikasi, tabulasi,
dan peringkasan. Analisis isi dapat bersifat deskriptif (apa sebenarnya data itu?)
atau interpretatif (apa arti data itu?).
• Analisis naratif—Analisis naratif digunakan untuk menyalin data observasi atau
wawancara. Data harus ditingkatkan dan disajikan kepada pembaca dalam
bentuk yang direvisi. Dengan demikian, kegiatan inti dari analisis naratif adalah
merumuskan kembali data yang disajikan oleh orang-orang dalam konteks yang
berbeda berdasarkan pengalaman mereka.
• Discourse analysis— Discourse analysis digunakan dalam menganalisis data
seperti teks tertulis atau percakapan yang terjadi secara alami. Analisis ini
berfokus terutama pada bagaimana orang menggunakan bahasa untuk
mengekspresikan diri mereka secara verbal. Beberapa orang berbicara dengan
cara yang sederhana dan lugas sementara beberapa orang lain berbicara
dengan cara yang tidak jelas dan tidak langsung.
• Framework analysis— Framework analysis digunakan dalam mengidentifikasi
kerangka kerja awal, yang dikembangkan dari masalah yang dihadapi.
• Grounded theory—Grounded theory pada dasarnya dimulai dengan memeriksa
satu kasus tertentu dari populasi dan merumuskan teori umum tentang seluruh
populasi.
c. Analisis statistik.
Analisis statistik menggunakan metode statistik untuk menganalisis data. Adapun
teknik analisis statistik yang dijelaskan adalah:
• Pengujian A/B;
Pengujian A/B juga disebut pengujian split atau pengujian bucket adalah
metode yang membandingkan dua versi objek yang diminati untuk menentukan
mana di antara dua versi yang berkinerja lebih baik. Elemen yang dianalisis
dapat berupa halaman web atau penawaran online pada produk. Kedua versi
tersebut adalah versi A, yang merupakan versi saat ini dan disebut versi
kontrol, dan versi yang dimodifikasi, versi B, disebut perawatan. Baik versi A
dan versi B diuji secara bersamaan, dan hasilnya dianalisis untuk menentukan
versi yang berhasil. Misalnya, dua versi halaman web yang berbeda untuk
pengunjung dengan minat yang sama. Versi yang berhasil adalah yang memiliki
tingkat konversi lebih tinggi. Ketika versi situs web e-niaga dibandingkan, versi

dengan lebih banyak pembeli akan dianggap berhasil. Demikian pula, situs web
baru yang memenangkan lebih banyak langganan berbayar dianggap sebagai
versi yang berhasil. Apa pun di situs web seperti judul, gambar, tautan, teks
paragraf, dan sebagainya, dapat diuji.
• Korelasi.
Korelasi adalah metode yang digunakan untuk menentukan ada tidaknya
hubungan antara dua variabel, yaitu untuk menentukan apakah keduanya
berkorelasi. Jika mereka berkorelasi, jenis korelasi antara variabel ditentukan.
Jenis korelasi ditentukan dengan memantau variabel kedua ketika variabel
pertama meningkat atau menurun. Ini dikategorikan menjadi tiga jenis:
• Korelasi positif—Ketika satu variabel meningkat, variabel lainnya meningkat.
Contoh korelasi positif adalah:
o Produksi minuman dingin dan es krim meningkat dengan meningkatnya
suhu.
o Semakin banyak seseorang berolahraga, semakin banyak kalori yang
terbakar.
o Dengan meningkatnya konsumsi makanan, kenaikan berat badan
seseorang meningkat.
Positive Correlation
• Korelasi negatif—Ketika satu variabel meningkat, variabel lainnya menurun.

Contoh korelasi negatif adalah:
o Saat cuaca semakin dingin, biaya AC berkurang.
o Kemampuan kerja menurun dengan bertambahnya usia.
o Dengan bertambahnya kecepatan mobil, waktu yang dibutuhkan untuk
melakukan perjalanan berkurang.
Negative Correlation

• Tidak ada korelasi—Ketika satu variabel meningkat, variabel lainnya tidak
berubah. Gambar 6.6c menunjukkan tidak ada korelasi. Contoh tidak ada
korelasi antara dua variabel adalah:
o Tidak ada korelasi antara makan Cheetos dan berbicara bahasa Inggris
dengan lebih baik.
No Correlation
• Regresi.
Regresi adalah teknik yang digunakan untuk menentukan hubungan antara
variabel dependen dan variabel independen. Variabel dependen adalah variabel
hasil atau variabel respons atau variabel prediksi, dilambangkan dengan "Y",
dan variabel independen adalah prediktor atau penjelas atau variabel pembawa
atau variabel input, dilambangkan dengan "X." Teknik regresi digunakan ketika
ada hubungan antara variabel. Hubungan tersebut dapat ditentukan dengan
scatterplot. Hubungan tersebut dapat dimodelkan dengan memasang titik-titik
data pada persamaan linier. persamaan linearnya adalah
Y = a + bX,
dimana,
X = variabel bebas,
Y = variabel terikat,
a = intersep, nilai Y saat X = 0, dan
b = kemiringan garis.
5. Pola Analisis
Empat pola analitik: Alpha, Beta, Gamma, dan Delta, yang terdiri dari alat dan kerangka
kerja untuk mengumpulkan dan menyerap data dari berbagai sumber ke dalam
infrastruktur analitik data besar, sistem file terdistribusi, dan database non-relasional
(NoSQL) untuk penyimpanan data, kerangka kerja pemrosesan untuk analitik batch dan
real-time, kerangka kerja kueri interaktif, basis data penyajian, dan kerangka kerja web
dan visualisasi. Pola-pola ini dan metodologi desain sistem aplikasi ilmu data dan analitik
a. Alpha
Pola Alpha untuk analisis data batch. Pola ini dapat digunakan untuk menyerap data
dalam jumlah besar ke dalam sistem file terdistribusi (seperti HDFS) atau database
NoSQL (seperti HBase) menggunakan konektor source-sink (seperti Flume) dan
konektor SQL (seperti Sqoop). Setelah data dipindahkan ke tumpukan, data dapat
dianalisis dalam mode batch dengan kerangka kerja analisis batch termasuk

MapReduce (menggunakan Hadoop), kerangka kerja skrip (seperti Pig), kerangka
kerja grafik asiklik terdistribusi (seperti Spark), kerangka kerja pembelajaran mesin
(seperti Spark MLlib). Hasil analisis disimpan baik dalam database relasional maupun
non-relasional. Pola alfa yang dapat digunakan meliputi analisis web, pemantauan
cuaca, pengawasan epidemiologi, dan diagnosis mesin.
Pic 7.7 Alpha Pattern: Batch analysis

b. Beta,
pola Beta untuk analisis waktu nyata. Pola ini dapat digunakan untuk menyerap data
streaming menggunakan kerangka kerja perpesanan publikasi-berlangganan,
antrean, dan konektor khusus. Untuk analisis waktu nyata, kita dapat menggunakan
kerangka kerja pemrosesan aliran (seperti Storm) atau kerangka kerja pemrosesan
dalam memori (seperti Spark). Pola Beta dapat digunakan oleh berbagai aplikasi
Internet of Things dan aplikasi pemantauan waktu nyata.
Pic 7.8 Beta Pattern: Real-time analysis

c. Gamma
Pola gamma yang menggabungkan pola analisis batch dan real-time. Pola ini
dimaksudkan untuk menyerap data streaming ke dalam tumpukan data besar dan
menganalisis data baik secara real-time maupun dalam mode batch. Untuk analisis
batch, data dikumpulkan dan dianalisis selama interval tertentu. Sebagai contoh,
mari kita lihat bagaimana pola ini dapat digunakan untuk sistem yang mendeteksi
kebakaran hutan berdasarkan data sensor yang dikumpulkan dari sejumlah besar
perangkat IoT yang digunakan di hutan. Blok analisis waktu nyata dalam pola ini
dapat memfilter dan menganalisis data secara waktu nyata dan membuat prediksi
menggunakan model pembelajaran mesin yang telah dilatih sebelumnya. Sedangkan

blok analisis batch dapat menganalisis data yang dikumpulkan selama interval
tertentu (seperti per jam, harian, bulanan, atau tahunan).
Pic 7.9 Gamma Pattern: Batch & Real-time analysis

d. Delta
pola Delta untuk kueri interaktif. Pola ini menggunakan konektor source-sink (seperti
Flume) atau konektor SQL (seperti Sqoop) untuk menyerap data massal ke dalam
tumpukan data besar. Setelah data dipindahkan ke sistem file terdistribusi, Anda
dapat menggunakan kerangka kerja kueri interaktif (seperti Hive atau Spark SQL)
untuk kueri data dengan kueri seperti SQL dalam mode interaktif. Pola Delta dapat
digunakan oleh aplikasi seperti analisis web, penargetan iklan, manajemen
inventaris, perencanaan dan kontrol produksi, dan berbagai jenis aplikasi
perusahaan.
Pic 7.10 Delta Pattern: Interactive querying

6. Tingkat Kompleksitas untuk Pola Analytics

Untuk masing-masing pola ini, mungkin ada beberapa tingkat kompleksitas dan opsi
konfigurasi berdasarkan fitur seperti kinerja, skalabilitas, toleransi kesalahan, dan
keamanan.

Pic 7.11 Complexity levels for analytics patterns
Keamanan adalah aspek penting lainnya untuk aplikasi big data yang menyimpan dan
memproses data sensitif. Untuk mengamankan kerangka data besar, kerangka kerja
keamanan khusus seperti Apache Ranger dan Apache Knox dapat digunakan. Apache
Ranger, misalnya, menghadirkan fitur keamanan seperti otorisasi, otentikasi, audit,
enkripsi data, dan administrasi keamanan terpusat ke sebagian besar kerangka kerja
yang dapat digunakan untuk mewujudkan pola ini. Apache Knox adalah REST API
Gateway untuk cluster Hadoop, yang menyediakan fitur keamanan seperti otentikasi,
federasi identitas otorisasi, dan audit.

SIMPULAN
o Analytics adalah proses mengekstraksi dan membuat informasi dari data
mentah dengan menyaring, memproses, mengkategorikan, memadatkan, dan
mengontekstualisasikan data. Analisis deskriptif berkaitan dengan
menganalisis data masa lalu untuk menyajikannya dalam bentuk ringkasan
yang dapat dengan mudah ditafsirkan. Analitik diagnostik berkaitan dengan
analisis data masa lalu untuk mendiagnosis alasan terjadinya peristiwa
tertentu. Analisis prediktif melibatkan memprediksi terjadinya suatu peristiwa
atau kemungkinan hasil dari suatu peristiwa atau meramalkan nilai masa
depan menggunakan model prediksi. Analitik preskriptif menggunakan
beberapa model prediksi untuk memprediksi berbagai hasil dan tindakan
terbaik untuk setiap hasil. Analisis data besar berkaitan dengan pengumpulan,
penyimpanan, pemrosesan, dan analisis data skala besar. Analisis data besar
melibatkan beberapa langkah mulai dari pembersihan data, munging data
(atau pertengkaran), pemrosesan data, dan visualisasi.
o Empat pola analitik yang mencakup berbagai kategori kerangka kerja data
besar seperti akuisisi data, penyimpanan data, analisis batch, analisis waktu
nyata, kueri interaktif, basis data penyajian, dan kerangka kerja web dan
visualisasi. Pola yang diusulkan bersifat generik dan realisasi spesifik dari
pola ini dapat dibuat dengan memetakannya ke kerangka kerja tertentu atau
layanan cloud dan analitik dari vendor cloud yang berbeda.

DAFTAR PUSTAKA
• Arshdeep Bahga & Vijay Madisetti. (2016). Big Data Science & Analytics: A Hands-
On Approach. 1st E. VPT. India. ISBN: 9781949978001. Chapter 1.
• Balusamy. Balamurugan, Abirami.Nandhini, Kadry.R, Seifedine, & Gandomi. Amir H.
(2021). Big Data Concepts, Technology, and Architecture. 1st. Wiley. ISBN 978-1-
119-70182-8. Chapter 6
• https://www.youtube.com/watch?v=bY6ZzQmtOzk
• https://www.youtube.com/watch?v=fWE93St-RaQ
• https://www.youtube.com/watch?v=vax2bgG8hu8
• https://www.youtube.com/watch?v=NZzsbVpRrsA
• https://www.youtube.com/watch?v=R_ZImPOPJ7U

LN07-Big Data Analytics

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

LN07-Big Data Analytics

Diunggah oleh

Hak Cipta:

Format Tersedia

LECTURE NOTES

Big Data Technologies

Big Data Analytics

COMP6725 - Big Data Technologies

LO 2: Menggunakan analisis dan visualisasi big data

Siswa dapat menggunakan analisis dan visualisasi big data.

OUTLINE MATERI (Sub-Topic):

COMP6725 - Big Data Technologies

Pic 7.1 Data analytics.

Gambar 6.1 menunjukkan jenis-jenis analitik. Empat jenis analitik adalah:

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Pic 7.3 Analytics life cycle.

COMP6725 - Big Data Technologies

2. Alur Analisis untuk Big Data

Pic 7.4 Big Data analytics flow

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Pic 7.4 Big Data Stack

a. Raw Data Sources

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Pic 7.5 Mapping Analytics Flow to Big Data Stack - Part I

Pic 7.6 Mapping Analytics Flow to Big Data Stack - Part II

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

4. Teknik Analisis Big Data

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

• Korelasi negatif—Ketika satu variabel meningkat, variabel lainnya menurun.

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Pic 7.7 Alpha Pattern: Batch analysis

Pic 7.8 Beta Pattern: Real-time analysis

COMP6725 - Big Data Technologies

Pic 7.9 Gamma Pattern: Batch & Real-time analysis

Pic 7.10 Delta Pattern: Interactive querying

6. Tingkat Kompleksitas untuk Pola Analytics

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

COMP6725 - Big Data Technologies

Anda mungkin juga menyukai