2 BIG DATA AND DATA ANALYTICS 6 MAINSTREAM TOOLS AND KEY APPLICATIONS
Data mining adalah proses mengidentifikasi hubungan dan pola dalam kumpulan data yang
besar, secara efektif mengubah data mentah menjadi informasi penting yang berguna. Proses
data mining menggunakan berbagai metode seperti statistik, Artificial Intelligence (AI), dan
sistem basis data.
CRISP-DM (Cross-industry Standard Process for Data Mining) adalah model/metode standar
yang memberikan gambaran tentang tahapan dan siklus proses data mining.
Fase/langkah-langkah dalam CRISP-DM:
1
Business
2
Data
3
Data
Understanding Understanding Preparation
4 5 6
Modelling Evaluation Deployment
Business Understanding
Business Understanding adalah fase pertama yang penting dan wajib dalam setiap kegiatan
data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah mengidentifikasi
dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi kebutuhan data dan
bagaimana memperoleh data, menentukan batasan kegiatan dan faktor/data pendukung.
Sumber data meliputi web server logs, situs web seperti facebook,
google, database seperti pembelian oleh pelanggan, keluhan, dll.
Data Preparation
Seperti fase eksplorasi data, fase persiapan data (data preparation) terdiri dari beberapa
langkah untuk memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang
benar agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll, sehingga data
siap untuk digunakan.
Data Preparation
Data Cleaning
Pembersihan data (data cleaning) adalah proses memastikan data dapat digunakan secara
efektif dalam model analitis. Langkah selanjutnya adalah memproses data yang hilang dan
salah yang diidentifikasi pada fase pemahaman atau pengumpulan data .
Kegiatan yang dilakukan dan keputusan yang dibuat pada langkah ini harus didokumentasikan
dalam laporan pembersihan data.
Data Integration
Pada algoritma data mining, diharapkan penggunaan satu sumber data yang diatur ke
dalam baris dan kolom. Jika beberapa sumber data akan digunakan dalam analisis, perlu
untuk menggabungkannya dengan menggunakan fitur umum di setiap kumpulan data untuk
menggabungkan kumpulan data bersama-sama.
Sebagai contoh, kumpulan data detail pelanggan dapat digabungkan dengan catatan
pembelian mereka. Kumpulan data gabungan yang dihasilkan akan memiliki satu baris untuk
setiap pembelian yang berisi atribut pembelian yang digabungkan dengan atribut yang
terkait dengan pelanggan .
Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan variabel baru
atau atribut yang diturunkan ke dalam variabel atau fitur yang ada untuk meningkatkan
kemampuan model.
Modelling Evaluation Deployment
Langkah selanjutnya adalah Pada tahap evaluasi akan dilakukan Selama deployment ini, hasil evaluasi
memilih teknik pemodelan yang evaluasi terhadap kualitas dan akan digunakan untuk menetapkan
paling tepat berdasarkan sifat efektivitas satu atau lebih model jadwal dan strategi penerapan model
analisis dan data yang digunakan. yang dikirim dalam fase pemodelan data mining, merinci langkah-langkah
Banyak metode pemodelan (modelling) sebelum digunakan di yang diperlukan dan bagaimana
membuat asumsi tentang sifat lapangan. Dan perlu dilakukan penerapannya.
data. Sebagai contoh, beberapa verifikasi dan mendokumentasikan
metode dapat bekerja dengan baik bahwa hasil yang diperoleh dari
dengan adanya data yang hilang pemodelan memiliki kebenaran
sedangkan yang lain akan gagal (cukup andal) untuk membuktikan
menghasilkan model yang valid. apakah model tersebut benar-benar
mencapai tujuan yang ditetapkan
pada fase pertama, yakni tahap
Business Understanding.
2
https://www.youtube.com/watch?v=TzxmjbL-i4Y
3 V’s of Big Data
Data Query Language is a query tool used to analyze large sets of data
Hive stored on HDFS. It uses a SQL-like language. It is a declarative language -
in other words, you specify what you want, not how to retrieve it.
Another high-level programming language used to query large data sets
Pig stored on HDFS. It is a data-flow language that specifies the flows of data
from one task to another.
A NoSQL database that runs on Hadoop clusters. NoSQL stands for Not Only SQL
and is a pattern of data access that is more suited to larger data stores. It differs
Hbase from relational databases in a number of ways, not least in that it stores each
column in the data as a separate physical file.
Source of Data
Internal Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem informasi
perusahaan, seperti yang digunakan untuk perencanaan sumber daya perusahaan,
manajemen hubungan pelanggan, dan manajemen sumber daya manusia. Data yang
diekstraksi dari sistem seperti itu umumnya sangat terstruktur, atau setidaknya semi-
terstruktur, yang berarti relatif mudah untuk mempersiapkan tugas-tugas data mining.
Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber bisnis yang
digunakan bersama untuk membantu proses pengambilan keputusan manajemen. Data
dari penyimpanan data semacam itu sering digunakan dalam proyek data mining.
Sumber data internal lainnya termasuk email, spreadsheet, dan dokumen pengolah kata.
Dengan pengecualian spreadsheet, data dari sumber-sumber ini tidak memiliki struktur
nyata, sehingga sulit tetapi bukan tidak mungkin untuk menggunakannya untuk tugas-
tugas data mining.
Internal Sources
Web server logs memelihara riwayat permintaan halaman ke situs web. Data yang
disimpan termasuk alamat IP klien, tanggal dan waktu permintaan, halaman yang diminta,
jumlah byte yang dilayani, jenis dan versi browser web yang digunakan, dan detail situs
yang dibuka oleh klien. Log server web tidak sulit untuk diproses, tetapi dapat berisi
sejumlah data besar, seringkali membutuhkan penggunaan pemrosesan big data.
Customer surveys, baik online maupun berbasis kertas, dapat membuktikan sumber data
yang berguna untuk data mining. Kompleksitas pemrosesan yang diperlukan untuk
menyiapkan data survei untuk data mining tergantung pada desain survei. Survei dengan
jawaban ya/tidak sederhana atau yang menggunakan skala Likert (seperti 1 hingga 5)
adalah yang paling mudah digunakan dan memerlukan sedikit pemrosesan sebelumnya.
Mereka yang memiliki jawaban open text akan memerlukan penggunaan metode analisis
teks.
External Sources
Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat menjelajah.
Setiap kali pengguna mengklik tautan atau objek lain apa pun di halaman web,
tindakannya direkam. Fasilitas ini memerlukan penggunaan layanan analisis web seperti
Google Analytics dan menganggap bahwa pengguna web tidak memblokir domain web
yang digunakan oleh layanan atau "cookie" yang memungkinkannya berfungsi .
Google Finance menawarkan 40 tahun data pasar saham, diperbarui hampir secara real-
time. Yahoo Finance adalah sumber lain yang umum digunakan untuk data pasar saham.
Keduanya menyediakan data dalam format terstruktur tanpa data yang hilang,
memungkinkannya digunakan untuk data mining dengan sedikit pra-pemrosesan.
External Sources
Google Trends menyediakan data tentang volume penelusuran web untuk istilah tertentu,
yang mencakup periode dari tahun 2004 dan seterusnya secara terstruktur dan lengkap,
membuatnya mudah untuk dimasukkan ke dalam proyek data mining apa pun.
Climate data tersedia dari layanan meteorologi nasional dan menyediakan pengamatan
antara lain untuk curah hujan, kecepatan/arah angin, tekanan udara, radiasi matahari.
Meskipun kumpulan data tersebut biasanya terstruktur, karena kerusakan sensor,
kumpulan data tersebut sering kali berisi data yang hilang atau di luar jangkauan dan
karenanya harus diproses dengan hati-hati sebelum digunakan.
Data dari Sosial Media dapat digunakan untuk data mining, tetapi penggunaannya
diperumit oleh kurangnya struktur dan harus hati-hati dalam penggunaannya karena
terkait undang-undang di bidang tersebut dan masalah etika yang ditimbulkan oleh cara
penggunaan data tersebut.
QUIZ TIME
Question 1
Which of the following is the last step in the CRISP-DM Framework of data
mining?
A. Modelling
B. Evaluation
C. Deployment
D. Data understanding
Question 2
Which is the CRISP-DM stage where data sampling occurs?
A. Evaluation
B. Modelling
C. Data Preparation
D. Deployment
Question 3
Big Data has which of the following three characteristics?
A. Aggregation
B. Sampling
C. Interpolation
D. Estimating
Question 5
Which additional V should be applied to Big Data if you exercise
professional skepticism?
A. Viscosity
B. Venality
C. Veracity
D. Vorticity
Question 6
In the modern world the veracity of the data has tended to lower.
A. True
B. False
Question 7
Which of the following is NOT an external source of data?
A. Customer surveys
B. Google Trends
C. Commercial data services
D. Clickstreams
4
Types of Analytics
Types of Analytics
Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat memengaruhi hasil di masa depan.
Linear equation
Dependent Variable (Y) = Intercept + (Coeffisien x Independent Variable (X))
• P-Values lebih kecil (Lebih kecil dari 0.05. Variabel X yang mempunyai P-Values lebih
besar dari 0.05 dapat dikeluarkan).
A. True
B. False
Question 2
Pivot tables is one of the power tools available in Microsoft Excel which
summarizes the data in rows and columns to help in the predictive
analytics.
A. True
B. False
Question 3
Which of the following statistical outcomes of the regression analysis are
key outcomes to look for greater confidence in the regression analysis.
A. R
B. P-values
C. R2
D. Standard deviation
Question 4
Which of the following is NOT a Microsoft Excel function for the
prescriptive analytics.
A. Scenario Manager
B. Goal Seek
C. Pivot table
D. Solver