Ak, CPMA,
CIA Hendro Sulistio, S.
Kom
TABLE OF
CONTENTS
1 THE CRISP-DM 5 DATA ANALYTICS METHODOLOGIES
FRAMEWORK
The CRISP-DM
Framework
Cross-industry Standard Process for Data Mining
What is Data
Mining?
Data mining adalah proses mengidentifikasi hubungan dan pola dalam kumpulan data yang
besar, secara efektif mengubah data mentah menjadi informasi penting yang berguna. Proses
data mining menggunakan berbagai metode seperti statistik, Artificial Intelligence (AI), dan
sistem basis data.
CRISP-DM (Cross-industry Standard Process for Data Mining) adalah model/metode standar
yang memberikan gambaran tentang tahapan dan siklus proses data mining.
Fase/langkah-langkah dalam CRISP-DM:
1 2 3
Business Data Data
Understanding Understanding Preparation
4 5 6
Modelling Evaluation Deployment
Business Understanding
Business Understanding adalah fase pertama yang penting dan wajib dalam setiap kegiatan
data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah mengidentifikasi
dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi kebutuhan data dan
bagaimana memperoleh data, menentukan batasan kegiatan dan faktor/data pendukung.
Sumber data meliputi web server logs, situs web seperti facebook, google, database seperti pembelian oleh
pelanggan, keluhan, dll.
Data Preparation
Seperti fase eksplorasi data, fase persiapan (data preparation) data terdiri dari beberapa
langkah untuk memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang
benar agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll, sehingga data
siap untuk digunakan.
Data Preparation
Data Cleaning
Pembersihan data (data cleaning) adalah proses memastikan data dapat digunakan secara
efektif dalam model analitis. Langkah selanjutnya adalah memproses data yang hilang dan
salah yang diidentifikasi pada fase pemahaman atau pengumpulan data .
Kegiatan yang dilakukan dan keputusan yang dibuat pada langkah ini harus didokumentasikan
dalam laporan pembersihan data.
Data Integration
Pada algoritma data mining, diharapkan penggunaan satu sumber data yang diatur ke
dalam baris dan kolom. Jika beberapa sumber data akan digunakan dalam analisis, perlu
untuk menggabungkannya dengan menggunakan fitur umum di setiap kumpulan data untuk
menggabungkan kumpulan data bersama-sama.
Sebagai contoh, kumpulan data detail pelanggan dapat digabungkan dengan catatan
pembelian mereka. Kumpulan data gabungan yang dihasilkan akan memiliki satu baris untuk
setiap pembelian yang berisi atribut pembelian yang digabungkan dengan atribut yang
terkait dengan pelanggan .
Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan variabel baru
atau atribut yang diturunkan ke dalam variabel atau fitur yang ada untuk meningkatkan
kemampuan model.
Modelling Evaluation Deployment
Langkah selanjutnya adalah Pada tahap evaluasi akan dilakukan Selama deployment ini, hasil evaluasi
memilih teknik pemodelan yang evaluasi terhadap kualitas dan akan digunakan untuk menetapkan
paling tepat berdasarkan sifat efektivitas satu atau lebih model jadwal dan strategi penerapan model
analisis dan data yang digunakan. yang dikirim dalam fase pemodelan data mining, merinci langkah-
Banyak metode pemodelan (modelling) sebelum digunakan di langkah yang diperlukan dan
membuat asumsi tentang sifat lapangan. Dan perlu dilakukan bagaimana penerapannya.
data. Sebagai contoh, beberapa verifikasi dan mendokumentasikan
metode dapat bekerja dengan baik bahwa hasil yang diperoleh dari
dengan adanya data yang hilang pemodelan memiliki kebenaran
sedangkan yang lain akan gagal (cukup andal) untuk membuktikan
menghasilkan model yang valid. apakah model tersebut benar-benar
mencapai tujuan yang ditetapkan
pada fase pertama, yakni tahap
Business Understanding.
2
https://www.youtube.com/watch?v=TzxmjbL-i4Y
3 V’s of Big
Volume – Dengan data besar, akan sering harus dilakukan
Data proses data dalam jumlah besar, sebagian besar tidak
Volum terstruktur dan dengan kepadatan informasi yang
e rendah.
Terabytes
Records Velocity – Ini mengacu pada tingkat kecepatan di mana
Transaction data diterima, disimpan, dan digunakan.
s Tables Variety – Variety (keragaman) mengacu pada banyak
jenis data yang tersedia untuk. Contohnya termasuk data
numerik, teks biasa, audio, gambar dan video.
Batch Structured
Real-time Unstructured
V lain yang terkadang ditambahkan ke V's of Big Data adalah
Streams Semi-structured
Veracity. Veracity mengacu pada keakuratan atau kualitas
Near-time All of the
data. Dengan berlalunya waktu, kebenaran atau kualitas data
above
dapat menurun karena semakin banyak data yang dihasilkan.
Velocity Variety
*Value. Nilai dari data setelah dilakukan pengolahan data.
Platforms for Big Data storage and
processing
SQL (Structured Query Language) is a standard language for storing,
SQL manipulating and retrieving data in databases.
The Hadoop Distributed File System allows the storage of extremely large files
HDFS in a highly redundant manner, using a cluster of computers, in this case built
using ‘off-the-shelf’ commodity hardware.
Source of
Data
Internal
Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem informasi
perusahaan, seperti yang digunakan untuk perencanaan sumber daya perusahaan,
manajemen hubungan pelanggan, dan manajemen sumber daya manusia. Data yang
diekstraksi dari sistem seperti itu umumnya sangat terstruktur, atau setidaknya semi-
terstruktur, yang berarti relatif mudah untuk mempersiapkan tugas-tugas data mining.
Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber bisnis yang
digunakan bersama untuk membantu proses pengambilan keputusan manajemen. Data
dari penyimpanan data semacam itu sering digunakan dalam proyek data mining.
Sumber data internal lainnya termasuk email, spreadsheet, dan dokumen pengolah kata.
Dengan pengecualian spreadsheet, data dari sumber-sumber ini tidak memiliki struktur
nyata, sehingga sulit tetapi bukan tidak mungkin untuk menggunakannya untuk tugas-
tugas data mining.
Internal
Sources
Web server logs memelihara riwayat permintaan halaman ke situs web. Data yang
disimpan termasuk alamat IP klien, tanggal dan waktu permintaan, halaman yang diminta,
jumlah byte yang dilayani, jenis dan versi browser web yang digunakan, dan detail situs
yang dibuka oleh klien. Log server web tidak sulit untuk diproses, tetapi dapat berisi
sejumlah data besar, seringkali membutuhkan penggunaan pemrosesan big data.
Customer surveys, baik online maupun berbasis kertas, dapat membuktikan sumber data
yang berguna untuk data mining. Kompleksitas pemrosesan yang diperlukan untuk
menyiapkan data survei untuk data mining tergantung pada desain survei. Survei dengan
jawaban ya/tidak sederhana atau yang menggunakan skala Likert (seperti 1 hingga 5)
adalah yang paling mudah digunakan dan memerlukan sedikit pemrosesan sebelumnya.
Mereka yang memiliki jawaban open text akan memerlukan penggunaan metode analisis
teks.
External
Sources
Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat menjelajah.
Setiap kali pengguna mengklik tautan atau objek lain apa pun di halaman web,
tindakannya direkam. Fasilitas ini memerlukan penggunaan layanan analisis web seperti
Google Analytics dan menganggap bahwa pengguna web tidak memblokir domain web
yang digunakan oleh layanan atau "cookie" yang memungkinkannya berfungsi .
Google Finance menawarkan 40 tahun data pasar saham, diperbarui hampir secara real-
time. Yahoo Finance adalah sumber lain yang umum digunakan untuk data pasar saham.
Keduanya menyediakan data dalam format terstruktur tanpa data yang hilang,
memungkinkannya digunakan untuk data mining dengan sedikit pra-pemrosesan.
External
Sources
Google Trends menyediakan data tentang volume penelusuran web untuk istilah tertentu,
yang mencakup periode dari tahun 2004 dan seterusnya secara terstruktur dan lengkap,
membuatnya mudah untuk dimasukkan ke dalam proyek data mining apa pun.
Climate data tersedia dari layanan meteorologi nasional dan menyediakan pengamatan
uantara lain untuk curah hujan, kecepatan/arah angin, tekanan udara, radiasi matahari.
Meskipun kumpulan data tersebut biasanya terstruktur, karena kerusakan sensor,
kumpulan data tersebut sering kali berisi data yang hilang atau di luar jangkauan dan
karenanya harus diproses dengan hati-hati sebelum digunakan.
Data dari Sosial Media dapat digunakan untuk data mining, tetapi penggunaannya
diperumit oleh kurangnya struktur dan harus hati-hati dalam penggunaannya karena
terkait undang-undang di bidang tersebut dan masalah etika yang ditimbulkan oleh cara
penggunaan data tersebut.
4
Types of
Analytics
Types of Analytics
Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat memengaruhi hasil di masa depan.
Linear equation
Dependent Variable (Y) = Intercept + (Coeffisien x Independent Variable (X))
• P-Values lebih kecil (Lebih kecil dari 0.05. Variabel X yang mempunyai P-Values lebih
besar dari 0.05 dapat dikeluarkan).
Data/Tables
1. Simpan setiap table (sales, customer, product) masing-masing dalam
file excel baru dengan format CSV.
2. Ubah format data orderdata pada tabel sales menjadi “yyyy-mm-dd”.
3. Ubah format data unitprice pada tabel product menjadi number.
MySQL
Query
Membuat Database
Syntax:
create database database_name;
Contoh:
create database data_analytics;
Untuk menghapus database, gunakan syntax: drop database
database_name;
Memilih dan menampilkan data dari table dengan kondisi tertentu dan operator
(AND/OR)
Syntax:
select * from table_name where field_name1 = kondisi1 and/or field_name2 =
kondisi2;
Contoh:
select * from sales where productid = 101 and qty > 20;
MySQL
Query
Memilih dan menampilkan data dari table dengan fungsi aggregate (SUM, COUNT, dll)
dan dikelompokan berdasarkan field tertentu (GROUP BY)
Syntax:
select aggregate_function(fields_name) from table_name group by field_name;
Contoh:
select customerid, sum(totalsales) from sales group by customerid;
Memilih dan menampilkan data dari table yang diurutkan berdasarkan field tertentu
(ORDER BY)
Syntax:
select (fields_name1, fields_name2, …) from table_name order by field_name;
Contoh:
select customerid, productid, totalsales from sales order by customerid;
MySQL
Query
Memilih dan menampilkan data dari 2 table yang berhubungan (JOIN)
Syntax:
select table_name1.field_name, table_name2.field_name
from table_name1
join table_name2 on table_name2.field_name = table_name1.field_name
group by table_name1.field_name;
Contoh:
select customer.customername, sum(sales.totalsales) from sales
join customer on customer.customerid = sales.customerid group
by sales.customerid;
customername sum(sales.totalsales)
Debi Mealy 8021
Kyra Coffin 7931
Evangeline Grandstaff 7602 Dari table sales
Gracie Linwood 7291
Dari table customer
Genaro Knutson 7128
Jerrell Mccafferty 7039
Lyndsey Fagen 6875
Cathern Howey 6499
Mattie Gebhardt 6411
Tamika Pritchett 6247