Anda di halaman 1dari 37

M. Malik, M.

Ak, CPMA,
CIA Hendro Sulistio, S.
Kom
TABLE OF
CONTENTS
1 THE CRISP-DM 5 DATA ANALYTICS METHODOLOGIES
FRAMEWORK

2 BIG DATA AND DATA 6 MAINSTREAM TOOLS AND KEY


ANALYTICS APPLICATIONS

3 SOURCES OF 7 DATA VISUALIZATION AND


COMMUNICATION
DATA

4 TYPES OF 8 SKEPTICISM AND ETHICAL


ANALYTICS CONSIDERATIONS
1

The CRISP-DM
Framework
Cross-industry Standard Process for Data Mining
What is Data
Mining?
Data mining adalah proses mengidentifikasi hubungan dan pola dalam kumpulan data yang
besar, secara efektif mengubah data mentah menjadi informasi penting yang berguna. Proses
data mining menggunakan berbagai metode seperti statistik, Artificial Intelligence (AI), dan
sistem basis data.

CRISP-DM (Cross-industry Standard Process for Data Mining) adalah model/metode standar
yang memberikan gambaran tentang tahapan dan siklus proses data mining.
Fase/langkah-langkah dalam CRISP-DM:

1 2 3
Business Data Data
Understanding Understanding Preparation

4 5 6
Modelling Evaluation Deployment
Business Understanding

Business Understanding adalah fase pertama yang penting dan wajib dalam setiap kegiatan
data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah mengidentifikasi
dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi kebutuhan data dan
bagaimana memperoleh data, menentukan batasan kegiatan dan faktor/data pendukung.

Contoh tujuan kegiatan:


• Memprediksi volume penjualan pada harga tertentu
• Menggunakan sumber daya yang terbatas dengan cara yang paling menguntungkan
• Mengoptimalkan penjualan atau keuntungan
Data Understanding
Memperoleh dan mengeksplorasi data yang diidentifikasi sebagai bagian dari fase
sebelumnya dan memiliki tiga langkah terpisah yang masing-masing menghasilkan laporan.

Data Acquisition Data Description Data Exploration


Pengambilan data dari sumbernya Langkah selanjutnya menampilkan Langkah ini didasarkan pada
masing-masing dan pembuatan data dalam bentuk tampilan yang deskripsi data (data description) dan
laporan akuisisi data yang mudah terbaca, baik data kualitatif melibatkan penggunaan teknik
mencantumkan sumber data, alat (narasi) atau pun kuantitatif (angka) statistik dan visualisasi untuk
atau teknik yang digunakan untuk dan melakukan pemeriksaan data mengembangkan pemahaman yang
memperolehnya. untuk membantu menghasilkan
lebih dalam tentang data dan
laporan kualitas data.
kesesuaiannya untuk analisis.

Sumber data meliputi web server logs, situs web seperti facebook, google, database seperti pembelian oleh
pelanggan, keluhan, dll.
Data Preparation
Seperti fase eksplorasi data, fase persiapan (data preparation) data terdiri dari beberapa
langkah untuk memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang
benar agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll, sehingga data
siap untuk digunakan.

Data Preparation

Data Selection Data Cleaning Data Integration Feature Engginering


Data Selection
Langkah pertama dalam persiapan data adalah menentukan data yang akan digunakan
dalam analisis. Selain dari laporan yang dihasilkan pada fase pemahaman data (data
understanding), data yang digunakan juga dapat didasarkan pada relevansi kumpulan data
atau atribut tertentu untuk tujuan proyek data mining, serta kemampuan alat dan sistem
yang digunakan untuk membangun model analisis.

Data Cleaning
Pembersihan data (data cleaning) adalah proses memastikan data dapat digunakan secara
efektif dalam model analitis. Langkah selanjutnya adalah memproses data yang hilang dan
salah yang diidentifikasi pada fase pemahaman atau pengumpulan data .

Kegiatan yang dilakukan dan keputusan yang dibuat pada langkah ini harus didokumentasikan
dalam laporan pembersihan data.
Data Integration
Pada algoritma data mining, diharapkan penggunaan satu sumber data yang diatur ke
dalam baris dan kolom. Jika beberapa sumber data akan digunakan dalam analisis, perlu
untuk menggabungkannya dengan menggunakan fitur umum di setiap kumpulan data untuk
menggabungkan kumpulan data bersama-sama.

Sebagai contoh, kumpulan data detail pelanggan dapat digabungkan dengan catatan
pembelian mereka. Kumpulan data gabungan yang dihasilkan akan memiliki satu baris untuk
setiap pembelian yang berisi atribut pembelian yang digabungkan dengan atribut yang
terkait dengan pelanggan .

Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan variabel baru
atau atribut yang diturunkan ke dalam variabel atau fitur yang ada untuk meningkatkan
kemampuan model.
Modelling Evaluation Deployment
Langkah selanjutnya adalah Pada tahap evaluasi akan dilakukan Selama deployment ini, hasil evaluasi
memilih teknik pemodelan yang evaluasi terhadap kualitas dan akan digunakan untuk menetapkan
paling tepat berdasarkan sifat efektivitas satu atau lebih model jadwal dan strategi penerapan model
analisis dan data yang digunakan. yang dikirim dalam fase pemodelan data mining, merinci langkah-
Banyak metode pemodelan (modelling) sebelum digunakan di langkah yang diperlukan dan
membuat asumsi tentang sifat lapangan. Dan perlu dilakukan bagaimana penerapannya.
data. Sebagai contoh, beberapa verifikasi dan mendokumentasikan
metode dapat bekerja dengan baik bahwa hasil yang diperoleh dari
dengan adanya data yang hilang pemodelan memiliki kebenaran
sedangkan yang lain akan gagal (cukup andal) untuk membuktikan
menghasilkan model yang valid. apakah model tersebut benar-benar
mencapai tujuan yang ditetapkan
pada fase pertama, yakni tahap
Business Understanding.
2

Big Data and


Data Analytics
What exactly makes Big Data
“big”?
Definisi yang sangat mendasar adalah bahwa “big data" merupakan kumpulan data yang
begitu besar dan kompleks sehingga sulit atau bahkan tidak mungkin untuk memprosesnya
menggunakan teknik perangkat lunak tradisional. Dalam konteks ini, "teknik perangkat lunak
tradisional" mengacu pada pemrosesan data pada satu komputer ("traditional software
techniques" refer to the processing of data on a single computer).

Contoh “Big Data”:


• Facebook (user logon, likes, comments, ads)
• Google (search queries)
• Gmail (emails sent)
• Youtube (video watched)

https://www.youtube.com/watch?v=TzxmjbL-i4Y
3 V’s of Big
Volume – Dengan data besar, akan sering harus dilakukan
Data proses data dalam jumlah besar, sebagian besar tidak
Volum terstruktur dan dengan kepadatan informasi yang
e rendah.
Terabytes
Records Velocity – Ini mengacu pada tingkat kecepatan di mana
Transaction data diterima, disimpan, dan digunakan.
s Tables Variety – Variety (keragaman) mengacu pada banyak
jenis data yang tersedia untuk. Contohnya termasuk data
numerik, teks biasa, audio, gambar dan video.
Batch Structured
Real-time Unstructured
V lain yang terkadang ditambahkan ke V's of Big Data adalah
Streams Semi-structured
Veracity. Veracity mengacu pada keakuratan atau kualitas
Near-time All of the
data. Dengan berlalunya waktu, kebenaran atau kualitas data
above
dapat menurun karena semakin banyak data yang dihasilkan.
Velocity Variety
*Value. Nilai dari data setelah dilakukan pengolahan data.
Platforms for Big Data storage and
processing
SQL (Structured Query Language) is a standard language for storing,
SQL manipulating and retrieving data in databases.

The Hadoop Distributed File System allows the storage of extremely large files
HDFS in a highly redundant manner, using a cluster of computers, in this case built
using ‘off-the-shelf’ commodity hardware.

This is a divide and conquer approach to big data processing, allowing


MapReduce processing of data to be distributed across multiple computers in a
Hadoop cluster.
Platforms for Big Data storage and
processing
Data Query Language is a query tool used to analyze large sets of data
Hive stored on HDFS. It uses a SQL-like language. It is a declarative language -
in other words, you specify what you want, not how to retrieve it.
Another high-level programming language used to query large data sets
Pig stored on HDFS. It is a data-flow language that specifies the flows of data
from one task to another.
A NoSQL database that runs on Hadoop clusters. NoSQL stands for Not Only SQL
and is a pattern of data access that is more suited to larger data stores. It differs
Hbase from relational databases in a number of ways, not least in that it stores each
column in the data as a separate physical file.

A data processing environment for large-scale data projects where data is


Drill spread across thousands of nodes in a cluster and the volume of data is
in the petabytes.
3

Source of
Data
Internal
Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem informasi
perusahaan, seperti yang digunakan untuk perencanaan sumber daya perusahaan,
manajemen hubungan pelanggan, dan manajemen sumber daya manusia. Data yang
diekstraksi dari sistem seperti itu umumnya sangat terstruktur, atau setidaknya semi-
terstruktur, yang berarti relatif mudah untuk mempersiapkan tugas-tugas data mining.

Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber bisnis yang
digunakan bersama untuk membantu proses pengambilan keputusan manajemen. Data
dari penyimpanan data semacam itu sering digunakan dalam proyek data mining.

Sumber data internal lainnya termasuk email, spreadsheet, dan dokumen pengolah kata.
Dengan pengecualian spreadsheet, data dari sumber-sumber ini tidak memiliki struktur
nyata, sehingga sulit tetapi bukan tidak mungkin untuk menggunakannya untuk tugas-
tugas data mining.
Internal
Sources
Web server logs memelihara riwayat permintaan halaman ke situs web. Data yang
disimpan termasuk alamat IP klien, tanggal dan waktu permintaan, halaman yang diminta,
jumlah byte yang dilayani, jenis dan versi browser web yang digunakan, dan detail situs
yang dibuka oleh klien. Log server web tidak sulit untuk diproses, tetapi dapat berisi
sejumlah data besar, seringkali membutuhkan penggunaan pemrosesan big data.

Customer surveys, baik online maupun berbasis kertas, dapat membuktikan sumber data
yang berguna untuk data mining. Kompleksitas pemrosesan yang diperlukan untuk
menyiapkan data survei untuk data mining tergantung pada desain survei. Survei dengan
jawaban ya/tidak sederhana atau yang menggunakan skala Likert (seperti 1 hingga 5)
adalah yang paling mudah digunakan dan memerlukan sedikit pemrosesan sebelumnya.
Mereka yang memiliki jawaban open text akan memerlukan penggunaan metode analisis
teks.
External
Sources
Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat menjelajah.
Setiap kali pengguna mengklik tautan atau objek lain apa pun di halaman web,
tindakannya direkam. Fasilitas ini memerlukan penggunaan layanan analisis web seperti
Google Analytics dan menganggap bahwa pengguna web tidak memblokir domain web
yang digunakan oleh layanan atau "cookie" yang memungkinkannya berfungsi .

Google Finance menawarkan 40 tahun data pasar saham, diperbarui hampir secara real-
time. Yahoo Finance adalah sumber lain yang umum digunakan untuk data pasar saham.
Keduanya menyediakan data dalam format terstruktur tanpa data yang hilang,
memungkinkannya digunakan untuk data mining dengan sedikit pra-pemrosesan.
External
Sources
Google Trends menyediakan data tentang volume penelusuran web untuk istilah tertentu,
yang mencakup periode dari tahun 2004 dan seterusnya secara terstruktur dan lengkap,
membuatnya mudah untuk dimasukkan ke dalam proyek data mining apa pun.

Climate data tersedia dari layanan meteorologi nasional dan menyediakan pengamatan
uantara lain untuk curah hujan, kecepatan/arah angin, tekanan udara, radiasi matahari.
Meskipun kumpulan data tersebut biasanya terstruktur, karena kerusakan sensor,
kumpulan data tersebut sering kali berisi data yang hilang atau di luar jangkauan dan
karenanya harus diproses dengan hati-hati sebelum digunakan.

Data dari Sosial Media dapat digunakan untuk data mining, tetapi penggunaannya
diperumit oleh kurangnya struktur dan harus hati-hati dalam penggunaannya karena
terkait undang-undang di bidang tersebut dan masalah etika yang ditimbulkan oleh cara
penggunaan data tersebut.
4

Types of
Analytics
Types of Analytics

Descriptive Predictive Prescriptive


Descriptive
Analytics
Descriptive analytics mengambil data mentah dan meringkas atau menggambarkannya
untuk memberikan informasi yang berguna tentang masa lalu. Intinya, jenis analitik ini
mencoba menjawab pertanyaan "Apa yang telah terjadi di masa lalu?"
--- "What has happened in the past?“ ---

Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat memengaruhi hasil di masa depan.

Contoh dengan Pivot Tables


Predictive
Analytics
Predictive analytics membangun model statistik dari data mentah yang diproses dengan
tujuan untuk dapat memperkirakan hasil di masa mendatang. Tipe analitik ini mencoba
menjawab pertanyaan "Apa yang akan terjadi di masa depan?"
--- "What will happen in the Future?“ ---

Predictive analytics memungkinkan analis memperkirakan hasil di masa depan dengan


menggunakan teknik historis (data deskriptif) dan statistik untuk memperkirakan hasil
masa depan berdasarkan hubungan antara atribut atau variabel.
Predictive Analytics – Linear Regression
Analysis
Microsoft Excel menyediakan alat Analisis Regresi untuk melakukan analisis prediktif .

Linear equation
Dependent Variable (Y) = Intercept + (Coeffisien x Independent Variable (X))

Prediksi dengan Analisis Regresi akan lebih meyakinkan/dipercaya jika:


• Nilai R2 (koefisien determinasi) lebih tinggi (R2 values are higher)
R2 atau R Square berguna untuk melihat seberapa besar kontribusi/pengaruh yang diberikan
oleh sejumlah variabel X [independent variable(s)] terhadap variable Y [dependent variable].
Rentang nilai R2 adalah 0 – 1, dan akan semakin baik jika nilai lebih dari 0,5.

• P-Values lebih kecil (Lebih kecil dari 0.05. Variabel X yang mempunyai P-Values lebih
besar dari 0.05 dapat dikeluarkan).

Contoh dengan Regression


Prescriptive
Analytics
Prescriptive analytics adalah pengembangan analitik prediktif untuk memperkirakan
beberapa hasil di masa depan berdasarkan data masa lalu dan tindakan yang disarankan
untuk menentukan tindakan terbaik yang dapat diambil. Tipe analitik ini membantu
menjawab pertanyaan "Apa yang harus kita lakukan?"
--- " What should we do?“ ---

Prescriptive analytics mencoba mengukur pengaruh keputusan masa depan dengan


memberi saran tentang kemungkinan hasil sebelum keputusan benar-benar dibuat.

Contoh dengan Goal Seek dan Solver


Structured Query Language (SQL) with
MySQL
Client MySQL Database (RDBMS) on
computer Server

Communication happens using


SQL
PERSIAP
AN
Platform database (MySQL) dan tools (MySQL Workbench)
Unduh dan install MySQL dan MySQL Workbench
(https://dev.mysql.com/downloads/)

Data/Tables
1. Simpan setiap table (sales, customer, product) masing-masing dalam
file excel baru dengan format CSV.
2. Ubah format data orderdata pada tabel sales menjadi “yyyy-mm-dd”.
3. Ubah format data unitprice pada tabel product menjadi number.
MySQL
Query
Membuat Database
Syntax:
create database database_name;
Contoh:
create database data_analytics;
 Untuk menghapus database, gunakan syntax: drop database
database_name;

Memilih database yang akan digunakan


Syntax:
use database_name;
Contoh:
use data_analytics;
MySQL
Query
Import Table
Import table dari masing-masing file CSV yang sudah disiapkan sebelumnya (sales,
customer, product) -> menu: Table Data Import Wizard

Create table dengan SQL syntax (create table)


Syntax:
create table table_name (fields_name data_type(size), primary key(field_name));
Contoh:
create table city (id int not null, city_name varchar(25), primary key(id));
Input data ke table (insert into)
Syntax:
insert into table_name (fields_name1, fields_name1, …) values (value1, value2, …);
Contoh:
insert into city (id, city_name) values (1, ‘Moscow’));
MySQL
Query
Memilih dan menampilkan semua field dan data dari table
Syntax:
select * from table_name;
Contoh:
select * from sales;

Memilih dan menampilkan field tertentu dari table


Syntax:
select (fields_name1, fields_name2, …) from table_name;
Contoh:
select customerid, productid, totalsales from sales;
MySQL
Query
Memilih dan menampilkan data dari table dengan kondisi tertentu (WHERE)
Syntax:
select * from table_name where field_name = kondisi yang diinginkan;
Contoh:
select * from sales where qty > 20;

Memilih dan menampilkan data dari table dengan kondisi tertentu dan operator
(AND/OR)
Syntax:
select * from table_name where field_name1 = kondisi1 and/or field_name2 =
kondisi2;
Contoh:
select * from sales where productid = 101 and qty > 20;
MySQL
Query
Memilih dan menampilkan data dari table dengan fungsi aggregate (SUM, COUNT, dll)
dan dikelompokan berdasarkan field tertentu (GROUP BY)
Syntax:
select aggregate_function(fields_name) from table_name group by field_name;
Contoh:
select customerid, sum(totalsales) from sales group by customerid;

Penggabungan fungsi aggregate dengan kondisi tertentu (GROUP BY dan HAVING)


Syntax:
select aggregate_function(fields_name) from table_name group by field_name having
field_name = kondisi;
Contoh:
select customerid, sum(totalsales) FROM sales group by customerid
having sum(totalsales)>7000;
MySQL
Query
Menghapus data dengan konsisi tertentu
Syntax:
delete from table_name where kondisi;
Contoh:
delete from sales where totalsales < 50;

Memilih dan menampilkan data dari table yang diurutkan berdasarkan field tertentu
(ORDER BY)
Syntax:
select (fields_name1, fields_name2, …) from table_name order by field_name;
Contoh:
select customerid, productid, totalsales from sales order by customerid;
MySQL
Query
Memilih dan menampilkan data dari 2 table yang berhubungan (JOIN)

Syntax:
select table_name1.field_name, table_name2.field_name
from table_name1
join table_name2 on table_name2.field_name = table_name1.field_name
group by table_name1.field_name;

Contoh:
select customer.customername, sum(sales.totalsales) from sales
join customer on customer.customerid = sales.customerid group
by sales.customerid;
customername sum(sales.totalsales)
Debi Mealy 8021
Kyra Coffin 7931
Evangeline Grandstaff 7602 Dari table sales
Gracie Linwood 7291
Dari table customer
Genaro Knutson 7128
Jerrell Mccafferty 7039
Lyndsey Fagen 6875
Cathern Howey 6499
Mattie Gebhardt 6411
Tamika Pritchett 6247

Anda mungkin juga menyukai