Anda di halaman 1dari 39

TABLE OF CONTENTS

1 THE CRISP-DM FRAMEWORK 5 DATA ANALYTICS METHODOLOGIES

2 BIG DATA AND DATA ANALYTICS 6 MAINSTREAM TOOLS AND KEY APPLICATIONS

3 SOURCES OF DATA 7 DATA VISUALIZATION AND


COMMUNICATION

4 TYPES OF ANALYTICS 8 SKEPTICISM AND ETHICAL CONSIDERATIONS


1

The CRISP-DM Framework


Cross-industry Standard Process for Data Mining
What is Data Mining?

Data mining adalah proses mengidentifikasi hubungan dan pola dalam kumpulan data yang
besar, secara efektif mengubah data mentah menjadi informasi penting yang berguna. Proses
data mining menggunakan berbagai metode seperti statistik, Artificial Intelligence (AI), dan
sistem basis data.

CRISP-DM (Cross-industry Standard Process for Data Mining) adalah model/metode standar
yang memberikan gambaran tentang tahapan dan siklus proses data mining.
Fase/langkah-langkah dalam CRISP-DM:

1
Business
2
Data
3
Data
Understanding Understanding Preparation

4 5 6
Modelling Evaluation Deployment
Business Understanding
Business Understanding adalah fase pertama yang penting dan wajib dalam setiap kegiatan
data mining atau analitik data. Pekerjaan yang dilakukan antara lain adalah mengidentifikasi
dan menggambarkan tujuan dasar dari perspektif bisnis, identifikasi kebutuhan data dan
bagaimana memperoleh data, menentukan batasan kegiatan dan faktor/data pendukung.

Contoh tujuan kegiatan:


• Memprediksi volume penjualan pada harga tertentu
• Menggunakan sumber daya yang terbatas dengan cara yang paling menguntungkan
• Mengoptimalkan penjualan atau keuntungan
Data Understanding
Memperoleh dan mengeksplorasi data yang diidentifikasi sebagai bagian dari fase
sebelumnya dan memiliki tiga langkah terpisah yang masing-masing menghasilkan laporan.

Data Acquisition Data Description Data Exploration


Pengambilan data dari sumbernya Langkah selanjutnya menampilkan Langkah ini didasarkan pada
masing-masing dan pembuatan data dalam bentuk tampilan yang deskripsi data (data description) dan
laporan akuisisi data yang mudah terbaca, baik data kualitatif melibatkan penggunaan teknik
mencantumkan sumber data, alat (narasi) atau pun kuantitatif (angka) statistik dan visualisasi untuk
atau teknik yang digunakan untuk dan melakukan pemeriksaan data mengembangkan pemahaman yang
memperolehnya. untuk membantu menghasilkan lebih dalam tentang data dan
laporan kualitas data. kesesuaiannya untuk analisis.

Sumber data meliputi web server logs, situs web seperti facebook,
google, database seperti pembelian oleh pelanggan, keluhan, dll.
Data Preparation
Seperti fase eksplorasi data, fase persiapan data (data preparation) terdiri dari beberapa
langkah untuk memastikan bahwa data yang digunakan adalah benar dan dalam bentuk yang
benar agar model analitik data bekerja secara efektif. Hal yang dilakukan adalah seperti
menghapus duplikasi data, tipe data yang tidak konsisten, nilai yang hilang, dll, sehingga data
siap untuk digunakan.

Data Preparation

Data Selection Data Cleaning Data Integration Feature Engginering


Data Selection
Langkah pertama dalam persiapan data adalah menentukan data yang akan digunakan
dalam analisis. Selain dari laporan yang dihasilkan pada fase pemahaman data (data
understanding), data yang digunakan juga dapat didasarkan pada relevansi kumpulan data
atau atribut tertentu untuk tujuan proyek data mining, serta kemampuan alat dan sistem
yang digunakan untuk membangun model analisis.

Data Cleaning
Pembersihan data (data cleaning) adalah proses memastikan data dapat digunakan secara
efektif dalam model analitis. Langkah selanjutnya adalah memproses data yang hilang dan
salah yang diidentifikasi pada fase pemahaman atau pengumpulan data .

Kegiatan yang dilakukan dan keputusan yang dibuat pada langkah ini harus didokumentasikan
dalam laporan pembersihan data.
Data Integration
Pada algoritma data mining, diharapkan penggunaan satu sumber data yang diatur ke
dalam baris dan kolom. Jika beberapa sumber data akan digunakan dalam analisis, perlu
untuk menggabungkannya dengan menggunakan fitur umum di setiap kumpulan data untuk
menggabungkan kumpulan data bersama-sama.

Sebagai contoh, kumpulan data detail pelanggan dapat digabungkan dengan catatan
pembelian mereka. Kumpulan data gabungan yang dihasilkan akan memiliki satu baris untuk
setiap pembelian yang berisi atribut pembelian yang digabungkan dengan atribut yang
terkait dengan pelanggan .

Feature Engineering
Langkah opsional yang dapat dilakukan adalah pembuatan atau penyertaan variabel baru
atau atribut yang diturunkan ke dalam variabel atau fitur yang ada untuk meningkatkan
kemampuan model.
Modelling Evaluation Deployment
Langkah selanjutnya adalah Pada tahap evaluasi akan dilakukan Selama deployment ini, hasil evaluasi
memilih teknik pemodelan yang evaluasi terhadap kualitas dan akan digunakan untuk menetapkan
paling tepat berdasarkan sifat efektivitas satu atau lebih model jadwal dan strategi penerapan model
analisis dan data yang digunakan. yang dikirim dalam fase pemodelan data mining, merinci langkah-langkah
Banyak metode pemodelan (modelling) sebelum digunakan di yang diperlukan dan bagaimana
membuat asumsi tentang sifat lapangan. Dan perlu dilakukan penerapannya.
data. Sebagai contoh, beberapa verifikasi dan mendokumentasikan
metode dapat bekerja dengan baik bahwa hasil yang diperoleh dari
dengan adanya data yang hilang pemodelan memiliki kebenaran
sedangkan yang lain akan gagal (cukup andal) untuk membuktikan
menghasilkan model yang valid. apakah model tersebut benar-benar
mencapai tujuan yang ditetapkan
pada fase pertama, yakni tahap
Business Understanding.
2

Big Data and Data


Analytics
What exactly makes Big Data “big”?
Definisi yang sangat mendasar adalah bahwa “big data" merupakan kumpulan data yang
begitu besar dan kompleks sehingga sulit atau bahkan tidak mungkin untuk memprosesnya
menggunakan teknik perangkat lunak tradisional. Dalam konteks ini, "teknik perangkat lunak
tradisional" mengacu pada pemrosesan data pada satu komputer ("traditional software
techniques" refer to the processing of data on a single computer).

Contoh “Big Data”:


• Facebook (user logon, likes, comments, ads)
• Google (search queries)
• Gmail (emails sent)
• Youtube (video watched)

https://www.youtube.com/watch?v=TzxmjbL-i4Y
3 V’s of Big Data

Volume Volume – Dengan data besar, akan sering harus dilakukan


proses data dalam jumlah besar, sebagian besar tidak
Terabytes terstruktur dan dengan kepadatan informasi yang rendah.
Records Velocity – Ini mengacu pada tingkat kecepatan di mana
Transactions data diterima, disimpan, dan digunakan.
Tables
Variety – Variety (keragaman) mengacu pada banyak jenis
data yang tersedia untuk. Contohnya termasuk data
Batch Structured numerik, teks biasa, audio, gambar dan video.
Real-time Unstructured
Streams Semi-structured V lain yang terkadang ditambahkan ke V's of Big Data adalah
Near-time All of the above Veracity. Veracity mengacu pada keakuratan atau kualitas
data. Dengan berlalunya waktu, kebenaran atau kualitas data
dapat menurun karena semakin banyak data yang dihasilkan.
Velocity Variety
*Value. Nilai dari data setelah dilakukan pengolahan data.
Platforms for Big Data storage and processing

SQL (Structured Query Language) is a standard language for storing,


SQL manipulating and retrieving data in databases.

The Hadoop Distributed File System allows the storage of extremely


HDFS large files in a highly redundant manner, using a cluster of computers, in
this case built using ‘off-the-shelf’ commodity hardware.

This is a divide and conquer approach to big data processing, allowing


MapReduce processing of data to be distributed across multiple computers in a
Hadoop cluster.
Platforms for Big Data storage and processing

Data Query Language is a query tool used to analyze large sets of data
Hive stored on HDFS. It uses a SQL-like language. It is a declarative language -
in other words, you specify what you want, not how to retrieve it.
Another high-level programming language used to query large data sets
Pig stored on HDFS. It is a data-flow language that specifies the flows of data
from one task to another.
A NoSQL database that runs on Hadoop clusters. NoSQL stands for Not Only SQL
and is a pattern of data access that is more suited to larger data stores. It differs
Hbase from relational databases in a number of ways, not least in that it stores each
column in the data as a separate physical file.

A data processing environment for large-scale data projects where data is


Drill spread across thousands of nodes in a cluster and the volume of data is
in the petabytes.
3

Source of Data
Internal Sources
Sumber data internal yang paling umum digunakan kemungkinan adalah sistem informasi
perusahaan, seperti yang digunakan untuk perencanaan sumber daya perusahaan,
manajemen hubungan pelanggan, dan manajemen sumber daya manusia. Data yang
diekstraksi dari sistem seperti itu umumnya sangat terstruktur, atau setidaknya semi-
terstruktur, yang berarti relatif mudah untuk mempersiapkan tugas-tugas data mining.

Data Warehouse adalah gudang besar data yang diambil dari berbagai sumber bisnis yang
digunakan bersama untuk membantu proses pengambilan keputusan manajemen. Data
dari penyimpanan data semacam itu sering digunakan dalam proyek data mining.

Sumber data internal lainnya termasuk email, spreadsheet, dan dokumen pengolah kata.
Dengan pengecualian spreadsheet, data dari sumber-sumber ini tidak memiliki struktur
nyata, sehingga sulit tetapi bukan tidak mungkin untuk menggunakannya untuk tugas-
tugas data mining.
Internal Sources
Web server logs memelihara riwayat permintaan halaman ke situs web. Data yang
disimpan termasuk alamat IP klien, tanggal dan waktu permintaan, halaman yang diminta,
jumlah byte yang dilayani, jenis dan versi browser web yang digunakan, dan detail situs
yang dibuka oleh klien. Log server web tidak sulit untuk diproses, tetapi dapat berisi
sejumlah data besar, seringkali membutuhkan penggunaan pemrosesan big data.

Customer surveys, baik online maupun berbasis kertas, dapat membuktikan sumber data
yang berguna untuk data mining. Kompleksitas pemrosesan yang diperlukan untuk
menyiapkan data survei untuk data mining tergantung pada desain survei. Survei dengan
jawaban ya/tidak sederhana atau yang menggunakan skala Likert (seperti 1 hingga 5)
adalah yang paling mudah digunakan dan memerlukan sedikit pemrosesan sebelumnya.
Mereka yang memiliki jawaban open text akan memerlukan penggunaan metode analisis
teks.
External Sources
Clickstreams adalah catatan dari semua yang diklik oleh pengguna web saat menjelajah.
Setiap kali pengguna mengklik tautan atau objek lain apa pun di halaman web,
tindakannya direkam. Fasilitas ini memerlukan penggunaan layanan analisis web seperti
Google Analytics dan menganggap bahwa pengguna web tidak memblokir domain web
yang digunakan oleh layanan atau "cookie" yang memungkinkannya berfungsi .

Google Finance menawarkan 40 tahun data pasar saham, diperbarui hampir secara real-
time. Yahoo Finance adalah sumber lain yang umum digunakan untuk data pasar saham.
Keduanya menyediakan data dalam format terstruktur tanpa data yang hilang,
memungkinkannya digunakan untuk data mining dengan sedikit pra-pemrosesan.
External Sources
Google Trends menyediakan data tentang volume penelusuran web untuk istilah tertentu,
yang mencakup periode dari tahun 2004 dan seterusnya secara terstruktur dan lengkap,
membuatnya mudah untuk dimasukkan ke dalam proyek data mining apa pun.

Climate data tersedia dari layanan meteorologi nasional dan menyediakan pengamatan
antara lain untuk curah hujan, kecepatan/arah angin, tekanan udara, radiasi matahari.
Meskipun kumpulan data tersebut biasanya terstruktur, karena kerusakan sensor,
kumpulan data tersebut sering kali berisi data yang hilang atau di luar jangkauan dan
karenanya harus diproses dengan hati-hati sebelum digunakan.

Data dari Sosial Media dapat digunakan untuk data mining, tetapi penggunaannya
diperumit oleh kurangnya struktur dan harus hati-hati dalam penggunaannya karena
terkait undang-undang di bidang tersebut dan masalah etika yang ditimbulkan oleh cara
penggunaan data tersebut.
QUIZ TIME
Question 1
Which of the following is the last step in the CRISP-DM Framework of data
mining?

A. Modelling
B. Evaluation
C. Deployment
D. Data understanding
Question 2
Which is the CRISP-DM stage where data sampling occurs?

A. Evaluation
B. Modelling
C. Data Preparation
D. Deployment
Question 3
Big Data has which of the following three characteristics?

A. Volume, Variability and Velocity


B. Variety, Velocity and Volume
C. Variety, Velocity and Vast
D. Variability, Vast and Volume
Question 4
Which techniques do Data Analysts use to gain variable insights about the
wider population if the data set too large to process with the available
software?

A. Aggregation
B. Sampling
C. Interpolation
D. Estimating
Question 5
Which additional V should be applied to Big Data if you exercise
professional skepticism?

A. Viscosity
B. Venality
C. Veracity
D. Vorticity
Question 6
In the modern world the veracity of the data has tended to lower.

Indicate if the above statement is True or False.

A. True
B. False
Question 7
Which of the following is NOT an external source of data?

A. Customer surveys
B. Google Trends
C. Commercial data services
D. Clickstreams
4

Types of Analytics
Types of Analytics

Descriptive Predictive Prescriptive


Descriptive Analytics
Descriptive analytics mengambil data mentah dan meringkas atau menggambarkannya
untuk memberikan informasi yang berguna tentang masa lalu. Intinya, jenis analitik ini
mencoba menjawab pertanyaan "Apa yang telah terjadi di masa lalu?"
--- "What has happened in the past?“ ---

Descriptive analytics berguna karena memungkinkan analis untuk belajar dari perilaku
masa lalu dan memahami bagaimana mereka dapat memengaruhi hasil di masa depan.

Contoh dengan Pivot Tables


Predictive Analytics
Predictive analytics membangun model statistik dari data mentah yang diproses dengan
tujuan untuk dapat memperkirakan hasil di masa mendatang. Tipe analitik ini mencoba
menjawab pertanyaan "Apa yang akan terjadi di masa depan?"
--- "What will happen in the Future?“ ---

Predictive analytics memungkinkan analis memperkirakan hasil di masa depan dengan


menggunakan teknik historis (data deskriptif) dan statistik untuk memperkirakan hasil
masa depan berdasarkan hubungan antara atribut atau variabel.
Predictive Analytics – Linear Regression Analysis
Microsoft Excel menyediakan fitur Analisis Regresi untuk melakukan analisis prediktif .

Linear equation
Dependent Variable (Y) = Intercept + (Coeffisien x Independent Variable (X))

Prediksi dengan Analisis Regresi akan lebih meyakinkan/dipercaya jika:


• Nilai R2 (koefisien determinasi) lebih tinggi (R2 values are higher)
R2 atau R Square berguna untuk melihat seberapa besar kontribusi/pengaruh yang
diberikan oleh sejumlah variabel X [independent variable(s)] terhadap variable Y [dependent
variable]. Rentang nilai R2 adalah 0 – 1, dan akan semakin baik jika nilai lebih dari 0,5.

• P-Values lebih kecil (Lebih kecil dari 0.05. Variabel X yang mempunyai P-Values lebih
besar dari 0.05 dapat dikeluarkan).

Contoh dengan Regression


Prescriptive Analytics
Prescriptive analytics adalah pengembangan analitik prediktif untuk memperkirakan
beberapa hasil di masa depan berdasarkan data masa lalu dan tindakan yang disarankan
untuk menentukan tindakan terbaik yang dapat diambil. Tipe analitik ini membantu
menjawab pertanyaan "Apa yang harus kita lakukan?"
--- " What should we do?“ ---

Prescriptive analytics mencoba mengukur pengaruh keputusan masa depan dengan


memberi saran tentang kemungkinan hasil sebelum keputusan benar-benar dibuat.

Contoh dengan Goal Seek dan Solver


QUIZ TIME
Question 1
Descriptive analytics takes the raw data and summarizes or describes it in
order to provide useful information about the past.

Indicate if the above statement is True or False.

A. True
B. False
Question 2
Pivot tables is one of the power tools available in Microsoft Excel which
summarizes the data in rows and columns to help in the predictive
analytics.

Indicate if the above statement is True of False.

A. True
B. False
Question 3
Which of the following statistical outcomes of the regression analysis are
key outcomes to look for greater confidence in the regression analysis.

A. R
B. P-values
C. R2
D. Standard deviation
Question 4
Which of the following is NOT a Microsoft Excel function for the
prescriptive analytics.

A. Scenario Manager
B. Goal Seek
C. Pivot table
D. Solver

Anda mungkin juga menyukai