Anda di halaman 1dari 27

Universitas Muslim Indonesia

Makassar, Indonesia

PENGANTAR DATA MINING

STATISTIKA (2PPA 307) Herdianti Darwis


Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah
Sejarah

Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 1
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah

Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 2
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika vs Data Mining

✓ Statistika (statistics) adalah ilmu yang berhubungan


dengan metode, teknik dan prosedur dalam
Konsep merencanakan, mengumpulkan, menganalisis,
Dasar mengintrepetasikan, dan mempresentasikan data.

✓ Data mining atau Knowledge Discovery in Database


Ruang (KDD) adalah proses iteratif dan interaktif untuk
Lingkup menemukan pola atau model baru yang diinginkan,
bermanfaat, dan dapat dimengerti dalam database
untuk membantu pengambilan keputusan di masa
yang akan datang.

Penerapan

Herdianti Darwis 3
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika vs Data Mining


Statistics Data Mining
Type of problem Well Structured Unstructured/semi-
(Numeric Data) structured
Konsep (Numeric and non-
Dasar numeric data)
Inference role Explicit no explicit
inference inference
Objective of the First- objective Data rarely
Ruang analysis and data formulation , collected for
Lingkup collection and then Data objective of the
collection analysis/ modeling
Size of Data Small and Large and
hopefully heterogeneous
homogeneous
Penerapan

Herdianti Darwis 4
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika vs Data Mining


Statistics Data Mining
Paradigm/ Deductive Inductive (Synergy
approach (theory-based) of theory and
Konsep heuristic-based
Dasar approaches
Signal to Noise 𝑆𝑇𝑁𝑅 > 3 0 < 𝑆𝑇𝑁𝑅 ≤ 3
Ratio
Type of Analysis Confirmative Explorative
Ruang Number of Small Large
Lingkup Variables
Specification Clean Data Data Cleaning

Penerapan

Herdianti Darwis 5
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika vs Data Mining


Statistics Data Mining
Functionality Descriptive Descriptive
and 1. Visualization 1. Clustering
Konsep Techniques 2. Central 2. Association
Dasar tendencies rule
3. Dispersion 3. Sequential
Discovery
4. Summarization
Ruang Inferential Predictive
Lingkup 1. Parametrical 1. Classification
(regression, 2. Regression
correlation, etc.) 3. Anomaly/
2. Non-parametrical Deviation
(Wilcoxon test, detection
etc.)
Penerapan

Herdianti Darwis 6
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika

Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 7
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Data Mining

1 Classification

Konsep 2 Clustering
Dasar
3 Regression

4 Summarization
Ruang
Lingkup 5 Sequential Pattern Discovery

6 Association Rule Learning

7 Anomaly Detection
Penerapan

Herdianti Darwis 8
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 1 Classification
Klasifikasi adalah menentukan sebuah record baru ke
salah satu dari beberapa kategori atau kelas yang telah
didefinisikan sebelumnya.
Konsep
Dasar Klasifikasi disebut juga dengan supervised learning.

Contoh:
➢ Klasifikasi penyakit ke dalam sejumlah jenis penyakit.
➢ Klasifikasi email ke dalam “spam” atau “bukan spam”.
Ruang
➢ Klasifikasi transaksi-transaksi curang dengan
Lingkup menggunakan kartu kredit (Fraud detection) dengan
label “fraud” atau “fair”
➢ Klasifikasi pelanggan yang berpindah (churn detection)
dengan label “setia” atau “tidak setia”

Penerapan

Herdianti Darwis 9
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 2 Clustering
Klasterisasi adalah mengelompokkan data yang tidak
diketahui label kelasnya ke dalam sejumlah kelompok
tertentu dengan ukuran similaritasnya, sedemikian rupa
Konsep sehingga:
Dasar ✓ Titik-titik dalam satu klaster mempunyai similaritas
yang tinggi.
✓ Titik-titik data dalam klaster yang berbeda memiliki
similaritas yang kecil.
Ruang
Klasterisasi disebut juga dengan unsupervised learning.
Lingkup
Ukuran similaritas yang digunakan:
✓ Jika atribut/variabel kontinu : Euclidean Distance.
✓ Kasus lain : ukuran tertentu

Penerapan

Herdianti Darwis 10
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 2 Clustering
Contoh:
➢ Mengelompokkan pelanggan berdasarkan tempat
tinggal & gaya hidup. (Market segmentation)
Konsep
Dasar
➢ Mengelompokkan dokumen yang memiliki pernyataan
atau kata kunci yang sama. (Document segmentation)

➢ Mengelompokkan pengguna social media dalam


Ruang
membangun strategi dan propaganda yang tepat untuk
Lingkup mempengaruhi persepsi pemilih. (Politics)

Penerapan

Herdianti Darwis 11
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 3 Regression
Regresi adalah menemukan suatu fungsi yang
memodelkan data dengan galat (kesalahan prediksi)
seminimal mungkin.
Konsep
Dasar Regresi digunakan untuk memprediksi suatu variabel
kontinu yang diberikan berdasarkan nilai dari variabel
yang lain dengan mengasumsikan sebuah model
ketergantungan linear atau non linear. Teknik ini juga
banyak dipelajari dalam statistika.
Ruang
Lingkup Contoh:
➢ Memprediksi jumlah penjualan produk baru
berdasarkan pada belanja promosi/iklan.
➢ Time series prediction dati indeks stock market

Penerapan

Herdianti Darwis 12
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 4 Summarization
Perangkuman atau summarization adalah menyediakan
representasi data yang lebih sederhana, berupa visualisasi
dan pembuatan laporan.
Konsep
Dasar Contoh:
Di bidang Jurnalistik:
➢ Peringkasan teks
➢ Peringkasan dokumen (multi-document text
summarization)
Ruang
Lingkup

Penerapan

Herdianti Darwis 13
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 5 Sequencial pattern discovery


Pencarian sejumlah event atau kejadian yang secara umum
terjadi bersama-sama.

Konsep Jika diberikan sekumpulan obyek dengan masing-masing


Dasar objek dihubungkan dengan waktu kejadiannya maka
diperoleh pola yang memprediksi ketergantungan
sekuensial (sequential dependencies) yang kuat antara
kejadian-kejadian yang berbeda.
Ruang
Pola-pola sekuensial pertama pada dasarnya dicari dengan
Lingkup cara mencari semua kemungkinan pola yang ada. Nilai-
nilai kejadian dalam pola diatur berdasarkan urutan waktu
kejadian.

Penerapan

Herdianti Darwis 14
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 6 Association Rule Learning


Kaidah Asosiasi (association Rules) biasa juga disebut
dengan Market Basket Analysis adalah mendeteksi
kumpulan atribut-atribut yang muncul bersamaan (co-
Konsep occur) dalam frekuensi yang sering, dan membentuk
Dasar sejumlah kaidah dari kumpulan-kumpulan tersebut.

Contoh: 90% orang yang berbelanja di suatu supermarket


yang membeli roti juga membeli selai, dan 60 % dari
semua orang yang berbelanja membeli keduanya.
Ruang
Lingkup Jika diberikan sekumpulan record yang masing-masing
terdiridari item-item, akan menghasilkan aturan
kebergantungan (dependency rules) yang akan
memprediksi kejadian dari satu item berdasarkan kejadian
item yang lain.
Penerapan

Herdianti Darwis 15
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah 7 Anomaly Detection


Deteksi anomali adalah mengidentifikasi data yang tidak
umum, bisa berupa outlier (pencilan), perubahan atau
deviasi yang mungkin sangat penting dan perlu investigasi
Konsep lebih lanjut.
Dasar
Contoh: Fraud detection atau Pendeteksi kecurangan

Perusahaan dengan ratusan juta pelanggan akan


menghasilkan database yang besar. Tidak menutup
Ruang
kemungkinan, terdapat sejumlah kecil pelanggan yang
Lingkup melakukan kecurangan.
Misalnya tagihan telepon pascabayar biasanya dikisaran
ratusan ribu perbulan dan dibayar secara lancar, tetapi
beberapa bulan terakhir mencapai jutaan rupiah per bulan.
Pembayaran mulai tersendat dan bahkan tidak lagi
Penerapan membayar dan akhirnya merugikan perusahaan.

Herdianti Darwis 16
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah

Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 17
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Statistika Terapan


Penerapan statistika telah menyentuh semua bidang
ilmu pengetahuan. Akibatnya lahirlah ilmu-ilmu
gabungan, seperti:
✓ Demografi
Konsep
✓ Aktuaria
Dasar
✓ Biostatistika atau biometrika
✓ Statistika Bisnis
✓ Ekonometrika
Ruang ✓ Psikometrika
Lingkup ✓ Statistika sosial
✓ Statistika teknik atau Teknometrika
✓ Fisika statistik
✓ Kemometrika
✓ Astrostatistika
Penerapan ✓ Eksplorasi data (Pengenalan pola)

Herdianti Darwis 18
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Trend terapan Data Mining

✓ Artificial Intelligence
✓ Business Intelligence
✓ Data Science
Konsep
✓ Application exploration
Dasar
✓ Scalable and interactive data mining methods
✓ Visual data mining
✓ Biological data mining
Ruang ✓ Data mining and software engineering
Lingkup ✓ Web mining, real-time data mining
✓ Distributed data mining
✓ Real-time data mining
✓ Multi database data mining
✓ Privacy protection and information security in
Penerapan data mining

Herdianti Darwis 19
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Knowledge Discovery in Database (KDD)

Data mining is the core of KDD


Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 20
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

INTRODUCTION

Sejarah ❑ Business Intelligence (BI)

Konsep
Dasar

Ruang
Lingkup

Penerapan

Herdianti Darwis 21
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

ROADMAP STATISTIKA & DATA MINING

Herdianti Darwis 22
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

ROADMAP DATA SCIENCE

Herdianti Darwis 23
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

POKOK BAHASAN

❑ Pengantar Data Mining


❑ Data
❑ Eksplorasi Data
❑ Klasifikasi berbasis Decision Tree
❑ Klasifikasi berbasis ANN
❑ Klasifikasi berbasis SVM
❑ Klasifikasi berbasis KNN
❑ Analisis Klasterisasi
❑ Klasterisasi berbasis Partisi
❑ Klasterisasi berbasis Hierarki
❑ Validasi Klasterisasi
❑ Trend Data Mining
Herdianti Darwis 19
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

REFERENSI

❖ Suyanto. Data Mining untuk Klasifikasi dan Klasterisasi Data. Penerbit


Informatika, 2018.
❖ E. Walpole,Ronald., Pengantar Statistika
❖ Data Mining Concepts and Techniques 3rd edition, Han, Jiawei; Kamber,
Micheline, and Jian Pei, , Morgan Kaufmann, 2011
❖ Data Mining Mengolah Data Menjadi Informasi Menggunakan MATLAB, Eko
Prasetyo: Penerbit Andi. 2014.
❖ https://www.simplilearn.com/
❖ https://bioquest.org/numberscount/statistics-concept-map/

Herdianti Darwis 20
Universitas Muslim Indonesia
Makassar, Indonesia

DATA MINING
Herdianti Darwis

Anda mungkin juga menyukai