Anda di halaman 1dari 45

Universitas Muslim Indonesia

Makassar, Indonesia

EXPLORATORY DATA ANALYSIS

STATISTIKA (2PPA 307) Herdianti Darwis


Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA
Exploratory Data
Visualisasi
Analysis (EDA)
adalah

Pre- penelusuran dan pengungkapan


processing struktur dan pola yang dimiliki oleh data
tanpa mengaitkan secara terikat
pada bentuk formal asumsi-asumsi yang ada.
Similaritas

Herdianti Darwis 2
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA
Tujuan EDA
Visualisasi

EDA adalah langkah untuk memahami data


Pre- sebelum dilakukan preprocessing.
processing

EDA dapat membantu dalam menentukan teknik-


Similaritas teknik pra-proses dan analisis data terhadap data
sebelum dilakukan data mining
Herdianti Darwis 3
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

Tahapan Pengolahan Data


EDA

Visualisasi

Sebelum algoritma diterapkan, perlu memahami data.


Mengapa?
Pre-
processing Agar dapat memilih teknik dan metode preprocessing yang
sesuai sehingga menghasilkan data baru yang mudah diolah.

Herdianti Darwis 4
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA
Distribusi datanya simetris
Normal atau skewness
Visualisasi
Kualitas data

Pre-
Apakah ada outlier
processing
Korelasi
Interkorelasi
Similaritas

Herdianti Darwis 5
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA

Visualisasi

Tipe Atribut
Pre-
processing

Similaritas

Herdianti Darwis 6
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA - Count
Data Kategorik - Frekuensi
- modus

Visualisasi - Frekuensi
- Mean, median, modus
Data Numerik - Standar deviasi, variansi
- minimum, maximum, Range
Pre- - Quartil
processing

Grafik & Visualisasi

Similaritas

Herdianti Darwis 7
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

Statistika Desktriptif
EDA
- Mean
- Median
Pemusatan data
- Modus
- Quartil 1,2,3
Visualisasi
- Range antarkuartil
- Standar deviasi
Penyebaran data
- Variansi
Pre-
- Z Score
processing

- Histogram & Poligon


- Quantile Plot
Similaritas Grafik statistik - Normal Quantile plot
- Quantile-Quantile Plot (QQ Plot)

Herdianti Darwis 8
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

1. Histogram
EDA
Berikut adalah hasil ujian statistika dari 30 mahasiswa:
85, 82, 87, 91, 88, 86, 89, 83, 87, 86,
90, 86, 84, 87, 85, 89, 92, 87, 88, 84,
88, 86, 87, 85, 91, 89, 85, 86, 90,87
Visualisasi
7 Nilai Statistika
6
5
Frekuensi

Pre- 4
processing 3
2
1
0
Similaritas 82 83 84 85 86 87 88 89 90 91 92
Nilai

Herdianti Darwis 9
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

2. Poligon
EDA
Berikut adalah hasil ujian statistika dari 30 mahasiswa:
85, 82, 87, 91, 88, 86, 89, 83, 87, 86,
90, 86, 84, 87, 85, 89, 92, 87, 88, 84,
88, 86, 87, 85, 91, 89, 85, 86, 90,87
Visualisasi
7 Nilai Statistika
6
5
Frekuensi

Pre- 4
processing 3
2
1
0
Similaritas 82 83 84 85 86 87 88 89 90 91 92
Nilai

Herdianti Darwis 10
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80

𝑸𝟏 = 𝟕𝟏. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟕𝟖. 𝟐𝟓
Visualisasi
100
95
90
85
80 𝑸𝟑
75 𝑸𝟐
70 𝑸𝟏
65
Pre- 60
Nilai

55
processing 50
45
40
35
30
25 𝑖 − 0.5
20
15 𝑓 𝑖 = ≫ 𝑃𝑒𝑟𝑠𝑒𝑛𝑡𝑖𝑙
10 𝑛
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)

Herdianti Darwis 11
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Quantile Plot
EDA
Diberikan data berikut:
Atr. B 45 56 67 71 72 78 85 86 91 99

𝑸𝟏 = 𝟓𝟖. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟖𝟕. 𝟐𝟓
Visualisasi
100
95
90 𝑸𝟑
85
80
75 𝑸𝟐
70
Pre- 65
60 𝑸𝟏
Nilai

55
processing 50
45
40
35
30
25
20
15
10
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)

Herdianti Darwis 12
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Quantile Plot
EDA
Diberikan data berikut:
Atr. C 5 73 73 74 74 76 89 92 95 99

𝑸𝟏 = 𝟕𝟑 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟗𝟐. 𝟐𝟓
Visualisasi
100
95 𝑸𝟑
90
85
80
75 𝑸𝟏 𝑸𝟐
70
Pre- 65
60
Nilai

55
processing 50
45
40
35
30
25
20 Outliers
15
10
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)

Herdianti Darwis 13
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

4. Normal Quantile Plot


EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80

𝑸𝟏 = 𝟕𝟏. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟕𝟖. 𝟐𝟓
Visualisasi Atr. A Normal Quantile Plot
2

1.5

Pre- 0.5

processing -2 -1.5 -1 -0.5


0
0 0.5 1 1.5 2
-0.5

-1

-1.5

Similaritas -2

-2.5

-3

Herdianti Darwis 14
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

4. Normal Quantile Plot


EDA
Diberikan data berikut:
Atr. B 45 56 67 71 72 78 85 86 91 99

𝑸𝟏 = 𝟓𝟖. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟖𝟕. 𝟐𝟓
Visualisasi Atr. B Normal Quantile Plot
2

1.5

Pre- 0.5

processing -2 -1.5 -1 -0.5


0
0 0.5 1 1.5 2
-0.5

-1

-1.5

Similaritas -2

-2.5

-3

Herdianti Darwis 15
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

4. Normal Quantile Plot


EDA
Diberikan data berikut:
Atr. C 5 73 73 74 74 76 89 92 95 99

𝑸𝟏 = 𝟕𝟑 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟗𝟐. 𝟐𝟓
Visualisasi Atr. C Normal Quantile Plot
2

1.5

Pre- 0.5

processing -2 -1.5 -1 -0.5


0
0 0.5 1 1.5 2
-0.5

-1

-1.5

Similaritas -2

-2.5

-3

Herdianti Darwis 16
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80
Atr. B 45 56 67 71 72 78 85 86 91 99
Visualisasi 100
90
80
70

Pre- 60
Atribut B

50
processing 40
30 Garis miring ke kanan= korelasi positif
20 Garis miring ke kiri = korelasi negatif
10

Similaritas 0
70 71 72 73 74 75 76 77 78 79 80
Atribut A

Herdianti Darwis 17
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80
Atr. C 5 73 73 74 74 76 89 92 95 99
Visualisasi 100
90
80
70

Pre- 60
Atribut C

50
processing 40
30
20
10

Similaritas 0
70 71 72 73 74 75 76 77 78 79 80
Atribut A

Herdianti Darwis 18
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. B 45 56 67 71 72 78 85 86 91 99
Atr. C 5 73 73 74 74 76 89 92 95 99
Visualisasi 100
90
80
70

Pre- 60
Atribut C

50
processing 40
30
20
10

Similaritas 0
45 50 55 60 65 70 75 80 85 90 95 100
Atribut B

Herdianti Darwis 19
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

Visualisasi
EDA

Visualisasi berbasi pixel


Visualisasi

Visualisasi proyeksi geometri

Pre-
processing
Visualisasi berbasi icon

Similaritas
Visualisasi hierarki dan graf

Herdianti Darwis 20
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

1. Visualisasi Berbasis Pixel


EDA

Visualisasi

Pre-
processing

Similaritas

Herdianti Darwis 21
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

2. Visualisasi Berbasis Geometri


EDA

Visualisasi

Pre-
processing

Similaritas

Herdianti Darwis 22
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Visualisasi Berbasis Icon


EDA

Visualisasi

Pre-
processing

Similaritas
Visualisasi hubungan pendapatan dan Umur Dari hasil sensus Amerika

Herdianti Darwis 23
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Visualisasi Berbasis Icon


EDA

Visualisasi

Pre-
processing

Similaritas
Visualisasi Clustering dengan Hierarki

Herdianti Darwis 24
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

EDA

Visualisasi

Pre-
1. Data cleaning / Pembersihan
processing
2. Aggregation / Pengumpulan
3. Dimensionality Reduction / Pengurangan Dimensi
4. Feature Selection / Pemilihan Fitur
5. Feature Creation / Pembuatan Fitur
Similaritas
6. Discretization and Binarization / Pendiskritan & Pembineran
7. Atribut Transformation /Transformasi Atribut

Herdianti Darwis 25
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

1. Data Cleaning/ Pembersihan


EDA
Apa yang dimaksud dengan data kotor?

Data yang memuat:


1. Missing value / data hilang
Visualisasi 2. Noise / derau atau gangguan
3. Outliers / pencilan

Data cleaning untuk Missing Values dan noise


Pre- 1. Menghapus record baik sample ataupun atribut.
processing 2. Mengganti dengan konstanta global seperti label “tidak dikenali”
3. Mengganti dengan nilai tendensi sentral (rata-rata untuk data
normal (simetris) dan median untuk data asimetris.
4. menggantinya dengan nilai pendekatan, misalnya: Nilai regresi
atau Bayesian
Similaritas
Data pencilan >>> dapat dibuang

Herdianti Darwis 26
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

2. Aggregation/ Pengumpulan
EDA
Proses mengkombinasikan dua buah atau lebih atribut-atribut atau
objek-objek ke dalam suatu atribut tunggal atau objek.

Contoh: sebuah dataset yang berisi data transaksi harian di sebuah


Visualisasi Convenience store (Conbini).

Aggregation dapat dilakukan sesui dengan tujuan penelitian:


Misalnya:
Pre- 1. Pengumpulan data penjualan produk sabun.
processing 2. Pengumpulan data penjualan di satu lokasi cabang Conbini.
3. dst.

Tujuan:
1. Data reduction
Similaritas
2. Perubahan skala (area, topik, dst)
3. Lebih menstabilkan data

Herdianti Darwis 27
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

2. Aggregation/ Pengumpulan
EDA
Proses mengkombinasikan dua buah atau lebih atribut-atribut atau
objek-objek ke dalam suatu atribut tunggal atau objek.

Contoh: sebuah dataset yang berisi data transaksi harian di sebuah


Visualisasi Convenience store (Conbini).

Aggregation dapat dilakukan sesui dengan tujuan penelitian:


Misalnya:
Pre- 1. Pengumpulan data penjualan produk sabun.
processing 2. Pengumpulan data penjualan di satu lokasi cabang Conbini.
3. dst.

Tujuan:
1. Data reduction
Similaritas
2. Perubahan skala (area, topik, dst)
3. Lebih menstabilkan data

Herdianti Darwis 28
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

2. Sampling/ Penarikan sampel


EDA
“Teknik yang digunakan untuk seleksi data akhir yang akan di
analisis”

Visualisasi Prinsip: “Sample harus representatif (bersifat mewakili)”

Tipe Sampling:
1. Simple Random sampling (sampling acak sederhana)
Pre-
processing 2. Stratified sampling (sampling bertingkat), membagi data dalam
beberapa partisi kemudian mengambil sampel dari tiap partisi.
Termasuk: proportined stratified dan disproportined stratified

Similaritas 3. Cluster sampling (sampling area), jika dataset yang diteliti


merupakan kelompok individu atau objek.

Herdianti Darwis 29
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Dimensionality Reduction/ Pengurangan dimensi


EDA
“Mengurangi jumlah dimensi/atribut dengan tetap menjaga
integritas yang terdaoat pada data asli”

Tujuan:
Visualisasi 1. Mengurangi jumlah waktu dan memori yang dibutuhkan
algoritma.
2. Membuat data lebih mudah divisualisasikan
3. Membantu mengurangi fitur-fitur yang tidak relevan
Pre- 4. Membantu mengurangi noise
processing
Teknik:
1. Principal Component Analysis (PCA)
2. Singular Value decomposition (SVD)
Similaritas
3. Nonlinear techniques

Herdianti Darwis 30
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

3. Dimensionality Reduction/ Pengurangan dimensi


EDA
“Mengurangi jumlah dimensi/atribut dengan tetap menjaga
integritas yang terdaoat pada data asli”

Tujuan:
Visualisasi 1. Mengurangi jumlah waktu dan memori yang dibutuhkan
algoritma.
2. Membuat data lebih mudah divisualisasikan
3. Membantu mengurangi fitur-fitur yang tidak relevan
Pre- 4. Membantu mengurangi noise
processing
Teknik:
1. Principal Component Analysis (PCA)
2. Singular Value decomposition (SVD)
3. Transformasi Wavelet, Nonlinear techniques,
Similaritas
4. dll.

Herdianti Darwis 31
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

4. Feature Selection/ Pemilihan Fitur


EDA
“Seleksi fitur adalah memilih fitur yang tepat dengan memilih
atribut-atribut yang diperlukan”

memperhatikan:
Visualisasi 1. Fitur redundant (duplikasi)
2. Fitur irrelevant (tidak sesuai dengan keperluan data mining)

Teknik:
Pre- 1. Brute-force approach >>> mencoba semua kemungkinan fitur
processing sub-set sebagai input algoritma
2. Embedded approaches >>> Seleksi fitur yang terjadi secara alami
sebagai bagian dari algoritma.
3. Filter approaches >>>Memilih fitur sebelum algoritma
dijalankan.
Similaritas
4. Wrapper approaches >>> menggunakan algoritma sebagai sebuah
kotak hitam untuk mendapatkan sub set atribut terbaik.

Herdianti Darwis 32
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

4. Feature Creation/ Pembuatan Fitur


EDA
“proses membuat atribut baru yang dapat menangkap informasi
dalam suatu dataset yang lebih efisien dibandingkan dengan
menggunakan atribut yang ada.”

Visualisasi
Teknik:
1. Feature extraction >>> Mengekstraksi fitur
2. Transformasi Fourier atau Transformasi Wavelet >>> Pemetaan
Pre- data ke dalam ruang
processing 3. Feature construction >>> membuat fitur baru dengan
menggabungkan fitur-fitur.

Similaritas

Herdianti Darwis 33
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

5. Discretization and Binarization


EDA
“Discretization adalah transformasi atribut kontinu ke dalam bentuk
kategorikal”

“Binarization adalah transformasi atribut kontinu ke dalam bentuk


Visualisasi Biner”

Teknik unsupervised (tanpa menggunakan informasi kelas):


Pre- 1. Pendekatan equal width
processing 2. Pendekatan equal frequency

Teknik supervised (menggunakan informasi kelas) yaitu dengan


Pendekatan entropy
Similaritas

Herdianti Darwis 34
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

6. Transformasi Atribut
EDA
“suatu fungsi yang memetakan keseluruhan himpunan niai dari
atribut yang diberikan ke suatu himpunan nilai-nilai pengganti
yang baru sedemikian sehingga nilai yang lama dapat dikenali
dengan satu nilai baru.
Visualisasi

Fungsi umum: standarisasi dan normalisasi


1. log(𝑥)
Pre- 2. 𝑒 𝑥
processing 3. 𝑥
𝑥−𝜇
4. Mean dan standar deviasi 𝜎

Similaritas

Herdianti Darwis 35
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

 Similaritas
EDA Similaritas (kemiripan) antara dua objek merupakan
ukuran numerik dari seberapa mirip dua buah objek.

Similaritas mempunyai nilai yang lebih tinggi jika objek-


objek tersebut sama dengan range nilai [0,1]
Visualisasi
 Dissimilaritas
Dissimilaritas (ketidakmiripan) antara dua objek
merupakan ukuran numerik dari seberapa berbeda dua
Pre- buah objek.
processing
Dissimilaritas mempunyai nilai yang lebih rendah jika
objek-objek tersebut mirip dengan range nilai [0,∞].

Similaritas Dissimilaritas biasa disebut dengan distance (jarak).


Kedekatan (proximity) mengacu kepada nilai similaritas
dan dissimilaritas.

Herdianti Darwis 36
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

 Dissimilaritas/Distance
EDA Dissimilaritas dinyatakan dengan
𝑑 𝑖, 𝑗 = 𝑑 𝑗, 𝑖

Merupakan nilai non-negatif.

Visualisasi 𝑑 𝑖, 𝑗 = 𝑑 𝑗, 𝑖 = 0

Artinya: dua objek tersebut sama persis sehingga


perbedaannya tidak ada.
Pre-
processing
 Similaritas
Similaritas dinyatakan dengan
𝑠 𝑖, 𝑗
Similaritas
Proses perhitungan dissimilaritas dan simmilaritas
bergantung pada tipe data.

Herdianti Darwis 37
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

 Dissimilaritas & Similaritas Atribut Tunggal


EDA Tipe Distance Similaritas
Nominal 0 𝑗𝑖𝑘𝑎 𝑝 = 𝑞 1 𝑗𝑖𝑘𝑎 𝑝 = 𝑞
𝑑= 𝑠=
1 𝑗𝑖𝑘𝑎 𝑝 ≠ 𝑞 0 𝑗𝑖𝑘𝑎 𝑝 ≠ 𝑞
Visualisasi
Ordinal 𝑝−𝑞 𝑝−𝑞
𝑑= 𝑠 =1−
𝑛−1 𝑛−1

Pre- Interval 𝑑 = 𝑝−𝑞 𝑠 = −𝑑


processing ataru Rasio
1
𝑠=
𝑑+1

Similaritas 𝑑 − min(𝑑)
𝑠 =1−
max 𝑑 − min(𝑑)

Herdianti Darwis 38
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

EXPLORATORY DATA ANALYSIS (EDA)

 Dissimilaritas & Similaritas dua objek


EDA
Untuk menghitung dissimilaritas antara dua objek dapat
menggunakan pengukuran sebagai berikut:

1. 𝐸𝑐𝑢𝑙𝑖𝑑𝑒𝑎𝑛 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒
Visualisasi 2. Minowski Distance
3. Mahalanobis Distance

Pre- Untuk menghitung simmilaritas antara dua objek dapat


processing menggunakan pengukuran sebagai berikut:

1. Simple matching (SCM) & Jacard Coefficient


2. Cosine similarity
Similaritas 3. Correlation

Herdianti Darwis 39
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

ROADMAP STATISTIKA & DATA MINING

Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

ROADMAP DATA SCIENCE

Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

DATA MINING (2KKA602)

ROADMAP DATA SCIENCE

Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

STATISTIKA (2PPA307)

POKOK BAHASAN

 Pengantar Data Mining


 Data
 Eksplorasi Data
 Klasifikasi berbasis Decision Tree
 Klasifikasi berbasis ANN
 Klasifikasi berbasis SVM
 Klasifikasi berbasis KNN
 Analisis Klasterisasi
 Klasterisasi berbasis Partisi
 Klasterisasi berbasis Hierarki
 Validasi Klasterisasi
 Trend Data Mining
Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia

STATISTIKA (2PPA307)

REFERENSI

 Suyanto. Data Mining untuk Klasifikasi dan Klasterisasi Data. Penerbit


Informatika, 2018.
 E. Walpole,Ronald., Pengantar Statistika
 Data Mining Concepts and Techniques 3rd edition, Han, Jiawei; Kamber,
Micheline, and Jian Pei, , Morgan Kaufmann, 2011
 Data Mining Mengolah Data Menjadi Informasi Menggunakan MATLAB, Eko
Prasetyo: Penerbit Andi. 2014.
 Sri Mulyana, Edi Winarko. Teknik Visualisasi dalam Data mining. Proceeding
Seminar Nasional Informatika 2009
 https://www.simplilearn.com/
 https://bioquest.org/numberscount/statistics-concept-map/

Herdianti Darwis
Universitas Muslim Indonesia
Makassar, Indonesia

DATA MINING
Herdianti Darwis

Anda mungkin juga menyukai