Makassar, Indonesia
EDA
Exploratory Data
Visualisasi
Analysis (EDA)
adalah
Herdianti Darwis 2
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
EDA
Tujuan EDA
Visualisasi
Visualisasi
Herdianti Darwis 4
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
EDA
Distribusi datanya simetris
Normal atau skewness
Visualisasi
Kualitas data
Pre-
Apakah ada outlier
processing
Korelasi
Interkorelasi
Similaritas
Herdianti Darwis 5
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
EDA
Visualisasi
Tipe Atribut
Pre-
processing
Similaritas
Herdianti Darwis 6
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
EDA - Count
Data Kategorik - Frekuensi
- modus
Visualisasi - Frekuensi
- Mean, median, modus
Data Numerik - Standar deviasi, variansi
- minimum, maximum, Range
Pre- - Quartil
processing
Similaritas
Herdianti Darwis 7
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Statistika Desktriptif
EDA
- Mean
- Median
Pemusatan data
- Modus
- Quartil 1,2,3
Visualisasi
- Range antarkuartil
- Standar deviasi
Penyebaran data
- Variansi
Pre-
- Z Score
processing
Herdianti Darwis 8
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
1. Histogram
EDA
Berikut adalah hasil ujian statistika dari 30 mahasiswa:
85, 82, 87, 91, 88, 86, 89, 83, 87, 86,
90, 86, 84, 87, 85, 89, 92, 87, 88, 84,
88, 86, 87, 85, 91, 89, 85, 86, 90,87
Visualisasi
7 Nilai Statistika
6
5
Frekuensi
Pre- 4
processing 3
2
1
0
Similaritas 82 83 84 85 86 87 88 89 90 91 92
Nilai
Herdianti Darwis 9
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
2. Poligon
EDA
Berikut adalah hasil ujian statistika dari 30 mahasiswa:
85, 82, 87, 91, 88, 86, 89, 83, 87, 86,
90, 86, 84, 87, 85, 89, 92, 87, 88, 84,
88, 86, 87, 85, 91, 89, 85, 86, 90,87
Visualisasi
7 Nilai Statistika
6
5
Frekuensi
Pre- 4
processing 3
2
1
0
Similaritas 82 83 84 85 86 87 88 89 90 91 92
Nilai
Herdianti Darwis 10
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
3. Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80
𝑸𝟏 = 𝟕𝟏. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟕𝟖. 𝟐𝟓
Visualisasi
100
95
90
85
80 𝑸𝟑
75 𝑸𝟐
70 𝑸𝟏
65
Pre- 60
Nilai
55
processing 50
45
40
35
30
25 𝑖 − 0.5
20
15 𝑓 𝑖 = ≫ 𝑃𝑒𝑟𝑠𝑒𝑛𝑡𝑖𝑙
10 𝑛
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)
Herdianti Darwis 11
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
3. Quantile Plot
EDA
Diberikan data berikut:
Atr. B 45 56 67 71 72 78 85 86 91 99
𝑸𝟏 = 𝟓𝟖. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟖𝟕. 𝟐𝟓
Visualisasi
100
95
90 𝑸𝟑
85
80
75 𝑸𝟐
70
Pre- 65
60 𝑸𝟏
Nilai
55
processing 50
45
40
35
30
25
20
15
10
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)
Herdianti Darwis 12
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
3. Quantile Plot
EDA
Diberikan data berikut:
Atr. C 5 73 73 74 74 76 89 92 95 99
𝑸𝟏 = 𝟕𝟑 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟗𝟐. 𝟐𝟓
Visualisasi
100
95 𝑸𝟑
90
85
80
75 𝑸𝟏 𝑸𝟐
70
Pre- 65
60
Nilai
55
processing 50
45
40
35
30
25
20 Outliers
15
10
Similaritas 5
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
f(i)
Herdianti Darwis 13
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
𝑸𝟏 = 𝟕𝟏. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟕𝟖. 𝟐𝟓
Visualisasi Atr. A Normal Quantile Plot
2
1.5
Pre- 0.5
-1
-1.5
Similaritas -2
-2.5
-3
Herdianti Darwis 14
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
𝑸𝟏 = 𝟓𝟖. 𝟕𝟓 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟖𝟕. 𝟐𝟓
Visualisasi Atr. B Normal Quantile Plot
2
1.5
Pre- 0.5
-1
-1.5
Similaritas -2
-2.5
-3
Herdianti Darwis 15
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
𝑸𝟏 = 𝟕𝟑 𝑸𝟐 = 𝟕𝟓 𝑸𝟑 = 𝟗𝟐. 𝟐𝟓
Visualisasi Atr. C Normal Quantile Plot
2
1.5
Pre- 0.5
-1
-1.5
Similaritas -2
-2.5
-3
Herdianti Darwis 16
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80
Atr. B 45 56 67 71 72 78 85 86 91 99
Visualisasi 100
90
80
70
Pre- 60
Atribut B
50
processing 40
30 Garis miring ke kanan= korelasi positif
20 Garis miring ke kiri = korelasi negatif
10
Similaritas 0
70 71 72 73 74 75 76 77 78 79 80
Atribut A
Herdianti Darwis 17
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. A 70 71 72 73 74 76 77 78 79 80
Atr. C 5 73 73 74 74 76 89 92 95 99
Visualisasi 100
90
80
70
Pre- 60
Atribut C
50
processing 40
30
20
10
Similaritas 0
70 71 72 73 74 75 76 77 78 79 80
Atribut A
Herdianti Darwis 18
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
5. Quantile-Quantile Plot
EDA
Diberikan data berikut:
Atr. B 45 56 67 71 72 78 85 86 91 99
Atr. C 5 73 73 74 74 76 89 92 95 99
Visualisasi 100
90
80
70
Pre- 60
Atribut C
50
processing 40
30
20
10
Similaritas 0
45 50 55 60 65 70 75 80 85 90 95 100
Atribut B
Herdianti Darwis 19
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
EDA
Pre-
processing
Visualisasi berbasi icon
Similaritas
Visualisasi hierarki dan graf
Herdianti Darwis 20
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
Pre-
processing
Similaritas
Herdianti Darwis 21
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
Pre-
processing
Similaritas
Herdianti Darwis 22
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
Pre-
processing
Similaritas
Visualisasi hubungan pendapatan dan Umur Dari hasil sensus Amerika
Herdianti Darwis 23
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
Pre-
processing
Similaritas
Visualisasi Clustering dengan Hierarki
Herdianti Darwis 24
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
EDA
Visualisasi
Pre-
1. Data cleaning / Pembersihan
processing
2. Aggregation / Pengumpulan
3. Dimensionality Reduction / Pengurangan Dimensi
4. Feature Selection / Pemilihan Fitur
5. Feature Creation / Pembuatan Fitur
Similaritas
6. Discretization and Binarization / Pendiskritan & Pembineran
7. Atribut Transformation /Transformasi Atribut
Herdianti Darwis 25
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Herdianti Darwis 26
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
2. Aggregation/ Pengumpulan
EDA
Proses mengkombinasikan dua buah atau lebih atribut-atribut atau
objek-objek ke dalam suatu atribut tunggal atau objek.
Tujuan:
1. Data reduction
Similaritas
2. Perubahan skala (area, topik, dst)
3. Lebih menstabilkan data
Herdianti Darwis 27
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
2. Aggregation/ Pengumpulan
EDA
Proses mengkombinasikan dua buah atau lebih atribut-atribut atau
objek-objek ke dalam suatu atribut tunggal atau objek.
Tujuan:
1. Data reduction
Similaritas
2. Perubahan skala (area, topik, dst)
3. Lebih menstabilkan data
Herdianti Darwis 28
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Tipe Sampling:
1. Simple Random sampling (sampling acak sederhana)
Pre-
processing 2. Stratified sampling (sampling bertingkat), membagi data dalam
beberapa partisi kemudian mengambil sampel dari tiap partisi.
Termasuk: proportined stratified dan disproportined stratified
Herdianti Darwis 29
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Tujuan:
Visualisasi 1. Mengurangi jumlah waktu dan memori yang dibutuhkan
algoritma.
2. Membuat data lebih mudah divisualisasikan
3. Membantu mengurangi fitur-fitur yang tidak relevan
Pre- 4. Membantu mengurangi noise
processing
Teknik:
1. Principal Component Analysis (PCA)
2. Singular Value decomposition (SVD)
Similaritas
3. Nonlinear techniques
Herdianti Darwis 30
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Tujuan:
Visualisasi 1. Mengurangi jumlah waktu dan memori yang dibutuhkan
algoritma.
2. Membuat data lebih mudah divisualisasikan
3. Membantu mengurangi fitur-fitur yang tidak relevan
Pre- 4. Membantu mengurangi noise
processing
Teknik:
1. Principal Component Analysis (PCA)
2. Singular Value decomposition (SVD)
3. Transformasi Wavelet, Nonlinear techniques,
Similaritas
4. dll.
Herdianti Darwis 31
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
memperhatikan:
Visualisasi 1. Fitur redundant (duplikasi)
2. Fitur irrelevant (tidak sesuai dengan keperluan data mining)
Teknik:
Pre- 1. Brute-force approach >>> mencoba semua kemungkinan fitur
processing sub-set sebagai input algoritma
2. Embedded approaches >>> Seleksi fitur yang terjadi secara alami
sebagai bagian dari algoritma.
3. Filter approaches >>>Memilih fitur sebelum algoritma
dijalankan.
Similaritas
4. Wrapper approaches >>> menggunakan algoritma sebagai sebuah
kotak hitam untuk mendapatkan sub set atribut terbaik.
Herdianti Darwis 32
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Visualisasi
Teknik:
1. Feature extraction >>> Mengekstraksi fitur
2. Transformasi Fourier atau Transformasi Wavelet >>> Pemetaan
Pre- data ke dalam ruang
processing 3. Feature construction >>> membuat fitur baru dengan
menggabungkan fitur-fitur.
Similaritas
Herdianti Darwis 33
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Herdianti Darwis 34
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
6. Transformasi Atribut
EDA
“suatu fungsi yang memetakan keseluruhan himpunan niai dari
atribut yang diberikan ke suatu himpunan nilai-nilai pengganti
yang baru sedemikian sehingga nilai yang lama dapat dikenali
dengan satu nilai baru.
Visualisasi
Similaritas
Herdianti Darwis 35
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Similaritas
EDA Similaritas (kemiripan) antara dua objek merupakan
ukuran numerik dari seberapa mirip dua buah objek.
Herdianti Darwis 36
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Dissimilaritas/Distance
EDA Dissimilaritas dinyatakan dengan
𝑑 𝑖, 𝑗 = 𝑑 𝑗, 𝑖
Visualisasi 𝑑 𝑖, 𝑗 = 𝑑 𝑗, 𝑖 = 0
Herdianti Darwis 37
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Similaritas 𝑑 − min(𝑑)
𝑠 =1−
max 𝑑 − min(𝑑)
Herdianti Darwis 38
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
1. 𝐸𝑐𝑢𝑙𝑖𝑑𝑒𝑎𝑛 𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑒
Visualisasi 2. Minowski Distance
3. Mahalanobis Distance
Herdianti Darwis 39
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
Herdianti Darwis
Program Studi Teknik Informatika - Fakultas Ilmu Komputer - Universitas Muslim Indonesia
STATISTIKA (2PPA307)
POKOK BAHASAN
STATISTIKA (2PPA307)
REFERENSI
Herdianti Darwis
Universitas Muslim Indonesia
Makassar, Indonesia
DATA MINING
Herdianti Darwis