DM Pertemuan 3. Data
DM Pertemuan 3. Data
DATA
Mustakim, S.T., M.Kom.
NIK
NIDN
Email
Web
: 130511023
: 2002068801
: mustakim@uin-suska.ac.id
: http://mustakimtelematika.wordpress.com/
Pengantar Data
Data Mining
Pengantar Data
Data Mining
Pengantar Data
DNA
RASTER
VEKTOR
VOICE
Data Mining
Tipe Data
2
Atribut: Sifat atau karakteristik dari suatu objek
Objek
NO
KODE
0071080010
0071500020
0071500050
4
5
0071500060
0071550010
0071580010
0072200010
0073210010
JUDUL
BK TEKS
2011
78,000
BK TEKS
2013
186,000
BK TEKS
2014
162,000
BK REF
BK TEKS
2013
2013
3
3
115,000
122,000
BK TEKS
2011
107,000
BK REF
2011
68,000
BK TEKS
2011
71,000
Data Mining
Tipe Data
Ordinal
Pada data nominal semua data dianggap bersifat kualitatif dan setara
sedangkan pada data ordinal terdapat klasifikasi data berdasarkan
tingkatannya.
Data Mining
Tipe Data
Rasio
Data dengan level pengukuran yang paling tinggi dan bersifat kuantitatif
Angka yang digunakan pada data ini menunjukkan angka yang
sesungguhnya
bukan hanya sebagai symbol dan memiliki nilai nol yang sesungguhnya.
Pada data ini, dapat dilakukan berbagai operasi matematika.
Mustakim, S.T., M.Kom.
Data Mining
Tipe Data
Contoh Nominal
Data jenis kelamin pada sampel penelitian Departemen Pendidikan,
data siswa dikategorikan menjadi laki-laki yang diwaliki angka 1 dan
perempuan yang diwakili angka 2.
Mengelompokan eskul disuatu SMA dari bidang olahraga, data eskul
dikategorikan menjadi basket yang diwakili dengan huruf A,
kemudian footsal diwakili dengan huruf B dan bolavoli diwakili oleh
huruf C.
Pengelompokan rumah-rumah dalam suatu perumahan, misal dari
sebelah utara komplek A, barat adalah komplek B, selatan
adalah C dan arah timur adlah komplek D.
Konsekuensi dari data nominal adalah tidak mungkin seseorang
memiliki dua kategori sekaligus dan angka yang digunakan di sini
hanya sebagai kode/simbol saja sehingga tidak dapat dilakukan
operasi matematika.
Mustakim, S.T., M.Kom.
Data Mining
Tipe Data
Contoh Ordinal
Mengenai tingkat pendidikan yang dikategorikan menjadi SD yang
diwakili angka 1, SMP yang diwakili angka 2, SMA yang diwakili
angka 3, Diploma yang diwakili angka 4, dan Sarjana yang diwakili
angka 5. Sama halnya dengan data nominal, meskipun tingkatannya
lebih tinggi, data ordinal tetap tidak dapat dilakukan operasi
matematika. Angka yang digunakan hanya sebagai kode/simbol saja,
dalam contoh tadi tingkat pendidikan tertinggi adalah Sarjana dan
terendah adalah SD (Sarjana > Diploma > SMA > SMP > SD).
Suatu peringkat ranking disuatu kelas misalkan Ihsan ranking 1 dan
udin ranking 2 berarti ihsan lebih pintar dari pada udin.
Penghitungan suara dalam pemilu, misalkan total suara Demokrat
60%, PDI 30%, Golkar 20% berarti suara tertinggi di pegang oleh
demokrat sebagai peringkat 1, sehinnga menjadi pemenang dalam
pemilu tersebut.
Mustakim, S.T., M.Kom.
Data Mining
Tipe Data
Contoh Interval
Interval nilai pelajaran matematika siswa SMA 4 Surabaya adalah
antara 0 sampai 100. Bila siswa A dan B masing-masing mempunyai
nilai 45 dan 90, bukan berarti tingkat kecerdasan B dua kali A. Nilai 0
sampai 100 hanya merupakan rentang yang dibuat berdasarkan
kategori pelajaran matematika dan mungkin berbeda dengan mata
pelajaran lain.
Dasar Pemrograman memiliki 1 SKS, waktunya adalah 50 menit,
begitupun dengan Teknik Digital yang memiliki 2 sks berarti waktunya
100 menit, dan yang terakhir yaitu kalkulus memiliki 3 SKS waktunya
adalah 150 menit sehingga dapat disimpulkan bahwa selisih data
diatas adalah 50 menit.
Data Mining
10
Tipe Data
Contoh Rasio
Dalam sebuah bank, seseorang mempunyai tabungan dengan saldo
10.000.000 rupiah. Angka tersebut menunjukkan bahwa orang
tersebut benar-benar mempunyai saldo sebesar 10.000.000 rupiah.
Jika seseorang mempunyai saldo -1.000.000 rupiah berarti orang
tersebut mempunyai hutang sebesar 1.000.000 rupiah. Sedangkan
jika seseorang mempunyai saldo 0 rupiah berarti orang tersebut tidak
mempunyai tabungan maupun hutang.
Nilai raport siswa SMA dimana masing masing siswa memiliki
nilaiyang berbeda yaitu Muiz mendapatkan nilai 100 (A), Cinta 80 (B),
dan Putri 60 (C) jika dilihat dariskala rasio nilai Muiz memiliki nilai
lebih 20 dari pada nilai Cinta, Cinta memiliki nilai lebih 20dari pada
nilai Putri, dan nilai putri kurang 40 untuk sama dengan Muiz.
Data Mining
11
Data Mining
12
Data record
Data Mining
13
Data record
Data Mining
14
Data transaksi
Data Mining
15
Data transaksi
Data Mining
16
Data Matriks
Data Mining
17
Data Matriks
Data Mining
18
Data Mining
19
Data Mining
20
Data Sekuensial
Data Mining
21
Data Mining
22
Data Mining
23
Data Mining
24
Data Spasial
Data Mining
25
Kualitas Data
Data Mining
26
Kualitas Data
Kesalahan Pengukuran
Bias
Precision
Accuracy
Data Mining
27
Kualitas Data
Kesalahan Penumpulan
Missing
Value
Data Mining
28
Kualitas Data
Duplikasi Data
Data Mining
29
Pengumpulan (Agregation)
Penarikan Contoh (Sampling)
Pengurangan Dimensi (Dimensionality Reduction)
Pemilihan Fitur (Feature Selection)
Pembuatan Fitur (Feature Creation)
Pendiskritan dan Pembineran (Discretization and
Binarization)
Transformasi Atribut (Attribute Transformation)
Data Mining
30
Agregation
Data Mining
31
Sampling
Data Mining
32
Sampling
Data Mining
33
Dimensionality Reduction
Data Mining
34
Feature Selection
Data Mining
35
Feature Creation
Data Mining
36
Teknik Binarization
Jika ada m nilai kategorikal, maka beri untuk setiap
nilai tersebut dengan sebuah nilai integer yang unik
pada interval [0,m-1]. Jika atributnya ordinal maka
urutan harus diperhatikan.
Konversikan tiap nilai integer tersebut kedalam
bilangan biner
Data Mining
37
Data Mining
38
Contoh:
Rubah atribut Taxable Income
menjadi atribut kategorikal
dengan kategori:
Rendah, Sedang dan Tinggi
Data Mining
39
Data Mining
40
Data Mining
41
Data Mining
42
Atribute Transformation
Data Mining
43
Atribute Transformation
Data Mining
44
Atribute Transformation
Contoh:
Lakukan standarisasi dari data-set berikut:
x ={2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}
Jawab:
Dari data diatas dapat dihitung median =
= (1.9 + 2)/2 = 1.95
Data Mining
45
Atribute Transformation
Maka,
X = {
Data Mining
46
Data Mining
47
Data Mining
48
Data Mining
49
Data Mining
50
Data Mining
51
Normalisasi
Tujuan Normalisasi:
Membuat keseluruhan nilai mempunyai suatu sifat
khusus
v'
v min
max min
20
0.000
45
1.000
30
0.400
24
0.160
Max = 45
Min = 20
Mustakim, S.T., M.Kom.
Data Mining
52
Tugas Kelompok
Terima Kasih
Data Mining
53