DM Pertemuan 3. Data
DM Pertemuan 3. Data
DATA
Mustakim, S.T., M.Kom.
NIK : 130511023
NIDN : 2002068801
Email : mustakim@uin-suska.ac.id
Web : http://mustakimtelematika.wordpress.com/
DNA RASTER
VEKTOR VOICE
Mustakim, S.T., M.Kom. Data Mining 4
Tipe Data 2
Ordinal
• Pada data nominal semua data dianggap bersifat kualitatif dan setara
• sedangkan pada data ordinal terdapat klasifikasi data berdasarkan
tingkatannya.
Rasio
• Data dengan level pengukuran yang paling tinggi dan bersifat kuantitatif
• Angka yang digunakan pada data ini menunjukkan angka yang
sesungguhnya
• bukan hanya sebagai symbol dan memiliki nilai nol yang sesungguhnya.
Pada data ini, dapat dilakukan berbagai operasi matematika.
Contoh Nominal
Contoh Ordinal
Contoh Interval
Contoh Rasio
Data record
Data record
Data transaksi
Data transaksi
Data Matriks
Data Matriks
Data Sekuensial
Data Spasial
Kesalahan Pengukuran
Kesalahan Pengumpulan
Duplikasi Data
Kesalahan Pengukuran
Kesalahan Penumpulan
Duplikasi Data
• Pengumpulan (Agregation)
• Penarikan Contoh (Sampling)
• Pengurangan Dimensi (Dimensionality Reduction)
• Pemilihan Fitur (Feature Selection)
• Pembuatan Fitur (Feature Creation)
• Pendiskritan dan Pembineran (Discretization and
Binarization)
• Transformasi Atribut (Attribute Transformation)
Teknik Binarization
• Jika ada m nilai kategorikal, maka beri untuk setiap
nilai tersebut dengan sebuah nilai integer yang unik
pada interval [0,m-1]. Jika atributnya ordinal maka
urutan harus diperhatikan.
• Konversikan tiap nilai integer tersebut kedalam
bilangan biner
Contoh:
Rubah atribut Taxable Income
menjadi atribut kategorikal
dengan kategori:
Rendah, Sedang dan Tinggi
Misalnya:
k : Jumlah klas
mi : Jumlah nilai dalam interval ke-I dari partisi
mij : jumlah nilai dari kelas j dalam interval i
Dimana: pij = mij/mi
probabilitas kelas j dalam
interval i
Mustakim, S.T., M.Kom. Data Mining 42
Atribute Transformation 5
Contoh:
Lakukan standarisasi dari data-set berikut:
x ={2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1, 1.5, 1.1}
Jawab:
Dari data diatas dapat dihitung median =
µ = (1.9 + 2)/2 = 1.95
Maka,
X’ = {
Contoh:
Hitung ukuran jarak euclidian antara semua titik dalam
data set dua dimensi berikut:
Jawab:
Tujuan Normalisasi:
Membuat keseluruhan nilai mempunyai suatu sifat
khusus
v min
v' max min
V V’
20 0.000
45 1.000
30 0.400
24 0.160
Max = 45
Min = 20
Terima Kasih