Pertemuan 02 Representasi Data

Representasi Data
Sistem Pengenalan Pola

Pengambilan
Data
Pre Processing
Feature
Extraction and
Selection
Classification/Clu
steritation
Pengambilan Data
Gambar
Objek
Jarak dan sudut pengambilan
Format penyimpanan data
Alat capture
Suara
Objek
Frekuensi
Waktu pengambilan
Format penyimpanan data
Lingkungan
Alat rekam
Data lain
Data Set
Data set dapat merupakan kumpulan dari obyek data.
Nama lain: record, point, vector, pattern, event,
observation, case atau bahkan data
Ada 2 cara merepresentasikan data: kuantitatif atau
kualitatif.
Obyek data digambarkan dengan sejumlah atribut
yang meng-capture karakter dasar obyek data
Contoh: tinggi badan, waktu, dsb.
Atribut disebut variabel, karakteristik, field, fitur, atau
dimensi
Jenis atribut
Tipe atribut
Nominal
Kategorikal
(Kualitatif)
Ordinal
Interval
Numerik
(Kuantitatif)
Rasio
Penjelasan
Nilai atribut bertipe nominal
memberikan nilai berupa nama,
dengan nama inilah sebuah atribut
membedakan dirinya pada data
yang satu dengan yang lain (=, )
Contoh
Kode pos, nomor ktp,
nomor induk mahasiswa,
jenis kelamin
Nilai atribut bertipe ordinal

mempunyai nilai berupa nama yang
mempunyai arti informasi terurut (<,
, >, )
Grade kelulusan
{cumlaud, sangat
memuaskan,
memuaskan}, suhu
{dingin, normal, panas}
Tanggal, suhu (dalam
Celsius atau Fahrenheit)
Nilai atribut dimana perbedaan

diantara dua nilai mempunyai
makna yang berarti (+, -)
Nilai atribut dimana perbedaan

Suhu (dalam Kelvin),
diantara dua nilai dan rasio dua nilai umur, panjang, tinggi.
mempunyai makna yang berarti
Representasi Pola
Vektor
Strings
Deskripsi Logis
Fuzzy
Tree dan Graph
Kemiripan dan Ketidakmiripan Data

Metode klasifikasi, clustering, deteksi anomali menggunakan ukuran
kemiripan dan ketidakmiripan pada dua data untuk bisa memproses
pekerjaannya.
Misal, suatu data yang lebih mirip dengan kelas yang satu maka akan
diprediksi sebagai bagian dari kelas tersebut.
Kemiripan (similarity) adalah ukuran derajat numerik dimana dua

obyek adalah mirip
Nilai 0 jika tidak mirip dan 1 jika mirip penuh.
Ketidakmiripan (dissimilarity) adalah derajat numerik dimana dua

obyek adalah berbeda
Jangkauan nilai 0 sampai 1, atau bahkan sampai .
Jika s adalah ukuran kemiripan, dan d adalah ukuran ketidakmiripan

Jika interval
1 nilainya [0,1], dmaka dapat dirumuskan bahwa s+d=1,
s
se
atau
1 atau
d
7
Ukuran ketidakmiripan
Untuk mengukur ketidakmiripan dua data dengan beberapa
atribut untuk setiap data digunakan kuantitas jarak (distance).
Jarak: Euclidean, Manhattan, Minkowsky, Chebyshev,
Cosinus, Mahalanobis, Correlation, Hamming, dsb.
D ( x, y ) x y
x y
D ( x, y ) x y
Chebyshev
max x j y j
j 1
D ( x, y ) x y 1 x y
j 1
j 1
Euclidean
N
Manhattan/City Block
D( x, y ) mahalanobis ( x, y )
D( x, y ) cos( x, y )
Cosinus
x y
x.y
x y
C 1 x y
D ( x, y ) x y
Minkowsky
N
x.y x j y j
j 1
xj yj
j 1
N
2
x j x.x
j 1
1 N
C cov( x, y )
( x j x )( y j y )
N 1 j 1
Mahalanobis
cov( x, y )
corr ( x, y )
std ( x) std ( y )
Correlation
std ( x)
1 N
xj x
n 1 j 1
8
1 N
x
xj
N j 1
Pre-processing
Data set yang akan diproses seringkali harus
melalui pekerjaan awal.
Masalah-masalah: jumlah populasi data yang
terlalu besar, banyaknya data yang menyimpang,
dimensi yang terlalu tinggi, banyaknya fitur yang
tidak punya kontribusi besar, dan seterusnya.
Pemrosesan awal data set diantaranya:
aggregasi, sampling, reduksi dimensi, pemilihan
fitur, diskretisasi dan binerisasi, dan transformasi
variabel
9
Aggregasi
Aggregasi (aggregation) adalah pengombinasian dua atau lebih obyek
kedalam sebuah obyek tunggal.
Sangat berguna ketika dalam data set ada sejumlah nilai dalam fitur
yang sebenarnya dalam satu kelompok yang jika nilai tersebut
digabungkan tidak akan menyimpang dari deskripsi pada fitur tersebut.
Aggregasi yang dapat dilakukan: sum (jumlah), average (rata-rata), min
(terkecil), atau max (terbesar).
Cabang
Gresik
Gresik
Surabaya
Surabaya
Surabaya
IDT
2012102
2012103
2012201
2012202
2012203
Tanggal
30-01-2012
30-01-2012
30-01-2012
30-01-2012
31-01-2012
Total
250.000
300.000
500.000
450.000
350.000
Cabang
Gresik
Surabaya
Surabaya
Tanggal
30-01-2012
30-01-2012
31-01-2012
10
Total
550.000
950.000
350.000
Sampling
Sampling merupakan pendekatan yang umum digunakan untuk pemilihan
bagian (subset) dari obyek/data secara keseluruhan yang akan dianalisis.
Kunci utama adalah bahwa sampel data akan bekerja hampir sama
dengan seluruh data jika sampel tersebut mampu mewakili (representatif)
terhadap seluruh data.
Sampel disebut representatif jika diperkirakan mempunyai sifat yang
sama dengan seluruh data, biasanya diukur dengan rata-rata (mean)
pada sampel dan data asli.
9000 data
7000 data
4000 data
2000 data
11
Binerisasi
Binerisasi adalah transformasi data dari tipe kontinyu dan
diskrit ke atribut biner.
Cara melakukan binerisasi: jika ada M macam nilai
kategorikal, maka harus diberikan secara unik untuk setiap
nilai kategori dengan nilai integer dalam jangkauan [0,M-1].
Untuk ordinal harus urut sesuai tingkatannya.
Contoh 1 (non asimetri)
Nilai Biner
Nilai
Nilai
x2
x
x3
Kategorikal Integer 1
rusak
jelek
sedang
bagus
sempurna
0
1
2
3
4
0
0
0
0
1
0
0
1
1
0
0
1
0
1
0
Contoh 2 (asimetri)
Nilai Biner
Nilai
Kategorikal
Nilai
Integer
x1
x2
x3
x4
x5
rusak
jelek
sedang
bagus
sempurna
0
1
2
3
4
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
0
0
0
0
0
1
12
Feature Extraction
Feature extraction involves detecting and
isolating various desired features of patterns.
It is the operation of extracting features for
identifying or interpreting meaningful
information from the data.
Feature Extraction technique :
DFT and DCT
Wavelet Transform
PCA
Feature Selection
Purpose :
Reduction in cost of pattern classification and
design of the classifier
Improvement of classification accuracy
To obtain good classification accuracy, the number
of training samples must increase as the number
of features increase.
Evaluation of Classifiers
The various parameters of the classifier
which requires to be taken into account
are
Accuracy of the classifier
Design time and classification time
Space required
Explanation ability
Noise tolerance
Read more paper review
TERIMA KASIH
Tugas
Membuat ringkasan BAB 1 dan 2 dari buku
Pattern Recognition An Algorithmic
Approach karangan M. Narasimha Murty
V. Susheela Devi
Dikumpulkan 6 Oktober 2016, pukul 17:00
melalui email syahronihidayat788@gmail.com
Format :
A4, TNR 12, margin 4-4-3-3, spasi 1.15, pdf
Nama File : NIM_NAMA_POLA_TUGAS1

Pertemuan 02 Representasi Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 02 Representasi Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Representasi Data

Sistem Pengenalan Pola

Nilai atribut bertipe ordinal

Nilai atribut dimana perbedaan

Nilai atribut dimana perbedaan

Kemiripan dan Ketidakmiripan Data

Kemiripan (similarity) adalah ukuran derajat numerik dimana dua

Ketidakmiripan (dissimilarity) adalah derajat numerik dimana dua

Jika s adalah ukuran kemiripan, dan d adalah ukuran ketidakmiripan

Read more paper review

Anda mungkin juga menyukai