Anda di halaman 1dari 17

Representasi Data

Sistem Pengenalan Pola


Pengambilan
Data

Pre Processing

Feature
Extraction and
Selection

Classification/Clu
steritation

Pengambilan Data
Gambar
Objek
Jarak dan sudut pengambilan
Format penyimpanan data
Alat capture

Suara
Objek
Frekuensi
Waktu pengambilan
Format penyimpanan data
Lingkungan
Alat rekam

Data lain

Data Set
Data set dapat merupakan kumpulan dari obyek data.
Nama lain: record, point, vector, pattern, event,
observation, case atau bahkan data
Ada 2 cara merepresentasikan data: kuantitatif atau
kualitatif.
Obyek data digambarkan dengan sejumlah atribut
yang meng-capture karakter dasar obyek data
Contoh: tinggi badan, waktu, dsb.
Atribut disebut variabel, karakteristik, field, fitur, atau
dimensi

Jenis atribut
Tipe atribut

Nominal
Kategorikal
(Kualitatif)
Ordinal

Interval
Numerik
(Kuantitatif)
Rasio

Penjelasan
Nilai atribut bertipe nominal
memberikan nilai berupa nama,
dengan nama inilah sebuah atribut
membedakan dirinya pada data
yang satu dengan yang lain (=, )

Contoh
Kode pos, nomor ktp,
nomor induk mahasiswa,
jenis kelamin

Nilai atribut bertipe ordinal


mempunyai nilai berupa nama yang
mempunyai arti informasi terurut (<,
, >, )

Grade kelulusan
{cumlaud, sangat
memuaskan,
memuaskan}, suhu
{dingin, normal, panas}
Tanggal, suhu (dalam
Celsius atau Fahrenheit)

Nilai atribut dimana perbedaan


diantara dua nilai mempunyai
makna yang berarti (+, -)

Nilai atribut dimana perbedaan


Suhu (dalam Kelvin),
diantara dua nilai dan rasio dua nilai umur, panjang, tinggi.
mempunyai makna yang berarti

Representasi Pola

Vektor
Strings
Deskripsi Logis
Fuzzy
Tree dan Graph

Kemiripan dan Ketidakmiripan Data


Metode klasifikasi, clustering, deteksi anomali menggunakan ukuran
kemiripan dan ketidakmiripan pada dua data untuk bisa memproses
pekerjaannya.
Misal, suatu data yang lebih mirip dengan kelas yang satu maka akan
diprediksi sebagai bagian dari kelas tersebut.

Kemiripan (similarity) adalah ukuran derajat numerik dimana dua


obyek adalah mirip
Nilai 0 jika tidak mirip dan 1 jika mirip penuh.

Ketidakmiripan (dissimilarity) adalah derajat numerik dimana dua


obyek adalah berbeda
Jangkauan nilai 0 sampai 1, atau bahkan sampai .

Jika s adalah ukuran kemiripan, dan d adalah ukuran ketidakmiripan


Jika interval
1 nilainya [0,1], dmaka dapat dirumuskan bahwa s+d=1,
s
se
atau
1 atau
d
7

Ukuran ketidakmiripan
Untuk mengukur ketidakmiripan dua data dengan beberapa
atribut untuk setiap data digunakan kuantitas jarak (distance).
Jarak: Euclidean, Manhattan, Minkowsky, Chebyshev,
Cosinus, Mahalanobis, Correlation, Hamming, dsb.
D ( x, y ) x y

x y

D ( x, y ) x y

Chebyshev

max x j y j
j 1

D ( x, y ) x y 1 x y
j 1

j 1

Euclidean
N

Manhattan/City Block

D( x, y ) mahalanobis ( x, y )

D( x, y ) cos( x, y )

Cosinus

x y

x.y
x y

C 1 x y

D ( x, y ) x y

Minkowsky
N

x.y x j y j
j 1

xj yj
j 1
N

2
x j x.x
j 1

1 N
C cov( x, y )
( x j x )( y j y )
N 1 j 1

Mahalanobis

cov( x, y )
corr ( x, y )
std ( x) std ( y )
Correlation

std ( x)

1 N
xj x
n 1 j 1
8

1 N
x
xj
N j 1

Pre-processing
Data set yang akan diproses seringkali harus
melalui pekerjaan awal.
Masalah-masalah: jumlah populasi data yang
terlalu besar, banyaknya data yang menyimpang,
dimensi yang terlalu tinggi, banyaknya fitur yang
tidak punya kontribusi besar, dan seterusnya.
Pemrosesan awal data set diantaranya:
aggregasi, sampling, reduksi dimensi, pemilihan
fitur, diskretisasi dan binerisasi, dan transformasi
variabel
9

Aggregasi
Aggregasi (aggregation) adalah pengombinasian dua atau lebih obyek
kedalam sebuah obyek tunggal.
Sangat berguna ketika dalam data set ada sejumlah nilai dalam fitur
yang sebenarnya dalam satu kelompok yang jika nilai tersebut
digabungkan tidak akan menyimpang dari deskripsi pada fitur tersebut.
Aggregasi yang dapat dilakukan: sum (jumlah), average (rata-rata), min
(terkecil), atau max (terbesar).

Cabang
Gresik
Gresik
Surabaya
Surabaya
Surabaya

IDT
2012102
2012103
2012201
2012202
2012203

Tanggal
30-01-2012
30-01-2012
30-01-2012
30-01-2012
31-01-2012

Total
250.000
300.000
500.000
450.000
350.000

Cabang
Gresik
Surabaya
Surabaya

Tanggal
30-01-2012
30-01-2012
31-01-2012

10

Total
550.000
950.000
350.000

Sampling
Sampling merupakan pendekatan yang umum digunakan untuk pemilihan
bagian (subset) dari obyek/data secara keseluruhan yang akan dianalisis.
Kunci utama adalah bahwa sampel data akan bekerja hampir sama
dengan seluruh data jika sampel tersebut mampu mewakili (representatif)
terhadap seluruh data.
Sampel disebut representatif jika diperkirakan mempunyai sifat yang
sama dengan seluruh data, biasanya diukur dengan rata-rata (mean)
pada sampel dan data asli.

9000 data

7000 data

4000 data

2000 data
11

Binerisasi
Binerisasi adalah transformasi data dari tipe kontinyu dan
diskrit ke atribut biner.
Cara melakukan binerisasi: jika ada M macam nilai
kategorikal, maka harus diberikan secara unik untuk setiap
nilai kategori dengan nilai integer dalam jangkauan [0,M-1].
Untuk ordinal harus urut sesuai tingkatannya.
Contoh 1 (non asimetri)
Nilai Biner
Nilai
Nilai
x2
x
x3
Kategorikal Integer 1
rusak
jelek
sedang
bagus
sempurna

0
1
2
3
4

0
0
0
0
1

0
0
1
1
0

0
1
0
1
0

Contoh 2 (asimetri)
Nilai Biner

Nilai
Kategorikal

Nilai
Integer

x1

x2

x3

x4

x5

rusak
jelek
sedang
bagus
sempurna

0
1
2
3
4

1
0
0
0
0

0
1
0
0
0

0
0
1
0
0

0
0
0
1
0

0
0
0
0
1

12

Feature Extraction
Feature extraction involves detecting and
isolating various desired features of patterns.
It is the operation of extracting features for
identifying or interpreting meaningful
information from the data.
Feature Extraction technique :
DFT and DCT
Wavelet Transform
PCA

Feature Selection
Purpose :
Reduction in cost of pattern classification and
design of the classifier
Improvement of classification accuracy
To obtain good classification accuracy, the number
of training samples must increase as the number
of features increase.

Evaluation of Classifiers
The various parameters of the classifier
which requires to be taken into account
are
Accuracy of the classifier
Design time and classification time
Space required
Explanation ability
Noise tolerance

Read more paper review

TERIMA KASIH

Tugas
Membuat ringkasan BAB 1 dan 2 dari buku
Pattern Recognition An Algorithmic
Approach karangan M. Narasimha Murty
V. Susheela Devi
Dikumpulkan 6 Oktober 2016, pukul 17:00
melalui email syahronihidayat788@gmail.com
Format :
A4, TNR 12, margin 4-4-3-3, spasi 1.15, pdf
Nama File : NIM_NAMA_POLA_TUGAS1

Anda mungkin juga menyukai