Pertemuan 5 - Input Concepts, Instances and Attributes

Input: Concepts, Instances and
Attributes
1. What’s A Concept?
• Empat perbedaan mendasar dari pembelajaran
dalam data mining:
▫ Classification learning: skema pembelajaran
dipresentasikan melalui contoh yang sudah
dikelompokkan untuk memprediksi contoh yang
belum diketahui kelompoknya.
▫ Assosiation learning: mencari asosiasi antar fitur
▫ Clustering: kelompok contoh bersama yang dicari
▫ Forecasting: luaran yang diprediksi bukan class
diskrit, tetapi numeric
2. What’s In An Example?
• The input to a machine learning scheme is a set
of instances.
• These instances are the things that are to be
classified or associated or clustered
• Although until now we have called them
examples, henceforth we will generally use the
more specific term instances to refer to the
input.
3. What’s In An Attribute?
• Each instance that provides the input to
machine learning is characterized by its values
on a fixed, predefined set of features or
attributes.
Preprocessing Data
• Aggregation
• Sampling
• Dimensionality reduction
• Feature subset selection
• Feature creation
• Descretization and binarization
• Attribute transformation
Aggregation
• Kombinasi dua atau lebih atribut atau objek ke
dalam satu atribut tunggal atau objek.
• Agregasi data sangat berguna ketika pada data
set ada sejumlah nilai dalam fitur yang
sebenarnya satu kelompok, yang tidak akan
menyimpang dari deskripsi pada fitur tersebut
jika nilai tersebut digabungkan.
• Agregasi yang dapat dilakukan adalah sum,
average, min atau max.
• Contoh yang sering ditemui adalah data
transaksi pembelian di beberapa cabang
distributor.
• Data set transaksi pembelian
Cabang IDT Tanggal Total

Gresik 2012102 30-01-2012 250.000
Gresik 2012103 30-01-2012 300.000
Surabaya 2012201 30-01-2012 500.000
Surabaya 2012202 30-01-2012 450.000
Surabaya 2012203 31-01-2012 350.000
• Data set transaksi pembelian setelah agregasi
Cabang Tanggal Total
Gresik 30-01-2012 550.000
Surabaya 30-01-2012 950.000
Surabaya 31-01-2012 350.000
• Tujuan agregasi:
▫ Pengurangan data
▫ Perubahan skala
▫ Menstabilkan data
Sampling
• Sampling merupakan teknik utama yang
digunakan untuk seleksi data.
• Teknik sampling biasa digunakan di ilmu
statistik. Dalam ilmu statistik teknik sampling
digunakan dengan alasan pemakaian seluruh
data akan terlalu berat dan butuh waktu lama.
Sedangkan dalam data mining teknik sampling
bertujuan mempercepat proses yang dilakukan
algoritma data mining.
• Kunci utama dalam penyampelan adalah sampel
data akan bekerja hampir sama dengan seluruh
data jika sampel tersebut mampu mewakili
(representatif) seluruh data.
• Sampel disebut representatif jika diperkirakan
mempunyai sifat yang sama dengan seluruh
data, biasanya diukur dengan rata-rata (mean)
pada sampel dan data asli.
• Pendekatan termudah dalam sampling adalah
penyampelan acak sederhana. Ada dua jenis
teknik sampling, yaitu:
1. Sampling tanpa pengembalian
2. Sampling dengan pengembalian
Dimensionality Reduction
• Metode reduksi dimensionalitas data bekerja
dengan cara tertentu untuk menangkap
karakteristik data dengan memetakan data set dari
dimensi semula ke dimensi lain yang relatif rendah.
• Pemetaan menghasilkan komponen utama yang
kemudian dapat diambil fitur dari dimensi baru
yang mempunyai pengaruh besar pada data set dan
membuang fitur yang tidak berpengaruh besar.
Metode yang digunakan adalah principal
component analysis (PCA) dan singular value
decomposition (SVD).
• Principle Component Analysis
Merupakan teknik statistik yang sangat berguna
untuk menemukan pola dalam data dimensi
tinggi. Keuntungan utama dari PCA adalah saat
mendapatkan pola dalam data dan
mengkompres data tersebut dengan mengurangi
jumlah dimensi, tanpa kehilangan informasi.
• Karakteristik PCA:
▫ Mempunyai kecenderungan mengenali pola
terkuat dalam data set.
▫ Sebagian besar variabel data dapat ditangkap oleh
sebagian kecil dari total dimensi data tersebut.
▫ Karena noise dalam data lebih lemah
dibandingkan polanya, penurunan dimensi dapat
mengurangi banyak noise.
Feature Subset Selection
• Selain menggunakan metode PCA, cara
mengurangi dimensi dalam data mining dapat
dilakukan dengan pemilihan fitur.
• Pemilihan fitur akan memilih fitur yang tepat
atau hanya menggunakan atribut-atribut yang
diperlukan.
• Dalam pemilihan fitur perlu diperhatikan:
▫ Fitur-fitur redudant
▫ Fitur-fitur yang tidak relevan
• Teknik yang digunakan dalam feature selection:
▫ Brute-force approach: mencoba semua
kemungkinan fitur subset sebagai masukan
algoritma data mining
▫ Embedded approach: feature selection terjadi
secara alami sebagai bagian dari algoritma data
mining
▫ Filter approach: fitur-fitur dipilih sebelum
algoritma data mining dijalankan
▫ Wrapper approach: menggunakan algoritma data
mining sebagai sebuah kotak hitam untuk
mendapatkan sub set atribut yang paling baik
• Proses pemilihan fitur terdiri dari empat bagian,
yaitu:
▫ Sebuah pengukuran untuk mengevaluasi suatu
sub set fitur
▫ Sebuah strategi pencarian yang mengontrol
pembangkitan sub set fitur yang baru
▫ Sebuah kriteria penghentian
▫ Sebuah prosedur validasi
Feature Creation
• Merupakan proses membuat atribut baru yang
dapat menangkap informasi penting dalam sebuah
himpunan data yang lebih efisien daripada atribut-
atribut yang ada.
• Metodologi yang biasa digunakan untuk membuat
fitur baru, yaitu:
▫ Ekstraksi fitur
▫ Pemetaan data e ruang menggunakan transformasi
fourier
▫ Konstruksi fitur dengan menggabungkan fitur-fitur.
Discretization and Binarization
• Beberapa algoritma data mining, khususnya
algoritma klasifikasi, membutuhkan data dalam
bentuk atribut kategorikal. Sedangkan algoritma
asosiasi memerlukan data dalam bentuk biner.
Transformasi atribut kontinyu ke dalam bentuk
atribut kategorikal disebut dengan
discretization.
• Tranformasi atribut kontinyu maupun diskrit ke
dalam bentuk atribut biner disebut binarization.
• Discretization untuk tujuan klasifikasi
dibedakan 2, yaitu:
▫ Unsupervised discretization
 Pendekatan equal width
 Pendekatan equal frequency (equal depth)
▫ Supervised discretization
 Entropy based approach
Attribute Transformation
• Merupakan suatu fungsi memetakan
keseluruhan himpunan nilai dari atribut yang
diberikan ke suatu himpunan nilai-nilai
pengganti yang baru sedemikian hingga nilai
yang lama dapat dikenali dengan satu dari nilai-
nilai baru tersebut.
• Salah satu fungsi transformasi atribut adalah
untuk standarisasi dan normalisasi.
JANUARI PEBRUAR MARET APRIL
2008 I 2008 2008 2008
NO NAMA SISA ANGS BUNGA DENDA VS.BARU SISA ANGS BUNGA DENDA VS.BARU SISA ANGS BUNGA DENDA VS.BARU SISA ANGS
Zuri 12,500,00 12,500,00
1 Sulistiyono 5,262,590 268,800 84,200 0 0 4,993,790 893,100 79,900 0 0 4,100,690 4,100,690 65,610 0 0 0 435,500
M.Pranoto
2 7,869,395 237,090 125,910 0 0 7,632,305 240,885 122,115 0 0 7,391,420 204,740 118,260 0 0 7,186,680 245,200
Budi Hartanto
3 - 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Subagiyo
4 6,456,370 169,700 103,300 0 0 6,286,670 172,415 100,585 0 0 6,114,255 225,170 97,830 0 0 5,889,085 5,889,085
Agus Hartanto
5 3,787,185 239,405 60,595 0 0 3,547,780 143,235 56,765 0 0 3,404,545 145,530 54,470 0 0 3,259,015 201,115
Agus Cahyono
6 1,614,715 152,165 25,835 0 0 1,462,550 1,462,550 23,400 0 5,000,000 5,000,000 258,275 80,000 0 0 4,741,725 156,875
Budi
7 Agustiono 8,244,715 368,085 131,915 0 0 7,876,630 373,975 126,025 0 0 7,502,655 379,960 120,040 0 0 7,122,695 393,160
Giyono
8 Purnomo - 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Djoko Santiko
9 6,500,000 500,000 104,000 0 0 6,000,000 500,000 96,000 0 0 5,500,000 500,000 88,000 0 0 5,000,000 500,000
Kaswito
10 3,370,725 3,370,725 53,930 0 8,500,000 8,500,000 237,000 136,000 0 0 8,263,000 240,790 132,210 0 0 8,022,210 252,665
Yohana
11 Mulyani - 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Lexsi Besare
12 - 0 0 0 0 0 0 0 0 6,000,000 6,000,000 244,000 96,000 0 0 5,756,000 263,660
Dodik Dwi
13 Saputro 571,945 268,850 9,150 0 0 303,095 303,095 4,850 0 3,000,000 3,000,000 230,000 48,000 0 0 2,770,000 236,450
Sefanus
14 Natanael 1,435,120 177,040 22,960 0 0 1,258,080 129,870 20,130 0 0 1,128,210 131,950 18,050 0 0 996,260 185,055
Bagus Pranoto
15 4,449,215 101,815 71,185 0 0 4,347,400 4,347,400 69,560 0 8,000,000 8,000,000 145,000 128,000 0 0 7,855,000 132,130
Sujono B
16 8,874,555 231,010 141,990 0 0 8,643,545 234,705 138,295 0 0 8,408,840 238,460 134,540 0 0 8,170,380 250,445
A.F. Sugito
17 Kusno - 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Bambang 13,888,88
18 Priyanto 15,277,770 694,445 287,555 0 0 14,583,325 694,445 287,555 0 0 0 694,445 287,555 0 0 13,194,435 694,445
Benny Markus 12,500,00 12,500,00
19 S 7,867,450 247,120 125,880 0 0 7,620,330 251,075 121,925 0 0 7,369,255 7,369,255 117,910 0 0 0 435,500
Joko Sartono
20 4,467,650 4,467,650 71,480 0 0 0 0 0 0 3,000,000 3,000,000 152,000 48,000 0 0 2,848,000 157,280
Andhy Susanto
21 - 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Y. Bunawi
22 Rahardjo 2,571,585 458,855 41,145 0 0 2,112,730 366,195 33,805 0 0 1,746,535 372,055 27,945 0 0 1,374,480 479,385

Pertemuan 5 - Input Concepts, Instances and Attributes

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan 5 - Input Concepts, Instances and Attributes

Diunggah oleh

Hak Cipta:

Format Tersedia

Input: Concepts, Instances and

Cabang IDT Tanggal Total

Anda mungkin juga menyukai