Anda di halaman 1dari 8

Tugas Personal ke-2

(Minggu 8 / Sesi 13)

1. Misalkan, sebagai manajer toko, Anda ingin menggunakan data


transaksional penjualan untuk menganalisis efektivitas iklan toko Anda.
Secara khusus, Anda akan mempelajari bagaimana faktor-faktor spesifik
memengaruhi efektivitas iklan itu dan mengumumkan kategori barang
tertentu yang dijual. Faktor - faktor yang diteliti adalah wilayah dalam
tempat tinggal pelanggan dan hari iklan dan hari iklan. Bagaimana
merancang metode yang efisien untuk menambang set data transaksi dan
menjelaskan metode mining multidimensi dan multi-tingkat dapat
membantu Anda mendapatkan solusi yang baik.

Jawab :
Untuk mendapatkan multilevel association rule, perlu terlebih dahulu
dibentuk suatu concept hierarchy tree dari data - data yang ada, seperti
terlihat pada Gambar 1 dan menyusunnya ke dalam sebuah generalized
description table, seperti terlihat pada Tabel
1. Selanjutnya data transaksi yang akan di-mining dirubah / di-
transformasi menjadi encoded transaction table, dimana item - item
yang ada pada sebuah transaksi dikodekan sesuai dengan nilai GID-
nya pada generalized description table [3, 4]. Sebagai contoh, lihat
Tabel 2.

Gambar 1. Contoh concept hierarchy tree [4]

Tabel 1. Contoh generalized description table [3]

ISYS6281 – Data Mining


Tabel 2. Contoh Encoded Transaction Table T[1] [3]

Sedangkan kunci dari penggalian multilevel association rule adalah


membangun sebuah concept hierarchy tree dari sebuah predikat, misal:
produk. Kemudian menyusunnya ke dalam sebuah generalized description
table, dan mengkodekan item-item produk pada tabel detail transaksi penjualan
menjadi encoded transaction table.
Langkah - langkah untuk menggali multilevel and multidimension association rule
adalah sebagai berikut:
a. Melakukan join tabel transaksi yang biasanya bersifat multi-dimensi dengan
tabel detail transaksi yang biasanya bersifat multi-level namun hanya single-
dimensi, misal: dimensi produk.
b. Dari tabel hasil join, dapat disusun concept hierarchy tree berdasarkan atribut
- atribut tabel dan nilai - nilai yang ada didalamnya.
c. Dari concept hierarchy tree yang telah dibuat, dapat disusun sebuah
generalized description table. Panjang kode dalam GID harus disesuaikan
berdasarkan item dengan level terpanjang.
d. Dengan bantuan kode - kode yang telah didefinisikan pada generalized
description table, tabel hasil join dapat dirubah menjadi encoded transaction
table.
e. Langkah berikutnya adalah menggali frequent predicate sets menggunakan
salah satu algoritma yang biasa dipakai untuk menggali frequent itemsets
pada multilevel association rule.
f. Langkah terakhir adalah meng-generate hasil frequent predicate sets menjadi
multilevel and multidimension association rule menggunakan Rule
Generation.

2. Diberikan decision tree, Anda memiliki opsi untuk (a) mengubah decision
tree menjadi aturan dan kemudian memangkas aturan yang dihasilkan,
atau (b) memangkas pohon keputusan dan kemudian mengkonversi tree
yang dipangkas untuk aturan. Keuntungan apa yang dimiliki (a) lebih dari
(b)?

Jawab:

Error! No text of specified style in document. ©Arif 2|8


Konsep dari pohon keputusan adalah mengubah data menjadi
decision tree dan aturan-aturan keputusan. Manfaat utama dari
penggunaan decision tree adalah kemampuannya untuk memecah
proses pengambilan keputusan yang kompleks menjadi lebih
sederhana, sehingga pengambil keputusan akan lebih mudah
menginterpretasikan solusi dari permasalahan. Nama lain dari
decision tree adalah CART(Classification and Regression Tree),
dimana metode ini merupakan gabungan dari dua jenis pohon, yaitu
classification dan juga regression tree.

Dalam beberapa aplikasi, akurasi dari sebuah klsifikasi atau prediksi


adalah satu-satunya hal yang ditonjolkan dalam metode ini, sebagai
contoh misalnya sebuah perusahaan direct mail membuat sebuah model
yang akurat untuk memprediksi anggota mana yang berpotensi merespon
permintaan, tanpa memperhatikan bagaimana atau mengapa model
tersebut bekerja.

Kelebihan lain dari metode ini adalah mampu mengeliminasi perhitungan


atau data-data yang tidak diperlukan. Sebab, sampel yang ada biasanya
hanya diuji berdasarkan kriteria atau kelas tertentu saja.

3. Tulis algoritma untuk klasifikasi k-terdekat-tetangga yang diberikan k,


angka terdekat dari tetangga, dan n, jumlah atribut yang menggambarkan
masing-masing tuple!

Jawab :
Algoritma k-Nearest Neighbor adalah algoritma supervised learning
dimana hasil dari instance yang baru diklasifikasikan berdasarkan
mayoritas dari kategori k-tetangga terdekat.
Tahapan langkah algoritma k-NN
1. Menentukan parameter k (jumlah tetangga paling dekat)
2. Menghitung kuadrat jarak Euclidian objek terhadap data training yang
diberikan.
3. Mengurutkan hasil no.2 secara ascending (berurutan dari nilai tinggi ke
rendah)
4. Mengumpulkan kategori Y (klasifikasi nearest neighbor berdasarkan
nilai k).
5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas
maka dapat diprediksikan kategori objek.

Error! No text of specified style in document. ©Arif 3|8


Setiap instance yang berhubungan dengan titik dalam ruang n-D atau
tetangga terdekat didefinisikan dalam jarak Euclidean, dist (X1, X2).
Fungsi target bisa bersifat diskrit atau nyata.
Untuk bernilai diskrit, k-NN mengembalikan nilai paling umum diantara
contoh pelatihan k yang terdekat dengan xq.

4. Jelaskan secara singkat dan berikan contoh masing-masing pendekatan


berikut untuk pengelompokan: metode partisi, metode hierarkis, metode
berbasis kepadatan, dan berbasis grid metode!

Jawab :

Metode partisi adalah metode clustering dimana data dikelompokkan ke


dalam sejumlah kluster tanpa adanya struktur hierarki antara satu dengan
yang lainnya. Pada metode ini, setiap kluster memiliki titik pusat
kluster(centroid) dan secara umum metode ini memiliki fungsi tujuan yaitu
meminimumkan jarak dari seluruh data ke pusat kluster masing-masing.
Contoh metode partitional clustering: k-Means, Fuzzy k-Means dan
Mixture Modelling.
Metode hierarkis adalah teknik clustering membentuk hierarki atau
berdasarkan tingkatan tertentu sehingga menyerupai struktur pohon.
Dengan demikian proses pengelompokkannya dilakukan secara bertingkat
atau bertahap. Biasanya metode ini digunakan pada data yang jumlahnya
tidak terlalu banyak dan jumlah kluster yang akan dibentuk belum
diketahui. Di dalam metode hierarki, terdapat dua jenis strategi
pengelompokan yaitu agglomerative dan divisive. Agglomerative (metode
penggabungan) adalah strategi pengelompokan hierarki yang dimulai
dengan setiap objek dalam satu kluster yang terpisah kemudian
membentuk kluster yang semakin membesar. Jadi, banyaknya kluster awal
adalah sama dengan banyaknya objek. Divisive (metode pembagian)
adalah strategi pengelompokan hierarki yang dimulai dari semua objek
dikelompokkan menjadi kluster tunggal kemudian dipisah sampai setiap
objek berada dalam kluster yang terpisah. (Supratto, 2004). Contoh
metode: Diana, Agnes, BIRCH, CAMELEON.

Error! No text of specified style in document. ©Arif 4|8


Density-based adalah algoritma yang berdasarkan konsep kepadatan,
dimana tergantung pada kepadatannya, algoritma yang berbeda dibuat
berdasarkan metode ini. Contohnya, jika kluster dibuat dengan
menggunakan kepadatan objek tetangga maka digunakan algoritma
DBSCAN, sebaliknya jika kluster dibuat menurut suatu fungsi kepadatan
maka digunakan algoritma DENCLUE. Sementara OPTICS adalah
algoritma kepadatan yang menghasilkan urutan struktur kumpulan data
yang telah di tingkatkan.

Grid-based clustering method adalah pendekatan berbasis grid yang


digunakan pada daerah multidimensional yang luas dimana kluster terlihat
lebih padat dibandingkan sekelilingnya. Keuntungan metode ini adalah
pengurangan kompleksitas komputasional yang cukup signifikan terutama
untuk clustering pada data sets yang sangat besar. Metode grid-based ini
berbeda dari metode clustering biasa dimana metode ini tidak berfokus
pada data points melainkan pada daerah di sekeliling data points tersebut.
Contoh metode: STING, WaveCluster, CLIQUE.

5. Bandingkan algoritma SCAN dengan DBSCAN. Apa persamaan dan


perbedaannya?

Jawab :
• DBSCAN Algorithm:
Density-based Spatial Clustering of Applications with Noise (DBSCAN)
adalah algoritma clustering yang biasa digunakan pada data mining dan
machine learning. Berdasarkan suatu set point, DBSCAN
mengelompokkan points yang berdekatan berdasarkan pengukuran jarak
(biasanya jarak Euclidean) dan jumlah point minimum. Point yang berada
pada area kurang padat ditandai sebagai outliers. Algoritma DBSCAN
biasanya digunakan untuk menemukan hubungan dan struktur pada data
yang sulit ditemukan secara manual namun dapat berguna untuk
menemukan pola dan memprediksi tren.

DBSCAN membutuhkan dua parameter dan jumlah point minimum untuk


membentuk area padat. Hal tersebut dimulai dengan sembarang point
mulai dari yang belum dikunjungi. Point tersebut diambil, dan jika
memiliki point yang mencukupi, sebuah cluster dimulai. Jika tidak, point
diberi label sebagai noise. Point ini mungkin kemudian hari bisa berada
pada lingkungan point lain yang cukup ukurannya dan dapat dijadikan
bagian dari cluster. Jika sebuah point merupakan bagian padat dari sebuah
cluster, sekelilingnya(tetangganya) adalah bagian dari cluster tersebut
juga. Sehingga semua points yang ditemukan di area sekitar ditambahkan
sebagai bagian tersebut ketika memenuhi kepadatan. Proses ini berlanjut
sampai cluster yang terhubung melalui kepadatan semuanya ditemukan..
Baru kemudian point baru yang belum dikunjungi diambil dan diproses

Error! No text of specified style in document. ©Arif 5|8


dan kemudian dijadikan bagian dari cluster. DBSCAN dapat digunakan
dengan segala fungsi jarak sehingga dapat dijadikan sebagai parameter
tambahan.

• SCAN (Elevator) Algorithm:


Pada algoritma penjadwalan disk SCAN, lengan disk bergerak ke arah
tertentu hingga akhir, sambil memenuhi semua permintaan di sepanjang
lintasannya, kemudian berbalik ke arah berlawanan. System kerjanya
menyerupai lift, dimana sebuah lift bergerak ke satu arah sepenuhnya
hingga lantai terakhir arah tersebut baru kemudian berbalik. Sebagai
hasilnya, permintaan yang berada di range tengah lebih banyak dipenuhi
dan yang berada di belakang disk harus menunggu.

Algoritmanya adalah sebagai berikut:


1. Array permintaan mewakili sebuah array yang menyimpan index dari
tracks yang telah diminta secara ascending berdasarkan waktu kedatangan.
“Kepala” adalah posisi dari kepala disk.
2. Direction(arah) mewakili apakah kepala bergerak menuju kiri atau
kanan.
3. Pada arah dimana kepala tersebut bergerak, track dilayani satu per satu.
4. Hitung jarak absolut track dari kepalanya.
5. Tambahkan total perhitungan pencarian dengan jarak tersebut.
6. Posisi track yang sedang dilayani sekarang menjadi kepala yang baru.
7. Kembali ke langkah 3 sampai mencapai salah satu akhir dari disk.
8. Jika telah mencapai akhir disk, balik arah kembali dan mulai dari
langkah no.2 sampai semua track pada array permintaan telah dipenuhi.

6. Dengan menggunakan histogram dengan kedalaman yang sama, rancang


cara untuk menetapkan objek suatu skor outlier!

Jawab :
Contoh:
Dataset: 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9,
10, 10,,11, 11,12, 12.
Histogram: (Range, Count, Sum)
(91-3, 14,22), (4-6, 6, 30), (7-9, 6, 48), (10-12, 6, 66)
Histogram kedalaman sama:
- Membagi domain dari suatu atribut ke dalam k interval, masing- masing
interval memuat jumlah record yang sama

Error! No text of specified style in document. ©Arif 6|8


- Variable lebar interval

7. Apa perbedaan utama antara metodologi untuk mining heterogeneous


information networks dan metode homogeneous counterparts?

Jawab :
Perbedaan utama antara metodologi untuk mining heterogenous
information networks dan metode homogenous adalah:
1. Penyebaran informasi melewati nodes dan link yang bersifat
heterogenous. Sama seperti kebanyakan studi analisa jaringan, links
seharusnya digunakan untuk penyebaran informasi pada pekerjaan mining.
Namun, hal yang baru-baru ini dilakukan adalah bagaimana menyebarkan
informasi pada nodes dan links bertipe heterogenous khususnya
bagaimana menghitung skor rangking, kesamaan skor, dan
pengelompokkan dan juga bagaimana menggunakan label class pada
nodes dan links bertipe heterogenous.
2. Pencarian dan mining dengan menjelajahi meta struktur jaringan.
Berbeda dari homogenous information networks dimana objek dan links
diperlakukan seperti tipe yang sama atau seperti nodes atau links tanpa
tipe, information network heterogenous pada model bersifat semi-
structured dan bertipe, dimana nodes dan links disusun berdasarkan suatu
set tipe membentuk sebuah skema jaringan. Skema jaringan menyediakan
meta-structure dari jaringan informasi. Hal tersebut menyediakan
bimbingan bagi pencarian dan mining dari jaringan dan membantu
menganalisa dan mengerti arti semantic dari objek dan hubungan dalam
jaringan.
3. Penjelajahan berbasis user-guided dari jaringan informasi. Pada jaringan
informasi heterogenous , biasanya terdapat sejumlah relasi semantic
diantara berbagai jenis objek, yang membawa arti semantic yang sedikit
berbeda-beda. Kombinasi relasi tertentu atau meta-paths mungkin cocok
dengan aplikasi tertentu untuk user tertentu. Sehingga, biasanya pemilihan
kombinasi relasi yang cocok secara otomatis(meta-path) dengan
pertimbangan yang sesuai untuk pencarian tertentu atau pekerjaan mining
berdasarkan pada panduan user atau feedback lebih disarankan. Ekplorasi
jaringan berbasis user-guided atau feedback-based adalah strategi yang
berguna.

Referensi :
- LN

Error! No text of specified style in document. ©Arif 7|8


- Data Mining Concepts and Techniques 2nd Ed Solution Manual by
Jiawei Han, Micheline Kamber.
- Model Rule: Multilevel And Multidimension Association Rule untuk
Analisa .

Error! No text of specified style in document. ©Arif 8|8

Anda mungkin juga menyukai