MENGGUNAKAN MATLAB
(makalah ini dibuat untuk memenuhi tugas UTS)
Disusun oleh:
Rahmat wahab Ramadhan (12201743)
Zaituti Nara (12201757)
Rahmayani (12201782)
Puji syukur ke hadirat Tuhan Yang Maha Esa. Atas rahmat dan hidayah-Nya, kami dapat
menyelesaikan tugas makalah yang berjudul "Implementasi Metode Cluster Hierarki Menggunakan
Matlab" dengan tepat waktu.
Makalah disusun untuk memenuhi tugas mata kuliah Data Mining. Makalah ini bertujuan menambah
wawasan tentang Data Mining bagi pembaca maupun bagi kami.
Kami mengucapkan terima kasih kepada Bapak Herdiesel Santoso selaku dosen mata kuliah Data
Mining. Terima kasih juga kepada semua pihak yang telah membantu diselesaikannya makalah ini.
Kami menyadari makalah ini masih jauh dari sempurna. Oleh karenanya, saran dan kritik yang
membangun diharapkan demi kesempurnaan makalah ini.
Penulis
I
DAFTAR ISI
KATA PENGANTAR I
DAFTAR ISI II
BAB I 1
Pendahuluan 1
1.1 Pengertian Data Mining 1
1.2 pekerjaan dalam data mining 4
1.3 proses data mining 6
1,4 Set Data 7
1.5 konsep klasifikasi 10
1.6 konsep cluster 13
BAB II 17
Pemrosesan Awal 17
2.1 pembuangan Outlier 17
2.2 normalisasi data 18
2.3 Data yang salah 20
2.4 pemilihan fitur berbasis statistik 21
2.4.1 pengujian hipotesis dengan T-Test 21
2.4.2 fisher's discriminant ratio 22
2.5 pengukuran kelas yang dapat dipisahkan 22
2.5.1 Thornton's Separable Index 23
2.5.2 Direct Class Separability Measure 23
BAB III 25
Pembahasan 25
Analisis Cluster berbasis hierarki 25
9.1 konsep pengelompokan berbasis hierarki 25
9.2 metode-metode terkait AHC 25
9.3 Implementasi AHC di MATLAB 27
BAB IV 29
Penutup 29
A. Kesimpulan 29
B. Saran 29
DAFTAR PUSTAKA 30
II
BAB I
Pendahuluan
Nama data mining sebenarnya mulai dikenal sejak tahun 1990, ketika pekerjaan
pemanfaatan data menjadi sesuatu yang penting dalam berbagai bidang, mulai dari
bidang akademik, bisnis, hingga medis. Data mining dapat di terapkan diberbagai
bidang yang mempunyai data, tetapi karena wilayah penelitian dan sejarah yang
belum lama. Dan belum melewati masa remaja maka data mining masih
diperdebatkan posisi bidang pengetahuan yang memilikinya. Maka Darly pregibon
menyatakan bahwa data mining adalah campuran dari statistik kecerdasan buatan dan
riset basis data yang masih berkembang.
Terlepas dari remajanya, data mining ternyata data mini yang diproyeksi menjadi
jutaan dolar di dunia industri pada tahun 2000, sedangkan pada saat yang sama
ternyata data mining dipandang sebelah mata oleh sejumlah peneliti sebagai dirty
work in statistic. Mereka adalah orang-orang yang tidak memandang data mining
sebagai sesuatu yang menarik bagi mereka pada saat itu.
Munculnya data mining yang didasarkan pada jumlah data yang tersimpan dalam
basis data semakin besar. Misalnya dalam sebuah supermarket ada beberapa transaksi
pelanggan yang terjadi dalam sehari dan ada berapa juta data yang sudah tersimpan
dalam sebulan. Dalam perusahaan, ada berapa juta data yang sudah tersimpan dari
setiap kegiatan produksi untuk setiap produk yang dibuat dalam beberapa tahun.
Contoh lain Jika anda mempunyai kartu kredit mungkin anda sering menerima surat
penawaran barang atau jasa jika bank mempunyai 1 juta nasabah dan biaya
pengiriman surat adalah Rp500 maka biaya yang harus dikeluarkan adalah Rp500 juta
rupiah. Padahal nasabah yang mungkin benar-benar membeli hanya sekitar 15% ,
akibatnya ada pembuangan biaya sekitar 85% dari 500 juta atau sekitar 425 juta
sia-sia.
Jika perusahaan bisa memanfaatkan data-data yang ada, sehingga hanya nasabah yang
berpotensi untuk membeli saja yang dikirim surat maka biaya pengiriman tersebut
dapat ditekan.Yang menjadi pertanyaan adalah data-data dalam perusahaan yang
semakin menggunung jumlahnya dari waktu ke waktu mau diapakan data tersebut,
Apakah hanya untuk dibuat laporan lalu di akhir tahun dibuang? Apakah hanya
dikubur dalam gudang data dan tidak diapa-apakan? Tentu sayang sekali Jika
data-data tersebut tidak dimanfaatkan untuk kepentingan perusahaan atau instansi
yang berkepentingan. Ada istilah lain yang mempunyai makna yang sama dengan data
mining yaitu knowledge Discovery in database (KDD) bertujuan untuk memanfaatkan
data dalam basis data dengan mengolahnya sehingga menghasilkan informasi baru
yang berguna.
1
Gambar 1.1
Seperti diilustrasikan pada gambar 1.1 jika dilacak akar keilmuannya ternyata data
Mining mempunyai 4 akar bidang ilmu sebagai berikut:
1. Statistik
Bidang ini merupakan akar paling tua, tanpa ada statistik maka data mining mungkin
tidak ada. Dengan menggunakan statistik klasik ternyata data yang diolah dapat
diringkas dalam apa yang umum dikenal sebagai exploratory data analysis (EDA).
EDA berguna untuk mengidentifikasi hubungan sistematis antara variabel atau fitur
ketika tidak ada cukup informasi alami yang dibawakan. teknik klasik yang digunakan
dalam data mining diantaranya:
- visualisasi data: mengarah pada representasi informasi dalam bentuk visual dan
dapat dipandang sebagai satu yang paling berguna. Pada saat yang sama, visualisasi
data merupakan metode eksplorasi data yang atraktif. Teknik visualisasi yang paling
umum yang dikenal adalah histogram semua jenis ( kolam, silinder, kerucut piramida,
lingkaran batang dan sebagainya, kotak, scatter, kontur, matriks, icon dan
sebagainya).
2
dipresentasikan dalam pembangunan data mining menggunakan teknik di mana
sistem komputer belajar dengan pelatihan.
3. Pengenalan pola
Sebenarnya data mining juga menjadi turunan bidang pengenalan pola, tetapi hanya
mengolah data dari basis data. Data yang diambil dari basis data untuk diolah bukan
dalam bentuk relasi, tetapi dalam bentuk normal pertama sehingga set data dibentuk
menjadi bentuk normal. Akan tetapi data mining mempunyai ciri khas yaitu pencarian
pola asosiasi dan pola sekuensial.
• Ekonomi : ada jumlah data yang sangat besar yang dikumpulkan dari berbagai
bidang seperti data web e-commerce transaksi keuangan dan perbankan dan
sebagainya yang siap dianalisis dengan tujuan mendapatkan keputusan yang optimal
terkait tujuan lembaga.
• Pelayanan kesehatan : saat ini ada banyak basis data berbeda dalam bidang
pelayanan kesehatan medis dan informasi yang dianalisis secara parsial khususnya
dengan cara medis sendiri padahal sebenarnya dalam data tersebut banyak informasi
yang belum dibuka secara tepat.
• Riset pengetahuan : ada basis data besar yang dikumpulkan bertahun-tahun dalam
bermacam-macam bidang ( deskripsi astronomi, Meteorologi ,biologi , linguistik ,dan
sebagainya).
Dari Penjelasan diatas jelas bahwa di satu sisi Ada sejumlah data dalam jumlah besar
yang secara sistematis belum dieksplorasi dan di sisi lain kekuatan teknik komputasi
dari ilmu komputer sudah tumbuh secara ekonomi sehingga menyebabkan tekanan
pada kebutuhan untuk membuka informasi yang tersembunyi dari data yang menjadi
meningkat titik bidang data mining dan menjadi jawaban untuk menyelesaikan
persoalan diatas yang pada awalnya tidak mungkin untuk dideteksi dengan cara
tradisional dan hanya menggunakan kemampuan analisis manusia.
Pengertian data mining cukup sulit dijelaskan dengan gambar jika mengingat data
mining juga merupakan gabungan dari beberapa bidang ilmu titik. Berikut beberapa
pengertian data mining secara naratif mempunyai beberapa maksud yang mirip:
• Pencarian otomatis pola dalam basis data besar menggunakan teknik komputer
sional campuran dari statistik, pembelajaran mesin dan pengenalan pola.
• Ekstrak and investment trival yang sebelumnya belum diketahui secara potensial
adalah diinformasi berguna dari data.
• Ilmu pengetahuan informasi yang berguna dari Set data atau basis data besar.
• Eksplorasi otomatis atau semi otomatis dan analisis data dalam jumlah besar dengan
tujuan untuk menemukan pola bermakna.
• Proses penemuan informasi otomatis dengan mengidentifikasi pola dan hubungan
tersembunyi dalam data.
3
Meskipun data mining juga diartikan penemuan informasi, tidak semua penemuan
informasi atau data disebut data mining. Berikut ini adalah beberapa contoh Apa yang
disebut dengan data mining dan tidak disebut data mining:
• Bukan data mining : pencarian informasi tertentu di internet misalnya mencari info
masakan menggunakan Google.
- data mining titip dua pengelompokan informasi yang mirip dalam konteks tertentu
pada hasil pencarian misalnya masakan indonesia masakan Belanda dan sebagainya di
Google.
• Bukan data mining: petugas medis mencari data medis untuk menganalisis catatan
pasien dengan penyakit tertentu.
- Data mining: penelitian medis mencari cara mengelompokkan data penyakit pasien
berdasarkan data diagnosis , umur, alamat.
Contoh lebih jelas mengenai perbedaan antara pencarian dalam basis data dengan data
mining adalah seseorang dapat tertarik pada perbedaan antara Jumlah pembelian dari
jenis tertentu dari supermarket dibandingkan dengan Hypermarket, atau dari dua
supermarket dari dua wilayah berbeda titik supermarket di ini biasanya sudah ada
asumsi informasi awal bahwa memang ada perbedaan besar antara supermarket dan
Hypermarket dalam hal tempat atau salah supermarket antara wilayah satu dengan
lainnya. Sebaliknya, dalam data mining masalah bisa berisi objek dalam
mengidentifikasi faktor yang mempengaruhi volume sales tanpa mengandalkan
dugaan awal apapun titik Jadi kesimpulannya metode dalam data mining melakukan
identifikasi pola dan hubungan tersembunyi yang tidak selalu jelas dan dengan mudah
dapat mengidentifikasi dibawah keadaan asumsi tersebut.
Jadi, kita tidak bisa menyamakan pencarian tertentu dari objek individu jenis apapun
dengan pencarian data mining. Pencarian dalam data mining tidak mencari secara
individualis, tetapi set individualis. Atau dengan kata lain dikelompokkan dengan
kriteria tertentu titik dengan kata lain perbedaan antara pencarian biasa dengan data
mining dianalogikan dengan pencarian pohon dengan pencarian hutan " tidak bisa
menilai hutan hanya dengan menilai pohon".
Pekerjaan yang berkaitan dengan data mining dapat dibagi menjadi empat kelompok.
Kelompok tersebut yaitu model prediksi, analisis coaster (coaster analisis),analisis
asosiasidan deteksi anomali. Ilustrasi pekerjaan tersebut dapat dilihat pada gambar
1.2.
4
Gambar 1.2
Pekerjaan ini berkaitan dengan pembuatan sebuah model yang dapat melakukan
pemetaan dari setiap himpunan variabel ke setiap targetnya kemudian menggunakan
modal tersebut untuk memberikan nilai target pada himpunan baru yang didapatkan
titik ada dua jenis model prediksi, yaitu klasifikasi dan regresi klasifikasi digunakan
untuk variabel diskrit sedangkan regresi digunakan untuk variabel target kontinu.
Contoh pekerjaan yang menggunakan jenis klasifikasi adalah melakukan deteksi jenis
penyakit pasien berdasarkan sejumlah nilai nilai parameter penyakit yang diderita
masuk pekerjaan ini termasuk jenis klasifikasi karena target yang diharapkan adalah
deskripsi hanya beberapa jenis kemungkinan nilai target yang didapatkan dan tidak
ada nilai seri waktu( time series) yang harus didapatkan untuk mendapatkan target
nilai akhir.
Sementara melakukan prediksi jumlah penjualan yang dapat pada 3 bulan ke depan itu
termasuk regresi Karena untuk mendapatkan nilai penjualan bulan ketiga harus
mendapatkan nilai penjualan bulan kedua dan untuk mendapatkan nilai penjualan
bulan kedua harus mendapatkan nilai penjualan bulan pertama. Dalam hal ini ada nilai
seri waktu yang harus dihitung untuk sampai pada target akhir yang diinginkan dan
ada nilai kontinu yang harus dihitung untuk mendapatkan nilai target akhir yang
diinginkan.
5
Analisis Cluster ( Cluster analisis)
contoh pekerjaan yang berkaitan dengan analisis browser adalah bagaimana bisa
mengetahui pola pemerintahan barang oleh konsumen pada waktu-waktu tertentu
dengan mengetahui pola kelompok pembelian tersebut maka perusahaan retrailer
dapat menentukan jadwal promosi yang dapat diberikan sehingga dapat membantu
meningkatkan omset penjualan .
Analisis kelompok melakukan pengelompokan data ke dalam sebuah kelompok
berdasarkan kesamaan karakteristik masing-masing data pada kelompok-kelompok
yang ada .Data-data yang masuk dalam batas keamanan dengan kelompoknya akan
bergabung dalam kelompok tersebut dan akan terpisah dengan dalam kelompok yang
berbeda jika keluar dari batas kesamaan kelompok tersebut.
Penerapan yang paling dekat dengan kehidupan sehari-hari adalah analisis data
keranjang belanja. Jika ibu rumah tangga akan membeli barang kebutuhan rumah
tangga misalnya beras di sebuah supermarket Maka sangat besar kemungkinan ibu
rumah tangga tersebut juga akan membeli kebutuhan rumah tangga yang lain
misalnya minyak atau telur, dan tidak mungkin atau jarang membeli barang lain
seperti topi atau buku titik dengan mengetahui hubungan yang lebih kuat antara beras
dengan telur dari pada beras dengan topik, maka retailer dapat menemukan
barang-barang yang sebaiknya disediakan dalam jumlah yang cukup banyak
Pekerjaan deteksi anomalia berkaitan dengan pengamatan sebuah data dari jumlah
data yang secara signifikan mempunyai karakteristik yang berbeda dari sisa data yang
lain. Data-data yang karakteristiknya menyimpang atau berbeda dari data yang lain
disebut sebagai outlier. Algoritma deteksi anomalia yang baik harus mempunyai laju
deteksi yang tinggi dan laju kesalahan yang rendah titik deteksi anomalia dapat
diterapkan pada sistem jaringan untuk mengetahui pola data yang memasuki jaringan
sehingga dapat diketahui adanya penyusupan jika pola kerja data yang datang berbeda
ataupun perilaku kondisi cuaca yang mengalami anomali a juga dapat dideteksi
dengan algoritma ini.
6
2. Membangun modal dan melakukan validasi terhadapnya
Membangun model dengan melakukan validasi terhadapnya berarti melakukan
analisis berbagai model dan memilih model dengan kinerja produksi yang terbaik
dalam makalah ini digunakan metode metode seperti klasifikasi, regresi, analisis
Cluster, deteksi anomali analisis ,asosiasi analisis pola sekuensial dan sebagainya titik
dalam beberapa referensi, deteksi anomali juga masuk dalam langkah eksplorasi.
Akan tetapi, deteksi anomali juga dapat digunakan sebagai algoritma utama, terutama
untuk mencari data-data spesial.
3. Penerapan
Penerapan berarti menerapkan model pada data yang baru untuk menghasilkan
perkiraan atau prediksi masalah yang di investigasi.
• Record
~ Matriks data
~ Data transaksi
~ Data dokumen
• Grabh
~ World Wide Web ( www)
~ Struktur molekul
• Ordered dataset
~ Data spesial
~ Data temporal
~ Data squishyal
~ Data urut genetik
Dalam suatu data berbentuk record data, tidak ada hubungan antara baris data dengan
baris data yang lain dan juga tidak punya hubungan dengan Set data yang lain. Setiap
baris data berdiri sendiri sebagai sebuah data individu titik dalam sistem basis data
umumnya Ada sejumlah tabel yang saling berhubungan menggunakan suatu kunci,
tetapi dalam satu set data berbentuk record data, diasumsikan bahwa hanya ada satu
tabel yang berisi sejumlah baris data maka dari itu biasanya data yang diolah dalam
data mining adalah keluaran dari sistem data Warehouse yang menggunakan query
7
untuk melakukan pengambilan data dari sejumlah tabel dalam sistem basis data titik
ada tiga jenis data yaitu matriks ,transaksi , dan dokumen.
Sedotan yang berisi kumpulan data, dengan semua data mempunyai sejumlah atribut
atau fitur menarik yang sama dapat dipandang sebagai vektor data dalam wilayah
multi multi dimensi, dimana setiap dimensi fitur mempresentasikan atribut
menggambarkan objek atau data-data dengan model seperti itu disebut juga dengan
data matriks karena semua nilainya berisi nilai numerik. Sekumpulan objek atau data
matriks dapat diinterpretasikan sebagai matriks m * n. M adalah jumlah baris 1 baris
menyatakan satu data dan n adalah Jumlah kolom 1 kolom menyatakan satu atribut
atau fitur. Data matriks merupakan jenis data yang paling umum dan banyak
digunakan pada aplikasi aplikasi statistik statistik . contohnya data matriks
ditunjukkan pada tabel titik tabel 1.1.
Data keranjang belanja adalah contoh data transaksi. Sertifikat transaksi berisi
sejumlah item, dimana sejumlah item untuk sebuah transaksi bisa berbeda dengan
transaksi yang lain. Contohnya bisa dilihat pada kasus keranjang belanja di pasar atau
supermarket. Setiap pembelian melakukan pembelian barang yang jumlah dan
jenisnya bisa berbeda dengan pembelian yang lain. Data transaksinya berisi kumpulan
item tetapi dapat dilihat pada file atributnya asimetrik urutan nilai dari kolom pertama
sampai terakhir bisa berbeda antara satu transaksi dengan referensi yang lainnya.
Datanya biasanya digambarkan dengan nilai biner untuk setiap atribut dengan nilai 1
untuk adanya barang atribut yang dibeli dan 0 untuk barang yang tidak dibeli titik
contohnya data keranjang belanja ditunjukkan pada tabel 1.2.
IDT Item
1 Susu, bedak, sabun
2 Roti, Susu, Mentega
3 Gula, Roti, Terigu
4 Bedak, Gula, Roti, Sabun
5 Roti, Terigu
6 Gula, Susu, Sabun, Mentega
Tabel 1.2
Untuk data yang menggambarkan dokumen maka setiap dokumen dicatat dalam data
menjadi vektor "istilah".setiap istilah menjadi atribut atau fitur dari vektor sehingga
8
nilai yang diberikan berarti jumlah kemunculan kata dalam dokumen data seperti ini
disebut data dokumen titik contoh data dokumen ditunjukkan pada tabel 1.3.
Data grafik direpresentasikan dalam bentuk grafik diagram titik seperti namanya,
informasi diberikan dalam bentuk gambar dengan jenis tertentu, seperti rumus kimia,
link html struktur molekul dan sebagainya contoh dapat dilihat pada gambar berikut.
Gambar 1.3
Ordered data adalah data-data yang tersusun dengan satu cara dalam urutan atau
aturan tertentu misalnya data struktur DNA mempunyai urutan genetik tertentu data
atmosfer dari BMKG dan akan tersusun menjadi data spasial dengan koordinat
tertentu data rekam medis seorang pasien di Puskesmas atau Rumah Sakit dengan
pola terurut penyakit yang diderita, dan sebagainya. Contoh data sosial diberikan
gambar-gambar 1.4
9
Gambar 1.4
Ada dua set data besar yang digunakan dalam buku ini sebagaimana tercantum di
lampiran B yaitu Iris dan data iris terdiri dari 150 baris data dan 4 fitur. Fitur-fitur
tersebut secara berturut-turut adalah sepal width, sepal length, sepal length, petal
length, dan petal width. Variabel spesies berisi 150 baris setiap baris berkorelasi
dengan baris yang sama dalam variabel minus dengan tiga macam nilai terdiri dari
tiga macam yaitu cama-cama Rosa Canadian dengan label untuk masing-masing
berturut-turut adalah 1,2 dan 3 titik masing-masing komposisinya 70 baris vektor.
Fitur-fitur yang digunakan secara berturut-turut adalah area(A), Perimeter(p),
compacness (c), length of karnel, with of karnel, ascymetry coefficient, dan
selengkapnya bisa dilihat di lampiran B.
10
Gambar 1.5
Dari gambar tersebut dapat diamati bahwa data kelas A A menyebar di wilayah kiri
bawah, sedangkan data kelas B menyebar di wilayah kanan atas. Dapat diamati pula
bahwa data dari 2 kelas tersebut dapat dipisah dapatkan dengan mudah karena
mengelompokkan dalam wilayah terpisah. Memisahkan dua kelas berbeda tersebut
disebut dengan garis keputusan atau (decision Line) . Garis tersebut menyatakan
bahwa data yang terletak di sisi kiri bawah adalah kelas A, sedangkan yang terletak di
sisi kanan atas adalah kelas B. Garis inilah yang memberikan jawaban ketika ada data
yang baru, seperti yang disimbolkan oleh titik solid (•). Dengan mengamati lokasi
titik tersebut berada di sisi kiri bawah garis keputusan, maka data tersebut diprediksi
masuk pada kelas A.
Contoh tersebut memberikan gambar sistem klasifikasi dalam data mining titik
kuantitas yang digunakan sebagai basis ukuran dalam menilai objek yaitu rata-rata
dan standar devisiasi disebut dengan fitur. Kumpulan dari fitur-fitur yang memberikan
deskripsi sebuah objek disebut dengan data titik kumpulan dari sejumlah data atau
objek disebut dengan Set data titik untuk sebuah objek x mempunyai enviture
dinyatakan dengan:
x [ x1 , x2 ,...xn ]
Garis lurus yang memisahkan dua kelas tersebut berperan untuk membagi wilayah
fitur menjadi dua wilayah atau lebih yang berbeda kelas disebut dengan klasifikatoris.
Jika sebuah vektor yang baru yang belum diketahui label kelasnya terletak di wilayah
kelas A maka vektor tersebut diprediksi masuk kelas A jika terletak di kelas B maka
vektor tersebut diprediksi masuk kelas B. Prediksi tersebut tidak selalu benar
misalnya jika sebuah vektor yang sebenarnya adalah kelas A tetapi hasil prediksi
memberikan label bahwa vektor tersebut adalah kelas B maka hal ini disebut dengan
misklasifikasi. Klasifikasi dapat terjadi dalam sistem klasifikasi yang dibangun akibat
masuknya modal klasifikatoris dalam wilayah lokal optimal. Masalah ini dipengaruhi
oleh algoritma klasifikasi itu sendiri titik data atau Vektor yang sudah diketahui
sebelumnya untuk label kelas digunakan untuk membangun model classificatory
disebut dengan data latih atau training data titik data atau Vektor yang belum
diketahui dianggap belum diketahui label kelasnya untuk kemudian diprediksi
kelasnya menggunakan model classificatory yang sudah dibangun disebut dengan
data uji atau testing data.
Contoh yang diberikan di atas merupakan kasus di mana Data latih yang diproses
sudah diketahui label kelasnya, kemudian sistem memanfaatkan informasi tersebut
11
untuk membangun model klasifikasi dan selanjutnya menggunakan modal tersebut
untuk memprediksi label kelas pada data baru yang belum diketahui atau dianggap
belum diketahui label kelasnya. Sistem seperti ini disebut dengan pembelajaran
terbimbing atau supervisor learning. Dalam konteks yang lain, pembelajaran
terbimbing disebut dengan klasifikasi atau classification.
Klasifikasi dapat didefinisikan secara detail sebagai suatu pekerjaan yang melakukan
pelatihan atau pembelajaran terhadap fungsi target yang memetakan setiap vektor fitur
X ke 1 dari sejumlah label kelas y yang tersedia. Pekerjaan pelatihan tersebut akan
menghasilkan suatu model yang kemudian disimpan sebagai memori (Prasetyo 2013).
Modal dalam klasifikasi mempunyai arti sama dengan black box, di mana ada suatu
model yang menerima masukan kemudian mampu melakukan pemikiran terhadap
masukan tersebut dan memberikan jawaban sebagai keluaran dari hasil pemikirannya.
Kerangka kerja klasifikasi ditunjukkan pada gambar 1 titik 7 pada gambar tersebut
disediakan sejumlah data latih ( x, y )untuk digunakan sebagai data pembangunan
modal. Kemudian menggunakan modal tersebut untuk memprediksi kelas dari data uji
(x) sehingga data uji (x) diketahui kelas (y) yang seharusnya.
Gambar 1.6
Model yang sudah dibangun pada saat pelatihan kemudian dapat digunakan untuk
memprediksi label kelas dari data baru yang belum diketahui label kelasnya. Dalam
pembangunan model selama proses pelatihan tersebut diperlukan adanya suatu
algoritma untuk membangun yang disebut sebagai algoritma pelatihan learning
algorithm. Ada banyak logaritma pelatihan yang sudah dikembangkan oleh para
peneliti seperti decision Tree, neighbor ,Articial neural Network support, Vector
machine dan sebagainya. Setiap algoritma mempunyai kelebihan dan kekurangan
masing-masing. Akan tetapi, semua algoritma mempunyai prinsip yang sama yaitu
melakukan suatu pelatihan sehingga di akhir pelatihan modal dapat memetakan atau
memprediksi setiap vektor masuk ke lebar kelas keluaran dengan benar.
Kerangka kerja seperti yang ditunjukkan pada gambar 1 titik 7 meliputi 2 langkah
proses yaitu induksi dan deduksi, induksi merupakan suatu langkah untuk
membangun model klasifikasi dari data latih yang diberikan, disebut juga proses
pelatihan sedangkan dedukasi merupakan suatu langkah untuk menerapkan model
tersebut pada data uji sehingga data uji dapat diketahui kelas yang sesungguhnya atau
disebut juga proses prediksi.
Berdasarkan cara pelatihan algoritma algoritma klasifikasi dapat dibagi menjadi dua
macam yaitu eager learner, dan leazy leaner. Algoritma-algoritma yang masuk
kategori Eager leaner di desain untuk melakukan pembacaan atau pelatihan atau
12
pembelajaran pada data latih untuk dapat memetakan dengan benar setiap vektor
masukkan ke label kelas keluarannya sehingga di akhir proses pelatihan, model sudah
dapat melakukan pemetaan dengan benar semua data latih ke label kelas keluarannya
setelah proses pelatihan tersebut selesai maka model Biasanya berupa bobot atau
sejumlah nilai kuantitas tertentu disimpan sebagai memori sedangkan semua data
Latinnya dibuang titik proses produksi dilakukan menggunakan modal yang
tersimpan dan tidak melibatkan data latih sama sekali titik cara ini mengakibatkan
proses produksi berjalan dengan cepat, namun harus dibayar dengan proses pelatihan
yang lama. Algoritma-algoritma klasifikasi yang masuk kategori ini diantaranya
adalah artificial Naural Network, support Vector machine ,decision Tree, Bayes dan
sebagainya.
Gambar 1.7
13
Dapat diamati bahwa ada tiga kelompok mahasiswa yang didapatkan yaitu kelompok
mahasiswa dengan SKS sedikit dan IPK tinggi simbol ( X )kelompok mahasiswa
dengan SKS tinggi tapi IPK rendah simbolnya (•) dan kelompok mahasiswa dengan
IPK rendah (°).
Clustering data dapat dibedakan menjadi dua tujuan yaitu clustering untuk
pemahaman dan clustering untuk penggunaan.
• Biologi
Seperti yang sudah banyak diketahui, bahwa hewan-hewan di alam ini di kelompok
kelompokkan menurut karakter tertentu secara hierarki yaitu kerajaan filum kelas
ordo famili genus dan spesies. Level tertinggi adalah kerajaan sedangkan level
terendah adalah spesies. Satu jenis hewan mempunyai nama spesies sendiri. 2 hewan
dengan spesies berbeda bisa mempunyai kelas genus yang sama sejumlah hewan
dengan jenis berbeda bisa mempunyai family yang sama begitu juga di level ordo ,
kelas ,filum ,dan kerajaan.
Teknik clustering dalam bidang biologi yang lain seperti pengelompokan gen-gen
yang mempunyai fungsi yang sama.
• Pencarian informasi
Website di internet berjumlah miliaran sehingga ketika dilakukan pencarian, mesin
pencari akan memberikan hasil ribuan halaman titik teknik clustering dapat digunakan
untuk mengelompokkan hasil halaman yang diberikan mesin pencarian kedalam
kelompok dalam jumlah kecil dimana setiap kelompok berisi halaman mempunyai
karakteristik yang sama atau mirip.
Misalnya dengan kategori film dapat dibedakan dalam kategori seperti genre, aktor,
bioskop dan sebagainya.
• Klimatologi
Pemahaman cuaca di bumi memerlukan pencarian pola atmosfer dan lautan. Analisis
cluster dapat diterapkan untuk menemukan pola tekanan udara di wilayah kutub dan
lautan yang mempunyai pengaruh besar pada cuaca di daratan.
14
• Bisnis
Perusahaan biasanya mempunyai data informasi dalam jumlah besar pada seluruh
pelanggan saat itu dan pelanggan yang berpotensi. Cluster yang dapat diterapkan
untuk segmentasi pelanggan dalam kelompok-kelompok kecil dengan tujuan untuk
analisis dan strategi pemasaran.
1. Summerization
Banyak teknik analisis data seperti regresi atau PC membutuhkan waktu atau
kompleksitas komputasi titik dengan semakin banyaknya data, maka biaya untuk
melakukan summarization menjadi mahal. Teknik clustering dapat diterapkan untuk
membuat sebuah prototipe yang dapat mewakili kondisi seluruh data misalnya dengan
mengambil nilai rata-rata untuk semua data dari setiap kluster sehingga semua data
yang tergabung dalam sebuah kluster akan di wakili oleh sebuah data titik dengan
cara ini maka waktu dan kompleksitas komputasi dapat dikurangi secara signifikan.
2. Kompresi
Data-data yang bergabung dalam setiap kluster dapat dianggap mempunyai karakter
yang sama atau mirip Sehingga data-data dalam kluster yang sama dapat dikonversi
dengan diwakili oleh indeks prototipe dari setiap kluster. Setiap objek dipresentasikan
dengan indeks prototipe yang dikaitkan dengan sebuah poster teknik kompresi ini
dikenal dengan vector quantization.
Pada teknik KNN, komputasi untuk mencari tetangga terdekat akan semakin berat
ketika jumlah data semakin besar, pada hal-hal tersebut tidak sebanding dengan
jumlah data yang hanya digunakan sebagai tetangga terdekat titik dengan plester link
maka dapat dibuat prototipe akhirnya digunakan sebagai tetangga terdekat dengan
kulit kering maka dapat dibuat prototipe dimana setiap prototipe mewakili satu kelas
dengan cara ini di kompetensi kan pencarian tetangga terdekat dapat digantikan
dengan prototipe terdekat hingga dapat mengurangi waktu komputasi secara
signifikan titik konsekuensinya adalah cara mendapatkan tetangga terdekat mungkin
menjadi kurang representative karena diukur berdasarkan kelompok data, bukan
individu data, sehingga Ada kemungkinan distorsi hasil yang tidak diinginkan.
Banyak metode clustering yang sudah dikembangkan oleh para ahli. Masing-masing
metode mempunyai karakter kelebihan dan kekurangan dalam subbab ini diberikan
perbedaan jenis metode clustering yang sudah ada titik pelestarian dapat dibedakan
menurut struktur kluster keanggotaan data dalam cluster dan kekompakan data dalam
Cluster.
Menurut struktur clustering terbagi menjadi dua yaitu hierarki dan partisi. Dalam
pengelompokan berbasis hierarki satu data tunggal bisa dianggap sebuah kluster dua
atau lebih khusus terkecil dapat bergabung menjadi sebuah kue tart besar, begitu
seterusnya sehingga semua data dapat bergabung menjadi sebuah kursor.
Pengelompokan berbasis hierarki merupakan satu-satunya metode yang masuk
kategori ini titik di sisi lain, pengelompokan berbasis partisi membagi Set data ke
dalam sejumlah cluster yang tidak bertumpang tindih antara satu dengan cluster yang
15
lain artinya setiap datanya menjadi anggota satu kluster saja. Metode seperti DBSCN,
Self organizing merupakan metode yang masuk dalam kategori ini.
16
BAB II
Pemrosesan Awal
Salah satu fase penting dalam pemrosesan awal data mining adalah pemilihan fitur
yang nanti akan di proses dalam metode data mining. Fitur yang di proses dalam fase
ini merupakan fitur yang sudah di bangkitkan dari fase sebelumnya. Dalam
aplikasi-aplikasi yang menerapkan data mining biasanya menggunakan sejumlah
pemodelan fitur yang dikombinasikan dengan harapan memberikan akurasi kinerja
yang baik. Jumlah fitur yang banyak pasti berimbas pada komputasi yang mahal dan
kompleks. Akan tetapi,jumlah fitur yang banyak ternyata tidak selalu menjamin
kinerja yang baik.
Penggunaan dua fitur yang mempunyai kondisi deskriminan dua kelas atau lebih
dengan baik. Dengan kata lain, fitur yang dipilih haruslah fitur yang mempunyai
korelasi dalam mendiskriminasi kelas-kelas yang di proses. Hal sangat penting yang
harus diperhatikan dalam klasifikasi adalah sifat generalisasi yang di bangun oleh
klasifikator, dimana semakin tinggi rasio jumlah data latih terhadap jumlah parameter
bebas maka akan semakin baik sifat generalisasi klasifikator yang dihasilkan.
Pekerjaan utama dalam pemilihan fitur adalah jika diberikan sejumlah fitur, sebagai
kandidat fitur yang digunakan, maka bagaimana cara memilih fitur yang paling
penting diantara kandidat tersebut sehingga dapat mengurangi jumlah nya, dan pada
saat yang sama memungkin kan memberikan diskriminasi kelas dengan baik. Fase ini
tentu sangat kritis. Jika fitur yang dipilih mempunyai kekuatan deskriminasi yang
kecil, akibatnya desain klasifikator yang dibentuk mempunyai kinerja yang buruk.
Sebaliknya, jika fitur yang kaya informasi deskriminasi saja yang dipilih, maka desain
klasifikator yang dibentuk menjadi sangat sederhana.
Dengan kata lain, yang harus diusahakan dalam pemilihan fitur adalah mengarah pada
jarak perbedaan antara kelas yang besar dan variasi dalam kelas kecil. Cara yang lebih
baik adalah dengan mengombinasi kan pengujian pada dua atau lebih fitur secara
bersamaan, Hal ini penting mengingat bisa jadi ada fitur yang mempunyai korelasi
yang kuat atau lemah. Pengujian fitur biasanya tidak hanya dilakukan pada fitur
dalam dimensi saat itu, Adakalanya kasus nyata yang nonlinear akan sulit menemukan
diskriminasinya sehingga diperlukan transformasi fitur dari dimensi yang lama ke
dimensi yang baru dengan harapan dalam dimensi yang baru (relatif lebih tinggi)
mampu mentransformasi yang asalnya non linear menjadi linear.
Outlier ( kadang disebut juga Noise) didefinisikan sebagai titik yang terletak sangat
jauh dari rata-rata variabel random pada umumnya yang berkorelasi dengan titik
tersebut. Jarak ini diukur terhadap ambang batas yang diberikan, biasanya nilai berapa
kalinya standar deviasi. Menjadi tempat untuk variabel random terdistribusi normal,
jarak dua kali standar deviasi akan menjangkau 95% dari titik, dan jarak 3 kali standar
deviasi dapat menjangkau 99% dari titik. Titik dengan nilai yang sangat berbeda dari
nilai rata-rata akan menghasilkan error yang besar pada saat pelatihan dan mungkin
mempunyai efek berbahaya. Efek ini bahkan lebih buruk ketika outlier merupakan
hasil pengukuran noise. jumlah outlier biasanya sedikit, dan oulier ini biasanya
dibuang dari data yang diproses. Jika outlier ini bukan masalah dan dihasilkan dari
17
distribusi dengan perhitungan yang panjang maka desainer harus memilih fungsi
biaya dalam klassificator yang sangat tidak sensitif terhadap kemunculan outler.
misalnya kriteria least Square sangat sensitif terhadap keberadaan outlier.
Gambar 2.1
Pada situasi yang lain, outlier tidak selalu merupakan data dengan perilaku
menyimpang yang akhirnya harus dibuang. Ada kalanya outlier adalah data yang
memang akan dicari karena keistimewaan perilakunya. Misalnya pada kasus data
akademik mahasiswa seperti pada gambar 2.1 pada gambar tersebut ada 2 data
mahasiswa yang terletak pada lokasi yang jauh dari rata-rata data yang pada
umumnya. Dua data tersebut sebenarnya adalah 2 mahasiswa tingkat akhir (SKS
banyak) dan prestasi yang sangat baik (IPK tinggi). Dengan menggunakan metode
deteksi outlier maka dapat diketahui keberadaan dan jumlah outlier yang ditemukan.
Dalam praktiknya, desainer sering dihadapkan pada fitur dengan nilai yang terletak
dalam jangkauan nilai berbeda. Akibatnya, fitur dengan nilai atau Jangkauan yang
besar mempunyai pengaruh yang lebih besar dalam fungsi biaya daripada fitur dengan
nilai kecil atau jangkauan kecil. Untuk menangani masalah ini, bisa digunakan teknik
normalisasi fitur sehingga semua fitur akan berada dalam jangkauan yang sama.
Gambar 2.2 memberikan ilustrasi data yang belum dinormalisasi dan yang sudah
dinormalisasi. Pada data yang belum dinormalisasi ( Gambar 2.2[a]), fitur x
mempunyai nilai dan jangkauan nilai yang jauh lebih tinggi daripada fitur y. Tanpa
dilakukan normalisasi, bisa jadi fitur x yang akan mendominasi fungsi biaya pada
klasifikator. Setelah dinormalisasi (gambar 2.2[b]), maka semua fitur akan berada
dalam Jangkauan yang sama sehingga proporsi pengaruh pada fungsi biaya dalam
klasifikasi menjadi seimbang.
18
Gambar 2.2
Cara yang sederhana dan banyak digunakan adalah normalisasi linear. Untuk Cara
yang pertama, masing-masing fitur dihitung nilai mean (persamaan [2.2]). Maka,
untuk N data yang ada pada fitur ke-k didapat :
1 N
xk
N
x
i 1
ik , k 1,2,..., r
1 N
k2 ( xik xk ) 2
N 1 i 1
xik xk
xik
k
Hasil normalisasi dengan cara tersebut didapatkan fitur yang mempunyai sifat
zero-mean dan unit variance. Teknik linear yang lain adalah dengan mensklakan
jangkauan setiap fitur dalam jangkauan [0,1]atau [-1,1]. Untuk mensklakan dalam
jangkauan [0,1] dapat digunakan persamaan berikut:
xik min( xk )
xˆik
max( xk ) min( xk )
Selain teknik linear, teknik non linear juga dapat digunakan dalam kasus dimana data
bahkan tidak terdistribusi di sekitar rata-rata. Untuk melakukan normalisasi nonlinear
bisa digunakan fungsi non linear seperti logaritma atau sigmoid untuk meletakkan
dalam interval yang ditentukan. Penskalaan softmax yang populer digunakan. Ada
dua langkah untuk teknik non linear, yaitu persamaan (2.6) dan (2.7).
19
xik xk
y
r k
1
xˆik
1 e y
Fungsi pada persamaan (2.6) dan (2.7) pada dasarnya adalah fungsi squashing yang
membatasi data dalam jangkauan [0,1]. Jika diperhatikan ketika fungsi ini diberikan
serangkaian masukkan, maka akan terlihat bahwa nilainya yang kecil ini adalah
perkiraan fungsi linear terhadap X. Jangkauan nilai x yang berkaitan dengan bagian
linear tergantung pada nilai standar deviasi dan faktor r,nilai r didefinisikan sendiri
oleh user. Nilai yang jauh dari rata-rata akan di-squash secara eksponensial.
Dalam praktiknya, data tertentu biasanya selalu ada Nilai Salah satu atau kosong pada
satu atau lebih fitur dari satu atau lebih vektor dalam data keseluruhan. Nilai yang
salah ini bisa Seharusnya bernilai angka tapi bernilai karakter, atau nilai yang
disimpan berada diluar jangkauan nilai yang seharusnya dimasukkan. Masalah seperti
ini bisa terjadi karena banyak penyebab, seperti input dari user yang dilakukan
sembarangan, data yang didapatkan dari from kuesioner yang biasanya juga tidak
diisikan secara lengkap oleh responden, basis data, dan antarmuka aplikasi yang tidak
taat integritas data, alat ukur yang sudah tidak standar sehingga memberikan hasil
yang salah, dan sebagainya.
Berikut beberapa pilihan yang dapat digunakan untuk memberikan perlakuan pada
data yang salah:
Membuang semua fitur dari vektor (satu vektor berisi beberapa fitur termasuk yang
fitur yang nilainya salah). Pendekatan seperti ini bisa digunakan ketika jumlah vektor
(data) yang mempunyai nilai yang salah jumlahnya sedikit dibandingkan dengan
vektor lain yang semua nilai fiturnya ada. Jika tidak seperti itu masalahnya, maka
pembuangan vektor akan berpengaruh pada berkurangnya sifat alami dari masalah.
Untuk fitur ke-i, hitung rata-rata berdasarkan nilai yang tersedia untuk fitur tersebut.
Kemudian hasilnya digunakan untuk mengganti nilai fitur yang salah pada setiap
vektor.
Vektor yang mempunyai fitur dengan nilai yang salah tidak dibuang. Yang harus
dilakukan pada pendekatan ini adalah untuk semua pasangan vektor antara dua vektor
X dan Y didefinisikan B dengan permasalahan berikut:
i 1,2,...r
i 1
20
Q(Xi,Yi) menyatakan kedekatan di antara dua fitur Xi dan Yi yang nilainya ada.
Pilihan yang umum untuk Q adalah ukuran ketidakmiripan yang digunakan. Untuk
manhattan,maka Q(Xi,Yi)=|Xi-Yi|. Untuk pilihan yang lain, bisa menggunakan
Euclidean,chebyshev,cosinus, dan sebagainya. Pembahasan lebih lengkap mengenai
ketidakmiripan ada di bab 3.
Vektor yang mempunyai fitur dengan nilai yang salah tidak dibuang. Yang harus
dilakukan pada pendekatan ini adalah menghitung rata-rata kedekatan Qavg (i)
diantara semua fitur dalam semua data (X) pada semua fitur i=1,2,...,n. Efeknya, akan
ada beberapa Factor X yang fitur ke-i tidak ada (nilainya salah). Pada kasus ini,
kedekatan yang melibatkan Xi ( vektor yang mengandung nilai fitur yang salah) tidak
melibatkan dalam perhitungan Qavg (i). Untuk definisi kedekatan ₩(Xi,Yi) diantara
komponen ke-i dari vektor x dan y adalah Qavg(i) jika ada minimal satu dari Xi dan
Yi yang tidak ada,dan menggunakan Q(Xi,Yi) jika kedua nilai Xi dan Yi ada. Definisi
Q(Xi,Yi) bisa menggunakan definisi kedekatan ketidakmiripan seperti pada cara
sebelumnya. Untuk menghitung kedekatan diantara x dan y,di definisikan dengan
persamaan berikut:
r
( x, y ) ( xi , yi )
i 1
21
pengujian bisa diterapkan pada setiap pasangan kelas. Dengan mengasumsikan bahwa
data dalam setiap kelas terdistribusi normal, maka akhirnya metode t-test menjadi
pilihan yang terkenal.
Tujuan statistik t-test adalah menentukan yang Manakah diantara dua hipotesis di
bawah ini bernilai benar:
Jika hipotesis nol benar, maka fitur akan dibuang/tidak digunakan. Pengujian
hipotesis menggunakan nilai level signifikan a sesuai dengan kemungkinan kesalahan
yang dilakukan dalam pengambilan keputusan. Nilai yang dipakai dalam praktek
umumnya a = 0.05 atau a=0.001.
( 1 2 ) 2
FDR 2
( 1 22 )
Hasil yang diberikan oleh FDR adalah untuk fitur yang mempunyai perbedaan yang
besar pada rata-rata dari kelas dan varian kecil dari tiap kelas, maka nilai FDR yang
tinggi akan didapatkan. Jika dua vektor mempunyai perbedaan Absolute rata-rata
yang sama tapi berbeda dalam jumlah varian (2/1+2/2), maka fitur dengan jumlah
varian yang lebih kecil akan mendapatkan nilai FDR yang lebih tinggi. Di sisi lain,
jika 2 fitur mempunyai jumlah varian yang sama tetapi perbedaan Absolut rata-rata
berbeda maka fitur dengan perbedaan Absolut rata-rata yang lebih besar akan
mendapatkan nilai FDR yang lebih tinggi.
Dalam kasus nyata, biasanya data tidak 100% separable class sehingga perlu
dilakukan pengujian sejauh mana kelas pada setdata dipisahkan Meskipun tidak
terpisahkan secara sempurna (linear). Semakin separable class suatu save data, maka
klasifikasi latar yang dibangun bisa memberikan kinerja prediksi yang semakin baik.
Ada dua metode pengukuran yang dibahas, yaitu Thornton's Separable Index (TSI)
dan Direct Class Separablility measure (DCSM).
22
2.5.1 Thornton's Separable Index
Thornton's Separable Index (TSI) dikenalkan oleh Greene (2001), yang didefinisikan
sebagai pecahan titik set data di mana label klasifikasi sama dengan tetangga terdekat
nya. Nilainya diukur dalam derajat di mana masukkan yang dikaitkan dengan
keluaran yang sama cenderung berada dalam cluster yang sama ([Mthembu dan
Greene,2001],[Greene,2001]). Formula yang digunakan adalah sebagai berikut:
( f ( x ) f ( xˆ ) 1) mod 2
i i
TSI i 1
X adalah tetangga terdekat dari x , n adalah jumlah data, dan f(.) Adalah label kelas
dari data. Di sini diasumsikan bahwa label kelas adalah ganjil atau genap.
Nilai TSI dalam jangkauan [0,1]. Secara intuitif, nilai TSI akan mendekati 1 untuk Set
data di mana label yang ada berlawanan secara jelas,dan kedua cluster data dari kelas
berbeda dalam dipisahkan secara baik. Ketika coaster bergerak semakin dekat satu
sama lain dan data-data dari kelas berlawanan mulai bersinggungan atau
tumpang-tindih,nilai indeks akan mulai jatuh. Jika Central Central berhimpitan atau
data-data terdistribusi secara seragam dalam wilayah tanpa clustering tetangga
terdekat data probabilitasnya nya tidak akan lebih dari 50% yang mempunyai label
kelas yang sama dengan tetangganya, dan nilai separability indeks akan mendekati 0.5.
Nilai terjelek ketika nilai data ke dua kelas sama akan sama dengan nilai
exclusive-OR atau paritas, di mana nilai TSI = 0.
Fungsi di MATLAB untuk melakukan perhitungan TSI adalah thorntonsi() yang
source code-nya terlampir di lampiran C.sintaks penggunaaannya adalah sebagai
berikut:
n1 n2
Sw x1 , x j
i 1 j 1
23
Berikut formula untuk menghitung Sb:
n1 n2
Sb x1 , x j
i 1 j 1
n1 dan n2 masing-masing adalah jumlah data yang mempunyai label 1 dan 2 untuk
notasi || || adalah jarak antara data xi terhadap xj.
DCSM Sb Sw
Jika dalam sebuah Set data, Sb < Sw- dan Sb > Sw+ maka artinya sebaran kelas
negatif lebih besar daripada sebaran antara kedua kelas dan kelas positif, dan kelas
negatif tumpang-tindih terhadap kelas positif. Kriteria set data yang mempunyai nilai
separable kelas yang baik adalah Sb < Sw- dan Sb > Sw+.
Fungsi untuk menghitung DSCM adalah dscm (), terlampir di lampiran C.sintaks
penggunaannya sebagai berikut:
Jarak yang digunakan dalam fungsi ini adalah euclidean. Penjelasan parameter yang
digunakan seperti dibawah ini:
24
BAB III
Pembahasan
Analisis Cluster berbasis hierarki
Dalam statistik sama pengelompokan berbasis hierarki adalah metode analisis cluster
yang berusaha untuk membangun sebuah hierarki kluster. Strategi untuk
mengelompokkan berbagai jenis hierarki umumnya jatuh ke dalam dua jenis yaitu
agglomerative dan divisi. Pembahasan di bab ini dibatasi hanya ada agglomerative
hierarki clustering.
Tabel 3.1
25
Single linkage memberikan hasil bila cluster cluster digabungkan menurut jarak
antara anggota-anggota yang paling dekat Di antara 2 titik. Complete linkage terjadi
bila kelompok-kelompok digabungkan menurut jarak antara anggota-anggota yang
paling jauh diantara dua kluster avereg lingkeg digabungkan menurut jarak rata-rata
antara pasangan-pasangan anggota masing-masing pada himpunan diantara dua
cluster. Hasil-hasil dari clustering kedekatan tersebut dapat disajikan secara grafik
dalam bentuk dendrogram titik cabang-cabang dalam pohon menyajikan kluster
kemudian, cabang-cabang bergabung pada node yang posisinya sepanjang sumbu
jarak (similaritas) menyatakan tingkat dimana penggabungan terjadi.
Pada metode single linkage kedekatan diantara dua kluster ditentukan dari jarak
terdekat di antara pasangan Diantara Dua data dari dua cluster yang berbeda yaitu satu
dari clustar yang lain dan satu dariku cluster pertama. Metode ini bagus untuk
menangani data yang bentuk distribusi data non elips. Tapi sangat sensitif terhadap
noise dan outlier.
d (U , V ) min{d (U , V )}; d (U , V ) D
Pada metode complete linkage maksimal kedekatan diantara dua pusat ditentukan dari
jarak terjauh di antara pasangan Diantara Dua data dari dua kluster berbeda satu dari
pusat pertama satu dari yang lain atau disebut juga nilai kemiripan yang paling
minimal. Maka dengan cara ini kita memulainya dari masing-masing data sebagai
cluster sampai semuanya bergabung menjadi satu kelas ntar metode ini kurang peka
terhadap noise dan oplayer tetapi bagus untuk data yang mempunyai distribusi bentuk
bulat.
d (U , V ) max{d (U , V )}; d (U , V ) D
Pada metode average linkage kedekatan diantara dua pusat ditentukan dari jarak
rata-rata di antara pasangan Diantara Dua data dari dua coaster berbeda satu dari pusat
pertama satu dari cluster yang lain atau disebut juga nilai rata-rata di antara single
linkage dan kompleks maka dengan cara ini kita mulainya dari masing-masing data
sebagai cluster, kemudian mencari tetangga terdekat dengan menggunakan everything
teks untuk menggabungkan dua kolom berikutnya sampai semuanya bergabung
menjadi satu kosan metode ini merupakan pendekatan yang mengambil pertengahan
di antara single linkage dan kompleks bingkai Pengukuran jarak 2 Km dalam efek
negatif menggunakan formula jarak rata-rata seperti pada 3.7 bentuk lain dari
persamaan 3.38 dapat disesuaikan menjadi persamaan 3.3
1
d (U , V )
nu nv
d (U ,V ); d (U ,V ) D
Pada metode average linkage kedekatan diantara dua pusat ditentukan dari jarak
rata-rata di antara pasangan Diantara Dua data dari dua cluster berbeda, satu dari
pusat pertama satu dari cluster yang lain atau disebut juga nilai rata-rata di antara
single linkage dan kompleks maka dengan cara ini kita mulainya dari masing-masing
data sebagai cluster, kemudian mencari tetangga terdekat dengan menggunakan
cluster ing untuk menggabungkan dua cluster berikutnya sampai semuanya bergabung
26
menjadi satu . metode ini merupakan pendekatan yang mengambil pertengahan di
antara single linkage dan kompleks bingkai lingkaran.
Untuk sintaks pertama, fungsi ini bekerja untuk membuat cluster pohon hierarki dan
matriks jarak y yang sudah disiapkan dengan menggunakan metode linkage yang
dipilih. Untuk fungsi kedua, fungsi ini menggunakan set data X, metode linkage yang
dipilih, dan metriks jarak yang dipilih. Penjelasan parameter yang digunakan sebagai
berikut:
Untuk menghitung jarak pasangan dua data dari semua baris matriks (sebagai
parameter fungsi linkage), MATLAB menyediakan fungsi pdist(). Berikut sintaks
penggunaannya:
y =pdist(X,metric)
Fungsi pdist() diatas akan menghitung jarak diantara pasangan data dalam matriks X
yang berukuran Nxr. Penjelasan parameter yang digunakan sebagai berikut:
X Matriks set data yang berukuran Nxr. N adalah jumlah data, sedangkan r
adalah jumlah dimensi (fitur).
metric Untuk parameter metric, nilainya adalah string metode jarak seperti yang
digunakan di fungsi linkage().
27
MATLAB menyediakan fungsi dendogram() untuk membangkitkan diagram
dendogram cluster biner dengan bentuk pohon biner pada matriks Z hasil keluaran
fungsi linkage(). berikut sintaksnya:
[H,T] = dendogram(Z)
[H,T] = dendogram(Z,p)
[H,T] = dendogram(…, ‘colorthreshold’,t)
[H,T] = dendogram(…, ‘orientation’, ‘orient’)
Dendogram adalah diagram plot yang terdiri dari garis yang membentuk U yang
menghubungkan objek (data) dalam pohon hierarki. Penjelasan parameter yang
digunakan:
T T adalah vektor dengan panjang m yang berisi jumlah node daun untuk
setiap data dalam set data asli. Misalnya untuk mencari data yang
mengisi node daun k pada ddendogram, gunakan perintah find(T=k).
orient Parameter nilai orient akan menentukan arah dendogram dalam gambar.
Pilihan nilainya: top(default), botom, left, right.
28
BAB IV
Penutup
Kesimpulan
Kesimpulan dari isi makalah yang kami tuangkan dalam tugas UTS ini bermaksud
untuk menambah ilmu pengetahuan dan wawasan untuk mahasiswa tentang
pentingnya Data Mining dan juga mengenalkan metode-metode dalam implementasi
data terutama metode cluster hierarki yang sudah kami bahas di makalah ini.
Saran
Selain kesimpulan di atas, kami juga memberikan saran kepada pembaca agar dapat
menerapkan berbagai metode-metode Data Mining dalam setiap perencanaannya.
Baik berkaitan dalam studi, masyarakat maupun karir.
29
DAFTAR PUSTAKA
https://www.nurfaonline.com/2020/10/anomali-suhu-muka-laut.html
30