Anda di halaman 1dari 33

IMPLEMENTASI METODE CLUSTER HIERARKI

MENGGUNAKAN MATLAB
(makalah ini dibuat untuk memenuhi tugas UTS)

Disusun oleh:
Rahmat wahab Ramadhan (12201743)
Zaituti Nara (12201757)
Rahmayani (12201782)

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN


ILMU KOMPUTER EL RAHMA YOGYAKARTA
2022
KATA PENGANTAR

Puji syukur ke hadirat Tuhan Yang Maha Esa. Atas rahmat dan hidayah-Nya, kami dapat
menyelesaikan tugas makalah yang berjudul "Implementasi Metode Cluster Hierarki Menggunakan
Matlab" dengan tepat waktu.

Makalah disusun untuk memenuhi tugas mata kuliah Data Mining. Makalah ini bertujuan menambah
wawasan tentang Data Mining bagi pembaca maupun bagi kami.

Kami mengucapkan terima kasih kepada Bapak Herdiesel Santoso selaku dosen mata kuliah Data
Mining. Terima kasih juga kepada semua pihak yang telah membantu diselesaikannya makalah ini.
Kami menyadari makalah ini masih jauh dari sempurna. Oleh karenanya, saran dan kritik yang
membangun diharapkan demi kesempurnaan makalah ini.

Yogyakarta, 6 April 2022

Penulis

I
DAFTAR ISI
KATA PENGANTAR I
DAFTAR ISI II
BAB I 1
Pendahuluan 1
1.1 Pengertian Data Mining 1
1.2 pekerjaan dalam data mining 4
1.3 proses data mining 6
1,4 Set Data 7
1.5 konsep klasifikasi 10
1.6 konsep cluster 13
BAB II 17
Pemrosesan Awal 17
2.1 pembuangan Outlier 17
2.2 normalisasi data 18
2.3 Data yang salah 20
2.4 pemilihan fitur berbasis statistik 21
2.4.1 pengujian hipotesis dengan T-Test 21
2.4.2 fisher's discriminant ratio 22
2.5 pengukuran kelas yang dapat dipisahkan 22
2.5.1 Thornton's Separable Index 23
2.5.2 Direct Class Separability Measure 23
BAB III 25
Pembahasan 25
Analisis Cluster berbasis hierarki 25
9.1 konsep pengelompokan berbasis hierarki 25
9.2 metode-metode terkait AHC 25
9.3 Implementasi AHC di MATLAB 27
BAB IV 29
Penutup 29
A. Kesimpulan 29
B. Saran 29
DAFTAR PUSTAKA 30

II
BAB I
Pendahuluan

1.1 Pengertian Data Mining

Nama data mining sebenarnya mulai dikenal sejak tahun 1990, ketika pekerjaan
pemanfaatan data menjadi sesuatu yang penting dalam berbagai bidang, mulai dari
bidang akademik, bisnis, hingga medis. Data mining dapat di terapkan diberbagai
bidang yang mempunyai data, tetapi karena wilayah penelitian dan sejarah yang
belum lama. Dan belum melewati masa remaja maka data mining masih
diperdebatkan posisi bidang pengetahuan yang memilikinya. Maka Darly pregibon
menyatakan bahwa data mining adalah campuran dari statistik kecerdasan buatan dan
riset basis data yang masih berkembang.

Terlepas dari remajanya, data mining ternyata data mini yang diproyeksi menjadi
jutaan dolar di dunia industri pada tahun 2000, sedangkan pada saat yang sama
ternyata data mining dipandang sebelah mata oleh sejumlah peneliti sebagai dirty
work in statistic. Mereka adalah orang-orang yang tidak memandang data mining
sebagai sesuatu yang menarik bagi mereka pada saat itu.

Munculnya data mining yang didasarkan pada jumlah data yang tersimpan dalam
basis data semakin besar. Misalnya dalam sebuah supermarket ada beberapa transaksi
pelanggan yang terjadi dalam sehari dan ada berapa juta data yang sudah tersimpan
dalam sebulan. Dalam perusahaan, ada berapa juta data yang sudah tersimpan dari
setiap kegiatan produksi untuk setiap produk yang dibuat dalam beberapa tahun.
Contoh lain Jika anda mempunyai kartu kredit mungkin anda sering menerima surat
penawaran barang atau jasa jika bank mempunyai 1 juta nasabah dan biaya
pengiriman surat adalah Rp500 maka biaya yang harus dikeluarkan adalah Rp500 juta
rupiah. Padahal nasabah yang mungkin benar-benar membeli hanya sekitar 15% ,
akibatnya ada pembuangan biaya sekitar 85% dari 500 juta atau sekitar 425 juta
sia-sia.

Jika perusahaan bisa memanfaatkan data-data yang ada, sehingga hanya nasabah yang
berpotensi untuk membeli saja yang dikirim surat maka biaya pengiriman tersebut
dapat ditekan.Yang menjadi pertanyaan adalah data-data dalam perusahaan yang
semakin menggunung jumlahnya dari waktu ke waktu mau diapakan data tersebut,
Apakah hanya untuk dibuat laporan lalu di akhir tahun dibuang? Apakah hanya
dikubur dalam gudang data dan tidak diapa-apakan? Tentu sayang sekali Jika
data-data tersebut tidak dimanfaatkan untuk kepentingan perusahaan atau instansi
yang berkepentingan. Ada istilah lain yang mempunyai makna yang sama dengan data
mining yaitu knowledge Discovery in database (KDD) bertujuan untuk memanfaatkan
data dalam basis data dengan mengolahnya sehingga menghasilkan informasi baru
yang berguna.

1
Gambar 1.1

Seperti diilustrasikan pada gambar 1.1 jika dilacak akar keilmuannya ternyata data
Mining mempunyai 4 akar bidang ilmu sebagai berikut:

1. Statistik
Bidang ini merupakan akar paling tua, tanpa ada statistik maka data mining mungkin
tidak ada. Dengan menggunakan statistik klasik ternyata data yang diolah dapat
diringkas dalam apa yang umum dikenal sebagai exploratory data analysis (EDA).
EDA berguna untuk mengidentifikasi hubungan sistematis antara variabel atau fitur
ketika tidak ada cukup informasi alami yang dibawakan. teknik klasik yang digunakan
dalam data mining diantaranya:

- metode komputersional: statistik deskriptif ( distribusi, parameter statistik klasik


(mean , alat berat, median, rata-rata, varian dan sebagainya), korelasi, tabel frekuensi,
teknik eksplorasi multivariat analisis diskriminan classification tiga, analisis
korespondensi), model linier atau nonlinier lanjutan ,regresi linier atau non linier ,time
series atau forecasting dan sebagainya)

- visualisasi data: mengarah pada representasi informasi dalam bentuk visual dan
dapat dipandang sebagai satu yang paling berguna. Pada saat yang sama, visualisasi
data merupakan metode eksplorasi data yang atraktif. Teknik visualisasi yang paling
umum yang dikenal adalah histogram semua jenis ( kolam, silinder, kerucut piramida,
lingkaran batang dan sebagainya, kotak, scatter, kontur, matriks, icon dan
sebagainya).

2. Kecerdasan buatan atau artifisial intelijen (AI)


Bidang ilmu ini berbeda dengan statistik teori yang dibangun berdasarkan teknik
heuristik sehingga A berkontribusi terhadap teknik pengolahan informasi berdasarkan
pada model penalaran manusia. Titik salah satu cabang dari A1 yaitu pembelajaran
mesin atau machine learning ,merupakan disiplin ilmu yang paling penting, yang

2
dipresentasikan dalam pembangunan data mining menggunakan teknik di mana
sistem komputer belajar dengan pelatihan.

3. Pengenalan pola
Sebenarnya data mining juga menjadi turunan bidang pengenalan pola, tetapi hanya
mengolah data dari basis data. Data yang diambil dari basis data untuk diolah bukan
dalam bentuk relasi, tetapi dalam bentuk normal pertama sehingga set data dibentuk
menjadi bentuk normal. Akan tetapi data mining mempunyai ciri khas yaitu pencarian
pola asosiasi dan pola sekuensial.

4. Sistem basis data


Akar bidang ilmu ke-4 dari data mining yang menyediakan informasi berupa data
yang akan digali menggunakan metode-metode yang disebut sebelumnya. Kebutuhan
penggalian informasi dari dalam data dapat dilihat pada kasus dunia nyata,
diantaranya sebagai berikut:

• Ekonomi : ada jumlah data yang sangat besar yang dikumpulkan dari berbagai
bidang seperti data web e-commerce transaksi keuangan dan perbankan dan
sebagainya yang siap dianalisis dengan tujuan mendapatkan keputusan yang optimal
terkait tujuan lembaga.

• Pelayanan kesehatan : saat ini ada banyak basis data berbeda dalam bidang
pelayanan kesehatan medis dan informasi yang dianalisis secara parsial khususnya
dengan cara medis sendiri padahal sebenarnya dalam data tersebut banyak informasi
yang belum dibuka secara tepat.

• Riset pengetahuan : ada basis data besar yang dikumpulkan bertahun-tahun dalam
bermacam-macam bidang ( deskripsi astronomi, Meteorologi ,biologi , linguistik ,dan
sebagainya).

Dari Penjelasan diatas jelas bahwa di satu sisi Ada sejumlah data dalam jumlah besar
yang secara sistematis belum dieksplorasi dan di sisi lain kekuatan teknik komputasi
dari ilmu komputer sudah tumbuh secara ekonomi sehingga menyebabkan tekanan
pada kebutuhan untuk membuka informasi yang tersembunyi dari data yang menjadi
meningkat titik bidang data mining dan menjadi jawaban untuk menyelesaikan
persoalan diatas yang pada awalnya tidak mungkin untuk dideteksi dengan cara
tradisional dan hanya menggunakan kemampuan analisis manusia.
Pengertian data mining cukup sulit dijelaskan dengan gambar jika mengingat data
mining juga merupakan gabungan dari beberapa bidang ilmu titik. Berikut beberapa
pengertian data mining secara naratif mempunyai beberapa maksud yang mirip:

• Pencarian otomatis pola dalam basis data besar menggunakan teknik komputer
sional campuran dari statistik, pembelajaran mesin dan pengenalan pola.
• Ekstrak and investment trival yang sebelumnya belum diketahui secara potensial
adalah diinformasi berguna dari data.
• Ilmu pengetahuan informasi yang berguna dari Set data atau basis data besar.
• Eksplorasi otomatis atau semi otomatis dan analisis data dalam jumlah besar dengan
tujuan untuk menemukan pola bermakna.
• Proses penemuan informasi otomatis dengan mengidentifikasi pola dan hubungan
tersembunyi dalam data.

3
Meskipun data mining juga diartikan penemuan informasi, tidak semua penemuan
informasi atau data disebut data mining. Berikut ini adalah beberapa contoh Apa yang
disebut dengan data mining dan tidak disebut data mining:

• Bukan data mining : pencarian informasi tertentu di internet misalnya mencari info
masakan menggunakan Google.
- data mining titip dua pengelompokan informasi yang mirip dalam konteks tertentu
pada hasil pencarian misalnya masakan indonesia masakan Belanda dan sebagainya di
Google.

• Bukan data mining: petugas medis mencari data medis untuk menganalisis catatan
pasien dengan penyakit tertentu.
- Data mining: penelitian medis mencari cara mengelompokkan data penyakit pasien
berdasarkan data diagnosis , umur, alamat.

• Bukan data mining: analisis gambar laporan keuangan penjualan perusahaan.


• Data mining: menggunakan data transaksi perusahaan dengan fokus ke data sales
untuk mengidentifikasi profile utama pelanggan.

Contoh lebih jelas mengenai perbedaan antara pencarian dalam basis data dengan data
mining adalah seseorang dapat tertarik pada perbedaan antara Jumlah pembelian dari
jenis tertentu dari supermarket dibandingkan dengan Hypermarket, atau dari dua
supermarket dari dua wilayah berbeda titik supermarket di ini biasanya sudah ada
asumsi informasi awal bahwa memang ada perbedaan besar antara supermarket dan
Hypermarket dalam hal tempat atau salah supermarket antara wilayah satu dengan
lainnya. Sebaliknya, dalam data mining masalah bisa berisi objek dalam
mengidentifikasi faktor yang mempengaruhi volume sales tanpa mengandalkan
dugaan awal apapun titik Jadi kesimpulannya metode dalam data mining melakukan
identifikasi pola dan hubungan tersembunyi yang tidak selalu jelas dan dengan mudah
dapat mengidentifikasi dibawah keadaan asumsi tersebut.

Jadi, kita tidak bisa menyamakan pencarian tertentu dari objek individu jenis apapun
dengan pencarian data mining. Pencarian dalam data mining tidak mencari secara
individualis, tetapi set individualis. Atau dengan kata lain dikelompokkan dengan
kriteria tertentu titik dengan kata lain perbedaan antara pencarian biasa dengan data
mining dianalogikan dengan pencarian pohon dengan pencarian hutan " tidak bisa
menilai hutan hanya dengan menilai pohon".

1.2 Pekerjaan dalam data mining

Pekerjaan yang berkaitan dengan data mining dapat dibagi menjadi empat kelompok.
Kelompok tersebut yaitu model prediksi, analisis coaster (coaster analisis),analisis
asosiasidan deteksi anomali. Ilustrasi pekerjaan tersebut dapat dilihat pada gambar
1.2.

4
Gambar 1.2

Model prediksi (prediction)

Pekerjaan ini berkaitan dengan pembuatan sebuah model yang dapat melakukan
pemetaan dari setiap himpunan variabel ke setiap targetnya kemudian menggunakan
modal tersebut untuk memberikan nilai target pada himpunan baru yang didapatkan
titik ada dua jenis model prediksi, yaitu klasifikasi dan regresi klasifikasi digunakan
untuk variabel diskrit sedangkan regresi digunakan untuk variabel target kontinu.

Contoh pekerjaan yang menggunakan jenis klasifikasi adalah melakukan deteksi jenis
penyakit pasien berdasarkan sejumlah nilai nilai parameter penyakit yang diderita
masuk pekerjaan ini termasuk jenis klasifikasi karena target yang diharapkan adalah
deskripsi hanya beberapa jenis kemungkinan nilai target yang didapatkan dan tidak
ada nilai seri waktu( time series) yang harus didapatkan untuk mendapatkan target
nilai akhir.

Sementara melakukan prediksi jumlah penjualan yang dapat pada 3 bulan ke depan itu
termasuk regresi Karena untuk mendapatkan nilai penjualan bulan ketiga harus
mendapatkan nilai penjualan bulan kedua dan untuk mendapatkan nilai penjualan
bulan kedua harus mendapatkan nilai penjualan bulan pertama. Dalam hal ini ada nilai
seri waktu yang harus dihitung untuk sampai pada target akhir yang diinginkan dan
ada nilai kontinu yang harus dihitung untuk mendapatkan nilai target akhir yang
diinginkan.

5
Analisis Cluster ( Cluster analisis)

contoh pekerjaan yang berkaitan dengan analisis browser adalah bagaimana bisa
mengetahui pola pemerintahan barang oleh konsumen pada waktu-waktu tertentu
dengan mengetahui pola kelompok pembelian tersebut maka perusahaan retrailer
dapat menentukan jadwal promosi yang dapat diberikan sehingga dapat membantu
meningkatkan omset penjualan .
Analisis kelompok melakukan pengelompokan data ke dalam sebuah kelompok
berdasarkan kesamaan karakteristik masing-masing data pada kelompok-kelompok
yang ada .Data-data yang masuk dalam batas keamanan dengan kelompoknya akan
bergabung dalam kelompok tersebut dan akan terpisah dengan dalam kelompok yang
berbeda jika keluar dari batas kesamaan kelompok tersebut.

Analisis asosiasi ( asosiasi analisis)

Analisis asosiasi digunakan untuk menemukan pola yang menggambarkan kekuatan


hubungan fitur dalam data titik pola yang ditemukan biasanya merepresentasikan
bentuk aturan implikasi atau subset fitur. Tujuannya adalah untuk menemukan pola
yang menarik dengan cara yang efisien.

Penerapan yang paling dekat dengan kehidupan sehari-hari adalah analisis data
keranjang belanja. Jika ibu rumah tangga akan membeli barang kebutuhan rumah
tangga misalnya beras di sebuah supermarket Maka sangat besar kemungkinan ibu
rumah tangga tersebut juga akan membeli kebutuhan rumah tangga yang lain
misalnya minyak atau telur, dan tidak mungkin atau jarang membeli barang lain
seperti topi atau buku titik dengan mengetahui hubungan yang lebih kuat antara beras
dengan telur dari pada beras dengan topik, maka retailer dapat menemukan
barang-barang yang sebaiknya disediakan dalam jumlah yang cukup banyak

Deteksi anomalia (anomalia detektion)

Pekerjaan deteksi anomalia berkaitan dengan pengamatan sebuah data dari jumlah
data yang secara signifikan mempunyai karakteristik yang berbeda dari sisa data yang
lain. Data-data yang karakteristiknya menyimpang atau berbeda dari data yang lain
disebut sebagai outlier. Algoritma deteksi anomalia yang baik harus mempunyai laju
deteksi yang tinggi dan laju kesalahan yang rendah titik deteksi anomalia dapat
diterapkan pada sistem jaringan untuk mengetahui pola data yang memasuki jaringan
sehingga dapat diketahui adanya penyusupan jika pola kerja data yang datang berbeda
ataupun perilaku kondisi cuaca yang mengalami anomali a juga dapat dideteksi
dengan algoritma ini.

1.3 proses data mining

Secara sistematis ada tiga langkah utama dalam data mining :

1. Eksplorasi atau proses awal data


Eksplorasi atau pemrosesan data terdiri dari pembersihan data, normalisasi data
transformasi data, penanganan data yang salah, reduksi ,dimensi pemilihan
fitur ,dan sebagainya.

6
2. Membangun modal dan melakukan validasi terhadapnya
Membangun model dengan melakukan validasi terhadapnya berarti melakukan
analisis berbagai model dan memilih model dengan kinerja produksi yang terbaik
dalam makalah ini digunakan metode metode seperti klasifikasi, regresi, analisis
Cluster, deteksi anomali analisis ,asosiasi analisis pola sekuensial dan sebagainya titik
dalam beberapa referensi, deteksi anomali juga masuk dalam langkah eksplorasi.
Akan tetapi, deteksi anomali juga dapat digunakan sebagai algoritma utama, terutama
untuk mencari data-data spesial.

3. Penerapan
Penerapan berarti menerapkan model pada data yang baru untuk menghasilkan
perkiraan atau prediksi masalah yang di investigasi.

Penjelasan masing-masing langkah akan dijelaskan pada bab berikutnya.

1.4 Set Data


Bukan data mining namanya jika tidak ada data yang diolah di dalamnya. Kata data
dalam terminologi statistik adalah kumpulan objek dengan atribut-atribut tertentu, di
mana objek tersebut adalah individu berupa data dimana setiap data memiliki
sejumlah atribut. Atribut tersebut berpengaruh pada dimensi dari data, semakin
banyak atribut atau fitur maka semakin besar dimensi data titik Kumpulan data data
berbentuk Set data titik Dalam buku ini kadang menyebut data kadang menyebut
vektor keduanya mempunyai maksud yang sama.

Berikut 3 jenis data yang dikenal dan masing-masing penggolongannya :

• Record
~ Matriks data
~ Data transaksi
~ Data dokumen

• Grabh
~ World Wide Web ( www)
~ Struktur molekul

• Ordered dataset
~ Data spesial
~ Data temporal
~ Data squishyal
~ Data urut genetik

Dalam suatu data berbentuk record data, tidak ada hubungan antara baris data dengan
baris data yang lain dan juga tidak punya hubungan dengan Set data yang lain. Setiap
baris data berdiri sendiri sebagai sebuah data individu titik dalam sistem basis data
umumnya Ada sejumlah tabel yang saling berhubungan menggunakan suatu kunci,
tetapi dalam satu set data berbentuk record data, diasumsikan bahwa hanya ada satu
tabel yang berisi sejumlah baris data maka dari itu biasanya data yang diolah dalam
data mining adalah keluaran dari sistem data Warehouse yang menggunakan query

7
untuk melakukan pengambilan data dari sejumlah tabel dalam sistem basis data titik
ada tiga jenis data yaitu matriks ,transaksi , dan dokumen.

Sedotan yang berisi kumpulan data, dengan semua data mempunyai sejumlah atribut
atau fitur menarik yang sama dapat dipandang sebagai vektor data dalam wilayah
multi multi dimensi, dimana setiap dimensi fitur mempresentasikan atribut
menggambarkan objek atau data-data dengan model seperti itu disebut juga dengan
data matriks karena semua nilainya berisi nilai numerik. Sekumpulan objek atau data
matriks dapat diinterpretasikan sebagai matriks m * n. M adalah jumlah baris 1 baris
menyatakan satu data dan n adalah Jumlah kolom 1 kolom menyatakan satu atribut
atau fitur. Data matriks merupakan jenis data yang paling umum dan banyak
digunakan pada aplikasi aplikasi statistik statistik . contohnya data matriks
ditunjukkan pada tabel titik tabel 1.1.

Tinggi Berat Sepatu Celana


168 60 38 30
175 85 42 35
170 77 39 39
165 55 38 28
171 66 41 27
169 70 40 29
Tabel 1.1

Data keranjang belanja adalah contoh data transaksi. Sertifikat transaksi berisi
sejumlah item, dimana sejumlah item untuk sebuah transaksi bisa berbeda dengan
transaksi yang lain. Contohnya bisa dilihat pada kasus keranjang belanja di pasar atau
supermarket. Setiap pembelian melakukan pembelian barang yang jumlah dan
jenisnya bisa berbeda dengan pembelian yang lain. Data transaksinya berisi kumpulan
item tetapi dapat dilihat pada file atributnya asimetrik urutan nilai dari kolom pertama
sampai terakhir bisa berbeda antara satu transaksi dengan referensi yang lainnya.
Datanya biasanya digambarkan dengan nilai biner untuk setiap atribut dengan nilai 1
untuk adanya barang atribut yang dibeli dan 0 untuk barang yang tidak dibeli titik
contohnya data keranjang belanja ditunjukkan pada tabel 1.2.

IDT Item
1 Susu, bedak, sabun
2 Roti, Susu, Mentega
3 Gula, Roti, Terigu
4 Bedak, Gula, Roti, Sabun
5 Roti, Terigu
6 Gula, Susu, Sabun, Mentega
Tabel 1.2

Untuk data yang menggambarkan dokumen maka setiap dokumen dicatat dalam data
menjadi vektor "istilah".setiap istilah menjadi atribut atau fitur dari vektor sehingga

8
nilai yang diberikan berarti jumlah kemunculan kata dalam dokumen data seperti ini
disebut data dokumen titik contoh data dokumen ditunjukkan pada tabel 1.3.

Dokumen Sistem Komputer Cerdas Citra Informasi


Dokumen A 2 5 0 0 7
Dokumen B 4 0 3 9 0
Dokumen C 5 0 6 8 12
Dokumen D 0 3 0 0 9
Dokumen E 0 0 0 2 7
Dokumen F 1 2 8 0 0
Tabel 1.3

Data grafik direpresentasikan dalam bentuk grafik diagram titik seperti namanya,
informasi diberikan dalam bentuk gambar dengan jenis tertentu, seperti rumus kimia,
link html struktur molekul dan sebagainya contoh dapat dilihat pada gambar berikut.

Gambar 1.3

Ordered data adalah data-data yang tersusun dengan satu cara dalam urutan atau
aturan tertentu misalnya data struktur DNA mempunyai urutan genetik tertentu data
atmosfer dari BMKG dan akan tersusun menjadi data spasial dengan koordinat
tertentu data rekam medis seorang pasien di Puskesmas atau Rumah Sakit dengan
pola terurut penyakit yang diderita, dan sebagainya. Contoh data sosial diberikan
gambar-gambar 1.4

9
Gambar 1.4

Ada dua set data besar yang digunakan dalam buku ini sebagaimana tercantum di
lampiran B yaitu Iris dan data iris terdiri dari 150 baris data dan 4 fitur. Fitur-fitur
tersebut secara berturut-turut adalah sepal width, sepal length, sepal length, petal
length, dan petal width. Variabel spesies berisi 150 baris setiap baris berkorelasi
dengan baris yang sama dalam variabel minus dengan tiga macam nilai terdiri dari
tiga macam yaitu cama-cama Rosa Canadian dengan label untuk masing-masing
berturut-turut adalah 1,2 dan 3 titik masing-masing komposisinya 70 baris vektor.
Fitur-fitur yang digunakan secara berturut-turut adalah area(A), Perimeter(p),
compacness (c), length of karnel, with of karnel, ascymetry coefficient, dan
selengkapnya bisa dilihat di lampiran B.

1.5 konsep klasifikasi


Andaikan Set data dengan fitur rata-rata dan standar deviasi n digambar dalam
diagram kartesius akan menjadi seperti pada gambar 1.5 tersebut ada dua kelas yaitu
kelas A dan kelas B.

10
Gambar 1.5

Dari gambar tersebut dapat diamati bahwa data kelas A A menyebar di wilayah kiri
bawah, sedangkan data kelas B menyebar di wilayah kanan atas. Dapat diamati pula
bahwa data dari 2 kelas tersebut dapat dipisah dapatkan dengan mudah karena
mengelompokkan dalam wilayah terpisah. Memisahkan dua kelas berbeda tersebut
disebut dengan garis keputusan atau (decision Line) . Garis tersebut menyatakan
bahwa data yang terletak di sisi kiri bawah adalah kelas A, sedangkan yang terletak di
sisi kanan atas adalah kelas B. Garis inilah yang memberikan jawaban ketika ada data
yang baru, seperti yang disimbolkan oleh titik solid (•). Dengan mengamati lokasi
titik tersebut berada di sisi kiri bawah garis keputusan, maka data tersebut diprediksi
masuk pada kelas A.

Contoh tersebut memberikan gambar sistem klasifikasi dalam data mining titik
kuantitas yang digunakan sebagai basis ukuran dalam menilai objek yaitu rata-rata
dan standar devisiasi disebut dengan fitur. Kumpulan dari fitur-fitur yang memberikan
deskripsi sebuah objek disebut dengan data titik kumpulan dari sejumlah data atau
objek disebut dengan Set data titik untuk sebuah objek x mempunyai enviture
dinyatakan dengan:

x  [ x1 , x2 ,...xn ]

Garis lurus yang memisahkan dua kelas tersebut berperan untuk membagi wilayah
fitur menjadi dua wilayah atau lebih yang berbeda kelas disebut dengan klasifikatoris.
Jika sebuah vektor yang baru yang belum diketahui label kelasnya terletak di wilayah
kelas A maka vektor tersebut diprediksi masuk kelas A jika terletak di kelas B maka
vektor tersebut diprediksi masuk kelas B. Prediksi tersebut tidak selalu benar
misalnya jika sebuah vektor yang sebenarnya adalah kelas A tetapi hasil prediksi
memberikan label bahwa vektor tersebut adalah kelas B maka hal ini disebut dengan
misklasifikasi. Klasifikasi dapat terjadi dalam sistem klasifikasi yang dibangun akibat
masuknya modal klasifikatoris dalam wilayah lokal optimal. Masalah ini dipengaruhi
oleh algoritma klasifikasi itu sendiri titik data atau Vektor yang sudah diketahui
sebelumnya untuk label kelas digunakan untuk membangun model classificatory
disebut dengan data latih atau training data titik data atau Vektor yang belum
diketahui dianggap belum diketahui label kelasnya untuk kemudian diprediksi
kelasnya menggunakan model classificatory yang sudah dibangun disebut dengan
data uji atau testing data.

Contoh yang diberikan di atas merupakan kasus di mana Data latih yang diproses
sudah diketahui label kelasnya, kemudian sistem memanfaatkan informasi tersebut

11
untuk membangun model klasifikasi dan selanjutnya menggunakan modal tersebut
untuk memprediksi label kelas pada data baru yang belum diketahui atau dianggap
belum diketahui label kelasnya. Sistem seperti ini disebut dengan pembelajaran
terbimbing atau supervisor learning. Dalam konteks yang lain, pembelajaran
terbimbing disebut dengan klasifikasi atau classification.

Klasifikasi dapat didefinisikan secara detail sebagai suatu pekerjaan yang melakukan
pelatihan atau pembelajaran terhadap fungsi target yang memetakan setiap vektor fitur
X ke 1 dari sejumlah label kelas y yang tersedia. Pekerjaan pelatihan tersebut akan
menghasilkan suatu model yang kemudian disimpan sebagai memori (Prasetyo 2013).

Modal dalam klasifikasi mempunyai arti sama dengan black box, di mana ada suatu
model yang menerima masukan kemudian mampu melakukan pemikiran terhadap
masukan tersebut dan memberikan jawaban sebagai keluaran dari hasil pemikirannya.
Kerangka kerja klasifikasi ditunjukkan pada gambar 1 titik 7 pada gambar tersebut
disediakan sejumlah data latih ( x, y )untuk digunakan sebagai data pembangunan
modal. Kemudian menggunakan modal tersebut untuk memprediksi kelas dari data uji
(x) sehingga data uji (x) diketahui kelas (y) yang seharusnya.

Gambar 1.6

Model yang sudah dibangun pada saat pelatihan kemudian dapat digunakan untuk
memprediksi label kelas dari data baru yang belum diketahui label kelasnya. Dalam
pembangunan model selama proses pelatihan tersebut diperlukan adanya suatu
algoritma untuk membangun yang disebut sebagai algoritma pelatihan learning
algorithm. Ada banyak logaritma pelatihan yang sudah dikembangkan oleh para
peneliti seperti decision Tree, neighbor ,Articial neural Network support, Vector
machine dan sebagainya. Setiap algoritma mempunyai kelebihan dan kekurangan
masing-masing. Akan tetapi, semua algoritma mempunyai prinsip yang sama yaitu
melakukan suatu pelatihan sehingga di akhir pelatihan modal dapat memetakan atau
memprediksi setiap vektor masuk ke lebar kelas keluaran dengan benar.

Kerangka kerja seperti yang ditunjukkan pada gambar 1 titik 7 meliputi 2 langkah
proses yaitu induksi dan deduksi, induksi merupakan suatu langkah untuk
membangun model klasifikasi dari data latih yang diberikan, disebut juga proses
pelatihan sedangkan dedukasi merupakan suatu langkah untuk menerapkan model
tersebut pada data uji sehingga data uji dapat diketahui kelas yang sesungguhnya atau
disebut juga proses prediksi.

Berdasarkan cara pelatihan algoritma algoritma klasifikasi dapat dibagi menjadi dua
macam yaitu eager learner, dan leazy leaner. Algoritma-algoritma yang masuk
kategori Eager leaner di desain untuk melakukan pembacaan atau pelatihan atau

12
pembelajaran pada data latih untuk dapat memetakan dengan benar setiap vektor
masukkan ke label kelas keluarannya sehingga di akhir proses pelatihan, model sudah
dapat melakukan pemetaan dengan benar semua data latih ke label kelas keluarannya
setelah proses pelatihan tersebut selesai maka model Biasanya berupa bobot atau
sejumlah nilai kuantitas tertentu disimpan sebagai memori sedangkan semua data
Latinnya dibuang titik proses produksi dilakukan menggunakan modal yang
tersimpan dan tidak melibatkan data latih sama sekali titik cara ini mengakibatkan
proses produksi berjalan dengan cepat, namun harus dibayar dengan proses pelatihan
yang lama. Algoritma-algoritma klasifikasi yang masuk kategori ini diantaranya
adalah artificial Naural Network, support Vector machine ,decision Tree, Bayes dan
sebagainya.

Sementara algoritma-algoritma yang masuk kategori lazier hanya sedikit melakukan


pelatihan atau bahkan tidak sama sekali. Algoritma-algoritma ini hanya menyimpan
sebagian data atau seluruh data latih, kemudian menggunakan data latih tersebut
ketika proses produksi. Hal ini mengakibatkan proses prediksi menjadi lama karena
modal harus membaca kembali semua data Latinnya untuk dapat memberikan
keluaran label kelas dengan benar pada data uji yang diberikan. Kelebihan algoritma
seperti ini adalah proses pelatihan berjalan dengan cepat. Algoritma-algoritma
klasifikasi yang masuk kategori ini diantaranya adalah road classifier fuzzy neighbor
dan sebagainya

1.6 konsep cluster


Ada saatnya Dimana saat data yang akan diproses dalam data mining belum diketahui
label kelasnya misalnya dalam kasus data catatan akademik mahasiswa diketahui nilai
jumlah SKS yang sudah ditempuh dan nilai IPK yang didapat gambar 1.8
memberikan contoh diagram pemetaan nilai mahasiswa berdasarkan SKS dan IPK. Di
awal sebelum proses penggunaan metode data mining belum diketahui label dari
kelompok mahasiswa tersebut, seperti pada gambar 1.8 a. Pengelompokan data
diketahui dengan menggunakan algoritma yang sudah ditentukan dan selanjutnya data
akan diproses oleh algoritma untuk dikelompokkan menurut karakteristik alamiah
titik tidak ada unsur pembimbingan oleh dengan pemberian label kelas, melainkan
algoritma akan berjalan dengan sendirinya untuk mengelompokkan data tersebut titik
data yang lebih dekat atau mirip dengan data lain akan berkelompok dalam satu
kluster sedangkan data yang lebih jauh berbeda dari data yang lain akan berpisah
dalam kelompok yang berbeda titik hasil pengelompokan pada data di gambar 1.7.

Gambar 1.7

13
Dapat diamati bahwa ada tiga kelompok mahasiswa yang didapatkan yaitu kelompok
mahasiswa dengan SKS sedikit dan IPK tinggi simbol ( X )kelompok mahasiswa
dengan SKS tinggi tapi IPK rendah simbolnya (•) dan kelompok mahasiswa dengan
IPK rendah (°).

Untuk masalah pengelompokan data berdasarkan kemiripan atau ketidakmiripan


antara data tanpa ada label kelas yang diketahui sebelumnya disebut dengan
pembelajaran tidak terbimbing atau unsurprised learning. Atau disebut dengan
clustering.

Teknik clustering banyak diterapkan dalam berbagai bidang seperti kedokteran


kesehatan, pisikologi, hukum, statistik astronomi klimatologi dan sebagainya. Dalam
bidang kedokteran teknik clustering dapat digunakan untuk mengelompokkan
jenis-jenis penyakit berbahaya berdasarkan karakteristik atau sifat-sifat penyakit
pasien. Dalam bidang kesehatan dapat digunakan untuk mengelompokkan jenis-jenis
makanan berdasarkan kandungan kalori vitamin protein dan sebagainya. Dalam
bidang klimatologi dapat digunakan untuk mengetahui pola angin dan kondisi cuaca
di udara sehingga bisa diketahui wilayah-wilayah yang rentan terhadap cuaca buruk

Clustering data dapat dibedakan menjadi dua tujuan yaitu clustering untuk
pemahaman dan clustering untuk penggunaan.

Contoh-contoh tujuan clustering untuk pemahaman sebagai berikut:

• Biologi
Seperti yang sudah banyak diketahui, bahwa hewan-hewan di alam ini di kelompok
kelompokkan menurut karakter tertentu secara hierarki yaitu kerajaan filum kelas
ordo famili genus dan spesies. Level tertinggi adalah kerajaan sedangkan level
terendah adalah spesies. Satu jenis hewan mempunyai nama spesies sendiri. 2 hewan
dengan spesies berbeda bisa mempunyai kelas genus yang sama sejumlah hewan
dengan jenis berbeda bisa mempunyai family yang sama begitu juga di level ordo ,
kelas ,filum ,dan kerajaan.
Teknik clustering dalam bidang biologi yang lain seperti pengelompokan gen-gen
yang mempunyai fungsi yang sama.

• Pencarian informasi
Website di internet berjumlah miliaran sehingga ketika dilakukan pencarian, mesin
pencari akan memberikan hasil ribuan halaman titik teknik clustering dapat digunakan
untuk mengelompokkan hasil halaman yang diberikan mesin pencarian kedalam
kelompok dalam jumlah kecil dimana setiap kelompok berisi halaman mempunyai
karakteristik yang sama atau mirip.
Misalnya dengan kategori film dapat dibedakan dalam kategori seperti genre, aktor,
bioskop dan sebagainya.

• Klimatologi
Pemahaman cuaca di bumi memerlukan pencarian pola atmosfer dan lautan. Analisis
cluster dapat diterapkan untuk menemukan pola tekanan udara di wilayah kutub dan
lautan yang mempunyai pengaruh besar pada cuaca di daratan.

14
• Bisnis
Perusahaan biasanya mempunyai data informasi dalam jumlah besar pada seluruh
pelanggan saat itu dan pelanggan yang berpotensi. Cluster yang dapat diterapkan
untuk segmentasi pelanggan dalam kelompok-kelompok kecil dengan tujuan untuk
analisis dan strategi pemasaran.

Contoh-contoh tujuan clustering untuk penggunaan sebagai berikut:

1. Summerization
Banyak teknik analisis data seperti regresi atau PC membutuhkan waktu atau
kompleksitas komputasi titik dengan semakin banyaknya data, maka biaya untuk
melakukan summarization menjadi mahal. Teknik clustering dapat diterapkan untuk
membuat sebuah prototipe yang dapat mewakili kondisi seluruh data misalnya dengan
mengambil nilai rata-rata untuk semua data dari setiap kluster sehingga semua data
yang tergabung dalam sebuah kluster akan di wakili oleh sebuah data titik dengan
cara ini maka waktu dan kompleksitas komputasi dapat dikurangi secara signifikan.

2. Kompresi
Data-data yang bergabung dalam setiap kluster dapat dianggap mempunyai karakter
yang sama atau mirip Sehingga data-data dalam kluster yang sama dapat dikonversi
dengan diwakili oleh indeks prototipe dari setiap kluster. Setiap objek dipresentasikan
dengan indeks prototipe yang dikaitkan dengan sebuah poster teknik kompresi ini
dikenal dengan vector quantization.

3. Pencarian tetangga terdekat secara efisien

Pada teknik KNN, komputasi untuk mencari tetangga terdekat akan semakin berat
ketika jumlah data semakin besar, pada hal-hal tersebut tidak sebanding dengan
jumlah data yang hanya digunakan sebagai tetangga terdekat titik dengan plester link
maka dapat dibuat prototipe akhirnya digunakan sebagai tetangga terdekat dengan
kulit kering maka dapat dibuat prototipe dimana setiap prototipe mewakili satu kelas
dengan cara ini di kompetensi kan pencarian tetangga terdekat dapat digantikan
dengan prototipe terdekat hingga dapat mengurangi waktu komputasi secara
signifikan titik konsekuensinya adalah cara mendapatkan tetangga terdekat mungkin
menjadi kurang representative karena diukur berdasarkan kelompok data, bukan
individu data, sehingga Ada kemungkinan distorsi hasil yang tidak diinginkan.

Banyak metode clustering yang sudah dikembangkan oleh para ahli. Masing-masing
metode mempunyai karakter kelebihan dan kekurangan dalam subbab ini diberikan
perbedaan jenis metode clustering yang sudah ada titik pelestarian dapat dibedakan
menurut struktur kluster keanggotaan data dalam cluster dan kekompakan data dalam
Cluster.

Menurut struktur clustering terbagi menjadi dua yaitu hierarki dan partisi. Dalam
pengelompokan berbasis hierarki satu data tunggal bisa dianggap sebuah kluster dua
atau lebih khusus terkecil dapat bergabung menjadi sebuah kue tart besar, begitu
seterusnya sehingga semua data dapat bergabung menjadi sebuah kursor.
Pengelompokan berbasis hierarki merupakan satu-satunya metode yang masuk
kategori ini titik di sisi lain, pengelompokan berbasis partisi membagi Set data ke
dalam sejumlah cluster yang tidak bertumpang tindih antara satu dengan cluster yang

15
lain artinya setiap datanya menjadi anggota satu kluster saja. Metode seperti DBSCN,
Self organizing merupakan metode yang masuk dalam kategori ini.

16
BAB II
Pemrosesan Awal
Salah satu fase penting dalam pemrosesan awal data mining adalah pemilihan fitur
yang nanti akan di proses dalam metode data mining. Fitur yang di proses dalam fase
ini merupakan fitur yang sudah di bangkitkan dari fase sebelumnya. Dalam
aplikasi-aplikasi yang menerapkan data mining biasanya menggunakan sejumlah
pemodelan fitur yang dikombinasikan dengan harapan memberikan akurasi kinerja
yang baik. Jumlah fitur yang banyak pasti berimbas pada komputasi yang mahal dan
kompleks. Akan tetapi,jumlah fitur yang banyak ternyata tidak selalu menjamin
kinerja yang baik.

Penggunaan dua fitur yang mempunyai kondisi deskriminan dua kelas atau lebih
dengan baik. Dengan kata lain, fitur yang dipilih haruslah fitur yang mempunyai
korelasi dalam mendiskriminasi kelas-kelas yang di proses. Hal sangat penting yang
harus diperhatikan dalam klasifikasi adalah sifat generalisasi yang di bangun oleh
klasifikator, dimana semakin tinggi rasio jumlah data latih terhadap jumlah parameter
bebas maka akan semakin baik sifat generalisasi klasifikator yang dihasilkan.

Pekerjaan utama dalam pemilihan fitur adalah jika diberikan sejumlah fitur, sebagai
kandidat fitur yang digunakan, maka bagaimana cara memilih fitur yang paling
penting diantara kandidat tersebut sehingga dapat mengurangi jumlah nya, dan pada
saat yang sama memungkin kan memberikan diskriminasi kelas dengan baik. Fase ini
tentu sangat kritis. Jika fitur yang dipilih mempunyai kekuatan deskriminasi yang
kecil, akibatnya desain klasifikator yang dibentuk mempunyai kinerja yang buruk.
Sebaliknya, jika fitur yang kaya informasi deskriminasi saja yang dipilih, maka desain
klasifikator yang dibentuk menjadi sangat sederhana.

Dengan kata lain, yang harus diusahakan dalam pemilihan fitur adalah mengarah pada
jarak perbedaan antara kelas yang besar dan variasi dalam kelas kecil. Cara yang lebih
baik adalah dengan mengombinasi kan pengujian pada dua atau lebih fitur secara
bersamaan, Hal ini penting mengingat bisa jadi ada fitur yang mempunyai korelasi
yang kuat atau lemah. Pengujian fitur biasanya tidak hanya dilakukan pada fitur
dalam dimensi saat itu, Adakalanya kasus nyata yang nonlinear akan sulit menemukan
diskriminasinya sehingga diperlukan transformasi fitur dari dimensi yang lama ke
dimensi yang baru dengan harapan dalam dimensi yang baru (relatif lebih tinggi)
mampu mentransformasi yang asalnya non linear menjadi linear.

2.1 pembuangan Outlier

Outlier ( kadang disebut juga Noise) didefinisikan sebagai titik yang terletak sangat
jauh dari rata-rata variabel random pada umumnya yang berkorelasi dengan titik
tersebut. Jarak ini diukur terhadap ambang batas yang diberikan, biasanya nilai berapa
kalinya standar deviasi. Menjadi tempat untuk variabel random terdistribusi normal,
jarak dua kali standar deviasi akan menjangkau 95% dari titik, dan jarak 3 kali standar
deviasi dapat menjangkau 99% dari titik. Titik dengan nilai yang sangat berbeda dari
nilai rata-rata akan menghasilkan error yang besar pada saat pelatihan dan mungkin
mempunyai efek berbahaya. Efek ini bahkan lebih buruk ketika outlier merupakan
hasil pengukuran noise. jumlah outlier biasanya sedikit, dan oulier ini biasanya
dibuang dari data yang diproses. Jika outlier ini bukan masalah dan dihasilkan dari

17
distribusi dengan perhitungan yang panjang maka desainer harus memilih fungsi
biaya dalam klassificator yang sangat tidak sensitif terhadap kemunculan outler.
misalnya kriteria least Square sangat sensitif terhadap keberadaan outlier.

Gambar 2.1

Pendeteksian keberadaan outlier dapat dilakukan menggunakan metode- metode


seperti pendekatan statistik, K-nearest Neighbor, pemeriksaan kerapatan (Tan et al,
2006), DBSCAN (prasetyo,2013),outlier removal clustering (prasetyo,2013), dan
sebagainya.

Pada situasi yang lain, outlier tidak selalu merupakan data dengan perilaku
menyimpang yang akhirnya harus dibuang. Ada kalanya outlier adalah data yang
memang akan dicari karena keistimewaan perilakunya. Misalnya pada kasus data
akademik mahasiswa seperti pada gambar 2.1 pada gambar tersebut ada 2 data
mahasiswa yang terletak pada lokasi yang jauh dari rata-rata data yang pada
umumnya. Dua data tersebut sebenarnya adalah 2 mahasiswa tingkat akhir (SKS
banyak) dan prestasi yang sangat baik (IPK tinggi). Dengan menggunakan metode
deteksi outlier maka dapat diketahui keberadaan dan jumlah outlier yang ditemukan.

2.2 normalisasi data

Dalam praktiknya, desainer sering dihadapkan pada fitur dengan nilai yang terletak
dalam jangkauan nilai berbeda. Akibatnya, fitur dengan nilai atau Jangkauan yang
besar mempunyai pengaruh yang lebih besar dalam fungsi biaya daripada fitur dengan
nilai kecil atau jangkauan kecil. Untuk menangani masalah ini, bisa digunakan teknik
normalisasi fitur sehingga semua fitur akan berada dalam jangkauan yang sama.
Gambar 2.2 memberikan ilustrasi data yang belum dinormalisasi dan yang sudah
dinormalisasi. Pada data yang belum dinormalisasi ( Gambar 2.2[a]), fitur x
mempunyai nilai dan jangkauan nilai yang jauh lebih tinggi daripada fitur y. Tanpa
dilakukan normalisasi, bisa jadi fitur x yang akan mendominasi fungsi biaya pada
klasifikator. Setelah dinormalisasi (gambar 2.2[b]), maka semua fitur akan berada
dalam Jangkauan yang sama sehingga proporsi pengaruh pada fungsi biaya dalam
klasifikasi menjadi seimbang.

18
Gambar 2.2

Cara yang sederhana dan banyak digunakan adalah normalisasi linear. Untuk Cara
yang pertama, masing-masing fitur dihitung nilai mean (persamaan [2.2]). Maka,
untuk N data yang ada pada fitur ke-k didapat :

1 N
xk 
N
x
i 1
ik , k  1,2,..., r

1 N
 k2   ( xik  xk ) 2
N  1 i 1

Data hasil normalisasi dihitung menggunakan persamaan berikut:

xik  xk
xik 
k

Hasil normalisasi dengan cara tersebut didapatkan fitur yang mempunyai sifat
zero-mean dan unit variance. Teknik linear yang lain adalah dengan mensklakan
jangkauan setiap fitur dalam jangkauan [0,1]atau [-1,1]. Untuk mensklakan dalam
jangkauan [0,1] dapat digunakan persamaan berikut:

xik  min( xk )
xˆik 
max( xk )  min( xk )

Sementara untuk menskalakan dalam jangkauan [-1,1]:

2 xik  (max( xk )  min( xk ))


xˆik 
max( xk )  min( xk )

Selain teknik linear, teknik non linear juga dapat digunakan dalam kasus dimana data
bahkan tidak terdistribusi di sekitar rata-rata. Untuk melakukan normalisasi nonlinear
bisa digunakan fungsi non linear seperti logaritma atau sigmoid untuk meletakkan
dalam interval yang ditentukan. Penskalaan softmax yang populer digunakan. Ada
dua langkah untuk teknik non linear, yaitu persamaan (2.6) dan (2.7).

19
xik  xk
y
r k

1
xˆik 
1  e y

Fungsi pada persamaan (2.6) dan (2.7) pada dasarnya adalah fungsi squashing yang
membatasi data dalam jangkauan [0,1]. Jika diperhatikan ketika fungsi ini diberikan
serangkaian masukkan, maka akan terlihat bahwa nilainya yang kecil ini adalah
perkiraan fungsi linear terhadap X. Jangkauan nilai x yang berkaitan dengan bagian
linear tergantung pada nilai standar deviasi dan faktor r,nilai r didefinisikan sendiri
oleh user. Nilai yang jauh dari rata-rata akan di-squash secara eksponensial.

2.3 Data yang salah

Dalam praktiknya, data tertentu biasanya selalu ada Nilai Salah satu atau kosong pada
satu atau lebih fitur dari satu atau lebih vektor dalam data keseluruhan. Nilai yang
salah ini bisa Seharusnya bernilai angka tapi bernilai karakter, atau nilai yang
disimpan berada diluar jangkauan nilai yang seharusnya dimasukkan. Masalah seperti
ini bisa terjadi karena banyak penyebab, seperti input dari user yang dilakukan
sembarangan, data yang didapatkan dari from kuesioner yang biasanya juga tidak
diisikan secara lengkap oleh responden, basis data, dan antarmuka aplikasi yang tidak
taat integritas data, alat ukur yang sudah tidak standar sehingga memberikan hasil
yang salah, dan sebagainya.

Berikut beberapa pilihan yang dapat digunakan untuk memberikan perlakuan pada
data yang salah:
Membuang semua fitur dari vektor (satu vektor berisi beberapa fitur termasuk yang
fitur yang nilainya salah). Pendekatan seperti ini bisa digunakan ketika jumlah vektor
(data) yang mempunyai nilai yang salah jumlahnya sedikit dibandingkan dengan
vektor lain yang semua nilai fiturnya ada. Jika tidak seperti itu masalahnya, maka
pembuangan vektor akan berpengaruh pada berkurangnya sifat alami dari masalah.

Untuk fitur ke-i, hitung rata-rata berdasarkan nilai yang tersedia untuk fitur tersebut.
Kemudian hasilnya digunakan untuk mengganti nilai fitur yang salah pada setiap
vektor.

Vektor yang mempunyai fitur dengan nilai yang salah tidak dibuang. Yang harus
dilakukan pada pendekatan ini adalah untuk semua pasangan vektor antara dua vektor
X dan Y didefinisikan B dengan permasalahan berikut:

i  1,2,...r

Untuk menghitung kedekatan di antara X dan Y didefinisikan dengan persamaan


berikut:
r
( x, y )  r   ( xi , yi )
r   bi i:bi  0

i 1

20
Q(Xi,Yi) menyatakan kedekatan di antara dua fitur Xi dan Yi yang nilainya ada.
Pilihan yang umum untuk Q adalah ukuran ketidakmiripan yang digunakan. Untuk
manhattan,maka Q(Xi,Yi)=|Xi-Yi|. Untuk pilihan yang lain, bisa menggunakan
Euclidean,chebyshev,cosinus, dan sebagainya. Pembahasan lebih lengkap mengenai
ketidakmiripan ada di bab 3.

Vektor yang mempunyai fitur dengan nilai yang salah tidak dibuang. Yang harus
dilakukan pada pendekatan ini adalah menghitung rata-rata kedekatan Qavg (i)
diantara semua fitur dalam semua data (X) pada semua fitur i=1,2,...,n. Efeknya, akan
ada beberapa Factor X yang fitur ke-i tidak ada (nilainya salah). Pada kasus ini,
kedekatan yang melibatkan Xi ( vektor yang mengandung nilai fitur yang salah) tidak
melibatkan dalam perhitungan Qavg (i). Untuk definisi kedekatan ₩(Xi,Yi) diantara
komponen ke-i dari vektor x dan y adalah Qavg(i) jika ada minimal satu dari Xi dan
Yi yang tidak ada,dan menggunakan Q(Xi,Yi) jika kedua nilai Xi dan Yi ada. Definisi
Q(Xi,Yi) bisa menggunakan definisi kedekatan ketidakmiripan seperti pada cara
sebelumnya. Untuk menghitung kedekatan diantara x dan y,di definisikan dengan
persamaan berikut:

r
( x, y )   ( xi , yi )
i 1

2.4 pemilihan fitur berbasis statistik


Langkah yang paling sederhana dalam memilih fitur adalah mengamati setiap fitur
yang dibangkitkan secara independen dan menguji kemampuan diskriminasinya pada
masalah yang harus diselesaikan. Meskipun mengamati masing-masing fitur secara
indenpenden dikatakan jauh dari optimal, cara ini membantu untuk membuang pilihan
fitur yang dikenali 'jelek' dan tetap mempertahankan yang lain untuk diuji dengan
metode berikutnya. Efek dari pemilihan fitur yang paling besar diskriminasinya
adalah komputasi yang tidak mahal ketika dalam proses algoritma utama.
Di subbab ini akan dilakukan pemeriksaan apakah nilai yang diambil tersebut jatuh
pada kelas yang berbeda (kelas (1)1 dan kelas (1)2) secara signifikan. Untuk
memberikan jawaban, maka formulasi yang digunakan adalah konteks statistik
pengujian hipotesis. Yang harus dilakukan adalah berusaha menjawab yang manakah
hipotesis di bawah ini yang benar:

H1 : nilai fitur berbeda secara signifikan


H0 : nilai fitur tidak berbeda secara signifikan

H0 disebut sebagai hipotesis nol,sedangkan H1 disebut sebagai hipotesis alternatif.


Keputusan dicapai dengan dasar percobaan pembuktian yang menolak atau tidak
terhadap H0. Hal tersebut dilakukan dengan pemanfaatan informasi statistik dan
secara pasti sebuah keputusan akan diambil tergantung pada probabilitas kesalahan.

2.4.1 pengujian hipotesis dengan T-Test


Pengujian Hipotesis T-test melakukan pengujian fitur secara individu dan memeriksa
ada atau tidaknya informasi diskriminasi data terhadap kelas. Jika tidak ada, maka
fitur tersebut akan dibuang. Untuk tujuan tersebut, pengujian dilakukan menggunakan
pengujian statistik. Ide dasarnya adalah menguji apakah nilai rata-rata fitur yang
dipunyai berbeda dalam dua kelas secara signifikan. Dalam kasus jelas lebih dari 2,

21
pengujian bisa diterapkan pada setiap pasangan kelas. Dengan mengasumsikan bahwa
data dalam setiap kelas terdistribusi normal, maka akhirnya metode t-test menjadi
pilihan yang terkenal.
Tujuan statistik t-test adalah menentukan yang Manakah diantara dua hipotesis di
bawah ini bernilai benar:

H1: nilai rata-rata fitur dalam 2 kelas berbeda


H0: nilai rata-rata fitur dalam 2 kelas sama.

Jika hipotesis nol benar, maka fitur akan dibuang/tidak digunakan. Pengujian
hipotesis menggunakan nilai level signifikan a sesuai dengan kemungkinan kesalahan
yang dilakukan dalam pengambilan keputusan. Nilai yang dipakai dalam praktek
umumnya a = 0.05 atau a=0.001.

2.4.2 fisher's discriminant ratio


Fisher's discriminant ratio (FDR) umumnya dipakai untuk mengukur kekuatan
diskriminasi fitur individu Dalam memisahkan dua kelas berdasarkan nilai yang
dimilikinya. Untuk U1 dan U2 masing-masing adalah nilai rata-rata dari 2 kelas
sedangkan 2/1 dan 2/2 masing-masing adalah varian dari dua kelas dalam gitur yang
akan diukur. FDR dirumuskan seperti persamaan berikut:

( 1   2 ) 2
FDR  2
( 1   22 )

Hasil yang diberikan oleh FDR adalah untuk fitur yang mempunyai perbedaan yang
besar pada rata-rata dari kelas dan varian kecil dari tiap kelas, maka nilai FDR yang
tinggi akan didapatkan. Jika dua vektor mempunyai perbedaan Absolute rata-rata
yang sama tapi berbeda dalam jumlah varian (2/1+2/2), maka fitur dengan jumlah
varian yang lebih kecil akan mendapatkan nilai FDR yang lebih tinggi. Di sisi lain,
jika 2 fitur mempunyai jumlah varian yang sama tetapi perbedaan Absolut rata-rata
berbeda maka fitur dengan perbedaan Absolut rata-rata yang lebih besar akan
mendapatkan nilai FDR yang lebih tinggi.

2.5 pengukuran kelas yang dapat dipisahkan


Sejauh ini yang sudah dilakukan adalah menguji sejauh mana kontribusi fitur terhadap
kelas, baik yang dilakukan oleh Pengujian Hipotesis maupun FDR. Walaupun
sebenarnya FDR secara implisit juga menyatakan separable class sehingga perlu
dilakukan pengujian sejauh mana kelas pada set data dengan sejumlah fitur terpilih
dan label kelas dinilai untuk mengetahui apakah kelas tersebut dapat dipisahkan oleh
klasifikator.

Dalam kasus nyata, biasanya data tidak 100% separable class sehingga perlu
dilakukan pengujian sejauh mana kelas pada setdata dipisahkan Meskipun tidak
terpisahkan secara sempurna (linear). Semakin separable class suatu save data, maka
klasifikasi latar yang dibangun bisa memberikan kinerja prediksi yang semakin baik.
Ada dua metode pengukuran yang dibahas, yaitu Thornton's Separable Index (TSI)
dan Direct Class Separablility measure (DCSM).

22
2.5.1 Thornton's Separable Index
Thornton's Separable Index (TSI) dikenalkan oleh Greene (2001), yang didefinisikan
sebagai pecahan titik set data di mana label klasifikasi sama dengan tetangga terdekat
nya. Nilainya diukur dalam derajat di mana masukkan yang dikaitkan dengan
keluaran yang sama cenderung berada dalam cluster yang sama ([Mthembu dan
Greene,2001],[Greene,2001]). Formula yang digunakan adalah sebagai berikut:

 ( f ( x )  f ( xˆ )  1) mod 2
i i
TSI  i 1

X adalah tetangga terdekat dari x , n adalah jumlah data, dan f(.) Adalah label kelas
dari data. Di sini diasumsikan bahwa label kelas adalah ganjil atau genap.

Nilai TSI dalam jangkauan [0,1]. Secara intuitif, nilai TSI akan mendekati 1 untuk Set
data di mana label yang ada berlawanan secara jelas,dan kedua cluster data dari kelas
berbeda dalam dipisahkan secara baik. Ketika coaster bergerak semakin dekat satu
sama lain dan data-data dari kelas berlawanan mulai bersinggungan atau
tumpang-tindih,nilai indeks akan mulai jatuh. Jika Central Central berhimpitan atau
data-data terdistribusi secara seragam dalam wilayah tanpa clustering tetangga
terdekat data probabilitasnya nya tidak akan lebih dari 50% yang mempunyai label
kelas yang sama dengan tetangganya, dan nilai separability indeks akan mendekati 0.5.
Nilai terjelek ketika nilai data ke dua kelas sama akan sama dengan nilai
exclusive-OR atau paritas, di mana nilai TSI = 0.
Fungsi di MATLAB untuk melakukan perhitungan TSI adalah thorntonsi() yang
source code-nya terlampir di lampiran C.sintaks penggunaaannya adalah sebagai
berikut:

Parameter dan keterangan


X = matrik X dengan ukuran N×r. N adalah jumlah data, sedangkan r adalah
Jumlah fitur.
T = parameter adalah vektor target dengan ukuran n×1, nilai nya 1 atau 2.
TSI = nilai separability indek, nilai dalam rentang [0,1].
J = parameter jarak yang digunakan dalam mencari tetangga terdekat titik
pilihannya: 'euclidean','cityblock','chebychev','cosine','nilai default'euclidean'.

2.5.2 Direct Class Separability Measure


Direct Class Separability Measure (DCSM) diperkenalkan oleh Mthembu dan Greene
(2001) untuk mengukur seberapa rapat (compact) setiap kelas ketika dibandingkan
terhadap jaraknya dari kelas yang lain. Ada dua parameter yaitu Sw dan Sb. Sw
adalah DCMS dalam kelas (within class distances),sedangkan Sb adaalah DCSM
antar kelas (between class distances)
Berikut formula untuk menghitung Sw:

n1 n2
Sw    x1 , x j
i 1 j 1

23
Berikut formula untuk menghitung Sb:

n1 n2
Sb    x1 , x j
i 1 j 1

n1 dan n2 masing-masing adalah jumlah data yang mempunyai label 1 dan 2 untuk
notasi || || adalah jarak antara data xi terhadap xj.

Nilai DCSM diformulasikan oleh persamaan berikut:

DCSM  Sb  Sw

Jika dalam sebuah Set data, Sb < Sw- dan Sb > Sw+ maka artinya sebaran kelas
negatif lebih besar daripada sebaran antara kedua kelas dan kelas positif, dan kelas
negatif tumpang-tindih terhadap kelas positif. Kriteria set data yang mempunyai nilai
separable kelas yang baik adalah Sb < Sw- dan Sb > Sw+.

Fungsi untuk menghitung DSCM adalah dscm (), terlampir di lampiran C.sintaks
penggunaannya sebagai berikut:

[Sb Sw] = dcsm (X, T)

Jarak yang digunakan dalam fungsi ini adalah euclidean. Penjelasan parameter yang
digunakan seperti dibawah ini:

Parameter dan keterangan


Sb: skalar yang menyatakan nilai
Sw: vektor 1×2 yang menyatakan nilai Sw kelas 1 dan 2.

24
BAB III
Pembahasan
Analisis Cluster berbasis hierarki

9.1 konsep pengelompokan berbasis hierarki

Dalam statistik sama pengelompokan berbasis hierarki adalah metode analisis cluster
yang berusaha untuk membangun sebuah hierarki kluster. Strategi untuk
mengelompokkan berbagai jenis hierarki umumnya jatuh ke dalam dua jenis yaitu
agglomerative dan divisi. Pembahasan di bab ini dibatasi hanya ada agglomerative
hierarki clustering.

Alga merah putih merupakan metode pengelompokan berbasis hierarki dengan


pendekatan bottom-up yaitu proses pengelompokan dimulai dari masing-masing data
sebagai satu buah kluster, kemudian secara rekursif mencari poster terdekat sebagai
pasangan untuk bergabung sebagai satu coaster yang lebih besar. Tersebut diulang
terus sehingga tampak bergerak ke atas membentuk hierarki titik cara Ini
Membutuhkan satu parameter kedekatan cluster.

Devisi merupakan metode pengelompokan berbasis hierarki dengan pendekatan


top-down yaitu proses pengelompokan dimulai dari 1 kluster yang berisi semua data,
kemudian secara rekursif memecah menjadi dua kluster sampai setiap Cluster hanya
berisi satu data tunggal data itu sendiri untuk cara ini yang dibutuhkan adalah
keputusan kluster yang manakah yang akan dipecah pada setiap langkah dan
bagaimana cara mencegahnya.

Pengelompokan berbasis hierarki sering ditampilkan dalam bentuk grafis


menggunakan diagram yang mirip pohon (tree) yang disebut dengan dendogram.
Dendogram merupakan diagram yang menampilkan hubungan kluster dengan
subscluster dalam urutan yang mana closter yang digabung (agglomerative view) atau
dipecah devisif view.

Algoritma AHC dijabarkan dalam tabel 3.1 di bawah ini

Hitung matriks kedekatang bedasarkan jenis jarak yang digunakan


Ulangi langkah 3 sampai 4, hingga hanya 1 cluster yang tersisa
Gabukan 2 cluster terdekat bedasarkan parameter kedekatan yang ditentukan
Perbarui matriks kedekatan untuk merefleksikan kedekatan diantara cluster baru dan
cluster yang tersisa.

Tabel 3.1

9.2 metode-metode terkait AHC


Kunci operasi metode AHC adalah penggunaan ukuran kedekatan diantara dua cluster
(Hartini 2012) ada 3 teknik pendekatan yang digunakan a dalam pembahasan di sini
yaitu single linkage( jarak terdekat) , complete linkage (jarak terjauh) dan average
linkage ( jarak rata-rata) seperti yang diilustrasikan pada Gambar 3.1

25
Single linkage memberikan hasil bila cluster cluster digabungkan menurut jarak
antara anggota-anggota yang paling dekat Di antara 2 titik. Complete linkage terjadi
bila kelompok-kelompok digabungkan menurut jarak antara anggota-anggota yang
paling jauh diantara dua kluster avereg lingkeg digabungkan menurut jarak rata-rata
antara pasangan-pasangan anggota masing-masing pada himpunan diantara dua
cluster. Hasil-hasil dari clustering kedekatan tersebut dapat disajikan secara grafik
dalam bentuk dendrogram titik cabang-cabang dalam pohon menyajikan kluster
kemudian, cabang-cabang bergabung pada node yang posisinya sepanjang sumbu
jarak (similaritas) menyatakan tingkat dimana penggabungan terjadi.

Pada metode single linkage kedekatan diantara dua kluster ditentukan dari jarak
terdekat di antara pasangan Diantara Dua data dari dua cluster yang berbeda yaitu satu
dari clustar yang lain dan satu dariku cluster pertama. Metode ini bagus untuk
menangani data yang bentuk distribusi data non elips. Tapi sangat sensitif terhadap
noise dan outlier.

d (U , V )  min{d (U , V )}; d (U , V )  D

Pada metode complete linkage maksimal kedekatan diantara dua pusat ditentukan dari
jarak terjauh di antara pasangan Diantara Dua data dari dua kluster berbeda satu dari
pusat pertama satu dari yang lain atau disebut juga nilai kemiripan yang paling
minimal. Maka dengan cara ini kita memulainya dari masing-masing data sebagai
cluster sampai semuanya bergabung menjadi satu kelas ntar metode ini kurang peka
terhadap noise dan oplayer tetapi bagus untuk data yang mempunyai distribusi bentuk
bulat.

d (U , V )  max{d (U , V )}; d (U , V )  D

Pada metode average linkage kedekatan diantara dua pusat ditentukan dari jarak
rata-rata di antara pasangan Diantara Dua data dari dua coaster berbeda satu dari pusat
pertama satu dari cluster yang lain atau disebut juga nilai rata-rata di antara single
linkage dan kompleks maka dengan cara ini kita mulainya dari masing-masing data
sebagai cluster, kemudian mencari tetangga terdekat dengan menggunakan everything
teks untuk menggabungkan dua kolom berikutnya sampai semuanya bergabung
menjadi satu kosan metode ini merupakan pendekatan yang mengambil pertengahan
di antara single linkage dan kompleks bingkai Pengukuran jarak 2 Km dalam efek
negatif menggunakan formula jarak rata-rata seperti pada 3.7 bentuk lain dari
persamaan 3.38 dapat disesuaikan menjadi persamaan 3.3

1
d (U , V ) 
nu  nv
 d (U ,V ); d (U ,V )  D

Pada metode average linkage kedekatan diantara dua pusat ditentukan dari jarak
rata-rata di antara pasangan Diantara Dua data dari dua cluster berbeda, satu dari
pusat pertama satu dari cluster yang lain atau disebut juga nilai rata-rata di antara
single linkage dan kompleks maka dengan cara ini kita mulainya dari masing-masing
data sebagai cluster, kemudian mencari tetangga terdekat dengan menggunakan
cluster ing untuk menggabungkan dua cluster berikutnya sampai semuanya bergabung

26
menjadi satu . metode ini merupakan pendekatan yang mengambil pertengahan di
antara single linkage dan kompleks bingkai lingkaran.

9.3 Implementasi AHC di MATLAB

MATLAB menyediakan fungsi untuk melakukan clustering menggunakan AHC,


yaitu linkage(), dengan sintaks sebagai berikut:
Z = linkage(y,method)
Z = linkage(X,method,metric)

Untuk sintaks pertama, fungsi ini bekerja untuk membuat cluster pohon hierarki dan
matriks jarak y yang sudah disiapkan dengan menggunakan metode linkage yang
dipilih. Untuk fungsi kedua, fungsi ini menggunakan set data X, metode linkage yang
dipilih, dan metriks jarak yang dipilih. Penjelasan parameter yang digunakan sebagai
berikut:

y Parameter y adalah matriks jarak Euclidean atau yang lain. Dengan


format vektor Dx1.D adalah Nx(N-1)/2, sedangkan N adalah jumlah
data.
Z
Z adalah Matrik keluaran yang berukuran (N-1)x3. N adalah jumlah data
yang dikelompokkan. Kolom 1 dan 2 berisi indeks cluster yang
dihubungkan dalam pasangan untuk membentuk pohon biner. Node
daun pada pohon diberi nomor dari 1 sampai N.
Method
Nilai parameter method menentukan metode linkage yang digunakan.
Pilihannya: ‘single’, untuk metode single linkage. Pilihan ini adalah
default jika tidak disertakan: complete, average, centroid.
Metric
Nilai menentukan parameter jarak yang digunakan, pilihannya:
euclidean, seuclidean, mahalanobis, cityblock, minkowsky, hamming,
chebychev.

Untuk menghitung jarak pasangan dua data dari semua baris matriks (sebagai
parameter fungsi linkage), MATLAB menyediakan fungsi pdist(). Berikut sintaks
penggunaannya:

y =pdist(X,metric)

Fungsi pdist() diatas akan menghitung jarak diantara pasangan data dalam matriks X
yang berukuran Nxr. Penjelasan parameter yang digunakan sebagai berikut:

X Matriks set data yang berukuran Nxr. N adalah jumlah data, sedangkan r
adalah jumlah dimensi (fitur).

y y adalah metriks berukuran 1x(N(N-1)/2). bisa menggunakan fungsi


squareform() sehingga elemen  ij adalah jarak dari data I ke data j.

metric Untuk parameter metric, nilainya adalah string metode jarak seperti yang
digunakan di fungsi linkage().

27
MATLAB menyediakan fungsi dendogram() untuk membangkitkan diagram
dendogram cluster biner dengan bentuk pohon biner pada matriks Z hasil keluaran
fungsi linkage(). berikut sintaksnya:

[H,T] = dendogram(Z)
[H,T] = dendogram(Z,p)
[H,T] = dendogram(…, ‘colorthreshold’,t)
[H,T] = dendogram(…, ‘orientation’, ‘orient’)

Dendogram adalah diagram plot yang terdiri dari garis yang membentuk U yang
menghubungkan objek (data) dalam pohon hierarki. Penjelasan parameter yang
digunakan:

Z Z adalah matriks (N-1) yang dibangkitkan oleh fungsi linkage(). N


adalah jumlah data dalam set data asli.

H H adalah vektor yang menangani garis dalam dendogram.

p Jika parameter p disertakan, maka jumlah node daun yang ditampilkan


tidak lebih dari p, dengan memotong cabang pohon.

T T adalah vektor dengan panjang m yang berisi jumlah node daun untuk
setiap data dalam set data asli. Misalnya untuk mencari data yang
mengisi node daun k pada ddendogram, gunakan perintah find(T=k).

t Parameter t memberikan warna yang berbeda untuk setiap cluster dalam


dendogram ketika linkage kurang dari ambang batas t. Nilai t dalam
interval [0,max(Z(:,3))] sama dengan t = .7(max(Z(:,3))).

orient Parameter nilai orient akan menentukan arah dendogram dalam gambar.
Pilihan nilainya: top(default), botom, left, right.

28
BAB IV
Penutup

Kesimpulan

Kesimpulan dari isi makalah yang kami tuangkan dalam tugas UTS ini bermaksud
untuk menambah ilmu pengetahuan dan wawasan untuk mahasiswa tentang
pentingnya Data Mining dan juga mengenalkan metode-metode dalam implementasi
data terutama metode cluster hierarki yang sudah kami bahas di makalah ini.

Saran

Selain kesimpulan di atas, kami juga memberikan saran kepada pembaca agar dapat
menerapkan berbagai metode-metode Data Mining dalam setiap perencanaannya.
Baik berkaitan dalam studi, masyarakat maupun karir.

29
DAFTAR PUSTAKA

https://www.nurfaonline.com/2020/10/anomali-suhu-muka-laut.html

BUKU DATA MINING-Mengolah Data menjadi Informasi Menggunakan MATLAB

30

Anda mungkin juga menyukai