Anda di halaman 1dari 4

DATA MINING DENGAN ALGORITMA MIN-APRIORI Abstrak Data mining merupakan proses analisis data menggunakan perangkat lunak

untuk menemukan pola dan aturan (rules) dalam himpunan data. Data mining dapat menganalisis data yang besar untuk menemukan pengetahuan guna mendukung pengambilan keputusan. Dalam penelitian ini akan dibahas Association Rule sebagai salah satu fungsi data mining yang diimplementasikan menggunakan Algoritma Min-Apriori. 1. Pendahuluan

minimum support dan minimum confidence yang tetap. Di antara beberapa algoritma association rule yang dikembangkan, algoritma apriori merupakan algoritma yang dinilai paling efisien. Akan tetapi, algoritma ini pada dasarnya dirancang untuk data transaksional, sehingga dalam menjalankannya perlu dilakukan diskritisasi, yaitu perubahan ke dalam bentuk biner, pada atribut-atribut kontinu. Diskritisasi ini diduga menyebabkan distorsi yang mempengaruhi performansi asosiasi antar item, sehingga beberapa informasi penting dari data akan hilang. Maka dikembangkan algoritma minapriori yang khusus ditujukan untuk association rule mining pada data dengan atribut kontinu. [2] Dalam Paper ini akan dikaji mengenai penerapan algoritma min-apriori untuk mencari association rule pada data set rekam medik penyakit tifus dan demam berdarah. Batasan masalah dalam paper ini adalah sebagai berikut: 1. Data yang akan digunakan sebagai input penelitian merupakan data sekunder yang berasal dari medical record penyakit tifus dan demam berdarah yang berjumlah 222 pasien. Data yang diambil adalah data dengan variable sebagai berikut: umur, jenis kelamin, lama rawat, lama demam, suhu, nadi, respirasi, systole, diastole, hemoglobin, leukosit, pcv, trombosit, widal, dan penyakit.

Latar Belakang Masalah Data mining berkaitan dengan penggalian informasi yang berguna dari suatu database yang besar. Association rule mining dan classification adalah dua teknik data mining yang penting. Association rule mining bertujuan untuk menemukan asosiasi antar item dalam database. Hal tersebut dilakukan dengan mengidentifikasi frequent item set terlebih dahulu dan kemudian mendapatkan association rule dari frequent item set tersebut. Association rule mining merupakan unsupervised learning karena ekstak rule tanpa mengetahui informasi taget sebelumnya, sedangkan pada classification merupakan supervised learning karena ekstraksi rule atas dasar target (kelas) yang telah ditentukan sebelumnya [1] Menurut [2] Association Rule dapat digunakan untuk menemukan hubungan atau sebab akibat . Masalah utama dari association rule adalah bahwa ada begitu banyak rule yang mungkin dibangun. Algoritma yang efisien diperlukan untuk membatasi ruang pencarian dan hanya cukup memeriksa subset dari semua rule, tetapi jika mungkin, tanpa menghilangkan rule penting. Pentingnya rule biasanya diukur dengan dua kategori: Support, yang merupakan persentase transaksi bahwa suatu rule dapat diterapkan , dan Confidence, yang merupakan jumlah kasus di mana suatu rule berasosiasi dengan jumlah kasus di mana rule tersebut berlaku (menunjukkan kekerapan munculnya item-item dalam y dalam transaksi yang mengandung x). Untuk memilih rule yang tepat dari himpunan semua rule yang mungkin harus ditetapkan

2.

2.

Landasan Teori

2.1 Data Mining Pengertian Data Mining atau Knowledge Discovery in Database menurut William J. Frawley, Gregory Piatetsky-Shapiro dan Christopher J. Matheus [10]: Data Mining atau Knowledge Discovery in Database( KDD ) adalah penyaringan data secara implisit dimana sebelumnya tidak diketahui terdapatnya informasi yang potensial.

Data mining menganalisis data menggunakan tool untuk menemukan pola dan aturan dalam himpunan data. Perangkat lunak bertugas untuk menemukan pola dengan mengidentifikasi aturan dan fitur pada data. Tool Data mining diharapkan mampu mengenal pola ini dalam data dengan input minimal dari user. Dalam penelitian ini pembahasan Data Mining diklasifikasikan dalam fungsi Association. 2.2 Association Rule Tipe pola yang penting yang dapat ditemukan dari basis data adalah sebuah aturan. Association rule mempunyai bentuk LHS RHS dengan interpretasi jika setiap item dalam LHS dibeli maka sepertinya item dalam RHS juga dibeli. Dua pengukuran penting untuk sebuah rule adalah support dan confidence. Kita dapat menghitung semua association rule dengan ambang support dan confidence masukkan pengguna dengan post-processing frequent-itemset. Secara umum Association Rule mempunyai bentuk : LHS RHS, dimana LHS dan RHS adalah himpunan item; jika setiap item-item dalam LHS terdapat dalam transaksi maka item-item di RHS juga terdapat dalam transaksi. Ada dua aturan association rule : 1. Support Support untuk himpunan item adalah prosentase transaksi yang berisi semua itemitem ini. Support untuk aturan LHS RHS disupport untuk himpunan item-item LHS RHS. 2. Confidence Pertimbangkan transaksi yang berisi semua item dalam LHS. Confidence untuk rule : LHS RHS adalah prosentasi transaksi yang juga terdiri semua item-item dalam RHS. Lebih tepatnya, misalkan sup (LHS) adalah prosentase transaksi yang berisi LHS dan sup (LHS RHS) adalah prosentase transaksi yang berisi LHS dan RHS, maka confidence rule: LHS RHS adalah sup( LHS RHS )/sup (LHS ). pengukuran untuk

Permasalahan Association Rule dapat dikomposisikan menjadi dua sub masalah, yaitu: 1. Penemuan semua kombinasi item-item, yang disebut frequent-itemset, yang supportnya lebih besar daripada minimum support. 2. Gunakan frequent-itemset untuk membangkitkan aturan yang diinginkan. Idenya adalah, katakan, ABCD dan AB sering muncul dalam transaksi, maka aturan AB CD akan dipenuhi jika perbandingan antara support(ABCD) terhadap support (AB) minimum sebesar minimum confidence. Semua rule akan mempunyai minimum support karena ABCD sering muncul dalam transaksi. 2.3 Algoritma Min-Apriori. Algoritma Min-Apriorimerupakan terobosan untuk menemukan frequent itemset tanpa harus mendiskritkan atribut kontinus pada data terlebih dahulu. Salah satu contoh dari data yang terdiri atas atribut-atribut kontinus adalah data teks dokumen web. Setelah dilakukan teks preprocessing hingga dihasilkan matriks frekuensi term-nya (gambar 2.2), algoritma min-apriori segera dijalankan. Langkah langkah Min-Apriori : i.Normalisasi nilai-nilai di sepanjang kolom matriks / tabel: yaitu dengan menghitung relative term frequency untuk setiap T(i,j), sehingga jika nilai-nilai pada kolom tersebut dijumlahkan hasilnya sama dengan 1,0 . Matriks yang telah dinormalisasi, seperti tergambar sebagai berikut :

Gambar 1 Normalized matrix ii.Menghitung nilai support : ambil (C) sebagai subset dari (I), penentuan support dari (C) dengan memperhatikan (T) adalah sebagai berikut :

di mana T(i,j) berkorespondensi pada nilai table yang telah dinormalisasi. Contoh : support {d1, d2} = 0,034 + 0 + 0,175 = 0.209 support { d1, d3 , d4} = 0,076 + 0 + 0,009 = 0.085 Definisi support di atas memenuhi sifat

monotonicity [5] support yang didefinisikan untuk frequent itemset dari nilai-nilai binary. Dalam kata lain, berdasarkan definisi support baru, support dari sembarang subset (S) dari (C) support (C). Ini dikaitkan oleh sifat monotonicity dari fungsi minimum, jika A B ( A dan B adalah sejumlah angka ), maka min(A) min(B). 3. Implementasi

Normalisasi Menentukan value baru dengan rumus value lama dibagi jumlah satu kolom, contohnya pada lampiran dibawah. Kemudian diasosiasikan antara dua variable, contoh:

3.1 Gambaran Umum Sistem Secara umum gambaran system dapat dilihat sebagai berikut: Referensi [1] Kusumo, Dana Sulistiyo, dkk. 2003. Data mining dengan Algoritma Apriori pada RDBMS Oracle. STT [2] Prewitaningsih, Dyah Ayu, Analisis Perbandingan Algoritma Apriori dan MinApriori untuk Implementasi Clustering berdasarkan Hipergraf Rule ASosiasi, STT

Data pengamatan

prepocessing

Min-apriori

Association rule

Gambar 2. Gambaran sistem Data mentah akan mengalami preprocessing data terlebih dahulu sebelum memasuki permodelan min-apriori kemudian akan didapatkan association rule. Preprocessing
preprocessing

Data selection and cleaning


Data mentah transformasi Data set penelitian

reduksi

Gambar 3 Preprocessing Tahap preprocessing data yang akan dilakukan baik untuk data selection and cleaning, transforamasi maupun reduksi merupakan proses pengorganisasian data ke dalam bentuk standar yang siap untuk diolah dalam penggalian data. Data selection merupakan proses dengan membuang atribut yang tidak terkait, dan data cleaning meliputi penanganan missing values, duplicate data, noisy dan outlier. Transformasi meliputi generalisasi dan normalisasi data. Sedangkan, reduksi data ditujukan untuk mendapatkan volume data yang lebih kecil tetapi diharapkan menghasilkan hasil analisis yang sama.

Lampiran

Dilampirkan pada sheet 2

Anda mungkin juga menyukai