Extended Abstract, Bahasa Indonesia - Hengky Sipayung, 23505015

1
Pembangunan Aplikasi Bayesian Networks Pada Data Mining

Hengky Sipayung Program Studi Magister Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Indonesia hengky_sipayung@students.itb.ac.id
Abstrak Data mining adalah proses mengekstrasi data untuk mendapatkan pengetahuan dari kumpulan data yang besar. Salah satu metode data mining adalah klasifikasi yaitu proses pencarian model klasifikasi yang dapat membedakan objek label kelasnya. Bayesian Networks adalah salah satu teknik yang dapat dipakai untuk membangun model klasifikasi. Komponen Bayesian Network terdiri dua komponen yaitu struktur DAG yang menggambarkan hubungan kausalitas antar atribut data dan sebuah tabel yang berisi probabilitas bersyarat berdasarkan atribut sebelumnya.
TPDA (Three Phase Dependency Analysis) adalah salah satu algoritma untuk membangun struktur Bayesian Networks. Algoritma ini membangun struktur Bayesian Networks berdasarkan nilai informasi yang terdapat pada dua node. Semakin besar informasi yang mengalir antara dua node maka semakin besar peluang untuk menghubungkan pasangan node tersebut. TPDA terdiri dari tiga fase. Fase pertama disebut drafting yaitu fase penentuan graph awal untuk menghubungkan dua node. Fase kedua disebut thickening yaitu fase menambahkan garis antar dua node yang tidak dapat dipisahkan. Fase ketiga disebut thinning yaitu fase di mana setiap garis antara dua node akan diuji untuk menentukan apakah garis tersebut dapat di hapus atau tidak. Berdasarkan hasil evaluasi kinerja inferensi kelas target menggunakan struktur Bayesian Network yang dihasilkan oleh aplikasi pada tesis ini, terlihat bahwa tingkat akurasi inferensi cukup tinggi. Namun demikian ketika hasil struktur Bayesian Networks yang dihasilkan tesis ini dibandingkan dengan struktur yang dihasilkan BN PowerConstructor terdapat perbedaan struktur yang dihasilkan. Oleh sebab itu, aplikasi yang dikembangkan pada tesis ini masih memerlukan perbaikan supaya struktur yang dihasilkan akan sama, mengingat BN PowerConstructor adalah aplikasi yang telah terbukti kebenarannya dalam membangun struktur Bayesian Networks dengan mengimplementasikan algoritma TPDA. Kata kunci : data mining, klasifikasi, inferensi, Bayesian Networks
dengan situasi data rich but poor information[7]. Hal ini mengakibatkan perlunya kebutuhan menganalisa data dalam basis data secara otomatis untuk memperoleh pengetahuan yang diinginkan. Teknologi yang dapat menjawab kebutuhan tersebut adalah teknologi data mining, yaitu suatu teknologi untuk mengekstraksi pengetahuan yang diinginkan dari sebuah basis data[19].
Salah satu tugas dari data mining adalah klasifikasi. Menurut [7] klasifikasi adalah salah satu metode data mining, yakni sebuah proses pencarian sekumpulan model (fungsi) yang dapat membedakan kelas-kelas data. Model ini dapat digunakan untuk memprediksikan objek kelas yang labelnya tidak diketahui atau dapat memprediksikan data yang akan muncul dimasa depan. Sebagai contoh, model klasifikasi dapat dibangun untuk memprediksi suatu item barang tertentu akan laku dijual atau tidak berdasarkan atribut-atribut yang terdapat pada barang tersebut, ataupun berdasarkan fakta-fakta lain yang ada pada saat klasifikasi dilakukan
Permasalahan yang muncul pada klasifikasi adalah membangun classifier. Ada beberapa teknik yang dapat dipakai untuk membangun sebuah model klasifikasi, antara lain decision tree, neural networks, backpropagration. Salah satu teknik yang dapat digunakan untuk membangun model klassifikasi adalah Bayesian Networks. Menurut [19] Bayesian Networks menyatakan representasi grafis hubungan kausalitas yang berada dalam himpunan variabel acak. Terdapat 2 (dua) eleman kunci dari Bayesian Networks yang dapat dijadikan sebagai definisi dari Bayesian Networks yaitu : 1. Merupakan sebuah directed acyclic graph di mana masing-masing node merepresentasikan sebuah variabel acak, dan masing-masing garis menggambarkan probabilitas ketergantungan dari node sebelumnya (node parent-nya). 2. Memiliki sebuah tabel probabilitas bersyarat (CPT) untuk masing-masing node ke node parent-nya. Ketika membangun model klasifikasi berdasarkan Bayesian Networks, terdapat 2 (dua) tugas utama yang harus dilakukan, yaitu pembelajaran dalam membangun struktur DAG (directed acyclic graph) dan pembelajaran untuk menghitung CPT (Conditional Probability Table). Ada dua pendekatan learning (pembelajaran) yang dapat dilakukan untuk membangun struktur Bayesian Networks dari suatu basis data yaitu :
I. PENDAHULUAN Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan datanya secara elektronik dan bersifat permanen dengan terus menerus yang mengakibatkan basis data akan memiliki volume data yang semakin besar dan terus bertambah. Bertambahnya volume data ini, tidak diikuti oleh kemampuan manusia melakukan analisis terhadap data untuk mengambil intisari informasi yang terkandung didalamnya. Fenomena ini disebut
2
1. Scored Based : menggunakan metode pencarian untuk mendapatkan struktur yang cocok dengan data, dimana proses kontruksi dilakukan secara iteratif, dimulai dari sebuah graf tanpa edge kemudian menggunakan metode pencarian untuk menambahkan sebuah edge pada graf dan berhenti ketika tidak ada struktur baru yang lebih baik daripada struktur sebelumnya. Constraint Based (Dependency Analysis) : yaitu mengidentifikasi / menganalisa hubungan bebas bersyarat (conditional independence-CI) antar atribut, di mana CI menjadi constraint dalam membangun struktur Bayesian Networks. TPDA (Three Phase Dependency Analysis) merupakan salah satu algoritma constraint based dalam membangun struktur Bayesian Networks. Algoritma ini melakukan analisa conditional independence dalam menentukan node-node yang akan saling berhubungan. 2. menggunakan Chow-Liu algoritma. Fase 2, thickening. Fase ini menambahkan garis pada graph yang dihasilkan pada fase drafting ketika dua node tidak dapat di pisahkankan (non d-separated) dengan menggunakan pengujian CI yaitu menghitung conditional mutual information antara 2 (dua) node. Fase 3, thinning. fase di mana setiap garis akan di uji dan dihapus jika dua node diketahui bebas bersyarat, fase ini diakhiri dengan memanggil prosedur orients edges untuk menentukan arah garis.
2.
3.
Menurut [10,11] formula yang digunakan untuk menentukan dua node mempunyai hubungan adalah dengan menghitung nilai mutual information menggunakan (1) dan nilai mutual conditional information menggunakan (2).
I ( A, B) = P(a, b) log P ( a, b) P( a ) P(b)
P ( a, b | c ) P (a | c) P(b | c)
Untuk mengetahui lebih jauh mengenai model klasifikasi menggunakan Bayesian Networks maka penelitian ini akan difokuskan mengenai Bayesian Networks. Terdapat beberapa permasalahan yang ingin dijawab pada pelaksanaan penelitian ini, yaitu: 1. Bagaimana Bayesian Networks dapat menjadi model data mining yang digunakan untuk klasifikasi ?. 2. Bagaimana menerapkan algoritma yang berkaitan dengan rumusan masalah yang pertama (no.1) ke dalam sebuah aplikasi dan memvisualisasikan hasil data mining (dalam hal ini adalah struktur Bayesian Networks) ?. 3. Bagaimana melakukan tahapan rekayasa perangkat lunak yang baik untuk aplikasi data mining khususnya untuk klasifikasi berdasarkan Bayesian Neworks ?. Untuk menjawab beberapa permasalahan ini, maka perangkat lunak untuk membangun struktur Bayesian Networks akan dibangun. Algoritma yang akan dipelajari secara studi literatur untuk diimplementasikan ke dalam sebuah perangkat lunak adalah algoritma TPDA. Studi kasus yang dipilih adalah untuk menentukan apakah suatu nasabah bank dapat dikategorikan produktif/tidak produktif dan/atau aktif/tidak aktif. Missing value pada data tersebut telah dihilangkan. Berikut ini merupakan keterangan dari data set tersebut: 1. Jumlah data pelatihan: 11.698 2. Jumlah data test: 5.987 3. Jumlah atribut: 13
(1)
I ( A, B | C ) = P( a, b | c) log
(2)
Menurut [10,11] dua node akan saling bebas (tidak berhubungan) jika nilai I(A,B) 0. III. APLIKASI BAYESIAN NETWORKS Sebelum aplikasi Bayesian Networks yang terdapat pada tesis ini dikembangkan telah terdapat beberapa aplikasi sejenis yang telah dikembangkan. Dua diantara aplikasi yang telah ada tersebut akan diuraikan secara singkat. A. BN PowerSoft. BN PowerSoft merupakan paket aplikasi Bayesian Networks yang dikembangkan oleh [10,11] dan bersifat free yang dapat di download pada alamat http://www.cs.ualberta.ca/~jcheng/bnsoft.htm. Beberapa fitur-fitur yang terdapat pada aplikasi ini antara lain : 1. Antar muka yang user friendly dengan memakai GUI sebagai antar muka. 2. Mendukung beberapa format basis data seperti Ms-Acces, dBase, Foxpro, Paradox, Excel, Oracle, SQL-server melalui ODBC, dan juga mendukung basis data dalam bentuk format file text. 3. Mendukung domain knowledge seperti : node ordering yang lengkap dan parsial ordering serta dalil sebab akibat untuk mempercepat proses pembangunan struktur Bayesian Networks. B. GeNie/SMILE GeNie/Smile merupakan salah satu aplikasi yang dapat digunakan untuk membangun dan memvisualisasikan struktur Bayesian Networks. Aplikasi ini bersifat free dan dapat di download pada alamat website http://genie.sis.pitt.edu. Beberapa fitur yang dimiliki oleh GeNie/SMILE antara lain :
II. CARA KERJA TPDA Menurut [10,11] algoritma ini terdiri dari 3 (tiga) fase, yaitu : 1. Fase 1, drafting. Fase ini menghasilkan inisialisasi sekumpulan garis penghubung dengan melakukan pengujian pada struktur jaringan yang ada. Draft merupakan sebuah graph tanpa loops yang
3
1. 2. Antar muka yang user friendly dengan memakai GUI. Visualisasi distribusi probabilitas pada node menggunakan bar chart, sehingga dapat menampilkan distribusi probabilitas untuk semua node dapat dilihat secara garis besar, selain itu distribusi probabilitas dapat ditampilkan juga dalam bentuk pie chart untuk atribut tertentu yang dipilih. Dapat menampilkan conditional probabilities tables (CPT) untuk setiap node. Performansi SIDAMIBAYES diukur dengan melihat tingkat akurasi aplikasi dalam melakukan inferensi kelas target dengan memakai testing data dalam berbagai ukuran yaitu 10%, 15%, 25% dan 50%. Dari hasil pengujian inferensi kelas target untuk beberapa kasus data dapat dilihat pada Tabel.1. Selain itu performasi aplikasi SIDAMIBAYES juga dapat dilihat dengan membandingkan struktur Bayesian Networks yang dihasilkan dengan struktur Bayesian Networks yang dihasilkan oleh BN PowerConstructor. Dipakainya BN PowerConstructor sebagai aplikasi pembanding karena BN PowerConstructor mengimplementasikan algoritma TPDA dan sudah diyakini kebenarannya hingga saat tesis ini dibuat. Dari hasil perbandingan dengan memakai data Chest Clinic terlihat perbedaan yakni Pada aplikasi BN PowerConstructor terdapat garis penghubung yang tidak dapat ditentukan mana parent dan child, yaitu antara node Cancer dengan Smoking dan Bronchitis dengan Smoking. Sedangkan pada aplikasi yang dikembangkan pada tesis ini, Cancer menjadi parent Bronchitis dan Smoking. Selain itu pada aplikasi tesis ini, terdapat garis penghubung yang salah jika dibandingkan dengan garis yang dibuat oleh BN PowerConstructor, yaitu garis antara XRay dengan Dyspnea dimana garis yang benar adalah garis dari TbOrCa ke Dyspnea dan TbOrca ke XRay.
3.
IV. APLIKASI SIDAMIBAYES Aplikasi yang dikembangkan pada tesis ini dinamakan SIDAMIBAYES. Aplikasi ini merupakan aplikasi untuk membangun struktur Bayesian Networks dengan mengimplementasikan algoritma TPDA. Aplikasi ini dapat menampilkan struktur DAG dan CPT sebuah model klasifikasi Bayesian Networks. Pada aplikasi ini node sebuah node juga dapat menampilkan distribusi probabilitas yang ditampilkan dalam bentuk bar chart.
V. PERFORMANSI SIDAMIBAYES
No 1 2 3
Data Bank
Tabel 1. Hasil Evaluasi Kinerja Model Klasifikasi Akurasi Prediksi / Ukuran 10% 100 % 96% 93,29% 15% 100% 94,667% 93,98% 25% 100% 95,6% 93,06% 50% 100% 95,2% 93,3%
Chest Clinic Nursery
VI. KESIMPULAN Selama penulisan tesis ini penulis dapat mengambil kesimpulan, antara lain yaitu : 1. Aplikasi data mining adalah aplikasi yang menggunakan basis data yang besar, oleh sebab itu pengembang aplikasi data mining memerlukan pemahaman mengenai query basis data. Pemilihan query basis data dapat berpengaruh terhadap waktu tanggap aplikasi ketika melakukan proses data mining. 2. Untuk memvisualisasi sebuah struktur Bayesian Network, perlu diperhatikan nilai estetika. Nilai estetika tersebut dapat berupa pengurutan nodenode yang divisualisasikan dan meminimalisasi crossing edge untuk antar node. Hal ini diperlukan untuk kerapihan tampilan struktur Bayesian Network, sehingga mata pengguna dapat lebih nyaman melihat hasil visualisasi struktur Bayesian Network. 3. Pada tesis ini, RUP sangat efektif digunakan dalam mengembangkan aplikasi klasifikasi dan
4.
visualisasi data mining. RUP memberikan kemudahan kepada penulis untuk melakukan perubahan-perubahan mulai dari analisis, perancangan hingga implementasi. Hal ini disebabkan karena RUP merupakan metode iteratif dimana setiap iterasi memperkenankan pengembang aplikasi untuk melakukan perbaikan terhadap versi aplikasi sebelumnya. Bayesian Networks dapat digunakan sebagai model klasifikasi untuk inferensi kelas target. Inferensi dilakukan dengan menghitung probabilitas ketergantungan sebuah node terhadap parent nya untuk mengurangi kompleksitas perhitungan.
REFERENSI [1] Rahel Bekele, Computer-Assisted Learner Group Formation Based on Personality Traits ( 2005), Dissertationsschrift zur Erlangung des Grades
4
eines Doktors der Naturwissenschaften am Fachbereich Informatik der Universitt Hamburg. [2] Usama Fayyad et al. Information Visualization in Data Mining and Knowledge Discovery Edited by Usama Fayyad et el.(2002), Academic Press, USA. [3] Nir Friedman et al. Bayesian Networks Classifier (1997),. Stanford University, Dept of Computer Science, Stanford. [4] Thomas Groppo Parisi, Learning Bayesian Networks Skeleton : A Comparison TPDA dan PMMS Algorithm ( 2006 ), Instito Tecnologico De Buenos Aires, Universidad Privada, Argentina [5] Heckerman, D, et al., Learning Bayesian Networks : The Combination of Knowledge and Statistical Data (1995) . Technical Report MSR-TR-94-09. Microsoft Research. [6] Heckerman, D., A Tutorial on Learning Bayesian Networks (1995). Technical Report MSR-TR 9506. Microsof Research. [7] Han, Jiawei dan Micheline Kamber.. Data Mining: Concept and Techniques (2001). Morgan Kaufmann Publishers. [8] Chih-Hung Chiang, et al. Visualizing Graphical Probabilistic Models, Departement of Computer Science (1999), University of Massachusetts Lowell, Lowell, MA01854. [9] Jie Cheng, et al. An Algorithm for Bayesian Belief Network Construction from Data (1997), School of Information and Software Engineering University of Ulster at Jordanstown, Northern Ireland, UK, BT37 0QB [10] Jie Cheng, et al. Learning Bayesian Networks from data : An Efficient Approach Based On Information Theory (1998), Dept. of Computing Science, University of Alberta [11] Jie Cheng, et al. Learning Bayesian Networks from data : An Information-Theory Based Approach (2001), Department of Computing Science, University of Alberta., Faculty of Informatics, University of Ulster. Toronto,Canada [12] Jensen, V.Finn, An Intoduction to Bayesian Networks (1996), Springer [13] Jensen,V.Finn, Bayesian Networks Basics ( 1999 ), Department Mathematics and Computers Science,Aalborg University, Fredik Bayers Vej 7, DK 9220 Aalborg , Denmark [14] Chow, C.K and Liu, C.N., Approximating Discrete Probability Distribution With Dependence Trees (1968), IEEE Transactions on Information Theory, 14, 462-467. [15] Moninder Singh, Learning Bayesian Networks For Solving Real Worl Problem (1998), A Disertation in Informatic and Computer Science, University of Pennsylvania [16] Richard E. Neapolitan, Learning Bayesian Networks (2004), Prentice Hall Series in Artificial Intelligence, Pearson, USA. [17] Roger S. Pressman,Ph.D., Software Engineering, A Practitioners Approach,Sixth Edition (2005), Mc Graw Hill, USA. [18] Rumbaugh, J., Jacobson, I., Booch, G., The Unified Modeling Language Reference [19] Manual,(1999), Addison-Wesley. Tan, Pang-Ning, et al. Introduction to Data Mining (2006). Pearson Education.

Extended Abstract, Bahasa Indonesia - Hengky Sipayung, 23505015

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Extended Abstract, Bahasa Indonesia - Hengky Sipayung, 23505015

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Pembangunan Aplikasi Bayesian Networks Pada Data Mining

Chest Clinic Nursery

Anda mungkin juga menyukai