Anda di halaman 1dari 6

Metode Boosting untuk Kategorisasi Berita Berbahasa Indonesia yang Multi-Label

Intan Nurma Yulita1, Moch. Arif Bijaksana Ir., M.Tech2, Yuliant Sibaroni, S.Si., M.T 3 Departemen Teknik Informatika Institut Teknologi Telkom, Bandung 3 Departemen Sains Institut Teknologi Telkom, Bandung 1 intan_jundullah@yahoo.co.id, 2mab@ittelkom.ac.id, 3yls@ittelkom.ac.id Abstrak Saat ini penggunaan internet telah memicu pertumbuhan dan pertukaran informasi menjadi jauh lebih pesat dibandingkan sebelumnya. Begitu pula dengan volume berita elektronik berbahasa Indonesia. Banyaknya jumlah berita tersebut dapat menyebabkan user mengalami kesulitan dalam mencari berita yang mereka inginkan. Text Categorization merupakan salah satu solusi yang dapat dilakukan, yaitu dengan cara mengelompokan berita kedalam kategori tertentu. Salah satu permasalahan dalam bidang Text Categorization adalah karakteristik data yang mempunyai lebih dari satu label (multi-label). Salah satu metode Text Categorization untuk kasus multi-label adalah BoosTexter. BoosTexter adalah metode Boosting yang didesain khusus untuk kategorisasi teks. Boosting merupakan salah satu ensemble method yang menghasilkan classifier dengan akurasi tinggi melalui kombinasi weak hypotheses. Untuk mengevaluasi performansi BoosTexter yang diimplementasikan, digunakan Hamming Loss, One Error, dan Coverage. Hasil yang didapat menunjukkan bahwa BoosTexter dapat memprediksi semua label aktual dari tiap instance serta menempatkan label actual pada rangking teratas dengan baik. Namun kelemahannya adalah dalam melakukan perangkingan semua label instances. Selain itu, kenaikan iterasi pada BoosTexter tidak mampu memperbaiki error iterasi tapi dapat memperbaiki nilai rata-rata error secara keseluruhan. Kata kunci: Text Categorization, Multi-Label, Boosting, BoosTexter. Abstract Today, internet's using has made the growth and exchanging of informations become higher than before. And as same as with the volume of Indonesian electronic news. Large number of information can causes the users get into trouble in finding information that they want. Text Categorization, which is one of the solution for this problem, which is the task of assigning news to pre-specified categories of news. One of problem in Text Categorization is the characteristic data which have more than one label (multi-label). One of Text Categorization method for multi-label case is BoosTexter. BoosTexter is method which developed from original Boosting and designed for text categorization. Boosting is one of Ensemble Method for creating a highly precise classifier by combining weak hypotheses.For evaluating the performance of implemented BoosTexter, we used Hamming Loss, One Error, and Coverage. The result show that BoosTexter can predict all of instances labels and the top-ranked label was in the set of possible labels. But the weakness of BoosTexter is less rank to all of instances labels. Beside that, BoosTexter can not improve iteration error but it can improve overall error. Keyword: Text Categorization, Multi-Label, Boosting, BoosTexter 1. Pendahuluan aplikasi lainnya adalah aggregator. Aggregator merupakan sebuah aplikasi portal yang secara otomatis mengelompokkan suatu informasi berdasarkan kategori-kategorinya. Salah satu agregator yang populer adalah news aggregator yang mengelompokkan berita berdasarkan kategorikategorinya. News aggregator hanyalah salah satu contoh aplikasi aggregator. Aggregator di bidang lain masih sangat banyak, misalnya untuk artikel-artikel ilmiah bidang ilmu computer, keislaman, informasi seputar perguruan tinggi dengan event-eventnya di Indonesia dan lain-lain. Salah satu News aggregator yang dikenal masyarakat adalah Google News (http://news.google.com). Google News merupakan aggregator pencarian berita dengan sumber data dari berbagai sumber berita namun Google News tidak 1
1,2

1.1 Latar belakang Dengan era teknologi sekarang, internet menjadi sumber informasi yang paling banyak digunakan. Internet dengan HTTP-nya dapat dikatakan sebagai keajaiban dunia dalam bidang teknologi informasi. Namun berlimpahnya informasi, justru membuat para pengguna internet mengalami kesulitan untuk mendapatkan halaman web yang mereka inginkan. Salah satu solusi untuk permasalahan ini adalah Search Engine. Search Engine merupakan salah satu aplikasi yang paling banyak digunakan saat ini untuk melakukan pencarian terhadap suatu dokumen. Search Engine bekerja dengan mencari halamanhalaman web yang dianggap paling relevan dengan permintaan (query) pengguna. Selain Search Engine,

dapat memproses sumber berita berbahasa Indonesia. Untuk memenuhi kebutuhan akan berita dalam berita berbahasa Indonesia dan kemudahan mendapatkannya maka diperlukan suatu aplikasi yang sejenis dengan Google News yang dapat mengelompokkan berita yang berasal dari berita berbahasa Indonesia. Pengelompokkan berita dapat dilakukan dengan berbagai macam cara, salah satunya melalui kategorisasi. Kategorisasi dapat dibedakan menjadi dua jenis yaitu kategorisasi single-label dan kategorisasi multi-label. Kategorisasi berita digolongkan kategorisasi multi-label karena suatu berita bisa memiliki lebih dari satu kategori. Contohnya adalah berita Roy Marten tertangkap polisi saat pesta Narkoba. Berita tersebut dapat dikategorisasikan ke dalam berita kriminal dan entertainment. Penanganan kategorisasi multi-label ini dapat dilakukan melalui metode Boosting. Metode Boosting merupakan salah satu metode yang cukup handal[16]. Boosting menggunakan serangkaian classifier di dalam membuat modelnya dan secara bertahap merubah distribusi training data dengan fokus pada data yang sukar untuk diklasifikasikan sehingga penggabungan rule pada setiap iterasinya akan menghasilkan satu hypothesis dengan tingkat akurasi yang lebih tinggi. Metode Boosting memiliki banyak varian, salah satunya adalah BoosTexter. BoosTexter merupakan metode Boosting yang secara khusus menangani kategorisasi teks. 1.2 Perumusan masalah Dengan mengacu latar belakang di atas, maka permasalahan yang dibahas dan diteliti adalah : 1. Bagaimana menerapkan BoosTexter untuk kategorisasi berita berbahasa Indonesia yang multi-label . 2. Bagaimana melakukan pengujian dan analisis dari implementasi BoosTexter. Sedangkan batasan masalah dalam tugas akhir ini adalah : 1. Berita yang digunakan adalah berita berbahasa Indonesia. 2. Pengambilan data diambil dari beberapa portal berita berbahasa Indonesia. 3. Tidak melakukan kategorisasi secara online. 4. Data input untuk proses preprocessing berupa file .txt sedangkan untuk proses training dan testing berupa fie .arff 5. Hanya menangani kategori data multi-label dengan tiga label. 6. Pemisahan data training dan data testing dari dataset dilakukan manual. 7. Text preprocessing diimplementasikan dalam tugas akhir ini tapi tidak menjadi fokus permasalahan dalam tugas akhir ini. 8. Data training dan data testing berupa bobot dari masing-masing term yang diperoleh melalui text preprocessing.

9. Hanya mengimplementasikan BoosTexter dengan AdaBoost.MH prediksi dan kehadiran bernilai real sebagai weak hypotheses 1.3 Tujuan Berdasarkan pada masalah yang telah didefinisikan di atas, maka tujuan tugas akhir ini adalah : 1. Menerapkan metode BoosTexter untuk kategorisasi berita berbahasa Indonesia yang multi-label. 2. Melakukan analisis performansi metode BoosTexter berdasarkan Hamming Loss, One Error, Coverage. Hipotesis awal dari tugas akhir ini : 1. BoosTexter memiliki performansi yang baik dalam melakukan kategorisasi berita berbahasa Indonesia yang multi-label. 2. Error BoosTexter semakin kecil pada setiap kenaikan iterasi. 1.4 Metoda penyelesaian masalah Metode penyelesaian masalah yang digunakan sebagai berikut : 1. Studi literatur Mencari referensi dan sumber-sumber lain yang berhubungan dengan Data Mining khususnya Web Mining, multi-label, dan metode BoosTexter. 2. Pengumpulan data Mencari data dari website berita Indonesia, dan Data Understanding.. 3. Analisis dan perancangan perangkat lunak Menganalisis permasalahan yang akan diselesaikan dan menganalisis tahapan-tahapan yang digunakan untuk menyelesaikan permasalahan dengan metode Object Oriented. 4. Implementasi sistem Melakukan implementasi sistem dengan membangun perangkat lunak sesuai dengan perancangan yang telah di lakukan. 5. Pengujian Sistem dan Analisis Hasil Pengujian dilakukan pada metode BoosTexter terhadap parameter-parameter Hamming Loss, One Error, dan Coverage dan analisis dilakukan terhadap hasil yang diperoleh dari pengujian tersebut. 6. Pengambilan kesimpulan dan pembuatan laporan tugas akhir. 2. Landasan Teori

2.1 Multi-label Categorization Kategorisasi adalah pengelompokkan data ke dalam kategori-kategori atau kelas-kelas yang telah didefinisikan sebelumnya[7,20]. Dalam Text Mining, pengelompokkan tersebut dengan menggunakan isi dari teks Hal inilah yang menjadi pembeda antara Text Mining dengan Data Mining yang lain[2].

Multi-label data merupakan data yang memiliki lebih dari satu kelas pada attributnya sehingga pada kategorisasi berita, berita tergolong multi-label data dikarenakan suatu berita dapat memiliki lebih dari satu label kelas[15,18]. Berita Roy Marten tertangkap polisi saat pesta Narkoba sebagai contohnya dapat dikategorisasikan ke dalam berita kriminal dan entertainment. Untuk menangani permasalahan multi-label data, tahapan yang harus dilalui adalah transfomasi data dan penggunaan algoritma klasifikasi. 2.1.1 Metode transformasi data Merupakan metode untuk melakukan transformasi multi-label data agar data bisa diproses dalam tahap kategorisasi. Suatu multi-label data.perlu ditransformasikan ke dalam format data yang sesuai dengan classifier yang digunakan. Ketidak-tepatan dalam mentransformasikan data akan mengurangi akurasi classifier dalam melakukan proses kategorisasi dan jika transformasi data tidak bersesuaian dengan classifier, maka classifier tidak akan dapat memproses sama sekali data tersebut. Tentunya begitu pula, jika multi-label data tidak ditransformasikan sama sekali, classifier juga tidak dapat memproses data tersebut. Penjelasan mengenai metode transformasi data sebagai berikut. Misalnya diketahui multi-label data sebagai berikut : Tabel 0-1 Multi-label data Contoh 1 2 3 4 Entertainment X X Kriminal X X Politik X X X

karena pada metode Boosting memerlukan representasi data dengan format seperti pada PT6 yaitu pendefinisian ya/tidaknya label tersebut adalah label actual suatu instances melalui Y[l] dengan format +1 atau -1. +1 jika label tersebut merupakan label actual dan -1 jika tidak. Pada PT6, label diaplikasikan dalam bentuk multi class, sehingga suatu data bisa ditulis lebih dari satu kali tergantung pada jumlah label yang dimiliki. setiap data ditulis sebanyak jumlah label dalam dataset dan kolom tambahan yang berisi nilai +1 jika data tersebut berada dalam label dan -1 jika tidak. 2.1.2 Metode pengadaptasian algoritma Merupakan metode yang mengimplementasikan algoritma untuk memecahkan permasalahan multilabel data, dengan data telah melalui tahap transformasi. Beberapa metode algoritma yang dapat digunakan adalah Nave Bayes, J48, Smo[18] dan Ensemble Methods. Pada tugas akhir ini digunakan Ensemble Methods khususnya Boosting. 2.2 Ensemble Methods dan Boosting Ensemble Method merupakan metode yang menggunakan serangkaian model classifier dalam melakukan proses Data Mining sehingga prediksi dihasilkan dari kombinasi prediksi masing-masing classifier[3,12]. Boosting merupakan varian Ensemble Method yang membangun classifier unggul sebagai kombinasi linear dari classifierclassifier lemah dan sederhana[4,12]. 2.3 BoosTexter BoosTexter merupakan varian Boosting yang khusus menangani kategorisasi teks yang multi-label [21]. Dasar implementasi BoosTexter adalah AdaBoost.MH dan AdaBoost.MR yang merupakan perluasan dari Adaboost yang khusus menangani permasalahan multiclass data multi-label. Pada tugas akhir ini, analisis dilakukan hanya pada AdaBoost.MH khususnya penggunaan AdaBoost.MH dengan prediksi dan kehadiran bernilai real sebagai weak hypotheses. Pada BoosTexter, setiap dokumen x X dihubungkan dengan single class label y Y. Tujuannya adalah menemukan classifier H : X Y yang dapat meminimalkan kemungkinan y H(x). Training set disusun atas pasangan (x,y), dengan setiap dokumen x X kemungkinan memiliki multiple label Y. Sebagai contoh, himpuan label pada training set adalah {olahraga, pendidikan, agama} dan label dokumen x adalah { pendidikan, agama}. Hal ini berbeda dengan kasus single-label karena setiap data memiliki |Y| = 1. Untuk setiap y Y, didefinisikan Y[l] untuk setiap l Y dengan nilai +1 jika l Y dan -1 jika l Y.

Implementasi transformasi multi-label data diatas, pada Boosting diimplementasikan dalam metode PT6, yaitu sebagai berikut : Contoh 1 1 1 2 2 2 3 3 3 4 4 4 Tabel 0-2 PT6 data l Entertainment Kriminal Politik Entertainment Kriminal Politik Entertainment Kriminal Politik Entertainment Kriminal Politik Y[l] +1 -1 +1 -1 +1 +1 +1 -1 -1 -1 +1 +1

Penggunaan transformasi metode PT6 pada Boosting karena hanya format PT6 yang bersesuaian jika diimplementasikan pada metode Boosting

2.3.1 AdaBoost.MH Merupakan algoritma learning yang bertujuan untuk memprediksikan semua label yang dimiliki pada setiap dokumen[21]. Simbol MH pada algoritma ini merupakan singkatan dari Multi-Label Hamming Loss karena algoritma ini secara khusus didesain untuk mengurangi nilai Hamming Loss. Algoritma AdaBoost.MH dijelaskan sebagai berikut : Training set : {( x1 , Y1 ), ......, ( x m , Ym )} dimana

yang menjadi alasan disebutnya Boosting sebagai prosedur yang secara bertahap merubah distribusi training data dengan cara fokus pada data yang sukar untuk diklasifikasikan.

xi X dan tiap yi Y.
Inisialisasi : D1 (i, l ) = 1 mk Untuk iterasi t = 1,....,T Masukkan Dt ke weak learner (2.1)

Dapatkan weak hyptheses H : X Pilih t Update


Dt +1 (i, l ) =

Dt (i, l ) exp( t Yi [l ]H t ( xi , l )) Zt

(2.2)

Z t adalah faktor normalisasi agar semua jumlah


distribusi | Dt +1 | pada dataset berjumlah satu. Output final hypotheses :

f ( x, l ) =

T t =1

t ht ( x, l )

(2.3)

Keterangan : Setiap training data memiliki bobot distribusi awal D1 (i, l ) yang sama. m : jumlah id-data k : jumlah label mk : jumlah seluruh training data H : X Y merupakan prediksi weak hypotheses label yang dimiliki suatu data, nilai prediksi ini bernilai real. t merupakan tingkat confidence dari prediksi H : X Y, t bernilai real dan positif. Nilai t berbanding lurus dengan tingkat confindence dari prediksi yang benar. Dt bernilai real t merupakan iterasi dan T adalah jumlah iterasi yang dilakukan. i merupakan id-training data l merupakan label suatu training data Jika prediksi benar : exp( t Yi [l ]H t ( xi , l )) = (-)(+)(+)(+) = (-) Nilai eksponen negatif sehingga nilai distrisbusi pada iterasi berikutnya menjadi lebih kecil. Jika prediksi salah : exp( t Yi [l ]H t ( x i , l )) = (-)(+)(-)(+) = (+) Nilai eksponen positif sehingga nilai distrisbusi pada iterasi berikutnya menjadi lebih besar. Sehingga jika suatu training data misclassified pada iterasi t maka pada iterasi berikutnya bobotnya akan lebih tinggi, begitu pula sebaliknya. Hal inilah

2.3.2 Weak Hypotheses Weak hypotheses merupakan nilai confidence suatu feature/term untuk setiap instances yang memiliki atau tidak memiliki feature tersebut. Weak hypotheses diperoleh pada tiap iterasi dan pada iterasi akhir akan dikombinasikan weak hypotheses yang didapat pada tiap iterasi menjadi sebuah final hypotheses. Weak hypothseses ht ( x, l ) dihitung berdasarkan term w yang muncul dalam dokumen dengan nilai c0l jika w x dan c1l jika w x. Weak learner BoosTexter mencari semua kemungkinan term yang berada dalam dokumen. Ketika suatu term dicari, weak hypotheses dengan nilai terendah dipilih dan dikembalikan. Salah satu metode weak hypotheses pada Boostexter adalah penggunaan AdaBoost.MH dengan prediksi dan kehadiran bernilai real sebagai weak hypotheses Metode tersebut mendiskripsikan nilai confidence suatu term jika muncul atau tidak muncul dalam dokumen. Asumsinya adalah jika suatu term berada di dalam dokumen maka dapat diperoleh informasi tentang kelas yang mungkin dari dokumen tersebut. Hal ini dapat dilakukan dengan dengan memperkuat tiap weak hypotheses melalui pemberian nilai confidence sebesar nol pada dokumen yang tidak memiliki term tersebut. c1l merupakan nilai prediksi untuk dokumen yang mengandung term sedangkan sisanya adalah c0l yang diberi nilai nol. Kelebihan metode ini adalah dapat meningkatkan running time karena hanya memproses dokumen yang mengandung term w. 2.3.3 ADTree Boosting merupakan metode umum yang dapat dikombinasikan dengan banyak classifier, sebagai contoh dengan Decision Tree, Neural Network, Decision Tree Level Satu dan ADTree[10]. Pada tugas akhir ini digunakan ADTree sebagai Weak Learner. Weak learner merupakan prosedur untuk meghitung nilai final hypothesis dari weak hypotheses yang diperoleh pada tiap iterasinya. Struktur data algoritma pada ADTree merupakan perluasan dari metode Decision Tree dan erat kaitannya dengan Boosting. Umumnya algoritma Boosting dikombinasikan dengan decision stumps ataupun decision tree. Decision stumps pada Boosting menciptakan sekumpulan n weak hypotheses (dengan n merupakan jumlah iterasi Boosting) yang divisualisasikan sebagai sekumpulan nilai bobot n dan decision tree pada Boosting menghasilkan final classifiers dengan ribuan bahkan jutaan node sederhana. Gabungan kedua metode ini menjadi ide dasar dari ADTree. Struktur ADTree 4

terdiri dari dua komponen yaitu decision nodes dan prediction nodes. Decision nodes mendeskripsikan tentang kondisi sedangkan prediction nodes mendeskripsikan nilai yang akan ditambahkan pada nilai yang diperoleh oleh decision nodes. Perbedaan antara BoosTexter dengan ADTBoost.MH, yang juga merupakan varian AdaBoost.MH yang secara khusus menggunakan ADTree sebagai weak learner, adalah dalam melakukan perhitungan nilai t , Z t ,

Dt , dan ht .
2.4 Pengukuran Evaluasi terhadap performansi kategorisasi multilabel dapat dilakukan dengan menggunakan Hamming Loss, One Error, dan Coverage [18,21]. Perhitungan ketiga parameter sebagai berikut : 1 | D| | Yi Z i | (2.4) Hammloss( H , D) =
| D|
i =1

|L|

1 one errs ( H ) = m| 1 cov erages (H ) = m|

|m| i =1
|m| i =1

H ( xi ) Yi

(2.5) (2.6)

max rank( x, li ) 1, l Yi

Keterangan : h : classifier D : data set multi-label Xi : dokumen ke-i Zi : label prediksi pada setiap dokumen, Zi = h(Xi) Yi : label aktual pada setiap dokumen Z i adalah H( X i ) dan tanda segitiga. Hamming Loss bertujuan untuk mengetahui seberapa besar tingkat error yang dimiliki suatu classifier dalam memprediksi semua label yang mungkin dimiliki oleh sebuah instance. Nilai Hamming Loss berkisar antara 0-1. Sedangkan One Error bertujuan untuk mengukur seberapa besar error/kesalahan yang dilakukan classifier dalam meletakkan label dengan rangking tertinggi dari suatu instance merupakan label aktual dari instance tersebut. Nilai One Error berkisar antara 0-1. Dan Coverage bertujuan untuk mengukur seberapa besar error/kesalahan yang dilakukan classifier untuk keseluruhan label yang dimiliki instance. Nilai Coverage berkisar antara 0 - jumlah label.

Coverage. Pengujian yang dilakukan hanya pada BoosTexter dengan penggunaan AdaBoost.MH dengan prediksi dan kehadiran bernilai real sebagai weak hypotheses, sehingga untuk mempermudahnya disingkat menjadi BoosTexter*. Data training dan data testing diperoleh dari data yang telah diproses pada tahap preprocessing dengan pengambilan feature selection pada Term Contribution sebesar 1%, 2%, 3%, 4% dan 5%. Jumlah dokumen adalah 155 dokumen dengan rincian 50 berita dengan label entertainment dan politik, 50 berita dengan label entertainment dan kriminal, 50 berita dengan label kriminal dan politik, serta 5 dokumen dengan label entertainment, politik dan kriminal. Data yang diperoleh pada feature selection 1% menjadi dataset 1, data yang diperoleh pada feature selection 2% menjadi dataset 2 , data yang diperoleh pada feature selection 3% menjadi dataset 3, data yang diperoleh pada feature selection 4% menjadi dataset 4, dan data yang diperoleh pada feature selection 5% menjadi dataset 5. Informasi atribut pada masing-masing dataset terdapat di lampiran. Pada proses kategorisasi, Hamming Loss, One Error dan Coverage dicatat untuk setiap iterasinya dari iterasi 1 sampai dengan 40 untuk setiap dataset. Data hasil pengujian terlampir. Fokus utama analisis hasil pengujian adalah 1. Performansi Boostexter dalam memprediksikan semua label actual yang dimiliki suatu instance dan perangkingan label. 2. Pengaruh kenaikan iterasi terhadap perbaikan nilai error dan rata-rata nilai error pada tiap iterasi. 3. Pengaruh penambahan jumlah feature pada metode Term Contribution sebagai feature selection.

5.

Kesimpulan dan saran

3.

Analisis dan Perancangan Sistem

Perancangan sistem memakai konsep Object Oriented. Sistem di implementasikan dalam bentuk aplikasi desktop dengan menggunakan bahasa pemprograman Java.

4.

Pengujian

Tahapan pengujian melibatkan beberapa skenario terhadap beberapa dataset. Pengujian ditujukan untuk membandingkan performansi tiap iterasi dari BoosTexter terhadap Hamming Loss, One Error dan

5.1 Kesimpulan 1. BoosTexter*, dengan penggunaan AdaBoost.MH dengan prediksi dan kehadiran bernilai real sebagai weak hypotheses, memiliki performansi yang baik dalam penempatan label aktual menjadi label dengan rangking tertinggi dan prediksi BoosTexter* terhadap semua label yang mungkin dimiliki oleh suatu instance. Namun kelemahan BoosTexter* adalah dalam penempatan rangking dari tiap label-label dari suatu instances. Secara keseluruhan, dapat disimpulkan performansi BoosTexter* sangat baik dalam penanganan kasus kategorisasi teks yang multi-label. 2. Kenaikan iterasi pada BoosTexter* belum tentu dapat memperbaiki nilai Hamming Loss, One Error, dan Coverage. Namun kenaikan iterasi memiliki trend penurunan error dan dapat menurunkan nilai errror rata-rata iterasi dari tiga parameter pengukuran tersebut.

3. BoosTexter* tidak berpengaruh pada kenaikan jumlah term/feature yang dihasilkan oleh feature selection dengan metode Term Contribution.

[9] [10] [11] [12]

5.2 Saran Saran terhadap pengembangan yang akan dilakukan terhadap tugas akhir ini adalah : 1. BoosTexter yang telah dilakukan dapat dikembangkan pada dokumen dengan jumlah label lebih dari tiga. 2. BoosTexter yang telah dilakukan dapat dikembangkan pada dokumen dengan jumlah berita yang lebih banyak. 3. BoosTexter diimplementasikan pada weak hypotheses dan weak learner yang berbeda. Daftar Pustaka: [1] Asian, Jelita. Effective Techniques for Indonesian Text Retrieval. 2007. School of Computer Science and Information Technology, Science, Engineering, and Technology Portfolio, RMIT University : Australia. [2] Dewi, Rani Charisma. 2005. Pengelompokan Berita Berbahasa Indonesia Menggunakan Clustering. Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom : Bandung. [3] Fahrudin, Tora. 2007. Analisis dan Implementasi Metoda Databoost-IM (Studi Kasus Churn Prediction Mobile Telecomunication). Jurusan Teknik Informatika Sekolah Tinggi Teknologi Telkom : Bandung. [4] Feldman, Ronen And James Sanger. 2007. The Text Mining Handbook : Advanced Approaches Analyzing Unstructured Data. Cambridge University Press. [5] Freund, Yoav and Robert E. Schapire. A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence,14(5):771-780, September, 1999. [6] Gonalves, Teresa And Paulo Quaresma. 2002. A Preliminary Approach to The Multilabel Classification Problem of Portuguese Juridical Documents. Departamento De Inform_Atica, Universidade De _Evora : Portugal. [7] Han, Jiawei And Micheline Kamber. 2006. Data Mining : Concepts and Techniques. Intelligent Database Systems Research Lab, School Of Computing Science, Simon Fraser University. [8] Hartoyo, Agus. 2008. Indonesian Grapheme-To-Phoneme (G2p) Menggunakan Model Ig-Tree + Strategi Tebakan Terbaik. Departemen Teknik Informatika Institut Teknologi Telkom : Bandung.

[13]

[14]

[15]

[16] [17]

[18]

[19]

[20] [21]

http://cs.ucsd.edu/%7eaarvey/jboost/present ations/Boostinglightintro.Pdf http://en.wikipedia.org/wiki/Alternating_D ecision_Tree http://jboost.com Polikar, Robi. Ensemble Based System in Decision Making. Third Quarter 2006. Electrical And Computer Engineering, Rowan University: Glassboro. Puspitarini, Wita. 2007. Analisis Perbandingan Metode K-Nearest Neighbor (k-NN) dan Support Vector Machine (SVM) untuk Klasifikasi Data Multi-Label. Departemen Teknik Informatika Sekolah Tinggi Teknologi Telkom : Bandung. Rahmani, Luthfia. 2007. Metode Feature Selection dalam Menangani Data Imbalance Pada Klasifikasi Dokumen Multi-Label. Departemen Teknik Informatika Sekolah Tinggi Teknologi Telkom : Bandung. Riswanto, Ricky. 2007. Metode Sampling dalam Menyelesaikan Data Text Imbalance untuk Klasifikasi Multi-Label. Departemen Teknik Informatika Sekolah Tinggi Teknologi Telkom : Bandung. Sochman, Jan And JiRI Matas. 2007. Adaboost. Centre For Machine Perception Czech Technical University : Prague. Taira, Hirotoshi. 2003. Text Categorization Using Machine Learning. Department Of Information Processing Graduate School Of Information Science Nara Institute Of Science And Technology : Japan. Tsoumakas, G. And I. Katakis. 2007. Multi-Label Classification: An Overview. International Journal Of Data Warehousing And Mining, 3(3):1-13, 2007. Tsoumakas, G. And Ioannis Vlahavas. 2007. Random K-Labelsets: An Ensemble Method for Multilabel Classification. Department Of Informatics, Aristotle University Of Thessaloniki : Thessaloniki, Greece. Vipin Kumar, Tan, Pang Nim. 2005. Introduction to Data Mining. Pearson Addison Wesley. Y. Schapire, R.E. Singer. 2000. BoosTexter: A Boosting-Based System for Text Categorization. Machine Learning. 2000.