Anda di halaman 1dari 6

PREDIKSI PENENTUAN KELAYAKAN MOBIL MENGGUNAKAN METODE KLASIFIKASI DECISION TREE CONTOH KASUS PT.

MAKMUR BAHAGIA
Awwal Mulyana (113090216) Fakultas Informatika Institut Teknologi Telkom, Bandung Email : awwalmulyana@gmail.com ABSTRAK Perusahaan PT. Makmur Bahagia dengan usaha yang dijalankannya membutuhkan suatu cara untuk memprediksi kelayakan mobil bekas yang dibelinya, tanpa harus melakukan pengecekan setiap waktu. Sejumlah data yang digunakan untuk memutuskan kelayakan suatu mobil telah tersedia, namun tentu saja untuk keputusan terakhir perlu dilakukan secara manual dengan memeriksa data-data yang tersedia. Untuk itu penerapan Data Mining akan dilakukan pada kasus diatas, memanfaatkan salah satu teknik yaitu Data Classification, sejumlah data testing yang tersedia akan di analisis serta dibandingkan dengan data training untuk dilakukan prediksi kelayakan beli mobil bekas. Data testing itu sendiri merupakan data mobil yang akan diprediksi kelayakannya sedangkan data training merupakan data lengkap yang dijadikan data model untuk membentuk perhitungan prediksi. Metode yang digunakan dalam teknik Classification adalah Decision Tree Algorithm dimana metode/algoritma ini telah terbukti lebih optimal untuk diterapkan pada model kasus diatas. Kata kunci : Data Mining, Classification, Decision Tree Algorithm 1. Pendahuluan saja atribut harga beli (buying), biaya perbaikan (maint), keamanan (safety), dll. Beberapa atribut tersebut akan menghasilkan 3 atribut penentu keputusan akan layak atau tidaknya mobil dibeli, dan keputusan itu biasa dilakukan secara manual oleh sang pemilik dengan cara mengecek data satu persatu, hal ini tentu saja sangat tidak efektif. Oleh karena itu dalam rangka membantu menyelesaikan permasalahan tersebut, data mining atau lebih spesifiknya teknik klasifikasi, akan diterapkan. Dalam kasus ini PT. Makmur Bahagiat telah memiliki sejumlah data yang akan menjadi data training, data ini berisi atribut lengkap dari mobilmobil yang sudah pernah dipilih kelayakan pembeliannya. Kemudian dengan diterapkannya teknik klasifikasi akan dihasilkan keputusan prediksi kelayakan pembelian mobil pada sejumlah data testing yaitu data-data mobil yang belum memiliki atribut penentu kelayakan pembelian mobil. Sehingga kedepannya sang pemiliki tidak perlu lagi melakukan pengecekan data secara manual untuk menentukan atribut layak tidaknya suatu mobil, namun cukup menggunakan teknik tersebut diatas, dan membiarkan teknik tersebut melakukan pengecekan otomatis dengan cara melakukan analisis terhadap data atribut yang ada dan menggunakan prediksi hasil yang telah dibuat sebelumnya untuk kemudian melakukan penentuan terhadap kelayakan suatu mobil.

Begitu banyak data yang tersedia di dunia, apalagi di era teknologi digital sekarang ini, tiap hari akan ada jutaan data yang terus dihasilkan, namun ironisnya kebanyakan data tersebut hanya menjadi dumping atau data sampah ketika telah digunakan. Padahal apabila mampu di lakukan pengolahan kembali dari sejumlah data yang ada, akan ada banyak informasi dan pengetahuan baru yang bisa didapatkan untuk penggunaan lebih lanjut. Data Mining merupakan salah satu solusi yang dapat diterapkan untuk permasalahan data diatas. Data Mining itu sendiri adalah serangkaian proses yang dilakukan pada sejumlah data besar untuk di olah dan dihasilkan informasi yang lebih berguna, disiplin ilmu ini mengkaji berbagai metode yang umum digunakan untuk melakukan pengolahan data tersebut, salah satu metode pengolahan dalam prosesnya adalah klasifikasi data. Klasifikasi data biasa digunakan pada sejumlah data yang telah di ketahui data induknya, untuk kemudian dijadikan data training/data model yang hasilnya akan menjadi keputusan prediksi dari sejumlah data yang serupa namun belum lengkap pada salah satu atributnya.Hal ini sangat cocok untuk diterapkan pada permasalahan yang ada untuk judul diatas, permasalah pada perusahaan PT.Makmur Bahagia menyangkut keputusan akan layak atau tidaknya suatu mobil untuk dibeli, keputusan ini diambil dari sejumlah atribut data yang tersedia, sebut

2.

Landasan Teori

Seperti yang telah disinggung diatas, Data Mining merupakan iterasi dari sejumlah proses yang digunakan untuk menggali dari sejumlah data besar untuk mendapatkan informasi yang lebih berguna, data yang ada tentu saja tidak langsung dilakukan mining begitu saja, sejumlah proses atau tahapantahapan perlu dilaukan diantarany

Inti dari pembahasan kali ini, setelah sejumlah data di lakukan penyeusaian, maka barulah proses penggalian informasi dilakukan, untuk melakukannya terdapat beberapa teknik dan metode yang dapat digunakan, dalam kasus kali ini kita akan menggunakan teknik klasisfikasi dengan metode pohon keputusan (decision tree) 5. Pattern Evaluation Proses ini diperlukan untuk melakukan validasi dan evaluasi terhadap hasil yang didapat apa memang sudah benar atau belum. 6. Knowledge Learn Setelah didapatkan hasil, proses terakhir ini akan memformulasikan penggunaannya pada data yang lain, bisa menjadi decision support ataupun sejumlah aksi lainnya, berdasarkan informasi hasil analisa data yang telah dilakukan proses penggalian informasi. 2.1 Teknik Data mining Sejauh ini baru disinggun perihal teknik klasifikasi, beberapa teknik lain yang biasa digunakan dalam proses penggalian adalah sebagai berikut : 1. Klasifikasi Teknik yang digunakan dengan cara melihat sifat dari sejumlah data atribut yang menjadi induk atau model, data ini biasanya merupakan data lengkap yang telah didefinisikan. Teknik ini melakukan klasifikasi terhadap data yang baru dengan melakukan manipulasi data dan menggunakan hasilnya untuk memberikan sejumlah aturan. 2. Asosiasi Digunakan untuk mengenali sejumlah sifat dari event khusus yang dimana terdapat link asosiasi yang muncul pada setiap event tersebut 3. Klustering Menganalisis sejumlah pengelompokan data yang berbeda. Proses ini melakukan pembagian setiap item menjadi kelompokkelompok berdasarkan aturan tertentu. Prinsipnya memaksimalkan kesamaan antar anggota dari satu kelas yang sama dan meminimalkan kesamaan antar kluster.

Gambar 1 Tahap-tahap dalam Data Mining Penjelasan dari gambar diatas sebagai berikut : 1. Data Cleaning Proses ini bertujuan untuk membersihkan data dari hal-hal yang tidak diperlukan, semisal record-record yang keliur, ataupun atribut yang tidak sesuai satu sama lain. 2. Data Integrasi Seringkali dalam proses penggalian informasi, data yang digunakan tidak hanya berasal dari satu sumber saja, namun bisa dari sejumlah sumber atau database. proses ini dilakukan untuk melakukan penggabungan sejumlah sumber data tersebut menjadi satu data yang sama yang biasanya diwujudkan dalam sebuah data warehouse. 3. Data Transformasion Proses ini bertujuan untuk mengubah data agar dapat menghasilkan informasi yang berkualitas, data dirubah dalam hal standarisasi agar sesuai dengan kebutuhan. 4. Data Mining

2.1.1

Metode klasifikasi

Pada teknik klasifikasi ada berbagai macam metode/algoritma yang umum digunakan, dua diantaranya 1. Decision Tree Metode ini merupakan salah satu metode yang tergolong mudah untuk digunakan, metode ini melakukan pemetaan data ke dalam model pohon bercabang atau struktur hierarki. Setiap simpul daun dari pohon hasil pemodelan merepresentasikan kelas atau distribusinya, sedangkan cabang merepresentasikan hasil teas, dan simpul internal merepresentasikan tes yang dilakukan pada atribut data.

yang dapat digunakan dalam teknik klasifikasi ini, seperti rule based, Support Vector Machine (SVM), dll. Namun hal itu tidak dibahas disini. Pada metode Decision Tree sekalipun, terdapat beberapa macam algoritma lainnya yang digunakan dalam membangun decision tree. Pada subab berikutnya akan dibahas lebih detail perihal macam-macam dari algoritm metode decision tree. 2.1.2 Algoritma klasifikasi

Dalam membangun pohon keputusan terdapat beberapa macam algoritma yang bisa digunakan, penerapannya disesuaikan pada kebutuhan masing-masing serta bentuk data yang ada. Beberapa algoritm yang dimaksud antara lain algoritma ID3, C4.5, CHAID dan CART. Algoritma ID3 merupakan metode yang paling dasar dalam membangun pohon keputusan. Prisipnya dengan membangun dari atas kebawah (top-down). Sedangkan algoritma C4.5 merupakan pengembangan dari ID3 dengan kelebihannya yang mampu menangani atribut bertipe diskrit maupun kontinu, juga mampu menangani adanya missing value. Pseudo code dari algoritma ID3 maupun C4.5 kurang lebih sebagai berikut : 1. Check for base cases 2. For each attribute a 1. Find the normalized information gain from

Gambar 2 Pohon keputusan atau decision tree 2. Bayesian algorithm Metode ini memanfaatkan penerapan probabilitas , yang mengunakan rumus bayes, pondasi dasar dari metode ini adalah rumus probabilitas bayes berikut ini : P(A|B) = [P(B|A) * P(A)] / P(B) (1)

splitting on a 3. Let a_best be the attribute with the highest normalized information gain 4. Create a decision node that splits on a_best 5. Recurse on the sublists obtained by splitting on a_best, and add those nodes as children of node Tentu saja terdapat perbedaan algoritma pada implementasinya namun secara umum , prosedur diatas merupakan inti dari proses yang dilakukan dalam algorimta ID3 dan C4.5

Makna dari rumus diatas menyatakan bawa peluang kejadian A terpilih berasal dari B, merupakan perkalian dari peluang B atas A dikalikan peluang total A dibagi peluang terpilihnya B itu sendiri. Metode yang digunakan dalam teknik klasifikasi tentu saja tidak terbatas hanya pada kedua metode diatas, ada berbagai macam metode lainnya

3.

Skenario Uji Coba

Tahapan yang dilakukan dalam melakukan uji coba pada contoh kasus kali, dengan skenario dimana car_test_question.csv akan berisi beberapa atribut mobil namun belum memiliki atribut penentu kelayakan, dalam artian data ini menjadi data testing yang kurang / hilang pada bagian atribut STATUS, Sedangkan car_train.csv akan diguanakan sebagai data model / data training yang akan menghasilkan aturan atau kriteria ketusuan, berdasarkan dari data yang sudah lengkap. Langkahlangkah skenairo uji coba ini kurang lebih sebagai berikut : 1. Menggunakan aplikasi weka, open kedua buah data bertipe .csv yang ada dengan mengklik open file > pilih data. Ubah data car_test_question.csv yang akan menjadi data testing serta car_train.csv yang akan menjadi data training dengan cara melakukan save ulang data kedalam format .arff . Jika sudah , buka kedua buah data diatas, dan lakukan penyesuaian atribut yang ada, agar serupa dari jumlah hingga urutan, jika sudah lakukan save kembali. Masuk ke tab classify, pilih classifier yang ingin digunakan. Pada bagian test option. Pilih use training set, lalu klik tombol start. Jika sudah maka untuk sementara akan terlihat hasil akurasi berdasarkan data training yang ada, kemudian lanjutkan dengan memilih supplied test set > set > open file > pilih car_test_question.arff, kemudian klik tombol start lagi. Maka sampai tahap ini telah dihasilkan prediksi dari data testing, semakin besar presentasenya tentu saja semakin baik, dalam artian kemungkinan / probability data sesuai semakin pasti. Langkah terakhir, jika ingin menyimpan kembali hasil prediksi ke format .csv, lakukakan klik kanan pada result set > visualize classifier errors > save , simpan dalam format arff. Kemudian buka kembali file tersebut pada tab preprocess dan ubah menjadi format .csv

mendapatkan prediksi hasil, dengan tingkat akurasi sebesar 100%

2.

Gambar 3 Informasi output hasil uji coba ID3 menghasilkan pohon keputusan dengan hirarki sebagai berikut

3.

4. 5. 6.

7.

Gambar 3 Output pohon keputusan ID3

8.

4.

Analisis Hasil Uji Coba

Berikut ini merupakan hasil yang didapat setelah melakukan beberapa percobaan, apa yang ditampilkan disini hanyalah hasil dari uji coba penggunaan metode ID3, sebagaimana dari beberapa hasil percobaan, algoritma ini lah yang paling optimum dalam

Gambar 4 Hasil akurasi algoritma ID3

Dan yang terakhir, dari hasil data training diatas kemudian dilakukan implementasi pada data testing untuk mengecek secara otomatis nilai kelayakan suatu mobil atau dalam kasus ini atribut STATUS. Berikut merupakan screen shot hasil uji coba

Gambar 4 Implementasi pada data testing Terlihat, sesuai prediksi dari data training yang mencapai tingkat akurasi 100%, hasil implementasi pun menunjukan bahwa keputusan STATUS dari kelayakan mobil dapat di menghasilkan keputusan yang sangat akurat, atau boleh dibilang pasti benar. 5. Kesimpulan

Penggunaan beberapa algoritma masih diperlukan dalam kasus ini untuk menguji coba mana yang menghasilkan nilai paling optimum, tentu saja ada kriteria tertentu yang perlu di kaji dalam menentukan algoritma yang digunakan, tidak hanya asal mencoba satu persatu, setiap algoritma akan sesuai pada karakteristik datanya masing-masing, dan pada kasus ini, algoritma ID3 menghasilkan akurasi yang paling baik hingga ketepatan mencapai 100% Metode klasifikasi merupakan metode yang tepat untuk digunakan pada prediksi pola missing value suatu data berdasarkan data training yang ada, namun sekali lagi, penggunaanya seusai kebutuhan masingmasing data, namun setidaknya dari hasil uji coba yang dilakukan, memang hanya klasifikasi lah metode yang tepat untuk diterapkan pada kasus semaca ini.

Daftar Pustaka [1] Data Mining. http://repository.usu.ac.id/bitstream/123 456789/30464/3/Chapter%20II.pdf. Diakses pada 4 Maret 2012 [2] Data Mining pengklasifikasian : konsep dasar, http://www.infogue.com/viewstory/2008/1 1/19/data_mining_klasifikasi_part_1/?url=http:// 1pack.wordpress.com/2008/09/06/data-miningklasifikasi-part-1/ . Diakses pada 4 Maret 2012