Anda di halaman 1dari 1

Tugas Kelompok 1

Dalam menyelesaikan tugas ini anda akan menggunakan Weka untuk membandingkan beberapa teknik data mining yang
dapat diterapkan dalam “churn data set” (TP3 data set). Ikuti arahan berikut dan jawablah pertanyaan pertanyaanya (no.1
sampai 5). Sajikan Gambar/ Chart jika diperlukan . Nilai yang anda peroleh tergantung pada ketepatan hasil dan
kualitas penulisan/ pesentasi anda. Anggaplah anda tengah mempresentasikan proyek “data mining” ini kepada
para pengambil keputusan (para direktur atau setingkat dengan itu).

Pada LMS ini anda akan menemukan data set bernama (churn_TP3.csv). Data set ini berkaitan dengan masalah
prediksi “churn”; File churn.txt menyajikan deskripsi singkat dari variable yang terlibat. Catatan: ketika
menjalankan Weka, rekam hasil yang diperoleh selama eksekusi. Untuk memperoleh hasil yang diharapkan, anda
tidak diperkenankan untuk melakukan randomisasi terhadap data, karena data set tersebut telah diacak (Pertanyaan
2)

1. Buka dan cermati file churn_TP3.csv dengan menggunakan Excel; Dapatkah anda menemukan pola pola yang dengan
cepat terlihat tanpa menggunakan analisis mendalam yang dapat membantu mengidentifikasi customer yang
kemungkinan akan beralih (churn)? Jelaskan pendapat anda.
2. Design, eksekusi, dan laporkan proses evaluasi untuk mengasses dan membandingkan tingkat akurasi generalisasi dari
induksi pohon (tree induction) dan regresi logistic (logistic regression) (classifiers->functions->Logistic) dalam bentuk
fungsi dari ukuran data training set. Gunakan CrossValidation dengan 10-folds pada “test options”. Jelaskan metode
induksi manakah yang lebih akurat. Sertakan 2 plot kurva belajar (learning curve) untuk memperlihatkan bagaimana
perbandingan kedua teknik tersebut dilihat dari berbagai ukuran data set, dari 156 (atau 157) data* sampai akhir
keseluruhan data set. Masing masing plot memperlihatkan perbandingan kedua pendekatan modeling pada data set yang
sama. Setiap plot mesti juga memperlihatkan salah satu dari ukuran akurasi berikut: Persentase instans yang
diklasifikasikan benar dan luas area di bawah kurva ROC (AUC). Seperti yang dibahas dalam Bab 6, AUC merupakan
salah satu ukuran yang menunjukkan bagaimana ketepatan suatu model dalam meranking kasus. Anda dapat
menemukan menu AUC pada Weka results pada sisi kanan table di atas “confusion matrix” dengan label ‘Detailed
accuracy by class’. Untuk induksi pohon (tree induction), gunakan parameter di bawah ini untuk mendapatkan estimasi
nilai probabilitas yang lebih akurat: set unpruned ke true; perbesar ukuran leaves dengan minNumObj=30, dan set
useLaplace bernilai true. Dalam gambar (plot), perlihatkan pula dinamika kurva belajar dengan menggunakan, log
scale pada sumbu yang mewakili ukuran data set. (Gunakan Excel, untuk membuat plot.)
*Petunjuk: (Baca petunjuk berikut sebelum melanjutkan)
 Anda dapat memperoleh berbagai ukuran data set, sampai 157, dengan cara membagi data set ke dalam dua
bagian secara berulang ulang.
 Anda dapat membagi dua data dengan mudah menggunakan Weka. Dalam tab Preprocess, pada kotak marked
Filter, klik Choose. Pada menu weka->filters->unsupervised->instance anda akan mendapatkan menu
RemovePercentage. Normalnya, sebaiknya jalankan dulu filter Randomize, untuk memastikan bahwa anda
memotong data secara random; data real terkadang telah diurutkan menurut atribut tertentu, yang dapat
berakibat anda membuang banyak data dengan nilai serupa. Namun dalam tugas ini, anda tidak perlu
melakukan pengacakan (randomize) karena datanya sudah diacak terlebih dahulu.
 Tombol Undo terdapat pada tab preprocessing (seperti Randomizing, RemovePercentage, dll.). Perhatikan data
statisktik (seperti jumlah instans) pada tab preprocess untuk memastikan kebenarannya.
3. Bagaimakah anda menginterpretasi model induksi pohon untuk klasifikasi? Khususya, dapatkah anda mengkonstruksi
penjelasan terhadap segmentasi dari customer yang diprediksikan berpotensi tinggi untuk beralih dan yang berpotensi
rendah? Untuk menjawab pertanyaan ini, berikan penjelasan terhadap 2 atau 3 segments yang dihasilkan oleh tree, yang
memiliki estimasi yang berbeda terhadap probabilitas class-membership . (Perhatikan bahwa: setiap daun pohon(leaf)
berhubungan dengan satu segmen dan jalurnya (path to the leaf) merupakan “aturan (rule)” atau deskripsi keanggotaan
segmen.)

Anda mungkin juga menyukai