Modul Praktikum 5 - Klasifikasi

UNIVERSITAS ISLAM INDONESIA
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Jurusan/Program Studi
Kode Mata Kuliah
Nama Mata Kuliah
: Teknologi Industri
: Teknik Industri
: 52224603
: Analisis Keputusan dan Data Mining
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
PRAKTIKUM 5
PRAKTIKUM KLASIFIKASI
Tujuan Praktikum
1.
Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian

pengetahuan/pola data dari sejumlah data dengan menggunakan teknik klasifikasi.
2.
Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menggunakan/

menerapkan teknik klasifikasi.
Definisi Klasifikasi
Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan
membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi
nilai suatu kelas yang belum diketahui pada sebuah objek.
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y
Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau
membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui (Pang-Ning Tan, 2004).
Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari
beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut
menunjukkan kelas untuk record.
Model dalam Klasifikasi (Bertalya, 2009) :
1. Pemodelan Deskriptif
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Sebagai alat penggambaran yang bersifat menjelaskan untuk membedakan objek2 dari
kelas yang berbeda.
2. Pemodelan Prediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas untuk record yang belum
diketahui.
Klasifikasi dapat diaplikasikan dalam beberapa bidang antara lain kesehatan,
perbankan, ritel, dll. Masing-masing memiliki atribut yang sesuai dengan kasus masingmasing. Misalnya dalam ritel, kasus yang biasanya digunakan adalah pemberian
diskon/bonus.
Preprocessing Data
Tahap awal yang dilakukan sebelum proses klasifikasi adalah melakukan preprocessing data,
terdapat beberapa langkah preprocessing data, yaitu :
1. Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan
penanganan terhadap missing value pada suatu record.
2. Transformasi Data
Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi.
Misalnya dengan melakukan diskretisasi terhadap atribut degan nilai kontinyu.
Pembelajaran
terhadap
data
hasil
generalisasi
dapat
mengurangi
kompleksitas
pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
Konsep Pembuatan Model Dalam Klasifikasi

Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.
Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :
a.
Pembelajaran / Pembangunan Model

Tiap tiap record pada data latih (training set) dianalisis berdasarkan nilai nilai
atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
b.
Klasifikasi
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Pada tahap ini, data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model
yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan,
maka model tersebut dapat digunakan untuk mengklasifikasikan record pada data yang
baru.
Proses Klasifikasi
Gambar 2. Learning : Training data.

Gambar 2. menjelaskan tahap awal proses klasifikasi yaitu mendapatkan model klasifikasi
(classifier) dari data latihan (training data) menggunakan algoritma klasifikasi. Atribut label
kelas adalah Tenured, dan Learned Model atau classifier di gambarkan pada blok
aturan klasifikasi.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Gambar 3. Classification: Test data.

Pada gambar 3., data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model
yang dihasilkan (classifier). Jika keakuratan tersebut dianggap dapat diterima, maka aturan
itu dapat diaplikasikan untuk mengklasifikasikan data recordsyang baru.
Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:
1.
Setiap recorddiasumsikan sudah mempunyai kelas yang dikenal seperti ditentukan oleh
label kelas atribut,
2.
Kumpulan recordyang digunakan untuk membuat model disebut kumpulan pelatihan

(training set),
3.
Model direpresentasikan sebagai classification rules, decision tree atau formula

matematis.
Penggunaan model menguraikan pengklasifikasian masa yang akan datang atau obyek yang
belum diketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
1.
Label yang telah diketahui dari contoh tes dibandingkan dengan hasil klasifikasi dari
model,
2.
Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan
secara tepat oleh model,
3.
Kumpulan tes tidak terikat pada kumpulan pelatihan,
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
4.
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Jika akurasi diterima, model dapat digunakan untuk mengklasifikasikan data recordyang
label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi,
dapat dilakukan dengan menghitung jumlah dari test record yang diprediksi secara benar
(akurasi) dan salah (error rate) oleh model tersebut. Akurasi dan error rate didefinisikan
sebagai berikut.
Algoritma klasifikasi adalah dapatmenemukan model yang mempunyai akurasi yang tinggi
atau error rate yang rendah ketika model diterapkan pada test set.
Algoritma Klasifikasi
Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa algoritma klasifikasi yang
digunakan, anataralain: pohon keputusan (decision tree), rule based, neural network, support
vector machine, naive bayes, dan nearest neighbour.
Decision Tree
Salah satu metode teknik klasifikasidata mining yang umum digunakan adalah decision tree.
Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiap simpul
internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dan
simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri
dari simpul akar ke simpul daun yang memegang prediksi kelas untuk contoh tersebut.
Decision tree mudah untuk dikonversi ke aturan klasifikasi. Teknik pohon keputusan lebih
mudah digunakan, karena beberapa alasan:
1.
Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah
diinterpretasi/ ditangani oleh manusia.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
2.
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon
keputusan efisien dan sesuai untuk himpunan data besar.
3.
Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang
terkandung dalam training data (yaitu, pengetahuan domain dari distribusi-distribusi
pada data atau kelas-kelas).
4.
Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan

teknik-teknik yang lainnya.
a. Konsep Decision Tree

Mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule).
Gambar 4. Konsep Decision Tree

b. Tipe Simpul Pada Tree
Tree mempunyai 3 tipe simpul (Arun George Eapen), yaitu:
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge
keluaran.
Pada decision tree setiap simpul daun menandai label kelas. Simpul yang bukan simpul akhir
terdiri dari akar dan simpul internal yang terdiri dari kondisi tes atribut pada sebagian record
yang mempunyai karakteristik yang berbeda. Simpul akar dan simpul internal ditandai
dengan bentuk oval dan simpul daun ditandai dengan bentuk segi empat.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Gambar 5. Decision treeuntuk masalah klasifikasi

c. Konsep Data Dalam Decision Tree
1. Data dinyatakan dalam bentuk tabel dengan atribut dan record.
2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan
tree. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca,
angin dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi
per-item data yang disebut dengan target atribut.
3. Atribut memiliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca
mempunyai instance berupa cerah, berawan dan hujan.
Gambar 6. Contoh data untuk Decision Tree
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Proses Dalam Decision Tree

1. Proses Mengubah Data Menjadi Tree
Gambar 7. Mengubah Data Menjadi Tree

a). Ukuran untuk Memilih Split Terbaik
Dalam membangun sebuah decision tree secara top-down (dari atas ke bawah), tahap
awal yang dilakukan adalah mengevaluasi semua atribut yang ada menggunakan suatu
ukuran statistik (yang banyak digunakan adalah information gain) untuk mengukur
efektifitas suatu atribut dalam mengklasifikasikan suatu kumpulan sampel data. Atribut
yang diletakkan pada root node adalah atribut yang memiliki information gain terbesar.
Semua atribut adalah bersifat kategori yang bernilai diskrit. Atribut dengan nilai
continuous harus didiskritkan (Zalilia, 2007). Terlebih dahulu kita harus mencari nilai
informasi dari data yang merupakan nilai yang diperlukan untuk mengklasifikasikan
keputusan akhir. Secara matematis dapat dirumuskan dengan:
b) Entropi
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak
suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas. Semakin
kecil nilai Entropy maka semakin baik untuk digunakan dalam mengekstraksi suatu kelas.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data. Panjang
kode untuk menyatakan informasi secara optimal adalah p2log bits untuk messages yang
mempunyai probabilitas p.
Untuk menghitung information gain,terlebih dahulu kita harus memahami suatu ukuran
lain yang disebut Entropy. Entropy biasa digunakan sebagai sautu parameter untuk
mengukur heterogenitas (keberagaman) dari suatu kumpulan sampel data. Jika kumpulan
sampel data semakin heterogen, maka semakin besar nilai entropy. Secara matematis, nilai
entropy masing-masing instance dirumuskan sebagai berikut:
Keterangan :
S
= ruang (data) sample yang digunakan untuk training.
P(+)
= jumlah yang bersolusi positif (mendukung) pada data sample untuk kriteria tertentu.
P(-)
= jumlah yang bersolusi negatif (tidak mendukung) pada data sample untuk kriteria
tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
(c) Information Gain

Setelah kita mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka kita dapat
mengukur efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran efektifitas ini
disebut Information Gain. Secara matematis, information gain dari suatu atribut, dituliskan
sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam entropy yang disebabkan
oleh pengetahuan nilai pada atribut A. Algoritma menghitung information gain pada setiap
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
atribut. Atribut dengan nilai gain terbesar dipilih sebagai tes atribut (simpul akar). Simpul A
dibuat dan dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut.
Klasifikasi pada umumnya digunakan untuk kasus-kasus pada kelas-kelas keputusan yang
bernilai diskrit dengan keputusan seperti diterima = ya atau tidak. Namun jika kita
menemukan kasus yang mempunyai nilai keputusan kontinyu cara untuk menyelesaikannya
adalah dengan mengubah nilai-nilai kontinyu menjadi nilai-nilai diskrit dengan cara
mempartisi nilai kontinyu ke dalam interval-interval bernilai diskrit.
Tabel 1. Contoh Data penerimaan karyawan dengan atribut IPK bernilai kontinyu
Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai diskrit dengan
membentuk interval bagus=[3,00-4,00], cukup=[2,75-3,00] lalu kembali dengan
melanjutkan langkah-langkah selanjutnya.
2. Mengubah Tree Menjadi Rules
Gambar 8. Mengubah TreeMenjadi Rules
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Gambar 9. Mengubah TreeMenjadi Rules
Nave Bayes
Teorema Bayes dikemukakan oleh seorang pendeta presbyterian Inggris pada tahun 1763
yang bernama Thomas Bayes. Teorema Bayes digunakan untuk menghitung probabilitas
terjadinya suatu peristiwa berdasarkan pengaruh yang didapat dari hasil observasi.
Probabilitas Bayesian adalah suatu interpretasi dari kalkulus yang memuat konsep
probabilitas sebagai derajat dimana suatu pernyataan dipercaya benar. Teori Bayesian juga
dapat digunakan sebagai alat pengambilan keputusan untuk memperbaharui tingkat
kepercayaan dari suatu informasi.
Teori probabilitas Bayesian merupakan satu dari cabang teori statistik matematik yang
memungkinkan kita untuk membuat satu model ketidakpastian dari suatu kejadian yang
terjadi dengan menggabungkan pengetahuan umum dengan fakta dari hasil pengamatan.
Teori Bayesian menurut Grainner (1998), mempunyai beberapa kelebihan, yaitu:
1. Mudah untuk dipahami.
2. Hanya memerlukan pengkodean yang sederhana.
3. Lebih cepat dalam penghitungan.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Naive bayesian klasifikasi adalah suatu klasifikasi berpeluang sederhana berdasarkan aplikasi
teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Dalam hal
ini, diasumsikan bahwa kehadiran atau ketiadaan dari suatu kejadian tertentu dari suatu
kelompok tidak berhubungan dengan kehadiran atau ketiadaan dari kejadian lainnya.
Naive Bayesian dapat digunakan untuk berbagai macam keperluan antara lain untuk
klasifikasi dokumen, deteksi spam atau filtering spam, dan masalah klasifikasi lainnya.
Keuntungan Naive Bayes :
1.
Menangani kuantitatif dan data diskrit
2.
Kokoh untuk titik noise yang diisolasi, misalkan titik yang dirata ratakan ketika
mengestimasi peluang bersyarat data.

3.
Hanya memerlukan sejumlah kecil data pelatihan untuk mengestimasi parameter (rata
rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.

4.
Menangani nilai yang hilang dengan mengabaikan instansi selama perhitungan estimasi
peluang
5.
Cepat dan efisiensi ruang
6.
Kokoh terhadap atribut yang tidak relevan
Kekurangan Naive Bayes :

1.
Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas
prediksi akan bernilai nol juga

2.
Mengasumsikan variabel bebas
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Contoh Kasus Decision Tree

Langkah -1: Mengubah Data Menjadi Tree.
a. Menentukan Node Terpilih.
Dari data sampel ditentukan node terpilih, yaitu dengan menghitung nilai entropy masingmasing atribut. (jumlah beli, harga, dan keadaan barang).
Catatan Node terpilih adalah kriteria dengan Information Gain yang paling besar.
Entropy untuk harga:
Nilai Informasi untuk data tersebut adalah:
Information Gain (I) =0.9183-0.36 =0.558296

Dengan menggunakan cara yang sama nilai entropy atribut yang lain adalah sebagai berikut:
Tabel 2. Nilai Entropy untu Jumlah Beli dan keaddan Barang
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Terpilih atribut HARGA sebagai node awal karena memiliki information gain terbesar
b. Menyusun Tree Awal
Gambar 10. Tree Awal yang Terbentuk
Node berikutnya dapat dipilih pada bagian yang mempunyai nilai + dan -, pada contoh di atas
hanya harga = sedang yang mempunyai nilai + dan , maka semuanya pasti mempunyai
internal node. Untuk menyusun internal node lakukan satu-persatu.
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
c. Internal Node untuk harga = sedang

Tabel 3. Internal Node Harga Sedang
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
d. Menyusun Tree Lanjutan
Gambar 11. Tree Lanjutan 1
Gambar 12. Tree Lanjutan 2
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
e. Hasil Tree Akhir
Gambar 13. Tree Akhir

f. Mengubah Tree Menjadi Rule
Rule yang terbentuk dari hasil tree akhir adalah sebagai berikut:
R1: IF harga = mahal THEN diskon = ya
R2: IF harga = murah THEN diskon = tidak
R3: IF harga = sedang^Jumlah Beli = sedikit^ THEN diskon = tidak
R4: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=cacat^ THEN diskon = ya
R5: IF harga = sedang^ Jumlah Beli = banyak^keadaan barang=baik^ THEN diskon = tidak
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Langkah -5 : Menghitung Error

Hasil Prediksi pada training set adalah sebagai berikut:
Keterangan:
Warna kuning menunjukkan ketidaksesuaian dengan Tingkat Error = 3/18 *100% = 16.67%
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Contoh Kasus Nave Bayes :

Jika terdapat 2 mesin yaitu mesin A dan B, proporsi untuk produksi pada tiap mesin
adalah 70% dan 30%. Secara sederhana dapat diestimasikan 70 % kemungkinan cacat produk
disebabkan oleh mesin A. Pada kenyataaannya, tingkat cacat pada mesin A sebesar 5% dan
mesin B sebesar 10%. Sehingga dari 70% produk yang berasal dari mesin A terdapat defect
sebesar 70% x 5% = 3,5%, dan dari 30% produk yang berasal dari mesin B terdapat defect
sebesar 30% x 10% = 3%. Sehingga total probabilitas defect adalah sebesar 3,5% + 3% =
6,5%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa (3,5% / 6,5% = 54% defect)
disebabkan oleh mesin A dan (3% / 6,5% = 46% defect) disebabkan oleh mesin B.
Gambar 10. Bayes Rule
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
Langkah - langkah Decision Tree dan Nave Bayes dengan Rapid Miner :
1. Buka software rapid miner, klik New Process
2. Pilih File-Import Data-Import Excel Sheet
3. Pilih file yang akan diproses, kemudian klik Next
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
4. Pilih Sheet (halaman) yang akan diproses, kemudian klik Next
5. Klik Next
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
6. Pilihlah atribut dan tipe data yang sesuai, kemudian klik Next.
7. Simpan data di folder yang Anda inginkan kemudian ketik nama file sesuai keinginan
Anda pada kolom Name, kemudian klik Finish
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
8. Akan muncul tampilan seperti di bawah ini, kemudian klik icon
9. Drag file klasifikasi ke dalam kotak Main Process
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
10. Cari X-Validation pada kotak search
11. Kemudian drag X-Validation ke dalam kotak Main Process
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
12. Hubungkan (Out) klasifikasi ke (Tra) Validation
13. Klik 2 kali kotak X-Validation, maka akan muncul tampilan seperti di bawah ini :
14. Cari Naive Bayes pada kotak search
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
15. Kemudian drag algoritma yang akan digunakan (Decision Tree / Nave Bayes)
misalkanDecision Tree ke dalam kotak Training
16. Cari Apply Model pada kotak search
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
17. Drag Apply Model pada kotak Testing
18. Cari Performance pada kotak search
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
19. Drag Performance pada kotak Testing
20. Hubungkan :
(tra) ke (tra) Decision Tree
(mod) Decision tree ke (mod)
(mod) ke (mod) Apply Model
(tes) ke (unl) Apply Model
(lab) Apply Model ke (lab) Performance
(per) Performance ke (ave)
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
21. Klik kotak Decision Tree maka akan muncul tampilan di bawah ini, kemudian klik
criterion dan pilih information_gain
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
22. Klik icon
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
, maka akan muncul tampilan seperti di bawah ini :
23. Hubungkan :
(mod) Validation ke res
(tra) Validation ke res
(ave) Validation ke res
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
24. Kemudian klik icon
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
, maka akan muncul output(decision tree) seperti di bawah ini :
25. Untuk nave bayes akan muncul output sebagai berikut :
FM-UII-AA-FKA-07/R0
MATERI PRAKTIKUM
Fakultas
Kode Mata Kuliah
Nama Mata Kuliah
: Teknik Industri
: 52224603
Pertemuan ke
:5
Modul ke
:5
Jumlah Halaman : 35
Mulai berlaku
: 2014
26. Untuk melihat tingkat akurasi maka klik Performance Vector, maka akan muncul output
sebagai berikut :

Modul Praktikum 5 - Klasifikasi

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Modul Praktikum 5 - Klasifikasi

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSITAS ISLAM INDONESIA

Mahasiswa mempunyai pengetahuan dan kemampuan dasar mengenai metode pencarian

Mahasiswa mampu menyelesaikan kasus klasifikasi data dengan menggunakan/

UNIVERSITAS ISLAM INDONESIA

Konsep Pembuatan Model Dalam Klasifikasi

Pembelajaran / Pembangunan Model

UNIVERSITAS ISLAM INDONESIA

Gambar 2. Learning : Training data.

UNIVERSITAS ISLAM INDONESIA

Gambar 3. Classification: Test data.

Kumpulan recordyang digunakan untuk membuat model disebut kumpulan pelatihan

Model direpresentasikan sebagai classification rules, decision tree atau formula

Kumpulan tes tidak terikat pada kumpulan pelatihan,

UNIVERSITAS ISLAM INDONESIA

UNIVERSITAS ISLAM INDONESIA

Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan

a. Konsep Decision Tree

Gambar 4. Konsep Decision Tree

UNIVERSITAS ISLAM INDONESIA

Gambar 5. Decision treeuntuk masalah klasifikasi

Gambar 6. Contoh data untuk Decision Tree

UNIVERSITAS ISLAM INDONESIA

Proses Dalam Decision Tree

Gambar 7. Mengubah Data Menjadi Tree

UNIVERSITAS ISLAM INDONESIA

= ruang (data) sample yang digunakan untuk training.

(c) Information Gain

UNIVERSITAS ISLAM INDONESIA

2. Mengubah Tree Menjadi Rules

Gambar 8. Mengubah TreeMenjadi Rules

UNIVERSITAS ISLAM INDONESIA

Gambar 9. Mengubah TreeMenjadi Rules

UNIVERSITAS ISLAM INDONESIA

Menangani kuantitatif dan data diskrit

mengestimasi peluang bersyarat data.

rata dan variansi dari variabel) yang dibutuhkan untuk klasifikasi.

Cepat dan efisiensi ruang

Kokoh terhadap atribut yang tidak relevan

Kekurangan Naive Bayes :

prediksi akan bernilai nol juga

Mengasumsikan variabel bebas

UNIVERSITAS ISLAM INDONESIA

Contoh Kasus Decision Tree

Entropy untuk harga:

Nilai Informasi untuk data tersebut adalah:

Information Gain (I) =0.9183-0.36 =0.558296

Tabel 2. Nilai Entropy untu Jumlah Beli dan keaddan Barang

UNIVERSITAS ISLAM INDONESIA

Gambar 10. Tree Awal yang Terbentuk

UNIVERSITAS ISLAM INDONESIA

c. Internal Node untuk harga = sedang

UNIVERSITAS ISLAM INDONESIA

d. Menyusun Tree Lanjutan

Gambar 11. Tree Lanjutan 1

Gambar 12. Tree Lanjutan 2

UNIVERSITAS ISLAM INDONESIA

e. Hasil Tree Akhir

Gambar 13. Tree Akhir

UNIVERSITAS ISLAM INDONESIA

Langkah -5 : Menghitung Error

UNIVERSITAS ISLAM INDONESIA

Contoh Kasus Nave Bayes :

Gambar 10. Bayes Rule

UNIVERSITAS ISLAM INDONESIA