Anda di halaman 1dari 5

Tahapan Penelitian :

1. Identifikasi masalah

2. Studi literature

3. Pengumpulan data

Pada tahap ini ditentukan data yang akan diproses. Mencari data yang tersedia,
memperoleh data tambahan yang dibutuhkan, mengintegrasikan semua data kedalam
dataset, termasuk variabel yang diperlukan dalam proses.

Data TB dalam penelitian ini diperoleh dari BKPM Semarang, yaitu data TB Paru dewasa
tahun 2013 s/d 2014. Data primer diperoleh dengan wawancara tenaga medis dan pengelola
TB untuk verifikasi dan validasi data. Data sekunder diperoleh dari data rekam medis
terdiri dari 15 variabel pada tahun I yaitu data anamnesis (jenis kelamin, umur, batuk
(ya/tidak), berdahak (ya/tidak), darah (ya/tidak), sesak nafas (ya/tidak), berat badan
(menurun/ tetap/ naik), panas badan (ya/tidak), nafsu makan(ya/tidak), dan batuk anggota
keluarga (ya/tidak), data pemeriksaan fisik (denyut nadi dan tekanan darah) dan data
pemeriksaan radiologi (thorax) dan data diagnosis TB, sedangkan variabel pada tahun ke
II ditambahkan 2 variabel yaitu lama batuk dan warna dahak.

4. Data preprocessing (select data, clean data, konversi nominal / data transformation /
encoding, normalisasi)
Tahap-tahap Data Mining
Data Mining dapat dibagi menjadi 6 tahap, sebagai berikut :
a. Data cleaning
Data cleaning merupakan proses pembuangan duplikasi data, memeriksa data yang
tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan penulisan.
Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun hasil
eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang, data yang tidak
valid atau juga hanya sekedar salah ketik.

b. Data integration
Data integration merupakan penggabungan data dari berbagai database ke dalam satu
database baru. Tidak jarang data yang diperlukan untuk Data Mining tidak hanya
berasal dari satu database tetapi juga berasal dari beberapa database.

c. Data selection
Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya
data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh,
sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market
basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan
saja.

d. Data transformation
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam Data
Mining. Beberapa metode Data Mining membutuhkan format data yang khusus
sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis
asosiasi dan clustering hanya bisa menerima input data kategorial. Karenanya data
berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval.
Proses ini sering disebut data transformation.

Encoding
Encoding adalah teknik yang biasa digunakan dalam data mining untuk merubah data
bertipe ordinal menjadi angka. Sebelum menemukan pola-pola pada data hal-hal yang
penting dilakukan adalah persiapan data. Dalam data mining kebanyakan algoritma
mengkhususkan input data seperti bilangan real. Ketika suatu algoritma membutuhkan
sebuah inputan angka, maka teknik encoding harus dilakukan.
Table 2.1 contoh skema encoding.

Skema encoding ditunjukan pada table disjunctive boolean. Ini adalah skema umum
yang biasa digunakan ketika data tidak berupa angka.

Min-Max Normalization
Secara umum, kendala dalam menghitung jarak adalah jika rentang nilai pengukuran
memilih rentang nilai yang besar. Misalnya, atribut pendapatan dibandung dengan
atribut umur, atribut pendapatan akan memiliki efek yang lebih tinggi. Untuk
menghindari hal tersebut, data harus dilakukan normalisasi atau standarisasi. Tujuan
dari normalisasi data adalah untuk membuat semua atribut memiliki bobot yang sama.
Ada banyak teknik yang digunakan untutk melakukan normalisasi atau standarisasi
data. Dalam penelitian ini digunakan teknik min-max normalization. Ide dasarnya
adalah untuk memetakan nilai yang lama kedalam nilai yang baru sesuai inputan. Dapat
dilihat dalam persamaan dibawah:
௔ − 𝑖𝑣 = 𝑖`‫ݒ‬ ௔−௔
௔௔௔௔ − ௔௔ + ݉………(௔2.2)
Dimana:
- vi adalah nilai yang akan dinormalisasi.
- a adalah nilai minimum pada sebuah kumpulan attribut.
- b adalah nilai maximum pada sebuah kumpulan attribut.
- mB adalah nilai maximum baru yang diinginkan.
- mA adalah nilai minimum baru yang diinginkan.

e. Data Mining
Proses mencari pola atau informasi menarik dengan menggunakan teknik, metode atau
algoritma tertentu.

f. Interpretation/Evaluation
Dalam tahap ini hasil dari teknik Data Mining berupa pola-pola yang khas maupun
model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa, ada beberapa alternatif
yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses
Data Mining, mencoba metode Data Mining lain yang lebih sesuai, atau menerima
hasil ini sebagai suatu hasil yang diluar dugaan yang mungkin bermanfaat.

5. Feature selection
Fitur seleksi adalah sebuah proses yang biasa digunakan pada Machine Learning dimana
sekumpulan dari fitur yang dimiliki oleh data digunakan untuk pembelajaran algoritma.
Feature selection menurut Oded Maimon [31] telah menjadi bidang penelitian aktif dalam
pengenalan pola, statistik, dan Data Mining.
Seleksi fitur adalah salah satu faktor yang paling penting yang dapat mempengaruhi tingkat
akurasi klasifikasi karena jika dataset berisi sejumlah fitur, dimensi dataset akan menjadi
besar hal ini membuat rendahnya nilai akurasi klasifikasi. Masalah dalam seleksi fitur
adalah pengurangan dimensi, dimana awalanya semua atribut diperlukan untuk
memperoleh akurasi yang maksimal.
Empat alasan utama untuk melakukan pengurangan dimensi menurut Maimon :
1. Decreasing the learning cost atau penurunan biaya pembelajaran.
2. Increasing the learning performance atau meningkatkan kinerja pembelajaran.
3. Reducing irrelevant dimensions atau mengurangi dimensi yang tidak relevan.
4. Reducing redundant dimensions atau mengurangi dimensi yang berlebihan
Keuntungan menggunakan fitur seleksi:
1. mengurangi biaya dan persyaratan penyimpanan komputasi
2. Berurusan dengan degradasi efisiensi klasifikasi karena ukuran terbatas pelatihan
sampel set
3. mengurangi waktu pelatihan dan prediksi
4. memfasilitasi pemahaman data dan visualisasi
Selain itu dengan fitur atau atribut yang banyak akan memperlambat proses komputasi.
Berikut gambar tahapan Feature Selection.
Beberapa metode fitur selection:
1. Metode Filter
Metode Filter adalah memilih atribut yang relevan sebelum pindah ke tahap
pembelajaran berikutnya, atribut yang dianggap paling penting yang dipilih untuk
pembelajaran, sedangkan sisanya dikecualikan. Metode Filter didasarkan pada kriteria
peringkat tunggal. Akibatnya efisiensi seleksi begitu tinggi. Namun, akurasi yang
rendah karena kriteria peringkatnya terlalu sederhana. Metode-metode seleksi variabel
atau seleksi atribut terdiri dari : Chi-Squared, Markov Blanket Filtering, Genetic
Algorithms(GA), PSO.

2. Metode Wrapper
Dalam wrapper menggunakan pendekatan algoritma pencarian yang digunakan untuk
firur pencarian dari ruang fitur yang tersedia dan mengevaluasi setiap bagian dengan
menjalankan model. Metodemetode seleksi variabel atau seleksi atribut terdiri dari :
Forward Selection, Backward Elimination, Stepwise Selection, PSO, Genetic
Algorithms(GA).
Metode Wrapper biasanya mengadopsi algoritma pembelajaran berbagai mesin untuk
mengevaluasi kinerja dari subset fitur yang optimal sesuai dengan kriteria akhir. Oleh
karena itu metode ini lebih efisiens, akurasi lebih tinggi daripada metode filter.

3. Metode Embedded
Metode melakukan seleksi variabel dalam proses pelatihan dan biasanya khusus untuk
mesin pembelajaran. Metode yang menggabungkan seleksi variabel sebagai bagian dari
proses pelatihan mungkin lebih efisien dalam beberapa hal. Metode ini membuat lebih
baik menggunakan data yang tersedia dengan tidak perlu untuk membagi data pelatihan
ke pelatihan dan validasi set. Bisa mencapai solusi cepat dengan menghindari pelatihan
ulang.

4. Chi-square
Fitur seleksi menggunakan chi-square sangat umum digunakan, evaluasi atribut chi-
square mengevaluasi nilai dari fitur berdasarkan perhitungan nilai statistik chi-square
[36].Chi-Square disebut juga dengan Kai Kuadrat. Chi Square adalah salah satu jenis
uji komparatif non parametris yang dilakukan pada dua variabel, di mana skala data
kedua variabel adalah nominal. (Apabila dari 2 variabel, ada 1 variabel dengan skala
nominal maka dilakukan uji chi square dengan merujuk bahwa harus digunakan uji
pada derajat yang terendah).
Uji chi-square merupakan uji non parametris yang paling banyak digunakan. Namun
perlu diketahui syarat-syarat uji ini adalah: frekuensi responden atau sampel yang
digunakan besar, sebab ada beberapa syarat di mana chi square dapat digunakan yaitu:
1. Tidak ada cell dengan nilai frekuensi kenyataan atau disebut juga Actual Count (F0)
sebesar 0 (Nol).
2. Apabila bentuk tabel kontingensi 2 X 2, maka tidak boleh ada 1 cell saja yang
memiliki frekuensi harapan atau disebut juga expected count ("Fh") kurang dari 5.
3. Apabila bentuk tabel lebih dari 2 x 2, misak 2 x 3, maka jumlah cell dengan
frekuensi harapan yang kurang dari 5 tidak boleh lebih dari 20%.
Chi-Square disebut juga dengan Kai Kuadrat. Chi Square adalah salah satu jenis uji
komparatif non parametris yang dilakukan pada dua variabel, di mana skala data kedua
variabel adalah nominal. (Apabila dari 2 variabel, ada 1 variabel dengan skala nominal
maka dilakukan uji chi square dengan merujuk bahwa harus digunakan uji pada derajat
yang terendah). Top p% adalah tingkatan reduksi dari dataset yang dikurangi
dimensinya.
6. Klasifikasi

7. Dataset
Tahap seleksi atribut menghasilkan himpunan data akhir yang digunakan untuk tahap klasifikasi
data berupa dataset akademik. Dataset akademik adalah data yang sudah tidak lagi mengandung
data dengan missing value dan redundant. Dengan menggunakan teknik 3-fold cross validation,
data dibagi menjadi dua bagian sebagai data training dan satu bagian sebagai data testing, yang
mana training dan testing dilakukan sebanyak 3 kali.

8. Hasil
Klasifikasi dengan algoritma C5.0 memberikan hasil berupa aturan-aturan klasifikasi dalam bentuk
if-then dan dalam bentuk pohon keputusan (decision tree) serta menunjukkan karakteristik data
yang diklasifikasi, sedangkan KNN hanya memberikan hasil berupa jumlah ketepatan dan
ketidaktepatan data yang diklasifikasi namun tidak dapat menunjukkan karakterisitk dari data yang
di klasifikasi. Sehingga dapat dikatakan bahwa telah diperoleh sebanyak dua model yang berasal
dari kedua penerapan algoritma yang dipilih.

9. Evaluasi
Tahap ini digunakan untuk mengevaluasi hasil-hasil prediksi yang dihasilkan oleh keempat
algoritma dan dipilih metode algoritma yang menghasilkan nilai mendekati klasifikasi data
sebenarnya. Evaluasi dilakukan dengan menggunakan metode Confusion Matrix dan kurva
ROC (Receiver Operating Characteristic). Nilai performansi yang digunakan yaitu
accuracy dan error.

Anda mungkin juga menyukai