Anda di halaman 1dari 6

Data Mining 4B

Nama anggota kelompok 5 :


Alifidyah Nuril Hidayah 190441100085

Novi Liana 190441100087

Alfin Vikrun Nuha 190441100164

Topik/Metode Data Mining


Classification

Studi Literatur

[1]Classification adalah Sebuah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan
kelas dari suatu objek yang labelnya tidak diketahui. Hal ini juga dapat dikatakan sebagai
pembelajaran (klasifikasi) yang memetakan sebuah unsur (item) data kedalam salah satu dari
beberapa kelas yang sudah didefinisikan.

[2]Classification adalah suatu teknik dengan melihat pada kelakuan dan atribut dari
kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru
dengan memanipulasi datayang ada yang telah diklasifikasi dan dengan menggunakan hasilnya
untuk memberikan sejumlah aturan. Aturanaturan tersebut digunakan pada data-data baru
untuk diklasifikasi.

Studi Kasus

Jumlah penderita Diabetes Mellitus (DM) di seluruh dunia telah mencapai 415 juta pada
tahun 2015 1. Angka ini diprediksi akan meningkat 55% pada tahun 2035 dan diklaim
menyebabkan satu kematian setiap 6 detik. Dalam penelitian ini, kita akan membahas
bagaimana Fuzzy SVM sebagai metode pengklasifikasi akan dimanfaatkan untuk
mengidentifikasi dan memprediksi DM dengan cara yang lebih efektif dibandingkan dengan
metode pengklasifikasi lainnya. Untuk memastikan keluaran kerangka kerja yang tepat dan
efisien, pemilihan fitur F-Score dengan langkah pra-pemrosesan dipilih untuk mengidentifikasi
fitur yang paling berharga untuk dianalisis dalam proses klasifikasi. Dataset Pima Indian
Diabetes yang berisi 768 titik data pasien DM digunakan sebagai dataset penelitian. Pendekatan
kami selaras dengan pekerjaan terkait lainnya yang menggabungkan pemilihan fitur F-Score
dan Support Vector Machine dengan hasil akurasi yang menjanjikan. Telah diamati bahwa
pemilihan fitur berguna dalam menentukan akurasi pengklasifikasi SVM tertinggi dengan
jumlah fitur yang sedikit. Untuk memperkuat akurasi keluaran, Fuzzy SVM digunakan untuk
mengoptimalkan SVMClassifier tradisional. Fuzzy SVM mampu menekankan node vektor
dukungan untuk menghindari pelatihan yang berlebihan karena set yang tajam akan diubah
menjadi himpunan fuzzy.

Tujuan utama dari percobaan ini adalah untuk menyederhanakan strategi klasifikasi
tanpa mengorbankan keakuratan keluaran. Pemilihan fitur skor-F digunakan untuk
mengidentifikasi fitur yang signifikan dari Pima Indian Diabetes sehingga fitur yang tidak
signifikan dapat dihilangkan. Selanjutnya Fuzzy SVM digunakan untuk secara optimal
mengklasifikasikan dan melatih data dari fitur yang dipilih berdasarkan hasil seleksi fitur.

Pada studi kasus ini memiliki kerangka penelitian sebagai berikut :

1. Data pre-processing

Langkah pertama yang harus dilakukan yaitu melakukan reprocessing data yang
mana data yang digunakan untuk mendeteksi apakah seorang pasien menderita diabetes
berdasarkan delapan pengukuran diagnostik yaitu Kehamilan: Berapa kali hamil

• Glukosa: Konsentrasi glukosa plasma 2 jam dalam tes toleransi glukosa oral
• Tekanan Darah: Tekanan darah diastolik (mm Hg)
• SkinThickness: Ketebalan lipatan kulit trisep (mm)
• Insulin: insulin serum 2 jam (mu U / ml)
• BMI: Indeks massa tubuh (berat dalam kg / (tinggi dalam m) ^ 2)
• DiabetesPedigreeFunction: fungsi Diabetes silsilah
• Umur: Umur (tahun)

Hasil data pra-pemrosesan perlu dinilai untuk mengidentifikasi fitur mana di PID
yang menghasilkan banyak data yang hilang {Missing}. Dalam studi kasus ini, telah
distandarkan persentase toleransi untuk masing-masing fitur menjadi kurang dari atau
sama dengan 5%. Pada akhirnya, dari delapan fitur tersebut kami menyimpan enam
fitur untuk dianalisis lebih lanjut, yaitu menghilangkan Ketebalan Lipatan Kulit Trisep
dan Insulin Serum 2 jam.

2. Feature selection
Langkah kedua dari studi kasus ini adalah memilih fitur yang sangat diskriminatif
dari dataset PID. kami melanjutkan ke teknik dasar dan sederhana yang mengukur
faktor pembeda antara dua kelas dengan nilai nyata yang disebut F-Score. Fitur dengan
F-score yang relatif tinggi dianggap sebagai kandidat fitur informatif dan kemudian
dipelajari kembali oleh bagian wrapper yang menyelidiki lebih lanjut kontribusi mereka
dalam pengelompokan yang akurat.

3. Classification

Proses klasifikasi menggunakan teknik Fuzzy SVM. Fuzzy SVM dapat


digunakan untuk analisis klasifikasi dan bertujuan untuk menemukan hyper plane yang
paling optimal. Intinya, logika Fuzzy digunakan untuk mengklasifikasikan tingkat
risiko dari data, SVM digunakan untuk merancang aturan fuzzy, dan dataset digunakan
untuk melatih SVM menggunakan Parameter Linear dan menguji sistem Fuzzy.

Hasil dan pembahasan

Berdasarkan Gambar 1 jumlah nilai yang hilang untuk fitur: Insulin Serum 2 Jam, Tebal
Lipatan Kulit Trisep dan Jumlah Hamil lebih dari 5% yaitu {49%; 30%; 14%}, berdasarkan
kriteria toleransi penelitian ini bahwa 3 fitur perlu dihilangkan dari proses penambangan.

Gambar 1 Hasil Asesmen Data Pre-processing

Fitur dengan skor F yang lebih sedikit dihilangkan satu per satu (mulai dari skor F yang
lebih rendah) dan kinerja algoritme pengelompokan diamati. Nilai yang dihasilkan dari dataset
Pima Indian Diabetes ditunjukkan pada Tabel 1
Tabel 1. Nilai F-score dari fitur yang dipilih dalam dataset Pima Indian Diabetes

Nilai median F-score adalah 0,055 dan nilai rata-rata 0,086. Dalam penelitian ini, kami
memutuskan untuk memanfaatkan perhitungan mean karena pendekatan ini mengacu pada
perhitungan standar F-Score dalam hal pemilihan fitur, yang berarti hanya ada 2 fitur di PID
yang akan digunakan dalam proses klasifikasi. Ciri-ciri tersebut adalah konsentrasi glukosa
plasma dengan 0,278 dan Indeks Massa Tubuh dengan 0,093 sebagai nilai F-score yang
ditentukan.

Masukan ke sistem pengklasifikasi didasarkan pada langkah pra-pemrosesan dan proses


pemilihan fitur. Kami telah mengurangi jumlah total data PID asli dari 768 menjadi 392. Dalam
proses ini, kami membagi data yang dipilih menjadi 87% (342 data) sebagai data pelatihan
pengklasifikasi SVM untuk menghasilkan aturan fuzzy sementara 13% (50 data) untuk
pengujian data untuk memastikan keakuratan kerangka kerja, kedua data dipilih secara acak.

Tabel 2. Rentang tabel untuk Set Fuzzy

Tabel 2 menunjukkan jangkauan medis standar untuk Konsentrasi Glukosa Plasma dan
Indeks Massa Tubuh berdasarkan penelitian medis.

Tabel 3. Aturan Fuzzy yang Dihasilkan berdasarkan Data Pelatihan SVM


Tabel 3 menunjukkan semua aturan Fuzzy yang dihasilkan hasil proses klasifikasi SVM
yang akan digunakan sebagai baseline untuk proses inferensi Fuzzy. Semua node yang dipilih
untuk membuat aturan Fuzzy diidentifikasi sebagai Support Vector Machine dalam proses
klasifikasi. semua keluaran dengan lebih dari 50% dari total data akan ditetapkan sebagai
Aturan Fuzzy.

Tabel 4 menunjukkan hasil pengujian dari 50 data uji acak. Secara ringkas, hasil
pengujian dapat diklasifikasikan menjadi: 25 True Positive, 19 True Negative, 1 False Positive
dan 5 False Negative.

Tabel 4. Hasil Pengujian

Penelitian ini menunjukkan akurasi yang menjanjikan sebesar 89,02% dan memiliki
keunggulan dalam mengoptimalkan hitungan aturan Fuzzy dengan tetap mempertahankan
akurasi yang cukup dibandingkan dengan penelitian lain dengan akurasi yang lebih rendah
tetapi memberikan aturan Fuzzy yang lebih banyak dalam pelaksanaannya. Kami juga
membandingkan hasil akurasi penelitian ini dengan berbagai teknik classifier dalam
mendeteksi Diabetes Mellitus menggunakan dataset Pima Indian Diabetes yang dilaporkan
pada penelitian lain, seperti dirangkum pada Tabel 5.

Tabel 5. Metode Klasifikasi Terkait pada Diabetes Mellitus.

Akurasi kerangka penelitian ini adalah 89,02% dengan menggunakan teknik validasi
presisi dan recall. Dari 50 titik data, 44 titik data diklasifikasikan dengan benar sedangkan 6
titik data salah diklasifikasikan. Berdasarkan penilaian dan investigasi lebih lanjut dari titik
data yang salah klasifikasi, lima titik data dikarakterisasi sebagai titik data dengan IF PGCAND
BMI tinggi atau JIKA PGCAND BMI rendah, di mana hasil pelatihan menunjukkan tidak
membeda-bedakan antara negatif di Diabetes dan positif di Diabetes.

Sumber studi literatur

[1] Kusrini, dan Luthfi, Emha Taufiq, 2009. Algoritma Data Mining. Yogyakarta: C.V
Andi Offset.

[2] Bustami. “Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data Nasabah
Asuransi”. Jurnal Penelitian Teknik Informatika (TECHSI) Vol. 2: 2, 127-146, 2013.

Anda mungkin juga menyukai