Review Jurnal Data Mining

DATA INTEGRATION
REVIEW JURNAR
Nama
: I Komang Winarta
Nim
: 14101358
Jurusan
: TI-MTI
PROGRAM STUDI TEKNIK INFORMATIKA

STIMIK STIKOM INDONESIA
DENPASAR
2016
1. PENGENALAN
Data mining adalah penghapusan yang tersembunyi, yg tdk dikenal sebelumnya, dan
informasi yg berpotensi berguna dari data. Idenya untuk membangun program computer
memisahkan data base secara otomatis, mencari regular atau pola. Pola yang kuat, jika di
temukan, akan mengeneralisasi utk membuat prediksi yang akurat pd data yg akan datang. Tentu
saja akan ada masalah. Banyak ptidak beola akan menjadi membosankan dan tidak menarik.
Yang lainnya akan menjadi tidak benar, kebetulan yang terjadi pada sebagian data set yang
digunakan. Data mining di pergunakan untuk memisahkan informasi dari data mentah yang ada
di database informasi yang di tampilkan pada document yg mudah di pahami dan dapat di
gunakan untuk berbagai tujuan seperti pada Tipe 2 Klasifikasi pasien diabetes.
Saat ini Insiden Diabetes sudah mendunia dan diharapkan bertambah, dengan peningkatan
yang baik seperti yang terlihat di dokumen metabolic dari Diabetes, Tipe 2.Diabetes merupakan
satu penyakit yang fatal, mengganggu metabolism, dan mahal, yg meningkatkan level gula
darah. Ini bukan hanya penyakit tapi juga penanggungan jawab dari penyakit jenis berbeda yang
terjadi seperti serangan jantung, kebutaan, penyakit organ dalam lainnya. Jika Diabetes tidak
terkontrol dan tingkat gula darah meningkat lebih dari 200mgl/dL akan menimbulkan penyakit
komplikasi.
Estimasi jumlah orang dengan penyakit diabetes sudah melonjak dari 30 juta di thn 1985
menjadi 150 juta di tahun 2000, dan kemudian mejadi 246 juta pd thn 2007, berdasarkan pada
Federasi Diabetes Internasional. Jumlah ini diperkirakan akan bertambah menjadi 380 juta pd
tahun 2025. Berdasarkan dari Organisasi Kesehatan Dunia, ada lebih dari satu juta orang di dunia
ini yang menderita Diabetes. Fakta dari Diabetes Tipe 2 meningkat pada tahap menghawatirkan
di Negara berkembang seperti Bangladesh di tahun baru2 ini.
Saat ini informasi pasien dan non pasien diabetes Tipe 2 perspektif kr Bangladesh yang
pernah menemukan akuransi klasifikasi algoritma dan tingkat kerusakan (ER). Ini sudah di
selesaikan menggunakan WEKA versi 3.6.5, sumber software komplit, yang di tulis dengan
bahasa Jawa, yang di ciptakan utk mengilustrasikan ide yang di namakan Waikato Environment
for Knowledge Analysis (WEKA), yang ada sebagai kode sumber utk website di belahan dunia
pada.
Tujuan utama dari penelitian ini adalah untuk membandingkan perbedaan klasifikasi
algoritma (terdapat 20 klasifikasi algoritma pada tipe yang berbeda) keakurasian nya bukan
hanya utk banyak kasus tapi juga utk setiap kasus pada 5 pilihan algoritma teratas yg rata2 baik
untuk setiap kasus. Akhirkan itu akan di tampilkan pada grafik.
Table 1. Data Parameter Diabetes

No.
Parameter
Penjelasan
Usia
Diisi angka (tahun)
Hubungan
Diisi tiga tipe pengisian seperti

1. Tidak, 2. Kakek-nenek, Om, Tante,
3.Orang tua, sudara laki2, sudara
perempuan
Gula
Diisi dua tipe pengisian seperti 1. Iya,

2. Tidak
Jika Tidak, terdapat dua tipe pengisian
lainnya, sebelumnya 1. Iya, 2. Tidak
Memakan sayuran
Diisi dua Tipe pengisian, 1. Iya, 2. Tidak
Aktifitas Fisik
BMI
Diisi angka [Berat badan dlm Kg/ (tinggi

badan dlm Meter)^2]
Daging
Lingkar Pinggang
Diisi angka (Cm)
2. Latar Belakang
Secara garis besar definisi formal dari data mining dapat diartikan sebagai Data mining
adalah penghapusan yang tersembunyi yg tdk biasa, yg tdk dikenal sebelumnya, dan informasi
yg berpotensi berguna tentang data [Frawley dan Piatetsky Shapiro, 1996]. Data mining sering
diartikan sebagai menemukan informasi yg tersembunyi di database. Data mining memiliki
beberapa sumber utk analisa data seperti klasifikasi, korelasi, penggabungan, perkumpulan
ketentuan, dan lainnya. Saat ini banyak organisasi yang sudah menggunakan data mining secara
intensif dan secara luas. Dalam pelayanan kesehatan, data mining menjadi makin popular [H. C.
Koh dan G. Tan., 2011]. Data mining menyediakan metodologi dan teknologi untuk
mengidentifikasikan data informasi yang berguna utk membuat keputusan.
Klasifikasi, bagian utama dari data mining dapat di golongkan pd 2 sektor (satu yg dalam
pengawasan, dan yg lainnya tanpa pengawasan). Saat ini ada sekitar 60 algoritma utk klasifikasi.
Tetapi semua tidak cukup baik berdasarkan pd kebutuhan. Klasifikasi algoritma memiliki 3
kriteria dasar seperti akurasi, tingkat kerusakan, dan waktu eksekusi untuk pilihan. Untuk jenis
data yang berbeda di gunakan klasifikasi algoritma ygberbeda pula. Dengan ini kami
menggunakan informasi pasien diabetes tipe-2 utk klasifikasi dan analisa kemampuan yang di
jelaskan dengan singkat pada bagian 5.
Akurasi berarti mengklasifikasikan persentase dengan tepat. Akurasi di hitung berdasarkan
penambahan dari yg benar2 positif dan benar2 negatif diikuti oleh bagian dari semua
kemungkinan. Ini dijelaskan secara singkat menggunakan table-4. Kepekaan dan spesifikasi juga
akan dijelaskan menggunakan table-4 di bagian 3. Akurasi di ukur dengan 3 cara spt total data
training, 10 lipatan validasi, pembagian persentase.
Sepuluh lipatan validasi adalah cara standar dari pengukuran tahap kerusakan skema
pembelajaran pada bagian dataset; utk hasil yg dapat dipercaya, 10 kali 10 lipatan validasi. 10
lipatan validasi telah menjadi metode standar pada waktu yg praktis. Perbedaan percobaan 10
lipatan validasi dengan metode pembelajaran yang sama dan dataset sering menghasilkan
perbedaan hasil, karena pengaruh dari variasi acak pada pemilihan lipatan itu sendiri. Pembagan
persentase mempertahankan persentase pasti dari data untuk percobaan. Pembagian dataset
berdasarkan pemberian persentase pada pelatihan dan dokumen tes, dengan ini digunakan 66%
pembagian.
Kerusakan yg sesungguhnya sebagian besar dipertimbangkan sebagai Error rate. Ini kami
mempertimbangkan dibawah 2 detik dari waktu eksekusi. Tabel 2 menunjukkan akurasi dari
sector yg berbeda dan rata-ratanya.
Tulisan ini sebagian besar mendiskusikan tentang klasifikasi akurasi dari algoritma dengan
eksekusi waktu dan rate kerusakan menggunakan Weka. Disini juga mendiskusikan akurasi oleh
pembagian 3 sub-sektor yang dijelaskan pada bagian bawah. Bagian 2 menjelaskan bagian2
penting dari klasifikasi algoritma dan bagian 4 serta bagian 5 menjelaskan tentang tipe perbedaan
dari klasifikasi algoritma dan kinerjanya.
Awal
Pengumpulan data dan preprossesing
Pembagian Akurasi utk

pelatihan dataset
Pembagian akurasi utk

10 lipatan validasi
Evaluasi Akurasi
Pemilihan 5 teratas klasifikasi

algoritma
Selesai
Gambar 1. Grafik perwakilan dari proses kerja
Pembagian akurasi utk

pembagian persentase
3. Proses kerja
Pada bagian ini sebagian besar menjelaskan tentang keseluruhan proses kerja yang di
tampilakn pada gambar 1. Proses analisa kinerja tulisan ini adalah sub-bagian. Sub-bagian
pertama mendiskusikan tentang pengumpulan data dan pre-processing. Selajutnya
mendiskusikan kinerja dari klasifikasi algoritma.
Pengumpulan data dan Pre Processing

400 data pasien (200 pasien diabetes dan 200 data non pasien diabetes) dikumpulkan dari
pusat diagnose yang berbeda. Ada 200 pasien pria dan 200 pasien wanita yang berusia antara 20
sampai 80 tahun. Dari pembelajaran sebelumnya 13 faktor resiko dipertimbangkan untuk tipe 2
penilaian diabetes pada populasi Bangladesh, termasuk usia, jenis kelamin, keturunan, tes
kesehatan sebelumnya, menggunakan obat anti hypersensitive, merokok, kebiasaan makan,
kegiatan fisik, BMI (Body Mass Index), lingkar pinggang, trauma mental, konsumsi daging,
hipertensi, sakit jantung. Kebanyakan kumpulan atribut dari data prediksi diabetes dengan
parameter factor resiko dan penjelasannya akan di tampilkan pada Tabel-1. Data tersebut
sebagian besar di kumpulkan dari Bangladesh.
Pada tulisan ini Weka versi 3.6.5 di gunakan utk tes akurasi dari klasifikasi algoritma yang
berbeda. Terkadang data mungkin hilang dan butuh beberapa format khusus utk Weka. Jadi data
butuh utk ore-processing. Weka mendukung format data Arff (attribute-relation file format),
CSV, dan JDBC database. Jadi data akan disimpan berdasarkan format diatas. Kemudian
menjalankan Weka. Ini merupakan penggunakan dari format ARFF dan CSV utk tes akurasi.
Pembagian Akurasi
Untuk pembagian akurasi mempertimabngkan 20 klasifikasi algoritma. Penjelasan mengenai
algoritman tsb di berikan pd bagian-4. Pertama-tama jalankan Weka versi 3.6.5, pilih data file
diabetic dan bagi akurasi menjadi 3 sektor dan rata-rata (melalui rows) dari akurasi tsb
ditampilkan pd Tabel-2, kemudian kita ambil akurasi algoritma tertinggi yg ditampilkan pada
Tabel-3. Akurasi sebagian besar dihitung menggunakan Confusion Matrix (CM). Ini dapat di
tampilkan pada Tabel-4. Ini diketahui bahwa akurasi berarti ratio dari total jumlah klasifikasi
atribut yg benar dan total jumlah yg menggunakan atribut. Jadi dari Confusion Matrix (Tabel-4)
klasifikasi akurasi dapat di tampilan sebagai berikut:
Akurasi = [TP+TNP] / [TP+FP+FNP+TNP]
.. (1)
Sensitifitas = TP / [TP+FNP]
(2)
Spesifikasi = TNP / [TNP+FP]
. (3)
Evaluasi Hasil
Sekarang menemukan rata-rata dari akurasi melalui kolom (utk kasus perbagian) pd Tabel-3.
Dan beritanda pada akurasi tsb mana yg lebih atau sekitar atau rata-rata. Dengan ini algpritma yg
di beri tanda berada di tingkat tertinggi. Kemudian pilih 5 terbaik algoritma. Pada Tabel-3 kolom
terakhir di tampilkan peringkat dari 5 klasifikasi algoritma terbaik.
4. Algoritma Klasifikasi
Pada bagian ini akan dibahas sekitar 20 klasifikasi algoritma yang digunakan untuk prediksi
akurasi. Algoritma klasifikasi dapat dipotong singkat dijelaskan kebawah 4,1-4,7 sub bagian.
Bayesian Network Classifiers

The Nave Bayes Classifer ( Standard Probabilistic Classifier ) hanya dapat mewakili
distribusi sederhana, menghasilkan estimasi probabilitas ketimbang prediksi. Bayesian Network
menyedikan cara yang baik untuk menggunakan waktu serta data yang komplek.
Klasifikasi Pohon
Menggunakan 4 kasifikasi pohon basis kasifikasi seperti BF Tree, Random Tree, J48
(Mengimplementasikan C4,58)
BF Tree adalah algoritma klasifikasi yang membangun pohon keputusan menggunakan ekspansi.
Dasar klasifikasi pohon algoritma yang lain adalah FT membangun sebuah pohon fungsional
dengan memecah kesamping dan fungsi linear di daun.
Aturan klasifikasi
Terdapat empat aturan dasar untuk klasifikasi algoritma yakni, DecisionTable, JRip, OneR,
ZeroR.
Fungsi klasifikasi
Terdapat 3 tipe fungsi utama dasar untuk klasifikasi algoritma yaitu SMO, Logistic, dan
Multilayer Perceptron.
Klasifikasi malas
Pembelajar yang malas menyimpan hasil latihannya dan tidak melakukan apa pun sampai
tiba waktunya untuk klasifikasi
Metalearning klasifikasi
Algoritma metalearning mengambil pengklasifikasi dan merubah mereka menjadi pembelajar
yang lebih kuat.
5. Kesimpulan
Kesimpulan yang bisa didapat dari penelitian ini adalah produk dari PFAD mempunyai
property fisik yang mendekati polyester komersial yang mana mempunyai nilai kualitas asam
yang bagus dan dapat diklasifikasikan kedalam berat molecule yang rendah yang mana ini lebih
cocok untuk penerapan polyester yang dimodifikasi.

Review Jurnal Data Mining

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Review Jurnal Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA INTEGRATION

PROGRAM STUDI TEKNIK INFORMATIKA

Table 1. Data Parameter Diabetes

Diisi angka (tahun)

Diisi tiga tipe pengisian seperti

Diisi dua tipe pengisian seperti 1. Iya,

Diisi dua Tipe pengisian, 1. Iya, 2. Tidak

Diisi dua Tipe pengisian, 1. Iya, 2. Tidak

Diisi angka [Berat badan dlm Kg/ (tinggi

Diisi dua Tipe pengisian, 1. Iya, 2. Tidak

Diisi angka (Cm)

Pengumpulan data dan preprossesing

Pembagian Akurasi utk

Pembagian akurasi utk

Pemilihan 5 teratas klasifikasi

Gambar 1. Grafik perwakilan dari proses kerja

Pembagian akurasi utk

Pengumpulan data dan Pre Processing

Akurasi = [TP+TNP] / [TP+FP+FNP+TNP]

Spesifikasi = TNP / [TNP+FP]

Bayesian Network Classifiers

Anda mungkin juga menyukai