Anda di halaman 1dari 4

Prosiding Annual Research Seminar 2017 ISBN : 979-587-626-0

Computer Science and ICT Vol. 3 No. 1

Review : Data Mining menggunakan


Algoritma Genetika
Nurul Mufliha Eka Putri Ermatita
Magister Teknik Informatika Magister Teknik Informatika
Fakultas Ilmu Komputer, Universitas Sriwijaya Fakultas Ilmu Komputer, Universitas Sriwijaya
Sumatera Selatan, Indonesia Sumatera Selatan, Indonesia
nurulmufliha@gmail.com ermatitaz@yahoo.com

Abstract Data mining adalah pencarian informasi evolusi Darwin, dimana memiliki aturan yang kuat
berguna yang dilakukan secara otomotis antara atribut adalah yang menang. Setiap aturan populasi, masing-
dalam database. Hingga saat ini telah banyak algoritma masing mewakili sebuah solusi untuk suatu masalah.
Machine Learning yang diterapkan dan dikembangkan Algoritma genetik muncul disaat yang tepat ketika
untuk aplikasi data mining. Salah satu algoritma yang
suatu masalah tersebut memerlukan optimasi
dapat diterapkan ke dalam sistem data mining adalah
algoritma genetika. Algoritma genetika merupakan sehubungan dengan komputasi. Paradigma ini dapat
paradigma software yang relatif baru terinspirasi dari diterapkan untuk memecahkan masalah pada data
teori evolusi Darwin. Dalam tulisan ini, akan dibahas mining [4]. Tujuannya adalah untuk mengurangi error
mengenai konsep dasar dari algoritma genetika dan dalam pengklasifikasian tranning set.
bentuk desain data mining menggunakan algoritma
Ide utama algoritama genetik adalah
genetika. Selain itu, kebutuhan dan tantangan yang harus
dihadapi oleh teknologi data mining juga akan dibahas mengumpulkan populasi yang merupakan solusi untuk
dalam tulisan ini. suatu masalah, dan mencoba untuk menghasilkan
solusi yang lebih baik dari sebelumnya. Algoritma
Keywords Data Mining, Machine Learning, Algoritma
Genetik beoperasi melalui siklus sederhana yang terdiri
dari empat tahapan sebagai berikut: insialisasi, seleksi,
I. PENDAHULUAN crossover dan mutasi (Davis, 1991; Wong and Tan,
Data mining adalah proses logis yang 1994). Gambar 1 menunjukan langkah-langkah dasar
dari algoritma genetik [5].
digunakan untuk menemukan data yang berguna dari
sejumlah besar data. Tujuan dari teknik ini adalah Satu iterasi yang telah dilaksanakan dalam
untuk menemukan pola-pola yang sebelumnya tidak algoritma genetika disebut generasi. Setiap generasi
diketahui. Setelah pola ini ditemukan, data tersebut akan dievaluasi tingkat keberhasilan nilai solusinya
dapat digunakan untuk membuat suatu keputusan [1]. terhadap masalah yang akan diselesaikan
Klasifikasi merupakan teknik data mining yang paling menggunakan sebuah nilai atau ukuran yang disebut
umum diterapkan, yang menggunakan sebuah set dengan fitness. Dalam proses seleksi, kromosom atau
contoh preklasifikasi untuk mengembakan suatu model individu yang dipilih adalah yang memiliki nilai fitness
yang dapat mengelompokan populasi dalam jumlah yang tinggi.
besar. Tujuan klasifikasi adalah memprediksi kelas Kromosom baru atau offspring dapat dibentuk
target secara akurat dan mampu belajar berdasarkan dengan cara perkawinan silang antar kromosom dalam
sampel yang diberikan. Salah satu algoritma satu generasi. Proses ini biasa disebut dengan
pengklasifikasian yang dapat digunakan dalam data crossover. Jumlah kromosom dalam populasi yang
mining adalah algoritma genetika sebagai kromosom. mengalami perkawinan silang ditentukan dengan
Sebuah individu dibentuk dari komponenkomponen parameter yang disebut crossover rate. Perubahan nilai
penyusun yang disebut sebagai gen yang nilainya dapat gen dalam kromosom disebut dengan mutasi. Jumlah
berupa numeric, simbol maupun biner. kumpulan dari gen dalam populasi yang mengalami mutasi ditentukan
individu atau kromosom ini disebut dengan populasi. oleh parameter yang disebut mutation rate. Setelah
Populasi awal dapat diinisialisasikan atau dibangkitkan beberapa generasi terbentuk, kromosom akan bernilai
secara random atau acak. Sebelumnya, ukuran populasi konvergen yang merupakan solusi terbaik untuk
telah ditentukan berdasarkan dari masalah yang akan masalah yang akan diselesaikan.
diselesaikan. Ukuran populasi ini dalam pembangkitan
setiap individunya, syarat-syarat harus benar-benar Algoritma genetika memainkan peran
diperhatikan untuk menunjukan suatu solusi. penting dalam teknologi data mining, yang diputuskan
berdasarkan adanya karakteristik dan keunggulan
tersendiri [2], terutama dalam aspek berikut: 1)
II. ALGORITMA GENETIKA algoritma genetika dapat menetapkan parameter yang
langsung beroperasi untuk mengatur data set, antrian,
Algoritma genetik merupakan paradigma
software yang relatif baru yang terinspirasi dari teori matrik, grafik dan struktur lainnya. 2) memiliki kinerja

235
Prosiding Annual Research Seminar 2017 ISBN : 979-587-626-0
Computer Science and ICT Vol. 3 No. 1

pencarian yang lebih baik; mengurangi resiko solusi fitur atau atribut untuk setiap contoh data. Sejumlah
optimal parsial. Pada saat yang sama, algoritma fitur dapat dikurangi bergantung dari masalah yang ada
genetika itu sendiri juga sangat mudah untuk bekerja dengan menggunakan teknik reduksi dimensi, seperti
secara parallel. 3) mengunakan fungsi fitness untuk analisi komponen utama. Setelah preprocessing data
mengevaluasi data. 4) algoritma genetika dapat dilaksanakan, data siap untuk mendeteksi pola.
memandu arah pencarian [3]. Pendeteksian pola dapat dilakukan dengan
mengunakan algoritma genetika. Pola-pola ini
kemudian akan ditampilkan kepada pengguna untuk
divalidasi.
Pada tahap pengenalan pola, data-data yang
telah terpilih akan ditraning atau dilatih terus menerus
sampai data tersebut dapat merepresentasikan
pengetahuan untuk memprediksi kelas data baru yang
belum pernah ada. Pada tahap ini, algoritma genetika
diimplementasikan (gambar 3). Biasanya validation set
diambil dari training data yang akan digunakan untuk
mencari parameter yang paling baik. Sedangkan testing
data (gambar 1) digunakan untuk mengukur sejauh
mana tingkat keberhasilan dalam pengklasifikasian.
Oleh karena itu, data yang ada pada testing data tidak
boleh diambil dari training data agar dapat diketahui
apakah metode yang sudah diterapkan sudah pintar
dalam mengklasifikasikan data. Pemisahan antara
Gambar 1. Langkah Dasar Algoritma training data dan testing data dilakukan agar tidak
terjadi overfitting, dimana data sangat buruk dalam
melakukan pengklasifikasian data yang belum dikenali
III. DESAIN DATA MINING MENGGUNAKAN atau data baru.
ALGORITMA GENETIKA
A. Desain
Data mining adalah sebuah proses yang
berkaitan dengan menemukan suatu pola, asosiasi,
anomali dan struktur signifikan secara statistik pada
data (Fayyad et al., 1996). Hal ini mengacu pada kasus
dimana data yang terlalu besar atau terlalu rumit untuk
dianalis. Data mining terdiri dari dua langkah utama,
pertama preprocessing data, untuk memastikan data
yang dikelolah merupakan data yang baik, dan yang
kedua adalah pengenalan pola (Gambar 2) [6].

Gambar 3. Proses Training Data

Gambar 2. Proses Data Mining

Preprocessing data terdiri dari beberapa sub-


tugas. Jika data mentah sangat besar, kita bisa
menggunakan sampling dan mengolah dengan lebih
sedikit data, atau menggunakan teknik multi-resolusi
dan mengolah data pada resolusi yang lebih kasar. Gambar 1. Proses Testing Data
Selanjutnya, noise dalam data akan dihapus, dan fitur
yang lebih relevan akan diambil. Dalam beberapa
kasus, dimana data diambil dari sumber yang berbeda, B. Algoritma genetika pada aplikasi data mining
maka fusi data kemungkinan akan diperlukan bagi Pada sesi ini, secara singkat hanya
pengguna untuk memanfaatkan semua data yang menjelaskan penggunaan algoritma gentika pada
tersedia. Akhir dari langkah pertama, akan dihasilkan aplikasi data mining di berbagai bidang ilmu. Dengan

236
Prosiding Annual Research Seminar 2017 ISBN : 979-587-626-0
Computer Science and ICT Vol. 3 No. 1

mengumpulkan sebanyak 6 buah literasi, tabel 1 aplikasinya. Penelitian pada teknologi data mining
dibawah ini berisi daftar referensi, cakupan bidang harus terus berkembang karena kebutuhan dan
aplikasi, masalah atau latar belakang literasi dan hasil tantangan dalam teknologi data mining terus meningkat
dari eksperimen penelitian. [3].
A. Efisiensi algoritma data mining
TABEL I. PENELITIAN BERHUBUNGAN DENGAN ALGORITMA Algoritma yang digunakan untuk melakukan
GENETIKA PADA
ekstrasi informasi dari jumlah data yang sangat besar
APLIKASI DATA MINING harus efisien. Sehingga dapat mengurangi lamanya
Reference Application Problem Result waktu eksekusi data.
Area
B Minaei- Web di Membuat confident
Bidgoli, bidang prediksi mata interval B. Penanganan tipe data
2003 [7] pendidikan pelajaran yang menjadi 95 % Tidaklah realistis jika kita menganggap bahwa
lebih
bermanfaat untuk
sistem data mining mampu menangani semua jenis tipe
setiap para siswa data. Banyak aplikasi database yang memuat tipe data
Linyu Learning Pengklasifikasian Akurasi 88.68 yang kompleks, misalanya teknologi yang menjadi
Yang, Classificatio masalah % topik yang sering dibahas dalam riset saat ini adalah
2001 [8] n Rules
multimedia database. Sistem data mining harus
Li Lin, Optimalilsa Memutuskan Running time dikonstruksikan secara khusus untuk tipe-tipe data
2007 [9] si saham apakah saham itu menjadi cepat
akan dibeli atau
khusus agar proses dalam data mining menjadi efektif.
dijual
Shokoufe Diagnosis Menyeleksi fitur Akurasi 76.3 % C. Keakuratan penyeleksian data
h kanker atau atribut yang
Aalaei, payudara baik untuk Informasi hasil dari data yang teseleksi haruslah
2016 [10] memprediksi berguna untuk aplikasi yang sedang dirancang. Noise
kanker payudara dan data yang tidak diperlukan harus ditangani dengan
baik pada sistem data mining. Sehingga tingkat
keakuratan hasil pembelajaran atau training dapat
M. Prediksi Memprediksi Akurasi 88.3 %
ANBARA penyakit penyakit jantung meningkat.
S jantung yang lebih akurat
I, 2010 D. Keamanan dan kerahasiaan data
[11]
Rasim M. Email Spam Mengklasifikasik Dapat Kerahasiaan informasi akan terancam ketika data
Alguliev, Textual an spam terbaru mempertimban dapat dilihat dari abstrak level yang berbeda dan dari
2011 [12] pada email gk an hasil dari berbagai sudut pandang. Hal ini harus diperhatikan dan
pembagian
kelas
dipelajari apakah data atau informasi yang ditemukan
pada sistem data mining itu akan mengakibatkan
pelanggaran kerahasiaan dan keamanan data.
Pada tabel1, penelitian [7] mengalami
peningkatan performansi sekitar 12 % sampai 15 %
ketika menggunakan algoritma genetika, dimana ketika KESIMPULAN
tidak menggunakan algoritma genetika, performansi Algoritma genetika dapat diterapkan ke dalam sistem
yang diberikan hanya 88.87%, 61.86 % dan 49.74 % data mining untuk mengklasifikasikan data agar
pada setiap 2-classes, 3classes, dan 9-classes. mendapatkan informasi yang berguna untuk aplikasi
Penelitian [8][10][11] dengan bidang area data mining. Algoritma genetika dapat diusulkan
classification rules, diagnosis kanker payudara, dan sebagai strategi pencarian untuk menemukan
prediksi penyakit jantung memberikan tingkat pengetahuan yang akurat dan dapat dipahami dalam
keakurasian masing-masing 88.68%, 76.3 % dan database besar. Penggunaan algoritma genetika dalam
88.3%. Sedangkan penelitian dari [9] [12] tidak data mining telah digunakan oleh berbagai bidang
memberikan hasil dengan persentase, tetapi hasil ilmu. Berdasarkan hasil penelitian yang telah
penelitiannya hanya menyebutka bahwa dengan dilakukan oleh berbagai peneliti, tingkat keakuratan
menggunakan metode algoritma genetika, aplikasi menggunakan algoritma genetika pada data mining
yang dihasilkan memiliki running time yang lebih cepat berada pada rentang 70% hingga 90%.
dan dapat mempertimbangkan hasil dari pembagian
kelas.
REFERENSI
[1] B. M. Ramageri, Data mining techniques and application,
IV. KEBUTUHAN DAN TANTANGAN vol. 1. Depatment of Computer application, India, pp.301-
DALAM TEKNOLOGI DATA MINING 305.
Walaupun teknologi data mining telah [2]
diterpkan diberbagai aspek bidang ilmu, riset yang ada University, vol. 1, A27, 2007, pp. 81-84.
belum begitu matang dan terdapat keterbatasan dalam

237
Prosiding Annual Research Seminar 2017 ISBN : 979-587-626-0
Computer Science and ICT Vol. 3 No. 1

[3] T. Jun-
uth University of
Forestry and Technology. China., in press [4] S. J. Lee, and K.

[5] K. Shin, K. Kim, and I. Han, Financial data mining using


genetic algorithm techniques: application to KOSPI 200,
Korea Advanced Institute of Science and Technology,
November 2016.
[6] E. Cantu-

[7] B. Minaei-
for data mining optimization in an educational web-based

[8]
entropy-based adaptive genetic algorithm for learning

[9]
ge
unpublished. [10] S. Aalaei, H. Shahraki, A. Rowhanimanesh,

breast cancer diagbosis: experiment on three different


nal of Basic Medical Sciences , 2016,
19:476-482.
[11]
prediction of heart disease with feature subset selection using

Science and Technology, vol. 2(10), 2010, pp. 5370-5376.


[12] R. M. Alguliev, R. M. Aliguliyev, S. A. Nazirova.
-mail spam using data mining

Azerbaijan National Academy of Sciences, vol. 2011, 2011, 8


pages.

238

Anda mungkin juga menyukai