2. Data integration (di mana sumber data yang terpecah dapat disatukan).
Data yang akan digunakan untuk data mining tidak hanya berasal dari
satu database tetapi juga berasal dari beberapa database atau file teks.
Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitasentitas yang unik seperti atribut nama, jenis produk, nomor
pelanggan dan lain-lain. Pada tahap ini hal yang perlu dilakukan untuk
lebih detail dan cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan keputusan pada akhirnya. Dalam integrasi data ini juga
5
6
3. Data selection (di mana data yang relevan dengan tugas analisis
dikembalikan ke dalam database).
Data diseleksi untuk menentukan variabel apa saja yang akan diambil
agar tidak terjadi kesamaan dan perulangan yang tidak diperlukan
dalam pengolahan teknik data mining. Sebagai contoh, sebuah kasus
yang meneliti faktor kecenderungan orang membeli
2.1.2. Klasifikasi
Klasifikasi ialah suatu kegiatan yang mengelompokkan benda yang
memiliki beberapa ciri yang sama dan memisahkan benda yang tidak
sama. Dalam kaitannya di dunia perpustakaan klasifikasi diartikan sebagai
kegiatan pengelompokkan bahan pustaka berdasarkan ciri-ciri yang sama,
misalnya pengarang, fisik, isi sebagainya. Pada dasarnya di perpustakaan
dikenal ada 2 (dua) jenis kegiatan klasifikasi (Suyadi 2017).
1. Klasifikasi Fundamental (Fundamental Classification) yaitu klasifikasi
bahan pustaka berdasarkan subyek/isi buku, sebab pada dasarnya
i : Fitur
n : Jumlah partisi S
pi : Proporsi Si terhadap S
2. Konsep Gain
Gain (S,A) merupakan Perolehan informasi dari atribut A relatif
terhadap output data S. Perolehan informasi didapat dari output data
atau variabel dependent S yang dikelompokkan berdasarkan atribut A,
dinotasikan dengan gain (S,A).
Rumus untuk mencari Gain:
Keterangan:
X : Data dengan class yang belum diketahui
H : Hipotesis data merupakan suatu class spesifik
P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posteriori
probabilitas)
P(H) : Probabilitas hipotesis H (prior probabilitas)
P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H
P(X) : Probabilitas X
Keterangan:
P : Peluang
Xi : Atribut ke i
xi : Nilai atribut ke i
Y : Kelas yang dicari
µ : mean, menyatakan rata-rata dari seluruh atribut
σ : Deviasi standart, menyatakan varian dari seluruh atribut
direkomendasikan
berdasarkan nilai
dari
calon mahasiswa.
4. Yogiek Perbandingan Naive 2017 Naive Bayes lebih
Indra Algoritma Bayes dan baik daripada
Kurniawan Naive Bayes C4.5 C.45. Sedangkan
Dan C.45 pada kasus
Dalam penentuan
Klasifikasi kelayakan calon
Data Mining anggota
kredit di koperasi,
Naive Bayes
memberikan nilai
yang lebih baik
pada precision,
tapi untuk recall
dan accuracy,
C.45 memberikan
hasil yang lebih
baik.
5. Triowali Perbandingan Naive 2016 Dari
Rosandy Metode Naive Bayes dan perhitungan yang
Bayes C4.5 telah di ujicoba
Classifier hal tersebut
Dengan menunjukkan
Metode bahwa metode
Decision Tree Decision Tree
(C4.5) Untuk (C4.5)
Menganalisa memiliki tingkat
Kelancaran akurasi lebih
Pembiayaan tinggi dan
efesiensi waktu
yang lebih cepat
daripada metode
Naive
Bayes Classifier
6. Liliana Penerapan Algoritma 2013 Algoritma
Swastina Algoritma C4.5 C4.5 Decision Tree
Untuk C4.5 akurat
Penentuan diterapkan
Jurusan untuk penentuan
Mahasiswa kesesuaian jurusan
mahasiswa
dengan tingkat
akurasi 93,31 %
dan akurasi
rekomendasi
jurusan sebesar
82,64%.
7. Yusra, Perbandingan Naive 2016 metode Naive
Dhita Klasifikasi Bayes dan Bayes
Olivita, Tugas Akhir K-Nearest menghasilkan nilai
Yelfi Mahasiswa Neighbor akurasi lebih baik,
Vitriani Jurusan Teknik yaitu sebesar 87%.
Informatika Pengujian pada
Menggunakan metode K-Nearest
Metode Naive Neighbor
Bayes menghasilkan nilai
Classifier dan akurasi 84%
K-Nearest dengan nilai k=3,
Neighbor 85% dengan nilai
k=5, 86% dengan
nilai k=7 dan 84%
dengan nilai k=9.
8. Asmaul Penerapan Algoritma 2018 hasil yang
Husnah Metode C4.5 C4.5 diperoleh
Nasrullah Untuk dari penerapan
Klasifikasi metode C4.5 pada
Mahasiswa penelitian ini yaitu
Berpotensi ditemukannya 17
Drop Out rule yang dapat
dijadikan
sebagai pola untuk
menetukan
mahasiswa yang
berpotensi Drop
Out.
9. Ratih Sistem K-Nearest 2015 Hasil capaian dari
Kumalasari Pendukung Neighbor penelitian ini
Niswatin Keputusan adalah sebuah
Penempatan sistem pendukung
Jurusan keputusan berbasis
Mahasiswa web untuk
Baru memberikan
Menggunakan rekomendasi
Metode K- penempatan
Nearest jurusan calon
Neighbor mahasiswa baru
tersebut
disarankan masuk
pada
jurusan teknik
informatika atau
sistem informasi
10. Arddy H. Klasifikasi Naive 2017 Hasil penelitian ini