Bab 2

BAB II
LANDASAN KERANGKA PEMIKIRAN
2.1. Tinjauan Pustaka

2.1.1. Data Mining
Data Mining adalah Serangkaian proses untuk menggali nilai tambah
berupa informasi yang selama ini tidak diketahui secara manual dari suatu
basis data dengan melakukan penggalian pola-pola dari data dengan tujuan
untuk memanipulasi data menjadi informasi yang lebih berharga yang
diperoleh dengan cara mengekstraksi dan mengenali pola yang penting
atau menarik dari data yang terdapat dalam basis data (Suyadi, 2017).
1. Data cleaning (untuk menghilangkan noise data yang tidak konsisten).
Untuk menghilangkan data yang tidak diperlukan, data yang diperoleh
dari tahap pengambilan dataset akan disaring untuk menghasilkan data
yang benar-benar dibutuhkan. umumnya data tersebut memiliki nilai
yang tidak sempurna seperti data yang hilang. Selain itu, ada juga
atribut-atribut data yang tidak sesuai dengan pemrosesan data mining
yang akan digunakan. Data-data yang tidak relevan itu juga lebih baik
dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari
hasil data mining nantinya. Pembersihan data juga akan mempengaruhi
performasi dari sistem data mining karena data yang ditangani akan
berkurang jumlah dan kompleksitasnya.
2. Data integration (di mana sumber data yang terpecah dapat disatukan).
Data yang akan digunakan untuk data mining tidak hanya berasal dari
satu database tetapi juga berasal dari beberapa database atau file teks.
Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan
entitasentitas yang unik seperti atribut nama, jenis produk, nomor
pelanggan dan lain-lain. Pada tahap ini hal yang perlu dilakukan untuk
lebih detail dan cermat karena kesalahan pada integrasi data bisa
menghasilkan hasil yang menyimpang dan bahkan menyesatkan
pengambilan keputusan pada akhirnya. Dalam integrasi data ini juga
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
5
6
perlu dilakukan transformasi dan pembersihan data karena seringkali

data dari dua database berbeda tidak sama cara penulisannya atau
bahkan data yang ada di satu database ternyata tidak ada di database
lainnya.
3. Data selection (di mana data yang relevan dengan tugas analisis
dikembalikan ke dalam database).
Data diseleksi untuk menentukan variabel apa saja yang akan diambil
agar tidak terjadi kesamaan dan perulangan yang tidak diperlukan
dalam pengolahan teknik data mining. Sebagai contoh, sebuah kasus
yang meneliti faktor kecenderungan orang membeli
4. Data transformation (di mana data berubah atau bersatu menjadi

bentuk yang tepat untuk menambang dengan ringkasan performa atau
operasi agresi).
Pengubahan data menjadi format ekstensi yang sesuai untuk
pengolahan dalam data mining. Beberapa metode data mining
membutuhkan format data yang khusus sebelum bisa diproses dalam
teknik data mining. Misalnya sebagian metode standar seperti analisis
asosiasi dan klastering hanya bisa menerima input data kategorial.
Karenanya data berupa angka numerik yang berlanjut perlu
dibagimenjadi beberapa interval.
5. Knowledge Discovery (proses esensial di mana metode yang intelejen

digunakan untuk mengekstrak pola data).
Untuk memproses teknik utama saat metode diterapkan agar
menemukan pengetahuan berharga, data yang terkumpulkan sesuai
prosedur harus di terapkan pada proses mining setelah data melalui
tahap transformasi.

7
6. Pattern evolution (untuk mengidentifikasi pola yang benar-benar

menarik yang mewakili pengetahuan berdasarkan atas beberapa
tindakan yang menarik).
Tahap ini yaitu mengidentifikasi pola-pola menarik kedalam
knowledge based yang diidentifikasikan. Dalam tahap ini hasil dari
teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah kajian yang ada sudah memenuhi
target yang diinginkan. Jika ternyata hasil yang diperoleh tidak sesuai
kajian ada beberapa alternatif dengan mencoba metode data mining
lain agar lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang
di luar dugaan yang mungkin bermanfaat.
7. Knowledge presentation (di mana gambaran teknik visualisasi dan

pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kepada user).
Merupakan visualisasi dan penyajian pengetahuan mengenai metode
yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna. Tahap terakhir dari proses data mining adalah bagaimana
memformulasikan keputusan atau aksi dari hasil analisis yang didapat.
Ada kalanya hal ini harus melibatkan orang-orang yang tidak
memahami data mining. Karenanya presentasi hasil datamining.
2.1.2. Klasifikasi
Klasifikasi ialah suatu kegiatan yang mengelompokkan benda yang
memiliki beberapa ciri yang sama dan memisahkan benda yang tidak
sama. Dalam kaitannya di dunia perpustakaan klasifikasi diartikan sebagai
kegiatan pengelompokkan bahan pustaka berdasarkan ciri-ciri yang sama,
misalnya pengarang, fisik, isi sebagainya. Pada dasarnya di perpustakaan
dikenal ada 2 (dua) jenis kegiatan klasifikasi (Suyadi 2017).
1. Klasifikasi Fundamental (Fundamental Classification) yaitu klasifikasi
bahan pustaka berdasarkan subyek/isi buku, sebab pada dasarnya

8
pemakai perpustakaan lebih banyak mencari informasi tentang subyek

tertentu.
2. Klasifikasi Artifisial (Artificial Classification), yaitu klasifikasi bahan
pustaka berdasarkan ciri-ciri yang ada pada bahan pustaka.
2.1.3. Algoritma C4.5

Decision Tree (C4.5) adalah sebuah struktur pohon, di mana setiap node
pohon merepresentasikan atribut yang telah diuji, setiap cabang
merupakan suatu pembagian hasil uji, dan node daun (leaf)
merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah
Decision Tree (C4.5) adalah node akar (root) yang biasanya berupa atribut
yang paling memiliki pengaruh terbesar pada suatu kelas tertentu
(Supriyanti, 2016).
Algoritma C4.5 dapat menangani data numerik dan diskret. Algoritma

C4.5 menggunakan rasio perolehan (gain ratio). Sebelum menghitung
rasio perolehan, perlu dilakukan perhitungan nilai informasi dalam satuan
bits dari suatu kumpulan objek, yaitu dengan menggunakan konsep
entropi.
1. Konsep Entropi
Entropi (S) merupakan jumlah bit yang diperkirakan dibutuhkan untuk
dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada
ruang sampel S. Entropi dapat dikatakan sebagai kebutuhan bit untuk
menyatakan suatu kelas. Semakin kecil nilai entropi maka akan
semakin entropy digunakan dalam mengekstrak suatu kelas. Entropi
digunakan untuk mengukur ketidakaslian S. Besarnya Entropi pada
ruang sampel S didefinisikan dengan :
Keterangan konsep Entropi

S : Himpunan kasus

9
i : Fitur
n : Jumlah partisi S
pi : Proporsi Si terhadap S
2. Konsep Gain
Gain (S,A) merupakan Perolehan informasi dari atribut A relatif
terhadap output data S. Perolehan informasi didapat dari output data
atau variabel dependent S yang dikelompokkan berdasarkan atribut A,
dinotasikan dengan gain (S,A).
Rumus untuk mencari Gain:
Keterangan konsep Gain:

S : Himpunan Kasus
I : Atribut
n : Jumlah partisi atribut A
Si : Proporsi Si terhadap S
S : Jumlah kasus dalam S
Berikut merupakan cara membangun pohon keputusan dengan

menggunakan algoritma C4.5:
1. Pilih atribut sebagai akar. Sebuah akar didapat dari nilai gain tertinggi
dari atribut-atribut yang ada.
2. Buat cabang untuk masing-masing nilai.
3. Bagi kasus dalam cabang.
4. Ulangi proses untuk masing-masing cabang sampai semua kasus pada
cabang memiliki kelas yang sama.

10
2.1.4. Naive Bayes

Naive Bayes merupakan teknik prediksi berbasis probabilistik sederhana
yang berdasar pada penerapan teorema Bayes (aturan Bayes) dengan
asumsi independensi (ketidaktergantungan) yang kuat (naif). Dengan kata
lain, dalam Naive Bayes model yang digunakan adalah “model fitur
independen” (Supriyanti, 2016).
Dalam sebuah aturan yang mudah, sebuah klasifikasi Naive Bayes

diasumsikan bahwa ada atau tidaknya ciri tertentu dari sebuah kelas tidak
ada hubungannya dengan ciri dari kelas lainnya. Untuk contohnya, buah
akan dianggap sebagai sebuah apel jika berwarna merah, berbentuk bulat
dan berdiameter sekitar 6 cm. Walaupun jika ciriciri tersebut bergantung
satu sama lainnya, dalam Bayes hal tersebut tidak dipandang sehingga
masing-masing fitur seolah tidak memiliki hubungan apapun. Berdasarkan
ciri alami dari sebuah model probabilitas, klasifikasi Naive Bayes bisa
dibuat lebih efisien dalam bentuk pembelajaran. Dalam beberapa bentuk
praktiknya, parameter untuk perhitungan model Naive Bayes
menggunakan metode maximum likehood, atau kemiripan tertinggi.
Rumus mencari probabiliti:
Keterangan:
X : Data dengan class yang belum diketahui
H : Hipotesis data merupakan suatu class spesifik
P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posteriori
probabilitas)
P(H) : Probabilitas hipotesis H (prior probabilitas)
P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H
P(X) : Probabilitas X

11
Rumus mencari Peluang:
Keterangan:
P : Peluang
Xi : Atribut ke i
xi : Nilai atribut ke i
Y : Kelas yang dicari
µ : mean, menyatakan rata-rata dari seluruh atribut
σ : Deviasi standart, menyatakan varian dari seluruh atribut
2.1.5. Rapid Miner

Rapid Miner adalah software analisis data mining yang digunakan untuk
menganalisa data dan mendukung berbagai teknik data mining.
Rapidminer ini digunakan untuk aplikasi industri, penelitian, pelatihan,
pengembangan aplikasi dan pendidikan. Rapidminer mengandung sekitar
100 skema pembelajaran untuk analisis klastering, klasifikasi dan regresi.
Ini mendukung sekitar 22 format file seperti .xls, .csv dan masih banyak
data pendukung lainnya (Supriyanti, 2016).
2.2. Tinjauan Studi

Penelitian terkait dengan klasifikasi menggunakan metode Naive Bayes
dan C4.5 Tree Decision telah banyak digunakan. Berikut ini adalah
penelitian terdahulu yang menjadi bahan referensi dari penelitian ini.
Tabel 2.1 Pemetaan Jurnal Terkait

No Peneliti Judul Metode Tahun Hasil Penelitian
1. Suyadi Analisis Naive 2017 Dari segi
Perbandingan Bayes dan kecepatan
Algoritma C4.5 Decision Tree
Decision Tree (C4.5) lebih
(C4.5) Dan lambat

12
K-Naive Bayes menganalisa

Untuk dibanding dengan
Mengklasifikasi K-Naive Bayes.
Penerimaan Karena
Mahasiswa perbandingan
Baru Tingkat hanya 3 detik
Universitas dengan
menggunakan
software
Rapidminer
sehingga waktu
kurang signifikan
pada penelitian
ini.
2. Wiwit Perbandingan Naive 2016 Kinerja antara
Supriyanti, Kinerja Bayes dan algoritma C4.5
Kusrini, Algoritma C4.5 C4.5 tanpa
Armadyah Dan Naive penambahan
Amborowati Bayes Untuk seleksi fitur
Ketepatan forward selection
Pemilihan dengan algoritma
Konsentrasi C4.5 ditambah
Mahasiswa seleksi
fitur forward
selection lebih
unggul bila
dibandingkan
dengan algoritma
Naive
Bayes pada kasus
ketepatan
pemilihan
konsentrasi
mahasiswa
3. Restu Klasifikasi dan Naive 2018 Pada algoritme
Fitriawanti, Rekomendasi Bayes- Naive Bayes
Imam Jurusan Kuliah WP bersama dengan
Cholissodin, Bagi Pelajar algoritme WP
Ratih SMA dapat
Kartika Menggunakan diimplementasikan
Dewi Algoritme untuk klasifikasi
Naïve Bayes- dan rekomendasi
WP jurusan
kuliah bagi pelajar
SMA. Hasil dari
penelitian ini
adalah penjurusan
yang

13
direkomendasikan
berdasarkan nilai
dari
calon mahasiswa.
4. Yogiek Perbandingan Naive 2017 Naive Bayes lebih
Indra Algoritma Bayes dan baik daripada
Kurniawan Naive Bayes C4.5 C.45. Sedangkan
Dan C.45 pada kasus
Dalam penentuan
Klasifikasi kelayakan calon
Data Mining anggota
kredit di koperasi,
Naive Bayes
memberikan nilai
yang lebih baik
pada precision,
tapi untuk recall
dan accuracy,
C.45 memberikan
hasil yang lebih
baik.
5. Triowali Perbandingan Naive 2016 Dari
Rosandy Metode Naive Bayes dan perhitungan yang
Bayes C4.5 telah di ujicoba
Classifier hal tersebut
Dengan menunjukkan
Metode bahwa metode
Decision Tree Decision Tree
(C4.5) Untuk (C4.5)
Menganalisa memiliki tingkat
Kelancaran akurasi lebih
Pembiayaan tinggi dan
efesiensi waktu
yang lebih cepat
daripada metode
Naive
Bayes Classifier
6. Liliana Penerapan Algoritma 2013 Algoritma
Swastina Algoritma C4.5 C4.5 Decision Tree
Untuk C4.5 akurat
Penentuan diterapkan
Jurusan untuk penentuan
Mahasiswa kesesuaian jurusan
mahasiswa
dengan tingkat
akurasi 93,31 %
dan akurasi
rekomendasi

14
jurusan sebesar
82,64%.
7. Yusra, Perbandingan Naive 2016 metode Naive
Dhita Klasifikasi Bayes dan Bayes
Olivita, Tugas Akhir K-Nearest menghasilkan nilai
Yelfi Mahasiswa Neighbor akurasi lebih baik,
Vitriani Jurusan Teknik yaitu sebesar 87%.
Informatika Pengujian pada
Menggunakan metode K-Nearest
Metode Naive Neighbor
Bayes menghasilkan nilai
Classifier dan akurasi 84%
K-Nearest dengan nilai k=3,
Neighbor 85% dengan nilai
k=5, 86% dengan
nilai k=7 dan 84%
dengan nilai k=9.
8. Asmaul Penerapan Algoritma 2018 hasil yang
Husnah Metode C4.5 C4.5 diperoleh
Nasrullah Untuk dari penerapan
Klasifikasi metode C4.5 pada
Mahasiswa penelitian ini yaitu
Berpotensi ditemukannya 17
Drop Out rule yang dapat
dijadikan
sebagai pola untuk
menetukan
mahasiswa yang
berpotensi Drop
Out.
9. Ratih Sistem K-Nearest 2015 Hasil capaian dari
Kumalasari Pendukung Neighbor penelitian ini
Niswatin Keputusan adalah sebuah
Penempatan sistem pendukung
Jurusan keputusan berbasis
Mahasiswa web untuk
Baru memberikan
Menggunakan rekomendasi
Metode K- penempatan
Nearest jurusan calon
Neighbor mahasiswa baru
tersebut
disarankan masuk
pada
jurusan teknik
informatika atau
sistem informasi
10. Arddy H. Klasifikasi Naive 2017 Hasil penelitian ini

15
Hallitik, Jurusan Bayes menunjukan

Bertha S. Menggunakan akurasi sebesar
Djahi, Yelly Metode Naive 99.31% dalam
Y. Nabusa Bayes Pada proses
Sekolah pengklasifikasian
Menengah Atas jurusan
Negeri (Sman)
1 Fatuleu
Tengah
2.3. Tinjauan Organisasi

2.3.1. Profil Politeknik LP3I Jakarta
Politeknik LP3I Jakarta didirikan pada tahun 2003 merupakan lembaga
pendidikan tinggi yang berangkat dari nama awalnya yaitu LP3I (Lembaga
Pendidikan dan Pengembangan Peofesi Indonesia) dengan kampus
pertama di Pasar Minggu Jakarta Selatan yang bergerak pada bidang
pendidikan luar sekolah dan didirakn pertama kali pada 29 Maret 1989.
Selanjutnya, bermula dari program kursus 6 bulan, LP3I kemudian
mengembangkan sayapnya menjadi lembaga pendidikan profesi (1-2
tahun), hingga akhirnya pada tahun 2003 sebagian LP3I yang ada sudah
menjadi Politeknik yaitu Bandung, Jakarta dan Medan, sedangkan dalam
proses pengurusan Politeknik baru untuk daerah Makassar dan daerah lain
akan segera menyusul. Khusus Politeknik LP3I Jakarta mendapatkan izin
penyelenggaraan dengan Surat Keputusan Mentri Pendidikan Nasional
Republik Indoensia nomor 158/D/0/2003 dengan kantor pusatnya
(direktorat) beralamat di Gedung Sentra Kramat Jl. Kramat Raya No. 7/9,
Senen, Jakarta Pusat dan sampai saat ini telah memiliki 5 Program Studi
terdiri dari 4 Program Studi Diploma tiga yaitu: Administrasi Bisnis,
Komputerisasi Akuntansi, Manajemen Informatika dan Hubungan
Masyarakat serta 1 Program Studi Diploma empat (Sarjana Terapan) yaitu
Administrasi Bisnis Internasional.

16
2.3.2. Visi dan Misi Politeknik LP3I Jakarta

1. Visi
Menjadi Perguruan Tinggi vokasi yang unggul dan inovatif dengan
orientasi kerja dan wirausaha pada tahun 2020.
2. Misi
a. Menyelenggarakan dan mengembangkan pendidikan vokasi yang
berkualitas, bermoral, kompeten dan berjiwa wirausaha.
b. Mengembangkan kurikulum untuk mengantisipasi kebutuhan dunia
kerja dalam bidang manajemen, bisnis dan teknologi.
c. Mengembangkan dan meningkatkan mutu pengelolaan pendidikan
berdasarkan prinsip-prinsip tata pamong yang baik.
d. Menyelenggarakan penelitian dan pengabdian kepada masyarakat
bagi pengembangan ilmu pengetahuan dan keterampilan untuk
kesejahteraan masyarakat.
e. Melakukan pengembangan dan pengokohan jejaring dan kemitraan
pada tingkat nasional, regional dan internasional.
f. Mengembangkan kualitas sumber daya manusia untuk memberikan
layanan yang prima.
g. Meningkatan kuantitas dan kualitas sarana dan prasarana untuk
mendukung proses pembelajaran yang unggul di bidang
manajemen, bisnis dan teknologi.

Bab 2

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 2

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB II

LANDASAN KERANGKA PEMIKIRAN

2.1. Tinjauan Pustaka

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

perlu dilakukan transformasi dan pembersihan data karena seringkali

4. Data transformation (di mana data berubah atau bersatu menjadi

5. Knowledge Discovery (proses esensial di mana metode yang intelejen

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

6. Pattern evolution (untuk mengidentifikasi pola yang benar-benar

7. Knowledge presentation (di mana gambaran teknik visualisasi dan

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

pemakai perpustakaan lebih banyak mencari informasi tentang subyek

2.1.3. Algoritma C4.5

Algoritma C4.5 dapat menangani data numerik dan diskret. Algoritma

Keterangan konsep Entropi

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Keterangan konsep Gain:

Berikut merupakan cara membangun pohon keputusan dengan

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

2.1.4. Naive Bayes

Dalam sebuah aturan yang mudah, sebuah klasifikasi Naive Bayes

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Rumus mencari Peluang:

2.1.5. Rapid Miner

2.2. Tinjauan Studi

Tabel 2.1 Pemetaan Jurnal Terkait

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

K-Naive Bayes menganalisa

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Hallitik, Jurusan Bayes menunjukan

2.3. Tinjauan Organisasi

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

2.3.2. Visi dan Misi Politeknik LP3I Jakarta

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Anda mungkin juga menyukai