Muhammad Bayu Dwi Ardiansyah - MAKALAH UAS DATAMINING

1
MAKALAH
DATA MINING
Diajukan Untuk Ujian Akhir Semester pada Mata Kuliah Data Mining
Dosen : Dr. Arief Fatchul Huda, S.Si., M.Kom.
Disusun Oleh :
Muhammad Bayu Dwi Ardiansyah (1187010054)
PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SUNAN GUNUNG DJATI
BANDUNG
2
KATA PENGANTAR
Puji syukur kehadirat Allah SWT yang telah memberikan kesehatan jasmani dan rohani sehingga kita masih tetap
bisa menikmati indahnya alam ciptaan-Nya. Sholawat dan salam semoga senantiasa tercurahkan kepada teladan kita
Muhammad SAW yang telah menunjukkan kepada kita jalan yang lurus berupa ajaran agama yang sempurna dan men-
jadi rahmat bagi seluruh alam.
Penulis sangat bersyukur karena telah menyelesaikan makalah ini yang menjadi tugas ujian akhir semester pada
matakuliah Data Mining. Disamping itu, Penulis mengucapkan banyak terima kasih kepada semua pihak yang telah
membantu hingga terselesaikannya makalah ini.
Akhir kata, penulis memahami jika makalah ini tentu jauh dari kesempurnaan maka kritik dan saran sangat kami
butuhkan guna memperbaiki karya-karya kami di waktu-waktu mendatang.
Bandung, 4 Juli 2021
Penulis
3
DAFTAR ISI
COVER ..................................................................................................................................................................... 1
KATA PENGANTAR ................................................................................................................................................. 2
DAFTAR ISI .............................................................................................................................................................. 3
PENDAHULUAN ...................................................................................................................................................... 4
PEMBAHASAN ........................................................................................................................................................ 4
Pengertian Data ............................................................................................................................................ 4
Jenis Data ..................................................................................................................................................... 5
1. Jenis Data Berdasarkan Sifatnya ............................................................................................... 5

2. Jenis Data Berdasarkan Cara memperolehnya.......................................................................... 5
3. Jenis Data Berdasarkan Sumbernya .......................................................................................... 5
Data Preprocessing ...................................................................................................................................... 5
1. Data Cleaning ............................................................................................................................ 5

2. Data Transformation ................................................................................................................. 6
3. Data Reduction .......................................................................................................................... 6
Pengertian Data Mining ................................................................................................................................ 6
Data Mining Menurut Ahli ............................................................................................................................ 6
Algoritma Klasifikasi ...................................................................................................................................... 7
Algoritma C4.5 .............................................................................................................................................. 7
Implementasi Algoritma C4.5 ....................................................................................................................... 7
Evaluasi ....................................................................................................................................................... 12
PENUTUPAN ......................................................................................................................................................... 13
Kesimpulan.................................................................................................................................................. 13
REFERENSI ................................................................................................................................................... 14
4
PENDAHULUAN
Database yang tersimpan di ruang penyimpanan jarang sekali dimanfaatkan oleh sebagian besar penggunanya
dan bahkan dalam jangka waktu tertentu data-data tersebut dihapus karena dianggap sampah dan hanya memenuhi
ruang penyimpanan saja. Padahal sesungguhnya database dalam ukuran yang besar dapat memberikan informasi
yang dibutuhkan untuk berbagai kepentingan, baik untuk kepentingan bisnis dalam mengambil keputusan maupun
untuk ilmu pengetahuan dan penelitian.
Knowledge Discovery In Database(KDD) merupakan metode untuk memperoleh pengetahuan dari database
yang ada. Dalam database terdapat tabel - tabel yang saling berhubungan / berelasi. Hasil pengetahuan yang diperoleh
dalam proses tersebut dapat digunakan sebagai basis pengetahuan (knowledge base) untuk keperluan pengambilan
keputusan. Istilah Knowledge Discovery in Database (KDD) dan data mining seringkali digunakan secara bergantian
untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua
istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain, dan salah satu tahapan dalam kese-
luruhan proses KDD adalah data mining.
PEMBAHASAN
Pengertian Data
Data merupakan suatu kumpulan yang terdiri dari fakta-fakta untuk memberikan gambaran yang luas terkait
dengan suatu keadaan. Seseorang yang akan mengambil sebuah kebijakan atau keputusan umumnya akan
menggunakan data sebagai bahan pertimbangan. Melalui data seseorang dapat menganalisis, menggambarkan, atau
menjelaskan suatu keadaan.
Di samping itu, data dikumpulkan melalui cara-cara tertentu kemudian diolah menjadi suatu informasi yang
jelas dan mudah dipahami setiap orang. Data juga dibutuhkan di dalam berbagai macam keperluan, seperti penjualan,
penelitian hingga kependudukan. Data memiliki jenis dan fungsinya masing-masing, hal ini sesuai dengan kebutuhan
pengelola data.
Secara umum, data banyak digunakan untuk suatu penelitian tertentu. Namun, seiring berjalannya waktu,
data dibutuhkan untuk memenuhi berbagai keperluan di berbagai bidang. Tentunya hal ini bertujuan untuk mem-
berikan informasi yang jelas dan benar setelah data tersebut diolah lebih lanjut.
Dalam bahasa latin, data merupakan bentuk jamak dari datum yang memiliki arti sesuatu yang diberikan. Da-
lam penggunaan sehari-hari, data berarti suatu pernyataan yang diterima secara apa adanya. Data juga merupakan
sebuah hasil dari pengukuran atau pengamatan suatu variabel yang bentuknya dapat berupa kata-kata maupun angka.
Adapun dalam sudut pandang bisnis, data merupakan deskripsi organisasi tentang sesuatu atau kejadian yang
terjadi. Pengertian lain juga menyebutkan bahwa data adalah deskripsi dari sebuah kejadian yang sedang dihadapi.
Setelah data diolah melalui berbagai penelitian dan percobaan, maka data tersebut dapat dibentuk menjadi suatu hal
yeng lebih beragam, seperti database hingga sebagai suatu solusi dalam menyelesaikan masalah
5
Jenis Data
Data dapat dikelompokkan menjadi berbagai macam jenis, di antaranya adalah berdasarkan sifat, sumber,
waktu pengumpulan dan berdasarkan cara memperolehnya.
1. Jenis Data Berdasarkan Sifatnya
Jenis data berdasarkan berdasarkan sifatnya dibagi menjadi dua, yaitu data kualitatif dan data kuantitatif.
Data kualitatif merupakan data yang deskriptif atau bisa disebut dengan data yang tidak berbentuk angka, jenis
data ini umumnya dinyatakan dalam bentuk simbol, gambar, atau variabel.
Data kualitatif dapat diperoleh melalui kuesioner, wawancara, studi literatur dan observasi. Data jenis ini
bersifat obyektif, sehingga setiap orang saat membacanya akan menimbulkan arti serta penafsiran yang ber-
beda-beda.
Sementara itu, data kuantitatif merupakan data yang diperoleh dengan melakukan survei untuk mendapat-
kan jawaban berupa angka. Sehingga apabila seseorang membaca atau memahami data kuantitatif akan
menafsirkan dengan sama.
2. Jenis Data Berdasarkan Cara Memperolehnya
Berdasarkan cara memperolehnya, jenis data dapat dibedakan menjadi dua, yaitu data primer dan data
sekunder. Data primer merupakan data yang diperoleh dari objek yang diteliti oleh orang atau organisasi yang
sedang melakukan penelitian. Adapun contoh dari data primer seperti data hasil wawancara langsung, hasil sur-
vei, dan kuesioner terhadap responden.
Sedangkan data sekunder adalah data yang diperoleh dari sumber lain yang telah ada. Sehingga penulis tidak
mengumpulkan data langsung dari objek yang diteliti. Contoh jenis data sekunder seperti data sensus penduduk,
data penyakit dan data yang dikeluarkan oleh pemerintah.
3. Jenis Data Berdasarkan Sumbernya
Jenis data berdasarkan sumbernya juga dibagi menjadi dua macam, yaitu data internal dan data eksternal.
Data internal adalah data yang diperoleh secara langsung dari tempat penelitian. Adapun contoh jenis ini seperti
jumlah karyawan, tingkat kepuasan karyawan dalam suatu institusi, dan kebutuhan tenaga kerja di suatu perus-
ahaan.
Sedangkan data eksternal merupakan data yang didapat dari luar lingkup kerja di suatu perusahaan. Seperti
data kependudukan, jumlah mahasiswa di kampus dan data penjualan produk dari perusahaan lain.
Data Preprocessing
1. Data Cleaning
Data yang baru saja dikumpulkan kemungkinan besar memiliki banyak bagian yang tidak relevan bahkan
ada bagian yang hilang. Oleh karena itu perlu adanya proses pembersihan data atau biasa dikenal dengan data
cleaning. Hal yang bisa diatasi menggunakan data cleaning adalah penanganan missing value dan noise.
Missing value merupakan kondisi dimana adanya data yang hilang atau tidak lengkap di dalam database.
Cara untuk mengatasi missing value adalah dengan mengabaikan tupel dan mengisi missing value tersebut.
Pengabaian tuple cocok digunakan jika dataset yang digunakan cukup besar dan ada beberapa missing value
6
dalam sebuah tupel. Pengisian missing value dapat dilakukan dengan beberapa cara, seperti mengisi manual
missing value tersebut dengan mean atau nilai lain sesuai dengan jenis data. Noise merupakan data yang tidak
berguna yang tidak dapat diinterpretasikan oleh tools. Noise ini muncul karena pengumpulan data yang salah,
entri data yang kurang tepat, dan lain sebagainya.
2. Data Transformation
Data transformation digunakan untuk mengubah data dalam bentuk yang sesuai dalam proses data mining.
Beberapa teknik untuk data transformation adalah normalization, pemilihan attribute, dan discretization. Nor-
malization dilakukan untuk menskalakan nilai data dalam rentang nilai tertentu, misalnya -1 sampai 1 atau 0
sampai 1. Teknik kedua adalah pemilihan atribut. Pemilihan atribute merupakan proses pemilihan atribut yang
diberikan untuk proses data mining. Terakhir adalah teknik discretization. Teknik ini dilakukan untuk mengganti
raw value pada atribut numerik dengan nilai interval.
3. Data Reduction
Analisis data yang menggunakan dataset dalam ukuran besar akan sangat sulit dilakukan, oleh karena itu,
perlu adanya teknik data reduction dengan tujuan untuk meningkatkan efisiensi penyimpanan serta mengurangi
biaya penyimpanan dan analisis data. Data reduction dibagi menjadi beberapa teknik, yaitu Data Cube Aggrega-
tion, Attribute Subset Selection, Numerosity Reduction, dan Dimensionality Reduction. Teknik-teknik ini mem-
iliki fungsi dan tujuan masing-masing.
Pengertian Data Mining

Data Mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik-teknik, metode-metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses Knowledge Dis-
covery in Database (KDD) secara keseluruhan.
Jika dilihat dilihat pada gambar dalam proses KDD tersebut, Banyak konsep dan teknik yang digunakan dalam
proses data mining. Proses tersebut membutuhkan beberapa langkah untuk mendapatkan sebuah data yang di-
inginkan. Dalam proses KDD tersebut termasuk melakukan pembersihan data, integrasi data, seleksi data, transfor-
masi, penambangan data, evaluasi pola, dan presentasi pengetahuan.
Data Mining Menurut Ahli
Data mining menurut David Hand, Heikki Mannila, dan Padhraic Smyth dari MIT adalah analisa terhadap data
(biasanya data yang berukuran besar) untuk menemukan hubungan yang jelas serta menyimpulkannya yang belum
diketahui sebelumnya dengan cara terkini dipahami dan berguna bagi pemilik data tersebut.
Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari
berbagai database besar. Data mining merupakan serangkaian proses untuk menggali nilai tambah dari suatu kum-
pulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Dari definisi-definisi yang telah disampaikan, hal penting yang terkait dengan data mining:
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
7
2. Data yang akan diproses merupakan data yang sangat besar.

3. Tujuan data mining adalah mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang ber-
manfaat.
Algoritma Klasifikasi
Klasifikasi merupakan sebuah proses untuk menemukan model atau fungsi yang menjelaskan atau mebedakan
konsep dan kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak
diketahui. Decision tree adalah salah satu metode klasifikasi yang paling popular karena mudah untuk diinterpretasi
oleh manusia. Model klasifikasi ini terdiri dari dua yaitu deskripsi dan prediksi. Algoritma decision tree yang paling
terkenal adalah C4.5. Algoritma ini termasuk algoritma terbaik dalam data mining dan berada pada posisi pertama.
Algoritma C4.5
Algoritma C4.5 merupakan perkembangan dari algoritma ID3, dikembangkan oleh Quinlan Ross pada tahun
1993. Algoritma C4.5 merupakan penerapan dari algoritma Hunt yang juga diterapkan pada ID3 dan CART. Algoritma
ini menggunakan proses rekursif dalam membentuk sebuah pohon keputusan. Ketika sebuah atribut dipilih menjadi
node pemecahan atau cabang, maka atribut tersebut tidak diikutkan lagi dalam perhitungan nilai information gain.
Proses rekursif berhenti ketika atribut memiliki cabang berupa kelas atau tidak ada lagi atribut yang bisa dipecah untuk
mejadi cabang pohon keputusan. Pohon keputusan adalah model prediksi menggunakan struktur pohon atau struktur
berhirarki
Implementasi Algoritma C4.5.
Berikut ini adalah implementasi dari algoritma C4.5
1. Data Selection
Data yang digunakan adalah database SIA Program Studi Ilmu Komputer FMIPA Universitas Lam-
bung Mangkurat Banjarbaru. Data yang digunakan adalah data mahasiswa dari angkatan 2006-2010.
Ada beberapa data yang akan digunakan untuk proses selanjutnya yaitu data mahasiswa berupa NIM,
Nama, IP 1, IP 2, IP 3, IP 4, Lama Studi, dan Keterangan
2. Pre-Processing dan Cleaning Data
Pada database SIA Ilmu Komputer ini, semua data sudah relevan, tidak missing value dan tidak
redundant dan sesuai dengan atribut yang ditentukan. Hal ini merupakan syarat awal dalam melakukan
data mining. Dalam database ini, terdapat dataset yang berjumlah 148 data.
3. Transformation
Pada tahap ini perubahan data dilakukan agar lebih mudah untuk proses mining. Perubahan
awal yang dilakukan adalah mengambil data nilai-nilai matakuliah setiap mahasiswa, dari nilai-nilai
matakuliah mahasiswa didapatkan nilai IP Semester setiap ajaran semesternya. Setelah mendapatkan
data berupa nilai IP Semester setiap mhasiswa, kemudian perubahan selanjutnya yaitu merampilkan
nilai matakuliah tugas akhir setiap mahasiswa dengan syarat terdapat nilai Tugas Akhirnya, untuk
mengetahui status lulus dari mahasiswa.
Setelah terjadi beberapa perubahan data maka didapatkan hasil akhir query yang nantinya akan
dilanjutkan pada proses mining. Sehingga terbentuk kumpulan variabel-variabel seperti NIM, Nama,
IPİ, IP2, IP3, IP4, Lama Studi dan Keterangan. Berikut tampilan dataset mahasiswa.
8
Untuk memprediksi masa studi mahasiswa. Dari proses transformasi data sebelumnya diperoleh data
dengan beberapa atribut yang nantinya akan dimining dan dibagi menjadi data training dan data testing. Da-
lam proses mining ini setiap nilai IP Semester dari setiap mahasiswa akan dibuat kategori berdasarkan IP dari
mahasiswa agar lebih memudahkan dalam memproses atau membentuk pohon keputusan berdasarkan data
yang telah ada. Berikut kategori IP.
Kategori Keterangan Rentang IP

A Sangat Baik 3-4
B Baik 2-2,99
C Cukup 1-1,99
D Kurang 0-0,99
Dari proses sebelumnya format dataset berbentuk seperti ini
Nama IP 1 IP 2 IP 3 IP 4 Lama Studi Keterangan

Nadya Rosana 2.2 1.53 2.17 1.88 5 Tepat Waktu
M. Fazeriansyah 3 3.56 2.18 2.32 6 Tidak Tepat Waktu
Mufidah 2.63 3 4 4 5 Tepat Waktu
… … … … … … …
Riski Yulianto 2 1.53 1.84 2 6 Tidak Tepat Waktu
Setelah diubah menjadi bentuk kategori berdasarkan IP Semester kemudian format data menjadi seperti ini.
Nama IP 1 IP 2 IP 3 IP 4 Lama Studi Keterangan

Nadya Rosana B C C D 5 Tepat Waktu
M. Fazeriansyah A A C C 6 Tidak Tepat Waktu
Mufidah B A A A 5 Tepat Waktu
… … … … … … …
Riski Yulianto B C C C 6 Tidak Tepat Waktu
9
Dataset berjumlah 148 akan dibagi menjadi dua yaitu data training berjumlah 110 data sedangkan data
testing berjumlah 30 data. Tidak ada penentuan untuk membuat jumlah dari data training dan data testing,
apabila jumlah data training semakin banyak maka akan semakin bagus dalam menghasilkan pengetahuan.
Tahap pertama yang dilakukan adalah memproses data training dengan menentukan nilai entrophy dari total
data. Kemudian menentukan dan memilih nilai gain yang tertinggi dari semua atribut. Berikut rumus untuk
perhitungan gain dan entrophy.
Dengan :
S : Himpunan Kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke-i
|S| : Jumlah kasus dalam S
Dengan :
S : Himpunan Kasus
A : Atribut
n : Jumlah partisi atribut S
p1 : Proporsi dari S1 terhadap S
Node 1. Dari 110 data terdapat 87 data yang menyatakan mahasiswa tepat waktu dan 23 data yang menyatakan
mahasiswa tidak tepat waktu.
Pada perhitungan node 1 didapatkan hasil nilai entrophy dan gain dari masing-masing IP. Nilai gain
tertinggi dihasilkan oleh IP3, dan dari perhitungan IP3 didapatkan hasil A mendapatkan jumlah Ya sebesar 25,
10
dan D mendapatkan jumlah Tidak bernilai 1, jadi keluaran dari A = Ya dan D = Tidak. Sedangkan pada IP3 B dan
C masih samasama berisi maka dilakukan perhitungan kembali sampai perhitungan akhir. Berikut akar yang
dihasilkan dari nilai gain tertinggi.
Node 2. Perhitungan IP3 B dan C.
Pada perhitungan diatas IP3-B dan IP3-C sama-sama menghasilkan IP1 sebagai nilai gain tertinggi. Untuk
mendapatkan hasil dari IP3 yang belum ditentukan, maka antara IP3-B dan IP3-C dipilih nilai entrophy yang
paling besar. Nilai gain tertinggi dihasilkan dari IP1, yang diantaranya A = Ya, C = Ya dan B akan dihitung kembali.
Berikut hasil perhitungan dari node2.
11
Node 3. Perhitungan IP B.
Nilai gain tertinggi dihasilkan IP2 dengan keluaran A = Ya, B = Ya, C = Tidak dan D = Tidak. Karena tidak ada akar
yang dihasilkan lagi, maka perhitungan sudah selesai. Berikut pohon keputusan (tree) yang sudah terbentuk.
12
Berikut tampilan pohon keputusan beserta aturannya dalam bentuk range IP yang sudah ditentukan sebe-
lumnya.
Aturan dari pohon keputusan (tree) yang sudah terbentuk.
- Jika IP3 = 3-4 maka Ya (Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 3-4 maka Ya (Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 2-2.99 dan IP2 = 3-4 maka Ya (Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 2-2.99 dan IP2 = 2-2.99 maka Ya (Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 2-2.99 dan IP2 = 1-1.99 maka Tidak ( Tidak Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 2-2.99 dan IP2 = 0-0.99 maka Tidak (Tidak Tepat Waktu)
- Jika IP3 = 2-2.99 dan IP1 = 0-0.99 maka Ya (Tepat Waktu) - Jika IP3 = 1-0.99 maka Ya (Tepat Waktu)
- Jika IP3 = 0-0.99 maka Tidak (Tidak Tepat Waktu)
Evaluasi
Pohon keputusan yang telah terbentuk kemudian diuji dengan menggunakan data training dan data
testing. Pada pengujian data training yang berjumlah 110 data menggunakan aturan dari pohon keputusan yang
telah terbentuk, data yang diprediksi yang sesuai dengan data real berjumlah 92 data atau sebesar 83,64 %.
Sedangkan data yang tidak sesuai berjumlah 18 data atau sebesar 16,36 %. Hal ini sesuai dengan nilai akurasi
yang dihasilkan oleh program. Pada program nilai statistic kappa yang dihasilkan sebesar 0,4608 yang berarti
penilaian kuantitatifnya sedang.
Dalam hal pengujian data terhadap data training dikatakan cukup berhasil karena persentasi yang
dihasilkan mencapai 80%. Hal ini dikarenakan data yang digunakan untuk diuji adalah data yang diproses untuk
pembentukan pohon keputusan yaitu data training itu sendiri.
13
Pengujian selanjutnya dilakukan pada data testing yang berjumlah 30 data. Jumlah data yang sesuai
adalah 22 data atau sebesar 73,33 % dan data yang tidak sesuai adalah 8 data atau sebesar 26,67 %. Nilai statistik
kappa yang dihasilkan sebesar 0.0400 yang berarti pengukuran secara kuantitatifnya sedikit berdasarkan kriteria
pada nilai kappa. Pada pengujian data testing persentase yang dihasilkan lebih rendah daripada data training,
hal ini dikarenakan data testing adalah data real yang diprediksi menggunakan pohon keputusan yang telah
terbentuk dan diproses dari data training.
Berdasarkan akurasi yang telah dihasilkan oleh data training dan data testing tidak mencapai persentase
100 %, hal ini dikarenakan ada beberapa faktor yang sangat mempengaruhi dalam proses mining. Beberapa
faktornya diantara lain :
a. Jumlah data yang digunakan untuk proses mining
b. Varian data yang kurang banyak, semakin data itu bervariasi semakin banyak menghasilkan pengetahuan
PENUTUPAN
KESIMPULAN
Kesimpulan yang diperoleh dari penelitian ini adalah:
1. Terdapat beberapa langkah dalam memprediksi masa studi mahasiswa tepat waktu.
a) Selection Data Data yang dipilih adalah database SIA Ilmu Komputer FMIPA Universitas Lambung Mangkurat.
b) Cleaning Data Pada tahap ini semua data sudah benar dan sesuai dengan atribut yang ditentukan untuk proses
selanjutnya.
c) Transformation Data Ada dua belas (12) perubahan pada data untuk terbentuk menjadi format data training
dan data testing untuk dilakukan proses mining.
d) Data Mining Pada tahapan ini terdapat tiga (3) kali iterasi yang menghasilkan pohon keputusan (tree) untuk
dijadikan dasar aturan untuk memprediksi masa studi mahasiswa.
e) Evaluation Pengujian dilakukan pada data training dan data testing. Berdasarkan pengujian yang telah dil-
akukan persentasi yang dihasilkan oleh data training sebesar 80% dengan jumlah 110 data dan data testing
sebesar 73% dengan jumlah 30 data.
2. Penerapan data mining dengan teknik klasifikasi menggunakan algoritma C4.5 yang dilakukan menghasilkan sebuah
informasi dalam memprediksi masa studi tepat waktu mahasiswa di program studi Ilmu Komputer FMIPA UNLAM,
dengan tingkat akurasi yang dihasilkan sebesar 73,33% dengan jumlah 30 data testing dari 140 data set.
14
REFERENSI
Larose, D.T, 2005. “Discovering Knowledge in Data: An Introduction to Data Mining”. John Willey & Sons, Inc.
Larose, D.T, 2005. “Data Mining Method and Models”, Inc Publication.
Han, Jiawei. “Data Mining Concepts and Techniques”, The Morgan Kaufmann
Wu, X. 2008. “Top 10 Algorithms in Data Mining”, Department of Computer Science, University of Vermont Burlington,
VT, USA.
https://www.dqlab.id/langkah-awal-dalam-pemrosesan-data-dalam-data-mining
https://www.merdeka.com/jateng/pengertian-data-beserta-jenis-fungsi-dan-contohnya-yang-perlu-diketahui-
kln.html?page=4
https://core.ac.uk/download/pdf/229192374.pdf
https://ocw.upj.ac.id/files/Handout-TIF311-DM-1.pdf
https://www.jagoanhosting.com/blog/apa-itu-data-mining/

Muhammad Bayu Dwi Ardiansyah - MAKALAH UAS DATAMINING

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Muhammad Bayu Dwi Ardiansyah - MAKALAH UAS DATAMINING

Diunggah oleh

Hak Cipta:

Format Tersedia

1

PROGRAM STUDI MATEMATIKA

Bandung, 4 Juli 2021

Jenis Data ..................................................................................................................................................... 5

1. Jenis Data Berdasarkan Sifatnya ............................................................................................... 5

Data Preprocessing ...................................................................................................................................... 5

1. Data Cleaning ............................................................................................................................ 5

Pengertian Data Mining ................................................................................................................................ 6

Data Mining Menurut Ahli ............................................................................................................................ 6

Algoritma Klasifikasi ...................................................................................................................................... 7

Algoritma C4.5 .............................................................................................................................................. 7

Implementasi Algoritma C4.5 ....................................................................................................................... 7

1. Jenis Data Berdasarkan Sifatnya

2. Jenis Data Berdasarkan Cara Memperolehnya

3. Jenis Data Berdasarkan Sumbernya

Pengertian Data Mining

Data Mining Menurut Ahli

2. Data yang akan diproses merupakan data yang sangat besar.

Implementasi Algoritma C4.5.

Berikut ini adalah implementasi dari algoritma C4.5

Kategori Keterangan Rentang IP

Dari proses sebelumnya format dataset berbentuk seperti ini

Nama IP 1 IP 2 IP 3 IP 4 Lama Studi Keterangan

Nama IP 1 IP 2 IP 3 IP 4 Lama Studi Keterangan

Node 2. Perhitungan IP3 B dan C.

Aturan dari pohon keputusan (tree) yang sudah terbentuk.

- Jika IP3 = 3-4 maka Ya (Tepat Waktu)

- Jika IP3 = 2-2.99 dan IP1 = 3-4 maka Ya (Tepat Waktu)

- Jika IP3 = 0-0.99 maka Tidak (Tidak Tepat Waktu)

a. Jumlah data yang digunakan untuk proses mining

Kesimpulan yang diperoleh dari penelitian ini adalah:

Anda mungkin juga menyukai