Diajukan Oleh
Diajukan Oleh
PROPOSAL SKRIPSI
Diajukan oleh
Mengetahui,
Koordinator Prodi Teknik Informatika,
2
KATA PENGANTAR
Puji syukur kepada Allah SWT, Tuhan Yang Maha Esa sehingga dapat
DAN ALGORITMA C4.5”. Proposal ini disusun sebagai salah satu tahapan dalam
Oleh karena itu, pada kesempatan ini kami ingin mengucapkan terima
kasih kepada semua pihak yang telah mendukung serta membantu saya selama
1. Orang tua dan Saudara-saudara saya atas do’a, bimbingan serta kasih
sayangnya.
2. Dr. Nataniel Dengen, S.Si., M.Si selaku Dekan Fakultas Ilmu Komputer dan
penelitian ini
5. Edy Budiman, S.Pd, MT sebagai Ketua Jurusan Teknologi Informasi dan
Komunikasi.
6. Dosen Penguji I selaku Penguji I atas saran dan masukkan terhadap penelitian
ini.
3
7. Dosen Penguji II selaku Penguji II atas saran dan masukkan terhadap
penelitian ini.
8. Masna Wati, S.Si, MT selaku Ketua Program Studi Teknik Informatika
9. Segenap Dosen Jurusan Teknik Informatika, yang telah memberikan ilmu
Saya menyadari bahwa proposal skripsi ini tidak luput dari berbagai
kekurangan. Oleh karena itu, semua kritik dan saran yang bersifat memperbaiki
4
ABSTRAK
5
DAFTAR ISI
Halaman
HALAMAN SAMPUL
LEMBAR PENGESAHAN...................................................................................ii
6
KATA PENGANTAR............................................................................................iii
ABSTRAK..............................................................................................................v
DAFTAR ISI..........................................................................................................vi
DAFTAR GAMBAR............................................................................................vii
DAFTAR TABEL................................................................................................viii
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang..........................................................................................1
1.2 Rumusan Masalah.....................................................................................2
1.3 Batasan Masalah........................................................................................3
1.4 Tujuan Penelitian.......................................................................................3
1.5 Manfaat Penelitian.....................................................................................3
1.6 Kontribusi Penelitian.................................................................................4
1.7 Sistematika Penulisan................................................................................5
BAB II TINJAUAN PUSTAKA............................................................................6
2.1 Data Mining...............................................................................................6
2.2 Tahapan Data Mining................................................................................8
2.3 Clustering................................................................................................10
2.4 Decision...................................................................................................16
2.5 Pengukuran Alur K-Means dan C4.5......................................................20
2.6 Profil SMA Negeri 1 Sangasanga............................................................22
2.7 Penelitian Sebelumnya............................................................................22
2.8 Perbedaan Penelitian Terdahulu..............................................................23
BAB III METODOLOGI PENELITIAN..........................................................25
3.1 Waktu dan Tempat Penelitian..................................................................25
3.2 Metode Penelitian....................................................................................25
3.3 Algoritma K-Means.................................................................................29
3.4 Algoritma C4.5........................................................................................31
3.5 Perangkat Penelitian................................................................................33
3.6 Jadwal Penelitian.....................................................................................34
DAFTAR PUSTAKA...........................................................................................35
DAFTAR GAMBAR
7
Halaman
Gambar 2.1 Bidang Ilmu Data Mining...............................................................8
Gambar 2.2 Data Mining sebagai tahapan dalam proses KDD..........................8
Gambar 3.1 Diagram Tahap Penelitian...............................................................26
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means.........................29
Gambar 3.3 Flowchart metode Decision Algoritma C4.5...................................31
8
DAFTAR TABEL
Halaman
Tabel 2.1 Daftar Penelitian Terkait.....................................................................19
Tabel 3.1 Sampel USBN.....................................................................................28
Tabel 3.2 Jadwal Penelitian.................................................................................34
9
BAB I
PENDAHULUAN
waktu dan tenaga yang banyak sesuai dengan era digital saat sekarang
ini.
Dalam sebuah sekolah, dibutuhkan sistem administrasi yang dapat
sekolah tersebut meluluskan lebih dari 100 orang siswa. Nilai-nilai dari
dirilis oleh sekolah tersebut terdiri dari Nilai Ujian Nasional beserta
1
NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-MEANS
C4.5.
berikut:
2
1. Menggunakan data Ujian Sekolah Berstandar Nasional (USBN)
tahun 2019
2. Jumlah data sedikitnya 147 data siswa
3. Menggunakan seluruh nilai USBN mata pelajaran sesuai dengan
tersebut
pihak, khususnya:
1. Penulis
3
2. Mahasiswa
Penelitian ini dapat memberikan pengetahuan kepada mahasiswa
pembelajaran.
3. Instansi/Lembaga/Perusahaan
Dengan adanya hasil analisa IMPLEMENTASI DATA MINING
4
penelitian, manfaat penelitian, kontribusi penelitian dan sistematika
penulisan proposal.
Bab II terdiri dari pustaka-pustaka akademis yang mendukung teori
dan praktek yang digunakan peneliti sebagai dasar dan alat untuk
5
BAB II
TINJAUAN PUSTAKA
pengetahuan yang terkait dari berbagai basis data besar (Turban, dkk.
2005).
hubungan dalam set data berukuran besar. Keluaran dari data mining ini
6
Berdasarkan beberapa pengertian tersebut, dapat ditarik kesimpulan
bahwa data mining adalah suatu teknik menggali informasi yang ada
pada suatu database yang sangat besar sehingga ditemukan suatu pola
antara dua atau lebih dalam satu dimensi. Misalnya, dalam dimensi
produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau
lebih atribut dan dua atau lebih objek (Pohniah, 2001). Sementara itu,
7
Gambar 2.1 Bidang Ilmu Data Mining
hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses
8
1. Cleaning and Integration
Langkah pertama adalah dengan melakukan pembersihan
untuk menghilangkan noise dan data yang tidak konsisten dan proses
diolah.
3. Data Mining
Data Mining adalah proses mencari pola atau informasi
benar menarik dari hasil data mining. Setelah didapatkan pola yang
berkepentingan.
9
2.3 Clustering
data yang similiar satu sama lain dalam klaster yang sama dan
yang berbeda dalam satu klaster akan mempunyai kesamaan yang tinggi
atribut- atribut data. Dalam data mining, usaha difokuskan pada metode-
metode penemuan untuk klaster pada basis data berukuran besar secara
10
Secara garis besar, terdapat metode klasterisasi data. Pemilihan
metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu
meliputi:
dan DENCLU.
4. Grid-base Method: Metode ini berdasarkan suatu struktur granularitas
masing klaster dan ide untuk mencari best fit dari model tersebut
11
2.3.1 K-Means Clustering
mempartisi data yang ada ke dalam bentuk satu atau lebih cluster
angka-angka random.
12
tersebut. Demikian juga kedekatan suatu data ke cluster tertentu
ditentukan jarak antara data dengan pusat cluster. Dalam tahap ini
perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak antara
satu data dengan satu cluster tertentu akan menentukan suatu data
bawah ini:
Keterangan:
data atau objek dalam cluster tertentu. Jika dikehendaki bisa juga
X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk
Keterangan
13
Rk: Rata-rata cluster baru
Nk: Jumlah training pattern pada cluster(k)
Xnk: Pola(n) yang menjadi bagian dari cluster(k)
baru. Jika pusat cluster tidak berubah lagi maka proses clustering
berubah lagi.
bottom-up atau top down (split). (Han & Kamber, 2006). Pada
yang lebih besar hingga sebuah objek terhubung dalam satu buah
kecil hingga setiap cluster memiliki dua atau satu buah objek atau
14
Sebelum pembentukan sebuah cluster perlu dihitung jarak
kemiripan data. Satu di antara cara yang ada adalah similiarity matrix
sebagai berikut:
2
Ai −B i ¿
d(A, B) = ∑ n ¿
i=1
√¿
Keterangan:
2.4 Decision
15
mereka juga dapat diekspresikan dalam bentuk bahasa
lain.
tujuannya.
16
Sebuah pohon keputusan mungkin dibangun dengan
17
menjadi model pohon, mengubah model pohon menjadi
18
sampai semua kasus pada cabang memiliki kelas yang
seperti berikut:
¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1
Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si| = Jumlah Kasus pada Partisi ke-i
|S| = Jumlah Kasus dalam S
−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1
Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si|: Jumlah Kasus pada Partisi ke-i
|S|: Jumlah Kasus dalam S
19
Kedua rumus tersebut akan digunakan untuk
beberapa alur yang dilakukan dimulai dari input data, proses, sampai
a. Alur Input Data Data yang dibutuhkan dalam penelitian ini adalah
dengan data, maka perlu dihitung jarak setiap data dengan titik
20
pusat setiap cluster. Proses cluster dikatakan selesai apabila pusat
yang selanjutnya dicari nilai gain dan entropy untuk dapat dibuat
oleh beberapa guru yang pada akhirnya juga bekerja disana sebagai guru
dan sampai saat ini SMA Negeri 1 Sangasanga merupakan sekolah yang
21
Kartanegara dengan diberikannya predikat akreditasi A. Dan sampai
dengan saat ini, SMA Negeri 1 Sangasanga telah meluluskan lebih dari
100 siswa yang lulus berdasarkan Nilai Ujian Nasional atau Nilai Ujian
sebelumnya. Adapun daftar penelitian terkait dapat dilihat pada Tabel 2.1.
22
Tabel 2.1 Daftar Penelitian Terkait
19
Nama Penulis,
Nama Jurnal,
No Judul Artikel Metode Temuan Penelitian
Volume, Edisi, No,
Tahun Terbit, URL
1. Adi Syah Petera Aplikasi Data Clustering dan Data yang diperlukan dalam penelitian ini diperoleh
Dewata, Putra Zoel Mining Berbasis Decision melalui bagian akademik SMA Bunda Mulia yang berupa
Ibrahim, Halim Android data siswa yang telah lulus ujian masuk SMA dimulai
Agung. 2018. Jurnal Menggunakan pada tahun ajaran 2014-2015. Data tersebut berisi data diri
Sains dan Teknologi. Algoritma K-Means siswa yang telah lulus dari ujian, namun pada penelitian
Vol. 5, No.1. e- Clustering dan ini hanya beberapa atribut saja yang digunakan seperti
ISSN: 2356-4393 Algoritma C4.5 nomor induk siswa, nilai mata pelajaran eksak IPA, nilai
http://research.kalbis Untuk Memprediksi mata pelajaran eksak IPS, dan psikotest. Setelah dilakukan
.ac.id/Research/Files Pengambilan clustering, didapatkan hasil bahwa jarak data siswa
/Article/Full/T0GIP Jurusan Siswa SMA pertama yang paling dekat dengan cluster 1, sehingga data
CKHKLRFJ043WZ kelas X Pada siswa pertama dimasukkan ke dalam cluster 1. Dalam
YF615Y9.pdf Sekolah Bunda penelitian ini, iterasi clustering data siswa terjadi sebanyak
Maria (Studi Kasus 8 kali iterasi. Pada iterasi ke-8, titik pusat dari setiap
SMA Bunda Mulia cluster sudah tidak berubah dan tidak ada lagi data yang
Kota Jakarta Pusat) berpindah dari satu cluster ke cluster yang lain.
Berdasarkan hasil pengelompokkan data menggunakan
metode k-means clustering didapatkan hasil cluster hingga
iterasi ke-7 dimana titik pusat tidak lagi berubah dan
berpindah antar cluster dan jika sudah selesai, maka dapat
dilanjutkan pada proses C4.5. Setelah dilakukan
perhitungan menggunakan algoritma C4.5, digunakan
pohon keputusan untuk dapat diambil keputusan tentang
jurusan yang harus diambil oleh siswa. Menggunakan
sebanyak 50 siswa untuk menguji dan mendapatkan hasil
akhir dan mendapatkan kriteria pengambilan keputusan
jurusan IPA dari hasil pohon keputusan.
2. Agus Perdana Penerapan Data Clustering Data yang digunakan pada penelitian ini diperoleh dari 10
Windarto. 2017. Mining Pada Ekspor negara dari tahun 2002 - 2015 data yang dikumpulkan
Jurnal Techno COM. Buah-Buahan berdasarkan dokumen-dokumen keterangan ekspor impor
Vol. 16, No. 4. Menurut Negara yang dihasilkan oleh Direktorat Bea Cukai melalui situs
ISSN: 348-357. Tujuan https://www.bps.go.id. Dalam penerapan Algoritma K-
http://publikasi.dinu Menggunakan K- Means dihasilkan nilai titik tengah atau centroid dari data
s.ac.id/index.php/tec Means Clustering yang didapat dengan ketentuan bahwa clusterisasi yang
hnoc/article/view/14 (Studi Kasus: 10 diinginkan adalah 3. Penentuan cluster terbagi atas 3,
47 Negara, yakni yakni cluster ekspor tingkat tinggi (C1), cluster ekspor
20
Hongkong, tingkat sedang (C2), dan cluster ekspor tingkat rendah
Tiongkok, (C3) dengan masing-masing penentuan dengan
Singapura, menggunakan nilai maksimum (C1), average (C2), dan
Malaysia, Nepal, minimum (C3). Proses cluster dengan mengambil jarak
21
2.8 Perbedaan Penelitian Sebelumnya
yang dibuat tanpa campur tangan orang lain apalagi melakukan plagiat.
Kumulatif dengan menggunakan data per angkatan, dalam hal ini penulis
terdapat pada studi kasus yang berbeda, dalam ini terlihat dari metode
yang sama tetapi berbeda dari segi studi kasus dan metodologi penelitian.
yang ditarik, sehingga dalam hal ini hanya beberapa penulis yang
menerapkan dua metode dalam satu penelitian. Dan juga disini digunakan
22
data Ujian Sekolah Berstandar Nasional (USBN) yang sekiranya masih
23
BAB III
METODOLOGI PENELITIAN
yaitu:
1. Studi Pustaka
Studi Kepustakaan adalah teknik pengumpulan data dengan
24
Wawancara merupakan pertemuan dua orang atau lebih untuk bertukar
penyelesaian masalah.
2. Mengidentifikasi dan Merumuskan Masalah
25
Setelah memahami Studi Lapangan yang telah dipelajari, peneliti
yang diangkat.
4. Pengumpulan Data dan Informasi
Pada tahap ini peneliti mengumpulkan data yang terkait dengan
Berstandar Nasional (USBN) tahun 2019. Data ini diperoleh dari Staf
sampel mata pelajaran yang diperoleh dari Staf Tata Usaha SMA Negeri 1
26
Tabel 3.1 Data USBN SMA Negeri 1 Sangasanga 2019
Nama
B.Indo B.Ing MAT
Nilai
Nur Kartika 74 62 48
Annisa 64 56 46
Asriansyah 68 58 50
Sahrul Romadan 50 64 40
Dhea Anggita Putri 66 52 32
Syarifah Fahira Fasya 70 68 56
Yulia Eka Rahma Anisa 72 66 58
Sadam Syahrul 60 48 30
Nur Khafifah 78 70 64
Fitri Rahmadini 70 60 54
Oktavian Yoga 74 78 60
Siti Mariska Sari 68 66 58
Rizal Nursandi 58 50 28
Agil Tri S. 56 50 34
Dinul Qoyyimah 60 54 30
Ryanmizar Aini Iqbal 58 44 42
Nabila Juwita 80 76 62
Brian Franklin Tambunan 70 42 44
Rosita Andiani 68 54 44
Aldo Septiawan 80 66 58
27
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means
sebagai berikut:
random.
jarak antara data dengan pusat cluster. Dalam tahap ini perlu
dihitung jarak tiap data ke tiap pusat cluster. Jarak antara satu data
28
dengan satu cluster tertentu akan menentukan suatu data masuk
Keterangan:
sekarang. Pusat cluster adalah ratarata dari semua data atau objek
bawah ini
X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk
Keterangan
29
5.) Tugaskan lagi tiap objek memakai ousat cluster yang baru. Jika
lagi.
dengan memilih atribut sebagai node akar, membuat cabang untuk tiap-tiap
nilai, bagi kasus tiap cabang, dan mengulangi proses untuk setiap cabang
sampai semua kasus pada cabang memiliki kelas yang sama. Untuk
30
memilih atribut sebagai node akar, didasarkan pada nilai Gain tertinggi
¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1
Keterangan:
S: Himpunan Kasus
A: Atribut
ini dapat dicari dengan menggunakan rumus yang ada di bawah ini:
−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1
Keterangan:
S: Himpunan Kasus
31
A: Atribut
4. MATLAB
32
3.6 Jadwal Penelitian
terjadwal dan selesai sesuai dengan waktu yang telah ditentukan, maka
Bulan
No Kegiatan
Okt Nov Des Jan Feb Mar Apr Mei
Tahap Persiapan Penelitian
1. Pembuatan
Proposal
I
2. Seminar Proposal
3. Perbaikan Seminar
Proposal
Tahap Pelaksanaan
1. Pengumpulan Data
II
2. Mengolah Data
dan analisis
Tahap Penyusunan Laporan
1. Seminar Hasil
2. Perbaikan Seminar
Hasil
III 3. Penulisan Artikel
Ilmiah
4. Seminar Akhir
5. Perbaikan Seminar
Akhir
33
DAFTAR PUSTAKA
Adi Syah Petera Dewata, Putra Zoel Ibrahim, H. A. (2018). Aplikasi Data Mining
Berbasis Android Menggunakan Algoritma K-Means Clustering dan
Algoritma C4.5 Untuk Memprediksi Pengambilan Jurusan Siswa SMA Kelas
X Pada Sekolah Bunda Maria. Jurnal Sains Dan Teknologi, 5, No. 1(2356–
4393).
David Hartanto Kamagi, S. H. (2014). Implementasi Data Mining dengan
Algoritma C4.5 untuk memprediksi kelulusan Mahasiswa. Jurnal
ULTIMATICS, Vol.6, No.(2085–4552).
Fina Nasari, S. D. (2015). Penerapan K-Means Clustering Pada Data Penerimaan
Mahasiswa Baru. Jurnal Seminar Nasional Teknologi Informasi Dan
Multimedia, (2302–3805).
Kusrini, E. T. L. (2009). Algoritma Data Mining (T. A. Prabawati, ed.).
Yogyakarta: STMIK AMIKOM Yogyakarta.
M.Emre Celebi, Hassan A. Kingravi, P. A. V. (2013). A Comparative Study of
Efficient Initialization Methods for the K-Means Clustering Algorithm.
Expert Systems with Applications Journal, (1209–1960).
Windarto, A. P. (2017). Penerapan Data Mining Pada Ekspor Buah-Buahan
Menurut Negara Tujuan Menggunakan K-Means Clustering. Jurnal Techno
COM, Vol.16, No(348–357).
34