Diajukan Oleh

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN
SISWA SMA NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-

MEANS CLUSTERING DAN ALGORITMA C4.5
PROPOSAL SKRIPSI
Diajukan oleh
Muhammad Luthfi Fahrozi

1715015020
PROGRAM STUDI TEKNIK INFORMATIKA

JURUSAN TEKNOLOGI INFORMASI DAN KOMUNIKASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS MULAWARMAN
SAMARINDA
2019
LEMBAR PENGESAHAN
SEMINAR PROPOSAL PENELITIAN
IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN

SISWA SMA NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-
MEANS CLUSTERING DAN ALGORITMA C4.5
Yang dipersiapkan dan disusun oleh

1715015020
Telah disetujui oleh
Dosen Pembimbing I Dosen Pembimbing II
Haviluddin, Ph.D Masna Wati, S.Si, MT

NIP. 19730528 199903 1 001 NIP. 19851103 201404 2 002
Mengetahui,
Koordinator Prodi Teknik Informatika,
Masna Wati, S.Si, MT

NIP. 19851103 201404 2 002
2
KATA PENGANTAR
Puji syukur kepada Allah SWT, Tuhan Yang Maha Esa sehingga dapat
menyelesaikan proposal skripsi dengan judul “IMPLEMENTASI DATA MINING
UNTUK MEMPREDIKSI KELULUSAN SISWA SMA NEGERI 1
SANGASANGA MENGGUNAKAN METODE K-MEANS CLUSTERING
DAN ALGORITMA C4.5”. Proposal ini disusun sebagai salah satu tahapan dalam
menyelesaikan skripsi pada Fakultas Ilmu Komputer dan Teknologi Informasi
(FKTI), Universitas Mulawarman.
Oleh karena itu, pada kesempatan ini kami ingin mengucapkan terima
kasih kepada semua pihak yang telah mendukung serta membantu saya selama
proses penyusunan proposal skripsi, kepada:
1. Orang tua dan Saudara-saudara saya atas do’a, bimbingan serta kasih
sayangnya.
2. Dr. Nataniel Dengen, S.Si., M.Si selaku Dekan Fakultas Ilmu Komputer dan
Teknologi Informasi (FKTI), Universitas Mulawarman.

3. Haviluddin, Ph.D selaku Pembimbing I yang selalu memberikan arahan dan
masukkan terhadap penelitian ini.

4. Masna Wati, S.Si, MT selaku Pembimbing II atas masukkan terhadap
penelitian ini
5. Edy Budiman, S.Pd, MT sebagai Ketua Jurusan Teknologi Informasi dan
Komunikasi.
6. Dosen Penguji I selaku Penguji I atas saran dan masukkan terhadap penelitian
ini.
3
7. Dosen Penguji II selaku Penguji II atas saran dan masukkan terhadap
penelitian ini.
8. Masna Wati, S.Si, MT selaku Ketua Program Studi Teknik Informatika
9. Segenap Dosen Jurusan Teknik Informatika, yang telah memberikan ilmu
pengetahuan selama mengikuti perkuliahan.

10. Rekan-rekan seperjuangan yang terus memberikan dukungan semangat demi
terselesainya tugas ini.
Saya menyadari bahwa proposal skripsi ini tidak luput dari berbagai
kekurangan. Oleh karena itu, semua kritik dan saran yang bersifat memperbaiki
demi kesempurnaan sangat diharapkan.
Samarinda, 18 September 2019
4
ABSTRAK
SMA Negeri 1 Sangasanga merupakan salah satu Sekolah Menengah Atas

di Kabupaten Kutai Kartanegara. Di setiap tahunnya, sekolah tersebut meluluskan
lebih dari 100 orang siswa dengan data kelulusan yang kompleks. Penelitian ini
bertujuan untuk dapat mengimplementasi metode clustering dan metode decision
yang digunakan untuk melakukan penelitian. Pada Penelitian ini membahas
tentang Penerapan K-Means Clustering dan Decision pada nilai Ujian Sekolah
Berstandar Nasional (USBN) siswa yang telah lulus. Sumber data penelitian ini
dikumpulkan berdasarkan keterangan-keterangan kelulusan yang dihasilkan oleh
SMA Negeri 1 Sangasanga. Data yang digunakan dalam penelitian ini adalah data
dari tahun 2019. Pada penelitian ini, akan dilakukan pengelompokkan data dengan
menggunakan metode clustering dan selanjutnya akan diambil keputusan
kelulusan menggunakan pohon keputusan yang selanjutnya akan dijadikan
sebagai acuan dalam meluluskan siswa berdasarkan perhitungan sesuai dengan
algoritma yang digunakan.
Kata Kunci : Clustering, K-Means, Decision, kelulusan, siswa
5
DAFTAR ISI
Halaman
HALAMAN SAMPUL
LEMBAR PENGESAHAN...................................................................................ii
6
KATA PENGANTAR............................................................................................iii
ABSTRAK..............................................................................................................v
DAFTAR ISI..........................................................................................................vi
DAFTAR GAMBAR............................................................................................vii
DAFTAR TABEL................................................................................................viii
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang..........................................................................................1
1.2 Rumusan Masalah.....................................................................................2
1.3 Batasan Masalah........................................................................................3
1.4 Tujuan Penelitian.......................................................................................3
1.5 Manfaat Penelitian.....................................................................................3
1.6 Kontribusi Penelitian.................................................................................4
1.7 Sistematika Penulisan................................................................................5
BAB II TINJAUAN PUSTAKA............................................................................6
2.1 Data Mining...............................................................................................6
2.2 Tahapan Data Mining................................................................................8
2.3 Clustering................................................................................................10
2.4 Decision...................................................................................................16
2.5 Pengukuran Alur K-Means dan C4.5......................................................20
2.6 Profil SMA Negeri 1 Sangasanga............................................................22
2.7 Penelitian Sebelumnya............................................................................22
2.8 Perbedaan Penelitian Terdahulu..............................................................23
BAB III METODOLOGI PENELITIAN..........................................................25
3.1 Waktu dan Tempat Penelitian..................................................................25
3.2 Metode Penelitian....................................................................................25
3.3 Algoritma K-Means.................................................................................29
3.4 Algoritma C4.5........................................................................................31
3.5 Perangkat Penelitian................................................................................33
3.6 Jadwal Penelitian.....................................................................................34
DAFTAR PUSTAKA...........................................................................................35
DAFTAR GAMBAR
7
Halaman
Gambar 2.1 Bidang Ilmu Data Mining...............................................................8
Gambar 2.2 Data Mining sebagai tahapan dalam proses KDD..........................8
Gambar 3.1 Diagram Tahap Penelitian...............................................................26
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means.........................29
Gambar 3.3 Flowchart metode Decision Algoritma C4.5...................................31
8
DAFTAR TABEL
Halaman
Tabel 2.1 Daftar Penelitian Terkait.....................................................................19
Tabel 3.1 Sampel USBN.....................................................................................28
Tabel 3.2 Jadwal Penelitian.................................................................................34
9
BAB I
PENDAHULUAN
1.1 Latar Belakang
Seiring perkembangan teknologi yang semakin maju, terobosan
revolusi indosutri 4.0, membuat kehidupan sehari-hari manusia
terintegrasi dengan aplikasi dan sistem yang dapat memudahkan manusia
dapat mengerjakan tugasnya.

Dalam mengerjakan tugasnya, perusahaan atau instansi tidak
menginginkan suatu pekerjaan yang sukar dan terlalu rumit melainkan
mereka menginginkan sesuatu yang mudah dan tidak terlalu memakan
waktu dan tenaga yang banyak sesuai dengan era digital saat sekarang
ini.
Dalam sebuah sekolah, dibutuhkan sistem administrasi yang dapat
memudahkan para guru ataupun siswa dalam melakukan kegiatan
administrasi baik itu dalam perilisan rapor siswa, keperluan sertifikasi
dan insentif guru, serta pemberian nilai akademik bagi siswanya.

SMA Negeri 1 Sangasanga merupakan salah satu Sekolah
Menengah Atas di Kabupaten Kutai Kartanegara. Di setiap tahunnya,
sekolah tersebut meluluskan lebih dari 100 orang siswa. Nilai-nilai dari
dirilis oleh sekolah tersebut terdiri dari Nilai Ujian Nasional beserta
Rata-ratanya dan Nilai Ujian Sekolah beserta Rata-ratanya.

Oleh sebab itu, penelitian ini mengangkat judul “IMPLEMENTASI
DATA MINING UNTUK MEMPREDIKSI KELULUSAN SISWA SMA
1
NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-MEANS
CLUSTERING DAN ALGORITMA C4.5” menggunakan metode K-
MEANS CLUSTERING dan ALGORITMA C4.5 pada DATA MINING
Hal ini bertujuan agar dapat Menerapkan Algoritma K-Means dan
Algoritma C4.5 untuk dapat mengelompokkan nilai-nilai akademik dan
memprediksikan kelulusan para siswa SMA Negeri 1 Sangasanga.

Di dalam penelitian ini bermanfaat untuk dapat mengelompokkan
nilai-nilai akademik para siswa untuk dapat diambil prediksi dan
kesimpulan untuk meluluskan siswa tersebut, sehingga diketahui dasar
dari kelulusan siswa tersebut berdasarkan dengan nilai akademiknya.

Dapat dipahami juga bahwa, dalam penelitian ini mampu mengolah
data dengan mengelompokkannya dengan Algortima K-Means dan dapat
diprediksi dan diambil keputusannya dengan menggunakan Algoritma
C4.5.
1.2 Rumusan Masalah
Berdasarkan latar belakang penelitian, maka yang menjadi rumusan
masalah dalam penelitian ini adalah

1. Bagaimana langkah-langkah dalam penerapan metode clustering
Algoritma K-Means dan pengambilan prediksi nilai akademik
menggunakan algoritma C4.5?
1.3 Batasan Masalah
Adapun batasan masalah dalam penelitian ini adalah sebagai
berikut:
2
1. Menggunakan data Ujian Sekolah Berstandar Nasional (USBN)
tahun 2019
2. Jumlah data sedikitnya 147 data siswa
3. Menggunakan seluruh nilai USBN mata pelajaran sesuai dengan
jurusan yang diampu oleh siswa

4. Berdasarkan input data nilai USBN, akan tampil output berupa
kluster nilai-nilai serta prediksi kelulusan siswa tersebut

5. Pengguna sistem adalah staf administrasi yang ada pada sekolah
tersebut
1.4 Tujuan Penelitian
Dalam penelitian ini, tujuan yang ingin dicapai adalah melakukan
analisis terhadap data-data nilai USBN yang didapatkan oleh siswa-siswa
untuk dapat diketahui prediksi kelulusan siswa tersebut
1.5 Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat pada berbagai
pihak, khususnya:
1. Penulis
Untuk mengembangkan wawasan penulis dalam
mengimplementasikan metode clustering Algoritma K-Means dan
Algortima C4.5 untuk semakin diperluas pengetahuannya dalam
mengelompokkan dan memprediksikan sebuah data.
3
2. Mahasiswa
Penelitian ini dapat memberikan pengetahuan kepada mahasiswa
bagaimana metode clustering dengan Algoritma K-Means dan
Algoritma C4.5 dan menjadi referensi khususnya bagi mahasiswa
dibidang Teknik Informatika yang dapat membantu proses
pembelajaran.
3. Instansi/Lembaga/Perusahaan
Dengan adanya hasil analisa IMPLEMENTASI DATA MINING
SANGASANGA MENGGUNAKAN METODE K-MEANS
CLUSTERING DAN ALGORITMA C4.5 diharapkan dapat
membantu Instansi/Lembaga/Perusahaan untuk melakukan
penelitian dengan metode atau algoritma yang sama.
1.6 Kontribusi Penelitian
Dengan adanya hasil analisa IMPLEMENTASI DATA MINING
SANGASANGA MENGGUNAKAN METODE K-MEANS
CLUSTERING DAN ALGORITMA C4.5 diharapkan menjadi model
penerapan metode clustering dengan Algoritma K-Means dan Algoritma
C4.5dalam melakukan penelitian lainnya.
1.7 Sistematika Penulisan
Bab I, memberikan gambaran motivasi dalam penelitian ini. Bab I,
terdiri dari latar belakang, rumusan masalah, batasan masalah, tujuan
4
penelitian, manfaat penelitian, kontribusi penelitian dan sistematika
penulisan proposal.
Bab II terdiri dari pustaka-pustaka akademis yang mendukung teori
dan praktek yang digunakan peneliti sebagai dasar dan alat untuk
menyelesaikan masalah yang diteliti.

Bab III, memberikan gambaran secara jelas dan terstruktur metode
yang digunakan. Bab III, terdiri dari metodologi penelitian yang
menjelaskan tentang waktu dan tempat penelitian, perangkat yang
mendukung penelitian, data-data yang akan digunakan dalam penelitian
serta langkah-langkah dalam menyelesaian masalah yang diteliti.
5
BAB II
TINJAUAN PUSTAKA
2.1 Data Mining
Data Mining adalah serangkaian proses untuk menggali nilai
tambah berupa pengetahuan yang selama ini tidak diketahui secara
manual. Data mining adalah proses yang menggunakan teknik statistik,
perhitungan, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari berbagai basis data besar (Turban, dkk.
2005).
Menurut Gartner Group, data mining adalah suatu proses
menemukan hubungan yang berart, pola, dan kecenderungan dengan
memeriksa dalam sekeumpulan besar data yang tersimpan dalam
penyimpanan dengan menggunakan teknik pengenalan pola seperti
teknik statistik dan matematika (Larose, 2005).
Data mining sering juga disebut knowledge discovery in database
(KDD) yang merupakan kegiatan yang meliputi pengumpulan,
pemakaian data historis untuk menemukan keteraturan, pola atau
hubungan dalam set data berukuran besar. Keluaran dari data mining ini
dapat digunakan untuk memperbaiki pengambilan keputusan di masa
depan (Santosa, 2007).
6
Berdasarkan beberapa pengertian tersebut, dapat ditarik kesimpulan
bahwa data mining adalah suatu teknik menggali informasi yang ada
pada suatu database yang sangat besar sehingga ditemukan suatu pola
yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang
sering disebut-sebut dalam literatur data mining antara lain clustering,
classification, association rules mining, neural network, generic
algorithm, dan lain-lain (Pramudiono, 2006). Data mining sering
digunakan untuk membangun model prediksi atau inferensi yang
bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan
analisis data terstruktur.
Hubungan yang dicari dalam data mining dapat berupa hubungan
antara dua atau lebih dalam satu dimensi. Misalnya, dalam dimensi
produk kita dapat melihat ketertarikan pembelian suatu produk dengan
produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau
lebih atribut dan dua atau lebih objek (Pohniah, 2001). Sementara itu,
penemuan pola merupakan keluaran lain dari data mining misalkan
sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari
pelanggan, maka perusahaan akan mencari pola dari pelanggan-
pelanggan yang ada untuk mengetahui pelanggan yang potensial dan
pelanggan yang tidak potensial.
7
Gambar 2.1 Bidang Ilmu Data Mining
2.2 Tahapan Data Mining
Data tidak dapat langsung diolah dengan menggunakan sistem data
mining, sehingga data tersebut harus dipersiapkan terlebih dahulu agar
hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses
Knowledge Discovery In Database (KDD) dapat dilihat pada Gambar 2.1
terdiri dari tahapan-tahapan sebagai berikut (J.Han & Kamber, 2006):
Gambar 2.2 Data Mining sebagai Tahapan dalam Proses KDD
8
1. Cleaning and Integration
Langkah pertama adalah dengan melakukan pembersihan
terhadap data dan penggabungan data. Proses data cleaning bertujuan
untuk menghilangkan noise dan data yang tidak konsisten dan proses
data integration bertujuan untuk menggabungkan sumber data dari
berbagai tempat menjadi satu penyimpanan.
2. Selection and Transformation

Pada tahap selection and transformation, data dan atribut
yang akan digunakan diambil dari database untuk dianalisis.
Selanjutnya, data tersebut diubah menjadi bentuk yang tepat untuk
diolah.
3. Data Mining
Data Mining adalah proses mencari pola atau informasi
menarik dalam data terpilih dengan menggunakan teknik atau metode
tertentu. Teknik, metode atau algoritma dalam data mining sangat
bervariasi, pemilihan metode atau algoritma yang tepat sangat
bergantung pada tujuan dan proses KDD secara keseluruhan.
4. Evaluation and Presentation

Pada tahap ini, dilakukan identifikasi pola-pola yang benar-
benar menarik dari hasil data mining. Setelah didapatkan pola yang
dihasilkan dari proses data mining perlu divisualisasikan atau
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan.
9
2.3 Clustering
Clustering atau klasterisasi adalah suatu alat bantu pada data
mining yang bertujuan untuk mengelompokkan objek-objek ke dalam
klaster-klaster. Klaster adalah sekelompok atau sekumpulan objek-objek
data yang similiar satu sama lain dalam klaster yang sama dan
dissimiliar terhadap ojek-objek yang berbeda klaster. Objek akan
dikelompokkan ke dalam satu atau lebih klaster sehingga objek-objek
yang berbeda dalam satu klaster akan mempunyai kesamaan yang tinggi
antara satu dengan yang lainnya. Objek-objek dikelompokkan
berdasarkan prinsip memaksimalkan kesamaan objek pada klaster yang
sama dan meminimalkan ketidaksamaan pada klaster yang berbeda.
Kesamaan objek biasanya diperoleh dari nilai-nilai atribut yang
menjelaskan objek data, sedangkan objek-objek data biasanya
direpresentasikan sebagai sebuah titik dalam ruang multidimensi.
Dengan menggunakan klasterisasi, metode ini dapat
mengidentifikasi daerah yang padat, menemukan pola-pola distribusi
secara keseluruhan, dan menemukan keterkaitan yang menarik antar
atribut- atribut data. Dalam data mining, usaha difokuskan pada metode-
metode penemuan untuk klaster pada basis data berukuran besar secara
efektif dan efisien. Kebutuhan klasterisasi dalam data mining meliputi
skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda,
mampu menangani dimensionalitas yang tinggi, menangani data yang
mempunyai noise, dan dapat diterjemahkan dengan mudah
10
Secara garis besar, terdapat metode klasterisasi data. Pemilihan
metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu
sendiri. Metode-metode beserta algoritmanya termasuk didalamnya
meliputi:
1. Partitioning Method: Membuat berbagai partisi dan kemudian
mengevaluasi partisi tersebut dengan berbagai kriteria. Yang
termasuk ke dalam metode ini meliputi algoritma K-Means, K-
Medoid, PROCLUS, CLARA, CLARANS, dan PAM

2. Hierarchical Method: Membuat suatu penguraian secara hierarikal
dari himpunan data dengan menggunakan beberapa kriteria. Metode
ini terdiri atas dua macam, yaitu Agglomerative yang menggunakan
strategi bottom-up dan Divisive yang menggunakan strategi top-
down. Metode ini meliputi algoritma BIRCH, AGNES, DIANA,
CURE, dan CHAMALEON

3. Density-based Method: Metode ini berdasarkan konektivitas dan
fungsi densitas. Metode ini meliputi algoritma DBSCAN, OPTICS,
dan DENCLU.
4. Grid-base Method: Metode ini berdasarkan suatu struktur granularitas
multi-level. Metode klasterisasi ini meliputi algoritma STING,
WaveCluster, dan CLIQUE.

5. Model-base Method: Suatu model dihipotesiskan untuk masing-
masing klaster dan ide untuk mencari best fit dari model tersebut
untuk masing-masing yang lain. Metode klasterisasi ini meliputi
pendekatan statistik, yaitu algoritma COBWEB dan jaringan syaraf
tiruan, yaitu SOM.
11
2.3.1 K-Means Clustering
K-Means merupakan algoritma yang umum digunakan
untuk clustering dokumen. Prinsip utama K-Means adalah
menyusun k prototype atau pusat massa (centroid) dari
sekumpulan data berdimensi n. Sebelum diterapkan proses
algoritma K-Means, dokumen akan di-preprocessing terlebih
dahulu. Kemudian dokumen direpresentasikan sebagai vektor
yang memiliki term dengan nilai tertentu. K-Means merupakan
salah satu metode data clustering non hirarki yang berusaha
mempartisi data yang ada ke dalam bentuk satu atau lebih cluster
atau kelompok. Metode ini mempartisi data ke dalam cluster atau
kelompok sehingga data yang memiliki karakteristik sama
dikelompokkan ke dalam satu cluster yang sama.
Langkah melakukan clustering dengan ketode K-Means
adalah sebagai berikut:
1). Pilih jumlah cluster K
2). Inisialisasi K pusat cluster ini bisa dilakukan dengan
berbagai cara. Namun yang paling sering dilakukan adalah
dengan cara random. Pusat-pusat cluster diberi nilai awal dengan
angka-angka random.
3). Alokasi semua data atau objek ke cluster terdekat.
Kedekatan dua objek ditentukan berdasarkan jarak kedua objek
12
tersebut. Demikian juga kedekatan suatu data ke cluster tertentu
ditentukan jarak antara data dengan pusat cluster. Dalam tahap ini
perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak antara
satu data dengan satu cluster tertentu akan menentukan suatu data
masuk dalam cluster mana. Untuk menghitung jarak semua data
ke setiap titik pusat cluster dapat menggunakan teori jarak
Euclidean yang dirumuskan pada rumus jarak data ke cluster di
bawah ini:
d(i, j) = √(¿ X 1 − X 1 ¿ +¿ X 2 −X 2 ¿ +¿ X 3 − X 3 ¿ + …+¿ Xk − Xk ¿ )

i j
2
i j
2
i j
2
i j
2
Keterangan:
 d(ij): Jarak data(i) ke pusat cluster(j)

 Xki: Data(i) pada atribut(k)
 Xkj: Titik Pusat(j) pada atribut(k)
4.) Hitung kembali pusat cluster dengan keanggotaan
cluster yang sekarang. Pusat cluster adalah ratarata dari semua
data atau objek dalam cluster tertentu. Jika dikehendaki bisa juga
menggunakan median dari cluster tersebut. Jadi rata-rata bukan
satu-satunya ukuran yang bisa dipakai. Rumus rata-rata Cluster
dapat dilihat di bawah ini
X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk
Keterangan
13
 Rk: Rata-rata cluster baru
 Nk: Jumlah training pattern pada cluster(k)
 Xnk: Pola(n) yang menjadi bagian dari cluster(k)
5.) Tugaskan lagi tiap objek memakai ousat cluster yang
baru. Jika pusat cluster tidak berubah lagi maka proses clustering
selesai. Atau, kembali ke langkah 3 sampai pusat cluster tidak
berubah lagi.
2.3.2 Hierarchical Clustering
Metrode Hierarchical Clustering mengelompokkan objek
ke dalam sebuah pohon klaster. Hierarchical Clustering dapat
diklasifikasikan sebagai agglomerative atau divisive, tergantung
pada komposisi hierarki yang ditampilkan dalam pendekatan
bottom-up atau top down (split). (Han & Kamber, 2006). Pada
umumnya terdapat dua metode Hierarchical Clustering:
1. Agglomerative, metode ini dimulai dari menempatkan objek ke
dalam satu cluster dan selanjutnya digabungkan ke dalam cluster
yang lebih besar hingga sebuah objek terhubung dalam satu buah
cluster atau hingga mencapai jumlah cluster yang diinginkan

2. Divisive, kebalikan dari metode agglomerative. Metode ini
dimulai dari satu cluster dengan seluruh objek data di dalamnya,
selanjutnya cluster tersebut dipecah ke dalam cluster yang lebih
kecil hingga setiap cluster memiliki dua atau satu buah objek atau
hingga mencapai jumlah cluster yang diinginkan.
14
Sebelum pembentukan sebuah cluster perlu dihitung jarak
kemiripan antara objek data. Ada beberapa cara untuk mengetahui
kemiripan data. Satu di antara cara yang ada adalah similiarity matrix
dengan perhitungan euclidean distance. Euclidean Distance didefinisikan
sebagai berikut:
d(A, B) = √(¿ A −B ¿ +¿ A −B ¿ +¿ A −B ¿ +…+¿ A −B ¿ )

1 1
2
2 2
2
3 3
2
i i
2
Atau dapat disingkat dengan:
2
Ai −B i ¿
d(A, B) = ∑ n ¿
i=1
√¿
Keterangan:
 n adalah jumlah atribut atau dimensi

 Ai dan Bi adalah data
2.4 Decision
2.4.1 Pohon Keputusan
Pohon keputusan merupakan metode klasifikasi dan
prediksi yang sangat kuat dan terkenal. Metode pohon
keputusan mengubah fakta yang sangat besar menjadi
pohon keputusan yang merepresentasikan aturan. Aturan
dapat dengan mudah dipahami dengan bahasa alami. Dan
15
mereka juga dapat diekspresikan dalam bentuk bahasa
basis data seperi Structured Query Language (SQL) untuk
mencari record pada kategori tertentu.
Pohon keputusan juga berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi
antara sejumlah calon variabel input dengan sebuah
variabel target. Karena pohon keputusan memadukan
antara eksplorasi data dan pemodelan, sangat bagus
sebagai langkah awal dalam proses pemodelan bahkan
ketika dijadikan sebagai model akhir dari beberapa teknik
lain.
Sebuah pohon keputusan adalah sebuah struktur
yang dapat digunakan untuk membagi kumpulan data
yang besar menjadi himpunan-himpunan record yang
lebih kecil dengan menerapkan serangkaian aturan
keputusan. Dengan masing-masing rangkaian pembagian,
anggota himpunan hasil menjadi mirip datu dengan yang
lain (Berry & Linoff, 2004). Sebuah model pohon
keputusan terdiri dari sekumpulan aturan untuk membagi
sejumlah populasi yang heterogen menjadi lebih kecil,
lebih homogen dengan memperhatikan pada variabel
tujuannya.
16
Sebuah pohon keputusan mungkin dibangun dengan
seksama secara manual atau dapat tumbuh secara otomatis
dengan menerapkan salah satu atau beberapa algoritma
pohon keputusan untuk memodelkan himpunan data yang
belum terklasifikasi. Variabel tujuan biasanya
dikelompokkan dengan pasti dan model pohon keputusan
lebih mengarah pada perhitungan probabilitas dari tiap-
tiap record dengan mengelompokkannya dalam satu kelas.
Pohon keputusan juga dapat digunakan untuk
mengestimasi nilai dari variabel continue meskipun ada
beberapa teknik yang lebih sesuai untuk kasus ini.
Data dalam pohon keputusan biasanya dinyatakan
dalam bentuk tabel dengan atribut dan record. Atribut
menyatakan suatu parameter yang dibuat sebagai kriteria
dalam pembentukan pohon. Misalkan untuk menentukan
main tenis, kriteria yang diperhatikan adalah cuaca, angin,
dan temperatur. Salah satu atribut merupakan atribut yang
menyatakan solusi per item data yang disebut sebagai
target atribut. Atribut memiliki nilai-nilai yang dinamakan
dengan instance. Misalkan atribut cuaca mempunyai
instance berupa cerah, berawan, dan hujan. Proses pada
pohon keputusan adalah mengubah bentuk data (tabel)
17
menjadi model pohon, mengubah model pohon menjadi
rule, dan menyederhanakan rule (Basuki & Syarif, 2003).
2.4.2 C4.5 Decision
Algoritma C4.5 adalah suatu deretan algoritma
untuk permasalahan klasifikasi didalam sebuah mesin dan
himpunan data. Dengan nilai data yang bervariasi, dimana
kejadian diuraikan oleh koleksi atribut dan mempunyai
salah satu dari satu set kelas yang eksklusif. Algoritma
C4.5 diperkenalkan oleh Quinlan (1996) sebagai versi
pembenahan dari ID3. Dalam ID3, induksi decision tree
hanya dapat digunakan pada fitur bertipe kategorikal
(nominal), sedangkan tipe numerik (ratio) tidak bisa
digunakan. Perubahan yang membedakan algoritma C4.5
dan ID3 adalah dapat menangani fitur dengan tipe
numerik, melakukan pemotongan (pruning) decision tree,
dan penurunan (deriving) rule set. Algorima C4.5 juga
menggunakan kriteria gain dalam menentukan fitur yang
menjadi pemecah node pada pohon yang diinduksi.
Secara umum algoritma C4.5 untuk membangun
pohon keputusan dengan memilih atribut sebagai node
akar, membuat cabang untuk tiap-tiap nilai, bagi kasus tiap
cabang, dan mengulangi proses untuk setiap cabang
18
sampai semua kasus pada cabang memiliki kelas yang
sama. Untuk memilih atribut sebagai node akar,
didasarkan pada nilai Gain tertinggi dari atribut-atribut
yang ada. Proses pembuatan rumus Gain akan dijelaskan
seperti berikut:
¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1
Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si| = Jumlah Kasus pada Partisi ke-i
|S| = Jumlah Kasus dalam S
Dan cara mencari entropy yang akan digunakan
dalam algoritma ini dapat dicari dengan menggunakan
rumus yang ada di bawah ini:
−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1
Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si|: Jumlah Kasus pada Partisi ke-i
|S|: Jumlah Kasus dalam S
19
Kedua rumus tersebut akan digunakan untuk
mencari nilai-nilai yang akan dijadikan sebagai atribut
dalam mengambil keputusan.
2.5 Pengukuran Alur K-Means dan C4.5
Dalam melaksanakan proses seleksi penerimaan beasiswa ini, ada
beberapa alur yang dilakukan dimulai dari input data, proses, sampai
pada tahap akhir yaitu hasil yang diharapkan.
a. Alur Input Data Data yang dibutuhkan dalam penelitian ini adalah
data nilai USBN angkatan tahun 2019. Data-data tersebut dapat
berupa dokumen yang telah terekam di bagian staf akademik
SMA Negeri 1 Sangasanga. Sedangkan untuk kebutuhan
pengolahan data, maka Jenis file yang digunakan untuk input
program adalah file Microsoft Excel (.xls atau .xlsx). selanjutnya
data-data akan diolah dengan alat bantu sederhana memanfaatkan
program yang dibagun dengan menggunakan software Rapid
Minner atau Weka Interface. File diinputkan ke dalam software.
Banyak klaster ditentukan sebanyak dua, untuk kelompok nilai
minimal dan kelompok nilai maksimal.

b. Proses Data yang telah dimasukkan kemudian diproses. Proses
yang ada pada program merupakan implementasi dari algoritma
K-Means. Untuk mengetahui cluster mana yang paling dekat
dengan data, maka perlu dihitung jarak setiap data dengan titik
20
pusat setiap cluster. Proses cluster dikatakan selesai apabila pusat
klaster tidak lagi berubah. Setelah dilakukannya clustering
dengan mendapatkan nilai minimal dan maksimal, maka langkah
selanjutnya akan diteruskan ke implementasi dari algoritma C4.5.
Setelah didapatkan data pengelompokkan, maka masing-masing
data siswa akan dihitung berdasarkan nilai per mata pelajaran
yang selanjutnya dicari nilai gain dan entropy untuk dapat dibuat
sebuah pohon keputusan.

c. Output yang diharapkan Keluaran yang diharapkankan dari proses
pengujian nantinya adalah keputusan mengenai lulus atau
tidaknya siswa tersebut berdasarkan perhitungan dari algoritma
C4.5 dan nilai USBN yang diraih.
2.6 Profil SMA Negeri 1 Sangasanga
Sekolah Menengah Atas (SMA) Negeri 1 Sangasanga merupakan
sebuah yang terletak di Jalan Drs. Syahril Dahlan Kelurahan Sangasanga
Dalam, Kecamatan Sangasanga, Kabupaten Kutai Kartanegara, Provinsi
Kalimantan Timur dan merupakan salah satu dari 3 sekolah sederajat di
Kecamatan Sangasanga dan merupakan satu-satunya Sekolah Menengah
Atas di Kecamatan Sangasanga. Sekolah ini didirikan pada tahun 1995
oleh beberapa guru yang pada akhirnya juga bekerja disana sebagai guru
dan sampai saat ini SMA Negeri 1 Sangasanga merupakan sekolah yang
termasuk dalam daftar sekolah berprestasi se-Kabupaten Kutai
21
Kartanegara dengan diberikannya predikat akreditasi A. Dan sampai
dengan saat ini, SMA Negeri 1 Sangasanga telah meluluskan lebih dari
100 siswa yang lulus berdasarkan Nilai Ujian Nasional atau Nilai Ujian
Sekolah berstandar Nasional.
2.7 Penelitian Sebelumnya
Dalam rangka mendukung penelitian ini, maka dilakukan kajian
dengan mempelajari penelitian-penelitian terkait yang telah dilakukan
sebelumnya. Adapun daftar penelitian terkait dapat dilihat pada Tabel 2.1.
22
Tabel 2.1 Daftar Penelitian Terkait
19
Nama Penulis,
Nama Jurnal,
No Judul Artikel Metode Temuan Penelitian
Volume, Edisi, No,
Tahun Terbit, URL
1. Adi Syah Petera Aplikasi Data Clustering dan Data yang diperlukan dalam penelitian ini diperoleh
Dewata, Putra Zoel Mining Berbasis Decision melalui bagian akademik SMA Bunda Mulia yang berupa
Ibrahim, Halim Android data siswa yang telah lulus ujian masuk SMA dimulai
Agung. 2018. Jurnal Menggunakan pada tahun ajaran 2014-2015. Data tersebut berisi data diri
Sains dan Teknologi. Algoritma K-Means siswa yang telah lulus dari ujian, namun pada penelitian
Vol. 5, No.1. e- Clustering dan ini hanya beberapa atribut saja yang digunakan seperti
ISSN: 2356-4393 Algoritma C4.5 nomor induk siswa, nilai mata pelajaran eksak IPA, nilai
http://research.kalbis Untuk Memprediksi mata pelajaran eksak IPS, dan psikotest. Setelah dilakukan
.ac.id/Research/Files Pengambilan clustering, didapatkan hasil bahwa jarak data siswa
/Article/Full/T0GIP Jurusan Siswa SMA pertama yang paling dekat dengan cluster 1, sehingga data
CKHKLRFJ043WZ kelas X Pada siswa pertama dimasukkan ke dalam cluster 1. Dalam
YF615Y9.pdf Sekolah Bunda penelitian ini, iterasi clustering data siswa terjadi sebanyak
Maria (Studi Kasus 8 kali iterasi. Pada iterasi ke-8, titik pusat dari setiap
SMA Bunda Mulia cluster sudah tidak berubah dan tidak ada lagi data yang
Kota Jakarta Pusat) berpindah dari satu cluster ke cluster yang lain.
Berdasarkan hasil pengelompokkan data menggunakan
metode k-means clustering didapatkan hasil cluster hingga
iterasi ke-7 dimana titik pusat tidak lagi berubah dan
berpindah antar cluster dan jika sudah selesai, maka dapat
dilanjutkan pada proses C4.5. Setelah dilakukan
perhitungan menggunakan algoritma C4.5, digunakan
pohon keputusan untuk dapat diambil keputusan tentang
jurusan yang harus diambil oleh siswa. Menggunakan
sebanyak 50 siswa untuk menguji dan mendapatkan hasil
akhir dan mendapatkan kriteria pengambilan keputusan
jurusan IPA dari hasil pohon keputusan.
2. Agus Perdana Penerapan Data Clustering Data yang digunakan pada penelitian ini diperoleh dari 10
Windarto. 2017. Mining Pada Ekspor negara dari tahun 2002 - 2015 data yang dikumpulkan
Jurnal Techno COM. Buah-Buahan berdasarkan dokumen-dokumen keterangan ekspor impor
Vol. 16, No. 4. Menurut Negara yang dihasilkan oleh Direktorat Bea Cukai melalui situs
ISSN: 348-357. Tujuan https://www.bps.go.id. Dalam penerapan Algoritma K-
http://publikasi.dinu Menggunakan K- Means dihasilkan nilai titik tengah atau centroid dari data
s.ac.id/index.php/tec Means Clustering yang didapat dengan ketentuan bahwa clusterisasi yang
hnoc/article/view/14 (Studi Kasus: 10 diinginkan adalah 3. Penentuan cluster terbagi atas 3,
47 Negara, yakni yakni cluster ekspor tingkat tinggi (C1), cluster ekspor
20
Hongkong, tingkat sedang (C2), dan cluster ekspor tingkat rendah
Tiongkok, (C3) dengan masing-masing penentuan dengan
Singapura, menggunakan nilai maksimum (C1), average (C2), dan
Malaysia, Nepal, minimum (C3). Proses cluster dengan mengambil jarak
21
2.8 Perbedaan Penelitian Sebelumnya
Dalam penelitian yang dibuat, tidak serta merta menduplikasi
penelitian lain dengan metode dan algoritma yang sama, adapula
perbedaan yang dibuat agar tetap mempertahankan keaslian dari penelitian
yang dibuat tanpa campur tangan orang lain apalagi melakukan plagiat.
Berdasarkan referensi yang terkait, maka didapatkan perbedaan
penelitian yang terdahulu sebagai dasar penelitian ini. Pada penelitian
sebelumnya terdapat beberapa hal yang berkatian dengan kelulusan
mahasiswa yang menitik beratkan ke Indeks Prestasi Semester atau
Kumulatif dengan menggunakan data per angkatan, dalam hal ini penulis
menggunakan data hasil dari Ujian Sekolah Berstandar Nasional Siswa
untuk dapat digunakan sebagai data penelitian.

Adapula satu penelitian yang lain menghitung tentang ekspor buah-
buahan dengan menggunakan metode clustering dengan mengelompokkan
data-data cluster tinggi sampai dengan terendah yang digunakan sebanyak
10 data negara ekspor buah-buahan. Pada penelitian tersebut hanya
menarik kesimpulan berupa penentuan negara dengan ekspor terbanyak.

Dengan membandingkan penelitian lain terhadap penelitian ini
terdapat pada studi kasus yang berbeda, dalam ini terlihat dari metode
yang sama tetapi berbeda dari segi studi kasus dan metodologi penelitian.
Terdapat penentuan kelulusan dengan menggunakan Algoritma C4.5 yang
terdapat di dalamnya pohon keputusan untuk dapat mendasari kesimpulan
yang ditarik, sehingga dalam hal ini hanya beberapa penulis yang
menerapkan dua metode dalam satu penelitian. Dan juga disini digunakan
22
data Ujian Sekolah Berstandar Nasional (USBN) yang sekiranya masih
sedikit penulis yang mengangkatnya sebagai studi kasus penelitian.

Sehingga penelitian ini menitik beratkan pada pemecahan masalah
dalam menggunakan data Ujian Sekolah Berstandar Nasional (USBN)
untuk dapat menentukan kelulusan siswa yang terdapat di dalamnya
dilakukan pengelompokkan dengan metode clustering dan setelahnya
dilakukan pengambilan keputusan dengan pohon keputusan.
23
BAB III
METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini akan dilaksanakan pada bulan September sampai
bulan Oktober 2019. Adapun tempat pelaksanaan penelitian dilakukan di
Sekolah Menengah Atas (SMA) Negeri 1 Sangasanga. Sedangkan, analisa
data dilakukan pada Laboratorium Pusat Komputer, Fakultas Ilmu
Komputer dan Teknologi Informasi (FKTI), Universitas Mulawarman.
3.2 Metode Penelitian
3.2.1 Metode Pengumpulan Data

Teknik pengumpulan data yang digunakan dalam penelitian ini,
yaitu:
1. Studi Pustaka
Studi Kepustakaan adalah teknik pengumpulan data dengan
mengadakan studi penelaahan terhadap buku-buku, literatur-literatur,
catatan-catatan dan laporan-laporan yang ada hubungannya dengan
masalah yang dipecahkan yaitu melakukan pengelompokkan data dan
mengambil keputusan atas data tersebut.

2. Studi Dokumentasi
Studi Dokumentasi merupakan catatan peristiwa yang sudah berlalu.
Dokumen bisa berbentuk tulisan, gambar atau karya-karya
monumental dari seseorang.

3. Wawancara
24
Wawancara merupakan pertemuan dua orang atau lebih untuk bertukar
informasi dan ide melalui tanya jawab, sehingga dapat
dikonstruksikan makna dalam suatu topik tertentu.
3.2.2 Tahapan Pelaksanaan Penelitian

Pada penelitian ini terdapat beberapa tahapan, yaitu studi literatur,
pengumpulan data, pembuatan model, pengujian model, dan penarikan
kesimpulan dapat dilihat pada Gambar 3.1.
Gambar 3.1 Diagram Tahap Penelitian

1. Studi Lapangan
Pada tahap ini peneliti mempelajari terkait dengan topik yang diangkat
sebagai penelitian, mencakup materi serta langkah-langkah dalam
penyelesaian masalah.
2. Mengidentifikasi dan Merumuskan Masalah
25
Setelah memahami Studi Lapangan yang telah dipelajari, peneliti
melakukan pengenalan terhadap permasalahan yang terjadi sebagai
penyebab diangkatnya penelitian ini beserta dengan merumuskan
masalah yang terjadi.

3. Tujuan Penelitian
Pada tahapan ini, peneliti berfokus terhadap persoalan beserta tujuan
dilakukannya penelitian sebagai sebuah penyelesaian dari masalah
yang diangkat.
4. Pengumpulan Data dan Informasi
Pada tahap ini peneliti mengumpulkan data yang terkait dengan
penelitian. Data yang dikumpulkan adalah berupa data Ujian Sekolah
Berstandar Nasional (USBN) tahun 2019. Data ini diperoleh dari Staf
Tata Usaha SMA Negeri 1 Sangasanga.

5. Pengolahan Data
Pada tahap ini peneliti melakukan pengolahan terhadap ratusan data
USBN siswa SMA Negeri 1 Sangasanga dengan menggunakan
software yang sesuai dengan data yang besar.

6. Analisis Data
Setelah tahap pengolahan data, kemudian melakukan pengujian
terhadap data tersebut dengan memperhatikan algoritma yang
digunakan sebagai penyelesaian dari masalah yang diangkat.

7. Kesimpulan dan Saran
Data yang telah dianalisis kemudian akan ditarik kesimpulan yang
telah didapatkan berdasarkan algoritma yang digunakan.
3.2.3 Sampel Data Penelitian

Data dalam penelitian ini adalah 20 data sampel siswa dengan 3 data
sampel mata pelajaran yang diperoleh dari Staf Tata Usaha SMA Negeri 1
Sangasanga tahun 2019 pada SMA Negeri 1 Sangasanga. Adapun, data
USBN dapat dilihat pada Tabel 3.1.
26
Tabel 3.1 Data USBN SMA Negeri 1 Sangasanga 2019
Nama
B.Indo B.Ing MAT
Nilai
Nur Kartika 74 62 48
Annisa 64 56 46
Asriansyah 68 58 50
Sahrul Romadan 50 64 40
Dhea Anggita Putri 66 52 32
Syarifah Fahira Fasya 70 68 56
Yulia Eka Rahma Anisa 72 66 58
Sadam Syahrul 60 48 30
Nur Khafifah 78 70 64
Fitri Rahmadini 70 60 54
Oktavian Yoga 74 78 60
Siti Mariska Sari 68 66 58
Rizal Nursandi 58 50 28
Agil Tri S. 56 50 34
Dinul Qoyyimah 60 54 30
Ryanmizar Aini Iqbal 58 44 42
Nabila Juwita 80 76 62
Brian Franklin Tambunan 70 42 44
Rosita Andiani 68 54 44
Aldo Septiawan 80 66 58
3.3 Algoritma K-Means
Untuk melakukan pengelompokkan terhadap data USBN,
diperlukan metode Clustering terdapat beberapa langkah yang dapat dilihat
pada Gambar 3.2
27
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means
Langkah melakukan clustering dengan ketode K-Means adalah
sebagai berikut:
1). Pilih jumlah cluster K
2). Inisialisasi K pusat cluster ini bisa dilakukan dengan berbagai
cara. Namun yang paling sering dilakukan adalah dengan cara
random. Pusat-pusat cluster diberi nilai awal dengan angka-angka
random.
3). Alokasi semua data atau objek ke cluster terdekat. Kedekatan
dua objek ditentukan berdasarkan jarak kedua objek tersebut.
Demikian juga kedekatan suatu data ke cluster tertentu ditentukan
jarak antara data dengan pusat cluster. Dalam tahap ini perlu
dihitung jarak tiap data ke tiap pusat cluster. Jarak antara satu data
28
dengan satu cluster tertentu akan menentukan suatu data masuk
dalam cluster mana. Untuk menghitung jarak semua data ke setiap
titik pusat cluster dapat menggunakan teori jarak Euclidean yang
dirumuskan pada rumus jarak data ke cluster di bawah ini:
d(i, j) = √(¿ X 1 − X 1 ¿ +¿ X 2 −X 2 ¿ +¿ X 3 − X 3 ¿ + …+¿ Xk − Xk ¿ )

i j
2
i j
2
i j
2
i j
2
Keterangan:
 d(ij): Jarak data(i) ke pusat cluster(j)

 Xki: Data(i) pada atribut(k)
 Xkj: Titik Pusat(j) pada atribut(k)
4.) Hitung kembali pusat cluster dengan keanggotaan cluster yang
sekarang. Pusat cluster adalah ratarata dari semua data atau objek
dalam cluster tertentu. Jika dikehendaki bisa juga menggunakan
median dari cluster tersebut. Jadi rata-rata bukan satu-satunya
ukuran yang bisa dipakai. Rumus rata-rata Cluster dapat dilihat di
bawah ini
X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk
Keterangan
 Rk: Rata-rata cluster baru

 Nk: Jumlah training pattern pada cluster(k)
 Xnk: Pola(n) yang menjadi bagian dari cluster(k)
29
5.) Tugaskan lagi tiap objek memakai ousat cluster yang baru. Jika
pusat cluster tidak berubah lagi maka proses clustering selesai.
Atau, kembali ke langkah 3 sampai pusat cluster tidak berubah
lagi.
3.4 Algoritma C4.5

Untuk melakukan pengambilan keputusan hasil dari
pengelompokkan terhadap data USBN, diperlukan metode Decision
terdapat beberapa langkah yang dapat dilihat pada Gambar 3.3
Gambar 3.3 Flowchart metode Decision Algoritma C4.5
Secara umum algoritma C4.5 untuk membangun pohon keputusan
dengan memilih atribut sebagai node akar, membuat cabang untuk tiap-tiap
nilai, bagi kasus tiap cabang, dan mengulangi proses untuk setiap cabang
sampai semua kasus pada cabang memiliki kelas yang sama. Untuk
30
memilih atribut sebagai node akar, didasarkan pada nilai Gain tertinggi
dari atribut-atribut yang ada. Proses pembuatan rumus Gain akan
dijelaskan seperti berikut:
¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1
Keterangan:
 S: Himpunan Kasus
 A: Atribut
 N: Jumlah Partisi Atribut
 |Si| = Jumlah Kasus pada Partisi ke-i
 |S| = Jumlah Kasus dalam S
Dan cara mencari entropy yang akan digunakan dalam algoritma
ini dapat dicari dengan menggunakan rumus yang ada di bawah ini:
−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1
Keterangan:
 S: Himpunan Kasus
31
 A: Atribut
 N: Jumlah Partisi Atribut
 |Si|: Jumlah Kasus pada Partisi ke-i
 |S|: Jumlah Kasus dalam S
Kedua rumus tersebut akan digunakan untuk
mencari nilai-nilai yang akan dijadikan sebagai atribut
dalam mengambil keputusan.
3.5 Perangkat Penelitian
Untuk mendukung penyelesaian penelitian ini,maka diperlukan
perangkat keras dan perangkat lunak. Adapun, perangkat lunak yang
dibutuhkan terdiri dari:

1. Sistem Operasi Windows 10
2. Microsoft Office 2007
3. Rapid Miner 7.2
4. MATLAB
Sedangkan perangkat keras yang dibutuhkan terdiri dari:
1. Laptop dengan processor Intel Pentium Inside
2. RAM sebesar minimal 2 GB
32
3.6 Jadwal Penelitian
Berbagai aktivitas dan kegiatan dalam penelitian ini dapat
terjadwal dan selesai sesuai dengan waktu yang telah ditentukan, maka
perlu disusun dalam suatu jadwal penelitian. Adapun jadwal penelitian
dapat dilihat pada Tabel 3.2.
Tabel 3.2 Jadwal Penelitian
Bulan
No Kegiatan
Okt Nov Des Jan Feb Mar Apr Mei
Tahap Persiapan Penelitian
1. Pembuatan
Proposal
I
2. Seminar Proposal
3. Perbaikan Seminar
Proposal
Tahap Pelaksanaan
1. Pengumpulan Data
II
2. Mengolah Data
dan analisis
Tahap Penyusunan Laporan
1. Seminar Hasil
Hasil
III 3. Penulisan Artikel
Ilmiah
4. Seminar Akhir
Akhir
33
DAFTAR PUSTAKA
Adi Syah Petera Dewata, Putra Zoel Ibrahim, H. A. (2018). Aplikasi Data Mining
Berbasis Android Menggunakan Algoritma K-Means Clustering dan
Algoritma C4.5 Untuk Memprediksi Pengambilan Jurusan Siswa SMA Kelas
X Pada Sekolah Bunda Maria. Jurnal Sains Dan Teknologi, 5, No. 1(2356–
4393).
David Hartanto Kamagi, S. H. (2014). Implementasi Data Mining dengan
Algoritma C4.5 untuk memprediksi kelulusan Mahasiswa. Jurnal
ULTIMATICS, Vol.6, No.(2085–4552).
Fina Nasari, S. D. (2015). Penerapan K-Means Clustering Pada Data Penerimaan
Mahasiswa Baru. Jurnal Seminar Nasional Teknologi Informasi Dan
Multimedia, (2302–3805).
Kusrini, E. T. L. (2009). Algoritma Data Mining (T. A. Prabawati, ed.).
Yogyakarta: STMIK AMIKOM Yogyakarta.
M.Emre Celebi, Hassan A. Kingravi, P. A. V. (2013). A Comparative Study of
Efficient Initialization Methods for the K-Means Clustering Algorithm.
Expert Systems with Applications Journal, (1209–1960).
Windarto, A. P. (2017). Penerapan Data Mining Pada Ekspor Buah-Buahan
Menurut Negara Tujuan Menggunakan K-Means Clustering. Jurnal Techno
COM, Vol.16, No(348–357).
34

Diajukan Oleh

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Diajukan Oleh

Diunggah oleh

Hak Cipta:

Format Tersedia

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN

SISWA SMA NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-

Muhammad Luthfi Fahrozi

PROGRAM STUDI TEKNIK INFORMATIKA

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN

Yang dipersiapkan dan disusun oleh

Muhammad Luthfi Fahrozi

Telah disetujui oleh

Dosen Pembimbing I Dosen Pembimbing II

Haviluddin, Ph.D Masna Wati, S.Si, MT

Masna Wati, S.Si, MT

menyelesaikan proposal skripsi dengan judul “IMPLEMENTASI DATA MINING

UNTUK MEMPREDIKSI KELULUSAN SISWA SMA NEGERI 1

SANGASANGA MENGGUNAKAN METODE K-MEANS CLUSTERING

menyelesaikan skripsi pada Fakultas Ilmu Komputer dan Teknologi Informasi

(FKTI), Universitas Mulawarman.

proses penyusunan proposal skripsi, kepada:

Teknologi Informasi (FKTI), Universitas Mulawarman.

masukkan terhadap penelitian ini.

pengetahuan selama mengikuti perkuliahan.

terselesainya tugas ini.

demi kesempurnaan sangat diharapkan.

Samarinda, 18 September 2019

Muhammad Luthfi Fahrozi

SMA Negeri 1 Sangasanga merupakan salah satu Sekolah Menengah Atas

Kata Kunci : Clustering, K-Means, Decision, kelulusan, siswa

1.1 Latar Belakang

Seiring perkembangan teknologi yang semakin maju, terobosan

revolusi indosutri 4.0, membuat kehidupan sehari-hari manusia

terintegrasi dengan aplikasi dan sistem yang dapat memudahkan manusia

dapat mengerjakan tugasnya.

menginginkan suatu pekerjaan yang sukar dan terlalu rumit melainkan

mereka menginginkan sesuatu yang mudah dan tidak terlalu memakan

memudahkan para guru ataupun siswa dalam melakukan kegiatan

administrasi baik itu dalam perilisan rapor siswa, keperluan sertifikasi

dan insentif guru, serta pemberian nilai akademik bagi siswanya.

Menengah Atas di Kabupaten Kutai Kartanegara. Di setiap tahunnya,

Rata-ratanya dan Nilai Ujian Sekolah beserta Rata-ratanya.

DATA MINING UNTUK MEMPREDIKSI KELULUSAN SISWA SMA

CLUSTERING DAN ALGORITMA C4.5” menggunakan metode K-

MEANS CLUSTERING dan ALGORITMA C4.5 pada DATA MINING

Hal ini bertujuan agar dapat Menerapkan Algoritma K-Means dan

Algoritma C4.5 untuk dapat mengelompokkan nilai-nilai akademik dan

memprediksikan kelulusan para siswa SMA Negeri 1 Sangasanga.

nilai-nilai akademik para siswa untuk dapat diambil prediksi dan

kesimpulan untuk meluluskan siswa tersebut, sehingga diketahui dasar

dari kelulusan siswa tersebut berdasarkan dengan nilai akademiknya.

data dengan mengelompokkannya dengan Algortima K-Means dan dapat

diprediksi dan diambil keputusannya dengan menggunakan Algoritma

1.2 Rumusan Masalah

Berdasarkan latar belakang penelitian, maka yang menjadi rumusan

masalah dalam penelitian ini adalah

Algoritma K-Means dan pengambilan prediksi nilai akademik

menggunakan algoritma C4.5?

1.3 Batasan Masalah

Adapun batasan masalah dalam penelitian ini adalah sebagai

jurusan yang diampu oleh siswa

kluster nilai-nilai serta prediksi kelulusan siswa tersebut

1.4 Tujuan Penelitian

Dalam penelitian ini, tujuan yang ingin dicapai adalah melakukan

analisis terhadap data-data nilai USBN yang didapatkan oleh siswa-siswa

untuk dapat diketahui prediksi kelulusan siswa tersebut

1.5 Manfaat Penelitian