Anda di halaman 1dari 47

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN

SISWA SMA NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-


MEANS CLUSTERING DAN ALGORITMA C4.5

PROPOSAL SKRIPSI

Diajukan oleh

Muhammad Luthfi Fahrozi


1715015020

PROGRAM STUDI TEKNIK INFORMATIKA


JURUSAN TEKNOLOGI INFORMASI DAN KOMUNIKASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS MULAWARMAN
SAMARINDA
2019
LEMBAR PENGESAHAN
SEMINAR PROPOSAL PENELITIAN

IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI KELULUSAN


SISWA SMA NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-
MEANS CLUSTERING DAN ALGORITMA C4.5

Yang dipersiapkan dan disusun oleh

Muhammad Luthfi Fahrozi


1715015020

Telah disetujui oleh

Dosen Pembimbing I Dosen Pembimbing II

Haviluddin, Ph.D Masna Wati, S.Si, MT


NIP. 19730528 199903 1 001 NIP. 19851103 201404 2 002

Mengetahui,
Koordinator Prodi Teknik Informatika,

Masna Wati, S.Si, MT


NIP. 19851103 201404 2 002

2
KATA PENGANTAR

Puji syukur kepada Allah SWT, Tuhan Yang Maha Esa sehingga dapat

menyelesaikan proposal skripsi dengan judul “IMPLEMENTASI DATA MINING

UNTUK MEMPREDIKSI KELULUSAN SISWA SMA NEGERI 1

SANGASANGA MENGGUNAKAN METODE K-MEANS CLUSTERING

DAN ALGORITMA C4.5”. Proposal ini disusun sebagai salah satu tahapan dalam

menyelesaikan skripsi pada Fakultas Ilmu Komputer dan Teknologi Informasi

(FKTI), Universitas Mulawarman.

Oleh karena itu, pada kesempatan ini kami ingin mengucapkan terima

kasih kepada semua pihak yang telah mendukung serta membantu saya selama

proses penyusunan proposal skripsi, kepada:

1. Orang tua dan Saudara-saudara saya atas do’a, bimbingan serta kasih

sayangnya.
2. Dr. Nataniel Dengen, S.Si., M.Si selaku Dekan Fakultas Ilmu Komputer dan

Teknologi Informasi (FKTI), Universitas Mulawarman.


3. Haviluddin, Ph.D selaku Pembimbing I yang selalu memberikan arahan dan

masukkan terhadap penelitian ini.


4. Masna Wati, S.Si, MT selaku Pembimbing II atas masukkan terhadap

penelitian ini
5. Edy Budiman, S.Pd, MT sebagai Ketua Jurusan Teknologi Informasi dan

Komunikasi.
6. Dosen Penguji I selaku Penguji I atas saran dan masukkan terhadap penelitian

ini.

3
7. Dosen Penguji II selaku Penguji II atas saran dan masukkan terhadap

penelitian ini.
8. Masna Wati, S.Si, MT selaku Ketua Program Studi Teknik Informatika
9. Segenap Dosen Jurusan Teknik Informatika, yang telah memberikan ilmu

pengetahuan selama mengikuti perkuliahan.


10. Rekan-rekan seperjuangan yang terus memberikan dukungan semangat demi

terselesainya tugas ini.

Saya menyadari bahwa proposal skripsi ini tidak luput dari berbagai

kekurangan. Oleh karena itu, semua kritik dan saran yang bersifat memperbaiki

demi kesempurnaan sangat diharapkan.

Samarinda, 18 September 2019

Muhammad Luthfi Fahrozi

4
ABSTRAK

SMA Negeri 1 Sangasanga merupakan salah satu Sekolah Menengah Atas


di Kabupaten Kutai Kartanegara. Di setiap tahunnya, sekolah tersebut meluluskan
lebih dari 100 orang siswa dengan data kelulusan yang kompleks. Penelitian ini
bertujuan untuk dapat mengimplementasi metode clustering dan metode decision
yang digunakan untuk melakukan penelitian. Pada Penelitian ini membahas
tentang Penerapan K-Means Clustering dan Decision pada nilai Ujian Sekolah
Berstandar Nasional (USBN) siswa yang telah lulus. Sumber data penelitian ini
dikumpulkan berdasarkan keterangan-keterangan kelulusan yang dihasilkan oleh
SMA Negeri 1 Sangasanga. Data yang digunakan dalam penelitian ini adalah data
dari tahun 2019. Pada penelitian ini, akan dilakukan pengelompokkan data dengan
menggunakan metode clustering dan selanjutnya akan diambil keputusan
kelulusan menggunakan pohon keputusan yang selanjutnya akan dijadikan
sebagai acuan dalam meluluskan siswa berdasarkan perhitungan sesuai dengan
algoritma yang digunakan.

Kata Kunci : Clustering, K-Means, Decision, kelulusan, siswa

5
DAFTAR ISI
Halaman
HALAMAN SAMPUL
LEMBAR PENGESAHAN...................................................................................ii

6
KATA PENGANTAR............................................................................................iii
ABSTRAK..............................................................................................................v
DAFTAR ISI..........................................................................................................vi
DAFTAR GAMBAR............................................................................................vii
DAFTAR TABEL................................................................................................viii
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang..........................................................................................1
1.2 Rumusan Masalah.....................................................................................2
1.3 Batasan Masalah........................................................................................3
1.4 Tujuan Penelitian.......................................................................................3
1.5 Manfaat Penelitian.....................................................................................3
1.6 Kontribusi Penelitian.................................................................................4
1.7 Sistematika Penulisan................................................................................5
BAB II TINJAUAN PUSTAKA............................................................................6
2.1 Data Mining...............................................................................................6
2.2 Tahapan Data Mining................................................................................8
2.3 Clustering................................................................................................10
2.4 Decision...................................................................................................16
2.5 Pengukuran Alur K-Means dan C4.5......................................................20
2.6 Profil SMA Negeri 1 Sangasanga............................................................22
2.7 Penelitian Sebelumnya............................................................................22
2.8 Perbedaan Penelitian Terdahulu..............................................................23
BAB III METODOLOGI PENELITIAN..........................................................25
3.1 Waktu dan Tempat Penelitian..................................................................25
3.2 Metode Penelitian....................................................................................25
3.3 Algoritma K-Means.................................................................................29
3.4 Algoritma C4.5........................................................................................31
3.5 Perangkat Penelitian................................................................................33
3.6 Jadwal Penelitian.....................................................................................34
DAFTAR PUSTAKA...........................................................................................35

DAFTAR GAMBAR

7
Halaman
Gambar 2.1 Bidang Ilmu Data Mining...............................................................8
Gambar 2.2 Data Mining sebagai tahapan dalam proses KDD..........................8
Gambar 3.1 Diagram Tahap Penelitian...............................................................26
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means.........................29
Gambar 3.3 Flowchart metode Decision Algoritma C4.5...................................31

8
DAFTAR TABEL
Halaman
Tabel 2.1 Daftar Penelitian Terkait.....................................................................19
Tabel 3.1 Sampel USBN.....................................................................................28
Tabel 3.2 Jadwal Penelitian.................................................................................34

9
BAB I

PENDAHULUAN

1.1 Latar Belakang

Seiring perkembangan teknologi yang semakin maju, terobosan

revolusi indosutri 4.0, membuat kehidupan sehari-hari manusia

terintegrasi dengan aplikasi dan sistem yang dapat memudahkan manusia

dapat mengerjakan tugasnya.


Dalam mengerjakan tugasnya, perusahaan atau instansi tidak

menginginkan suatu pekerjaan yang sukar dan terlalu rumit melainkan

mereka menginginkan sesuatu yang mudah dan tidak terlalu memakan

waktu dan tenaga yang banyak sesuai dengan era digital saat sekarang

ini.
Dalam sebuah sekolah, dibutuhkan sistem administrasi yang dapat

memudahkan para guru ataupun siswa dalam melakukan kegiatan

administrasi baik itu dalam perilisan rapor siswa, keperluan sertifikasi

dan insentif guru, serta pemberian nilai akademik bagi siswanya.


SMA Negeri 1 Sangasanga merupakan salah satu Sekolah

Menengah Atas di Kabupaten Kutai Kartanegara. Di setiap tahunnya,

sekolah tersebut meluluskan lebih dari 100 orang siswa. Nilai-nilai dari

dirilis oleh sekolah tersebut terdiri dari Nilai Ujian Nasional beserta

Rata-ratanya dan Nilai Ujian Sekolah beserta Rata-ratanya.


Oleh sebab itu, penelitian ini mengangkat judul “IMPLEMENTASI

DATA MINING UNTUK MEMPREDIKSI KELULUSAN SISWA SMA

1
NEGERI 1 SANGASANGA MENGGUNAKAN METODE K-MEANS

CLUSTERING DAN ALGORITMA C4.5” menggunakan metode K-

MEANS CLUSTERING dan ALGORITMA C4.5 pada DATA MINING

Hal ini bertujuan agar dapat Menerapkan Algoritma K-Means dan

Algoritma C4.5 untuk dapat mengelompokkan nilai-nilai akademik dan

memprediksikan kelulusan para siswa SMA Negeri 1 Sangasanga.


Di dalam penelitian ini bermanfaat untuk dapat mengelompokkan

nilai-nilai akademik para siswa untuk dapat diambil prediksi dan

kesimpulan untuk meluluskan siswa tersebut, sehingga diketahui dasar

dari kelulusan siswa tersebut berdasarkan dengan nilai akademiknya.


Dapat dipahami juga bahwa, dalam penelitian ini mampu mengolah

data dengan mengelompokkannya dengan Algortima K-Means dan dapat

diprediksi dan diambil keputusannya dengan menggunakan Algoritma

C4.5.

1.2 Rumusan Masalah

Berdasarkan latar belakang penelitian, maka yang menjadi rumusan

masalah dalam penelitian ini adalah


1. Bagaimana langkah-langkah dalam penerapan metode clustering

Algoritma K-Means dan pengambilan prediksi nilai akademik

menggunakan algoritma C4.5?

1.3 Batasan Masalah

Adapun batasan masalah dalam penelitian ini adalah sebagai

berikut:

2
1. Menggunakan data Ujian Sekolah Berstandar Nasional (USBN)

tahun 2019
2. Jumlah data sedikitnya 147 data siswa
3. Menggunakan seluruh nilai USBN mata pelajaran sesuai dengan

jurusan yang diampu oleh siswa


4. Berdasarkan input data nilai USBN, akan tampil output berupa

kluster nilai-nilai serta prediksi kelulusan siswa tersebut


5. Pengguna sistem adalah staf administrasi yang ada pada sekolah

tersebut

1.4 Tujuan Penelitian

Dalam penelitian ini, tujuan yang ingin dicapai adalah melakukan

analisis terhadap data-data nilai USBN yang didapatkan oleh siswa-siswa

untuk dapat diketahui prediksi kelulusan siswa tersebut

1.5 Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaat pada berbagai

pihak, khususnya:

1. Penulis

Untuk mengembangkan wawasan penulis dalam

mengimplementasikan metode clustering Algoritma K-Means dan

Algortima C4.5 untuk semakin diperluas pengetahuannya dalam

mengelompokkan dan memprediksikan sebuah data.

3
2. Mahasiswa
Penelitian ini dapat memberikan pengetahuan kepada mahasiswa

bagaimana metode clustering dengan Algoritma K-Means dan

Algoritma C4.5 dan menjadi referensi khususnya bagi mahasiswa

dibidang Teknik Informatika yang dapat membantu proses

pembelajaran.
3. Instansi/Lembaga/Perusahaan
Dengan adanya hasil analisa IMPLEMENTASI DATA MINING

UNTUK MEMPREDIKSI KELULUSAN SISWA SMA NEGERI 1

SANGASANGA MENGGUNAKAN METODE K-MEANS

CLUSTERING DAN ALGORITMA C4.5 diharapkan dapat

membantu Instansi/Lembaga/Perusahaan untuk melakukan

penelitian dengan metode atau algoritma yang sama.

1.6 Kontribusi Penelitian

Dengan adanya hasil analisa IMPLEMENTASI DATA MINING

UNTUK MEMPREDIKSI KELULUSAN SISWA SMA NEGERI 1

SANGASANGA MENGGUNAKAN METODE K-MEANS

CLUSTERING DAN ALGORITMA C4.5 diharapkan menjadi model

penerapan metode clustering dengan Algoritma K-Means dan Algoritma

C4.5dalam melakukan penelitian lainnya.

1.7 Sistematika Penulisan

Bab I, memberikan gambaran motivasi dalam penelitian ini. Bab I,

terdiri dari latar belakang, rumusan masalah, batasan masalah, tujuan

4
penelitian, manfaat penelitian, kontribusi penelitian dan sistematika

penulisan proposal.
Bab II terdiri dari pustaka-pustaka akademis yang mendukung teori

dan praktek yang digunakan peneliti sebagai dasar dan alat untuk

menyelesaikan masalah yang diteliti.


Bab III, memberikan gambaran secara jelas dan terstruktur metode

yang digunakan. Bab III, terdiri dari metodologi penelitian yang

menjelaskan tentang waktu dan tempat penelitian, perangkat yang

mendukung penelitian, data-data yang akan digunakan dalam penelitian

serta langkah-langkah dalam menyelesaian masalah yang diteliti.

5
BAB II

TINJAUAN PUSTAKA

2.1 Data Mining

Data Mining adalah serangkaian proses untuk menggali nilai

tambah berupa pengetahuan yang selama ini tidak diketahui secara

manual. Data mining adalah proses yang menggunakan teknik statistik,

perhitungan, kecerdasan buatan, dan machine learning untuk

mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan

pengetahuan yang terkait dari berbagai basis data besar (Turban, dkk.

2005).

Menurut Gartner Group, data mining adalah suatu proses

menemukan hubungan yang berart, pola, dan kecenderungan dengan

memeriksa dalam sekeumpulan besar data yang tersimpan dalam

penyimpanan dengan menggunakan teknik pengenalan pola seperti

teknik statistik dan matematika (Larose, 2005).

Data mining sering juga disebut knowledge discovery in database

(KDD) yang merupakan kegiatan yang meliputi pengumpulan,

pemakaian data historis untuk menemukan keteraturan, pola atau

hubungan dalam set data berukuran besar. Keluaran dari data mining ini

dapat digunakan untuk memperbaiki pengambilan keputusan di masa

depan (Santosa, 2007).

6
Berdasarkan beberapa pengertian tersebut, dapat ditarik kesimpulan

bahwa data mining adalah suatu teknik menggali informasi yang ada

pada suatu database yang sangat besar sehingga ditemukan suatu pola

yang menarik yang sebelumnya tidak diketahui. Beberapa metode yang

sering disebut-sebut dalam literatur data mining antara lain clustering,

classification, association rules mining, neural network, generic

algorithm, dan lain-lain (Pramudiono, 2006). Data mining sering

digunakan untuk membangun model prediksi atau inferensi yang

bertujuan untuk memprediksi tren masa depan atau perilaku berdasarkan

analisis data terstruktur.

Hubungan yang dicari dalam data mining dapat berupa hubungan

antara dua atau lebih dalam satu dimensi. Misalnya, dalam dimensi

produk kita dapat melihat ketertarikan pembelian suatu produk dengan

produk yang lain. Selain itu, hubungan juga dapat dilihat antara dua atau

lebih atribut dan dua atau lebih objek (Pohniah, 2001). Sementara itu,

penemuan pola merupakan keluaran lain dari data mining misalkan

sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari

pelanggan, maka perusahaan akan mencari pola dari pelanggan-

pelanggan yang ada untuk mengetahui pelanggan yang potensial dan

pelanggan yang tidak potensial.

7
Gambar 2.1 Bidang Ilmu Data Mining

2.2 Tahapan Data Mining

Data tidak dapat langsung diolah dengan menggunakan sistem data

mining, sehingga data tersebut harus dipersiapkan terlebih dahulu agar

hasil yang diperoleh dapat lebih maksimal. Dan tahapan dalam proses

Knowledge Discovery In Database (KDD) dapat dilihat pada Gambar 2.1

terdiri dari tahapan-tahapan sebagai berikut (J.Han & Kamber, 2006):

Gambar 2.2 Data Mining sebagai Tahapan dalam Proses KDD

8
1. Cleaning and Integration
Langkah pertama adalah dengan melakukan pembersihan

terhadap data dan penggabungan data. Proses data cleaning bertujuan

untuk menghilangkan noise dan data yang tidak konsisten dan proses

data integration bertujuan untuk menggabungkan sumber data dari

berbagai tempat menjadi satu penyimpanan.

2. Selection and Transformation


Pada tahap selection and transformation, data dan atribut

yang akan digunakan diambil dari database untuk dianalisis.

Selanjutnya, data tersebut diubah menjadi bentuk yang tepat untuk

diolah.

3. Data Mining
Data Mining adalah proses mencari pola atau informasi

menarik dalam data terpilih dengan menggunakan teknik atau metode

tertentu. Teknik, metode atau algoritma dalam data mining sangat

bervariasi, pemilihan metode atau algoritma yang tepat sangat

bergantung pada tujuan dan proses KDD secara keseluruhan.

4. Evaluation and Presentation


Pada tahap ini, dilakukan identifikasi pola-pola yang benar-

benar menarik dari hasil data mining. Setelah didapatkan pola yang

dihasilkan dari proses data mining perlu divisualisasikan atau

ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang

berkepentingan.

9
2.3 Clustering

Clustering atau klasterisasi adalah suatu alat bantu pada data

mining yang bertujuan untuk mengelompokkan objek-objek ke dalam

klaster-klaster. Klaster adalah sekelompok atau sekumpulan objek-objek

data yang similiar satu sama lain dalam klaster yang sama dan

dissimiliar terhadap ojek-objek yang berbeda klaster. Objek akan

dikelompokkan ke dalam satu atau lebih klaster sehingga objek-objek

yang berbeda dalam satu klaster akan mempunyai kesamaan yang tinggi

antara satu dengan yang lainnya. Objek-objek dikelompokkan

berdasarkan prinsip memaksimalkan kesamaan objek pada klaster yang

sama dan meminimalkan ketidaksamaan pada klaster yang berbeda.

Kesamaan objek biasanya diperoleh dari nilai-nilai atribut yang

menjelaskan objek data, sedangkan objek-objek data biasanya

direpresentasikan sebagai sebuah titik dalam ruang multidimensi.

Dengan menggunakan klasterisasi, metode ini dapat

mengidentifikasi daerah yang padat, menemukan pola-pola distribusi

secara keseluruhan, dan menemukan keterkaitan yang menarik antar

atribut- atribut data. Dalam data mining, usaha difokuskan pada metode-

metode penemuan untuk klaster pada basis data berukuran besar secara

efektif dan efisien. Kebutuhan klasterisasi dalam data mining meliputi

skalabilitas, kemampuan untuk menangani tipe atribut yang berbeda,

mampu menangani dimensionalitas yang tinggi, menangani data yang

mempunyai noise, dan dapat diterjemahkan dengan mudah

10
Secara garis besar, terdapat metode klasterisasi data. Pemilihan

metode klasterisasi tergantung pada tipe data dan tujuan klasterisasi itu

sendiri. Metode-metode beserta algoritmanya termasuk didalamnya

meliputi:

1. Partitioning Method: Membuat berbagai partisi dan kemudian

mengevaluasi partisi tersebut dengan berbagai kriteria. Yang

termasuk ke dalam metode ini meliputi algoritma K-Means, K-

Medoid, PROCLUS, CLARA, CLARANS, dan PAM


2. Hierarchical Method: Membuat suatu penguraian secara hierarikal

dari himpunan data dengan menggunakan beberapa kriteria. Metode

ini terdiri atas dua macam, yaitu Agglomerative yang menggunakan

strategi bottom-up dan Divisive yang menggunakan strategi top-

down. Metode ini meliputi algoritma BIRCH, AGNES, DIANA,

CURE, dan CHAMALEON


3. Density-based Method: Metode ini berdasarkan konektivitas dan

fungsi densitas. Metode ini meliputi algoritma DBSCAN, OPTICS,

dan DENCLU.
4. Grid-base Method: Metode ini berdasarkan suatu struktur granularitas

multi-level. Metode klasterisasi ini meliputi algoritma STING,

WaveCluster, dan CLIQUE.


5. Model-base Method: Suatu model dihipotesiskan untuk masing-

masing klaster dan ide untuk mencari best fit dari model tersebut

untuk masing-masing yang lain. Metode klasterisasi ini meliputi

pendekatan statistik, yaitu algoritma COBWEB dan jaringan syaraf

tiruan, yaitu SOM.

11
2.3.1 K-Means Clustering

K-Means merupakan algoritma yang umum digunakan

untuk clustering dokumen. Prinsip utama K-Means adalah

menyusun k prototype atau pusat massa (centroid) dari

sekumpulan data berdimensi n. Sebelum diterapkan proses

algoritma K-Means, dokumen akan di-preprocessing terlebih

dahulu. Kemudian dokumen direpresentasikan sebagai vektor

yang memiliki term dengan nilai tertentu. K-Means merupakan

salah satu metode data clustering non hirarki yang berusaha

mempartisi data yang ada ke dalam bentuk satu atau lebih cluster

atau kelompok. Metode ini mempartisi data ke dalam cluster atau

kelompok sehingga data yang memiliki karakteristik sama

dikelompokkan ke dalam satu cluster yang sama.

Langkah melakukan clustering dengan ketode K-Means

adalah sebagai berikut:

1). Pilih jumlah cluster K

2). Inisialisasi K pusat cluster ini bisa dilakukan dengan

berbagai cara. Namun yang paling sering dilakukan adalah

dengan cara random. Pusat-pusat cluster diberi nilai awal dengan

angka-angka random.

3). Alokasi semua data atau objek ke cluster terdekat.

Kedekatan dua objek ditentukan berdasarkan jarak kedua objek

12
tersebut. Demikian juga kedekatan suatu data ke cluster tertentu

ditentukan jarak antara data dengan pusat cluster. Dalam tahap ini

perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak antara

satu data dengan satu cluster tertentu akan menentukan suatu data

masuk dalam cluster mana. Untuk menghitung jarak semua data

ke setiap titik pusat cluster dapat menggunakan teori jarak

Euclidean yang dirumuskan pada rumus jarak data ke cluster di

bawah ini:

d(i, j) = √(¿ X 1 − X 1 ¿ +¿ X 2 −X 2 ¿ +¿ X 3 − X 3 ¿ + …+¿ Xk − Xk ¿ )


i j
2
i j
2
i j
2
i j
2

Keterangan:

 d(ij): Jarak data(i) ke pusat cluster(j)


 Xki: Data(i) pada atribut(k)
 Xkj: Titik Pusat(j) pada atribut(k)

4.) Hitung kembali pusat cluster dengan keanggotaan

cluster yang sekarang. Pusat cluster adalah ratarata dari semua

data atau objek dalam cluster tertentu. Jika dikehendaki bisa juga

menggunakan median dari cluster tersebut. Jadi rata-rata bukan

satu-satunya ukuran yang bisa dipakai. Rumus rata-rata Cluster

dapat dilihat di bawah ini

X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk

Keterangan

13
 Rk: Rata-rata cluster baru
 Nk: Jumlah training pattern pada cluster(k)
 Xnk: Pola(n) yang menjadi bagian dari cluster(k)

5.) Tugaskan lagi tiap objek memakai ousat cluster yang

baru. Jika pusat cluster tidak berubah lagi maka proses clustering

selesai. Atau, kembali ke langkah 3 sampai pusat cluster tidak

berubah lagi.

2.3.2 Hierarchical Clustering

Metrode Hierarchical Clustering mengelompokkan objek

ke dalam sebuah pohon klaster. Hierarchical Clustering dapat

diklasifikasikan sebagai agglomerative atau divisive, tergantung

pada komposisi hierarki yang ditampilkan dalam pendekatan

bottom-up atau top down (split). (Han & Kamber, 2006). Pada

umumnya terdapat dua metode Hierarchical Clustering:

1. Agglomerative, metode ini dimulai dari menempatkan objek ke

dalam satu cluster dan selanjutnya digabungkan ke dalam cluster

yang lebih besar hingga sebuah objek terhubung dalam satu buah

cluster atau hingga mencapai jumlah cluster yang diinginkan


2. Divisive, kebalikan dari metode agglomerative. Metode ini

dimulai dari satu cluster dengan seluruh objek data di dalamnya,

selanjutnya cluster tersebut dipecah ke dalam cluster yang lebih

kecil hingga setiap cluster memiliki dua atau satu buah objek atau

hingga mencapai jumlah cluster yang diinginkan.

14
Sebelum pembentukan sebuah cluster perlu dihitung jarak

kemiripan antara objek data. Ada beberapa cara untuk mengetahui

kemiripan data. Satu di antara cara yang ada adalah similiarity matrix

dengan perhitungan euclidean distance. Euclidean Distance didefinisikan

sebagai berikut:

d(A, B) = √(¿ A −B ¿ +¿ A −B ¿ +¿ A −B ¿ +…+¿ A −B ¿ )


1 1
2
2 2
2
3 3
2
i i
2

Atau dapat disingkat dengan:

2
Ai −B i ¿
d(A, B) = ∑ n ¿
i=1
√¿

Keterangan:

 n adalah jumlah atribut atau dimensi


 Ai dan Bi adalah data

2.4 Decision

2.4.1 Pohon Keputusan

Pohon keputusan merupakan metode klasifikasi dan

prediksi yang sangat kuat dan terkenal. Metode pohon

keputusan mengubah fakta yang sangat besar menjadi

pohon keputusan yang merepresentasikan aturan. Aturan

dapat dengan mudah dipahami dengan bahasa alami. Dan

15
mereka juga dapat diekspresikan dalam bentuk bahasa

basis data seperi Structured Query Language (SQL) untuk

mencari record pada kategori tertentu.

Pohon keputusan juga berguna untuk

mengeksplorasi data, menemukan hubungan tersembunyi

antara sejumlah calon variabel input dengan sebuah

variabel target. Karena pohon keputusan memadukan

antara eksplorasi data dan pemodelan, sangat bagus

sebagai langkah awal dalam proses pemodelan bahkan

ketika dijadikan sebagai model akhir dari beberapa teknik

lain.

Sebuah pohon keputusan adalah sebuah struktur

yang dapat digunakan untuk membagi kumpulan data

yang besar menjadi himpunan-himpunan record yang

lebih kecil dengan menerapkan serangkaian aturan

keputusan. Dengan masing-masing rangkaian pembagian,

anggota himpunan hasil menjadi mirip datu dengan yang

lain (Berry & Linoff, 2004). Sebuah model pohon

keputusan terdiri dari sekumpulan aturan untuk membagi

sejumlah populasi yang heterogen menjadi lebih kecil,

lebih homogen dengan memperhatikan pada variabel

tujuannya.

16
Sebuah pohon keputusan mungkin dibangun dengan

seksama secara manual atau dapat tumbuh secara otomatis

dengan menerapkan salah satu atau beberapa algoritma

pohon keputusan untuk memodelkan himpunan data yang

belum terklasifikasi. Variabel tujuan biasanya

dikelompokkan dengan pasti dan model pohon keputusan

lebih mengarah pada perhitungan probabilitas dari tiap-

tiap record dengan mengelompokkannya dalam satu kelas.

Pohon keputusan juga dapat digunakan untuk

mengestimasi nilai dari variabel continue meskipun ada

beberapa teknik yang lebih sesuai untuk kasus ini.

Data dalam pohon keputusan biasanya dinyatakan

dalam bentuk tabel dengan atribut dan record. Atribut

menyatakan suatu parameter yang dibuat sebagai kriteria

dalam pembentukan pohon. Misalkan untuk menentukan

main tenis, kriteria yang diperhatikan adalah cuaca, angin,

dan temperatur. Salah satu atribut merupakan atribut yang

menyatakan solusi per item data yang disebut sebagai

target atribut. Atribut memiliki nilai-nilai yang dinamakan

dengan instance. Misalkan atribut cuaca mempunyai

instance berupa cerah, berawan, dan hujan. Proses pada

pohon keputusan adalah mengubah bentuk data (tabel)

17
menjadi model pohon, mengubah model pohon menjadi

rule, dan menyederhanakan rule (Basuki & Syarif, 2003).

2.4.2 C4.5 Decision

Algoritma C4.5 adalah suatu deretan algoritma

untuk permasalahan klasifikasi didalam sebuah mesin dan

himpunan data. Dengan nilai data yang bervariasi, dimana

kejadian diuraikan oleh koleksi atribut dan mempunyai

salah satu dari satu set kelas yang eksklusif. Algoritma

C4.5 diperkenalkan oleh Quinlan (1996) sebagai versi

pembenahan dari ID3. Dalam ID3, induksi decision tree

hanya dapat digunakan pada fitur bertipe kategorikal

(nominal), sedangkan tipe numerik (ratio) tidak bisa

digunakan. Perubahan yang membedakan algoritma C4.5

dan ID3 adalah dapat menangani fitur dengan tipe

numerik, melakukan pemotongan (pruning) decision tree,

dan penurunan (deriving) rule set. Algorima C4.5 juga

menggunakan kriteria gain dalam menentukan fitur yang

menjadi pemecah node pada pohon yang diinduksi.

Secara umum algoritma C4.5 untuk membangun

pohon keputusan dengan memilih atribut sebagai node

akar, membuat cabang untuk tiap-tiap nilai, bagi kasus tiap

cabang, dan mengulangi proses untuk setiap cabang

18
sampai semua kasus pada cabang memiliki kelas yang

sama. Untuk memilih atribut sebagai node akar,

didasarkan pada nilai Gain tertinggi dari atribut-atribut

yang ada. Proses pembuatan rumus Gain akan dijelaskan

seperti berikut:

¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1

Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si| = Jumlah Kasus pada Partisi ke-i
|S| = Jumlah Kasus dalam S

Dan cara mencari entropy yang akan digunakan

dalam algoritma ini dapat dicari dengan menggunakan

rumus yang ada di bawah ini:

−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1

Keterangan:
S: Himpunan Kasus
A: Atribut
N: Jumlah Partisi Atribut
|Si|: Jumlah Kasus pada Partisi ke-i
|S|: Jumlah Kasus dalam S

19
Kedua rumus tersebut akan digunakan untuk

mencari nilai-nilai yang akan dijadikan sebagai atribut

dalam mengambil keputusan.

2.5 Pengukuran Alur K-Means dan C4.5

Dalam melaksanakan proses seleksi penerimaan beasiswa ini, ada

beberapa alur yang dilakukan dimulai dari input data, proses, sampai

pada tahap akhir yaitu hasil yang diharapkan.

a. Alur Input Data Data yang dibutuhkan dalam penelitian ini adalah

data nilai USBN angkatan tahun 2019. Data-data tersebut dapat

berupa dokumen yang telah terekam di bagian staf akademik

SMA Negeri 1 Sangasanga. Sedangkan untuk kebutuhan

pengolahan data, maka Jenis file yang digunakan untuk input

program adalah file Microsoft Excel (.xls atau .xlsx). selanjutnya

data-data akan diolah dengan alat bantu sederhana memanfaatkan

program yang dibagun dengan menggunakan software Rapid

Minner atau Weka Interface. File diinputkan ke dalam software.

Banyak klaster ditentukan sebanyak dua, untuk kelompok nilai

minimal dan kelompok nilai maksimal.


b. Proses Data yang telah dimasukkan kemudian diproses. Proses

yang ada pada program merupakan implementasi dari algoritma

K-Means. Untuk mengetahui cluster mana yang paling dekat

dengan data, maka perlu dihitung jarak setiap data dengan titik

20
pusat setiap cluster. Proses cluster dikatakan selesai apabila pusat

klaster tidak lagi berubah. Setelah dilakukannya clustering

dengan mendapatkan nilai minimal dan maksimal, maka langkah

selanjutnya akan diteruskan ke implementasi dari algoritma C4.5.

Setelah didapatkan data pengelompokkan, maka masing-masing

data siswa akan dihitung berdasarkan nilai per mata pelajaran

yang selanjutnya dicari nilai gain dan entropy untuk dapat dibuat

sebuah pohon keputusan.


c. Output yang diharapkan Keluaran yang diharapkankan dari proses

pengujian nantinya adalah keputusan mengenai lulus atau

tidaknya siswa tersebut berdasarkan perhitungan dari algoritma

C4.5 dan nilai USBN yang diraih.

2.6 Profil SMA Negeri 1 Sangasanga

Sekolah Menengah Atas (SMA) Negeri 1 Sangasanga merupakan

sebuah yang terletak di Jalan Drs. Syahril Dahlan Kelurahan Sangasanga

Dalam, Kecamatan Sangasanga, Kabupaten Kutai Kartanegara, Provinsi

Kalimantan Timur dan merupakan salah satu dari 3 sekolah sederajat di

Kecamatan Sangasanga dan merupakan satu-satunya Sekolah Menengah

Atas di Kecamatan Sangasanga. Sekolah ini didirikan pada tahun 1995

oleh beberapa guru yang pada akhirnya juga bekerja disana sebagai guru

dan sampai saat ini SMA Negeri 1 Sangasanga merupakan sekolah yang

termasuk dalam daftar sekolah berprestasi se-Kabupaten Kutai

21
Kartanegara dengan diberikannya predikat akreditasi A. Dan sampai

dengan saat ini, SMA Negeri 1 Sangasanga telah meluluskan lebih dari

100 siswa yang lulus berdasarkan Nilai Ujian Nasional atau Nilai Ujian

Sekolah berstandar Nasional.

2.7 Penelitian Sebelumnya

Dalam rangka mendukung penelitian ini, maka dilakukan kajian

dengan mempelajari penelitian-penelitian terkait yang telah dilakukan

sebelumnya. Adapun daftar penelitian terkait dapat dilihat pada Tabel 2.1.

22
Tabel 2.1 Daftar Penelitian Terkait

19
Nama Penulis,
Nama Jurnal,
No Judul Artikel Metode Temuan Penelitian
Volume, Edisi, No,
Tahun Terbit, URL
1. Adi Syah Petera Aplikasi Data Clustering dan Data yang diperlukan dalam penelitian ini diperoleh
Dewata, Putra Zoel Mining Berbasis Decision melalui bagian akademik SMA Bunda Mulia yang berupa
Ibrahim, Halim Android data siswa yang telah lulus ujian masuk SMA dimulai
Agung. 2018. Jurnal Menggunakan pada tahun ajaran 2014-2015. Data tersebut berisi data diri
Sains dan Teknologi. Algoritma K-Means siswa yang telah lulus dari ujian, namun pada penelitian
Vol. 5, No.1. e- Clustering dan ini hanya beberapa atribut saja yang digunakan seperti
ISSN: 2356-4393 Algoritma C4.5 nomor induk siswa, nilai mata pelajaran eksak IPA, nilai
http://research.kalbis Untuk Memprediksi mata pelajaran eksak IPS, dan psikotest. Setelah dilakukan
.ac.id/Research/Files Pengambilan clustering, didapatkan hasil bahwa jarak data siswa
/Article/Full/T0GIP Jurusan Siswa SMA pertama yang paling dekat dengan cluster 1, sehingga data
CKHKLRFJ043WZ kelas X Pada siswa pertama dimasukkan ke dalam cluster 1. Dalam
YF615Y9.pdf Sekolah Bunda penelitian ini, iterasi clustering data siswa terjadi sebanyak
Maria (Studi Kasus 8 kali iterasi. Pada iterasi ke-8, titik pusat dari setiap
SMA Bunda Mulia cluster sudah tidak berubah dan tidak ada lagi data yang
Kota Jakarta Pusat) berpindah dari satu cluster ke cluster yang lain.
Berdasarkan hasil pengelompokkan data menggunakan
metode k-means clustering didapatkan hasil cluster hingga
iterasi ke-7 dimana titik pusat tidak lagi berubah dan
berpindah antar cluster dan jika sudah selesai, maka dapat
dilanjutkan pada proses C4.5. Setelah dilakukan
perhitungan menggunakan algoritma C4.5, digunakan
pohon keputusan untuk dapat diambil keputusan tentang
jurusan yang harus diambil oleh siswa. Menggunakan
sebanyak 50 siswa untuk menguji dan mendapatkan hasil
akhir dan mendapatkan kriteria pengambilan keputusan
jurusan IPA dari hasil pohon keputusan.
2. Agus Perdana Penerapan Data Clustering Data yang digunakan pada penelitian ini diperoleh dari 10
Windarto. 2017. Mining Pada Ekspor negara dari tahun 2002 - 2015 data yang dikumpulkan
Jurnal Techno COM. Buah-Buahan berdasarkan dokumen-dokumen keterangan ekspor impor
Vol. 16, No. 4. Menurut Negara yang dihasilkan oleh Direktorat Bea Cukai melalui situs
ISSN: 348-357. Tujuan https://www.bps.go.id. Dalam penerapan Algoritma K-
http://publikasi.dinu Menggunakan K- Means dihasilkan nilai titik tengah atau centroid dari data
s.ac.id/index.php/tec Means Clustering yang didapat dengan ketentuan bahwa clusterisasi yang
hnoc/article/view/14 (Studi Kasus: 10 diinginkan adalah 3. Penentuan cluster terbagi atas 3,
47 Negara, yakni yakni cluster ekspor tingkat tinggi (C1), cluster ekspor
20
Hongkong, tingkat sedang (C2), dan cluster ekspor tingkat rendah
Tiongkok, (C3) dengan masing-masing penentuan dengan
Singapura, menggunakan nilai maksimum (C1), average (C2), dan
Malaysia, Nepal, minimum (C3). Proses cluster dengan mengambil jarak
21
2.8 Perbedaan Penelitian Sebelumnya

Dalam penelitian yang dibuat, tidak serta merta menduplikasi

penelitian lain dengan metode dan algoritma yang sama, adapula

perbedaan yang dibuat agar tetap mempertahankan keaslian dari penelitian

yang dibuat tanpa campur tangan orang lain apalagi melakukan plagiat.

Berdasarkan referensi yang terkait, maka didapatkan perbedaan

penelitian yang terdahulu sebagai dasar penelitian ini. Pada penelitian

sebelumnya terdapat beberapa hal yang berkatian dengan kelulusan

mahasiswa yang menitik beratkan ke Indeks Prestasi Semester atau

Kumulatif dengan menggunakan data per angkatan, dalam hal ini penulis

menggunakan data hasil dari Ujian Sekolah Berstandar Nasional Siswa

untuk dapat digunakan sebagai data penelitian.


Adapula satu penelitian yang lain menghitung tentang ekspor buah-

buahan dengan menggunakan metode clustering dengan mengelompokkan

data-data cluster tinggi sampai dengan terendah yang digunakan sebanyak

10 data negara ekspor buah-buahan. Pada penelitian tersebut hanya

menarik kesimpulan berupa penentuan negara dengan ekspor terbanyak.


Dengan membandingkan penelitian lain terhadap penelitian ini

terdapat pada studi kasus yang berbeda, dalam ini terlihat dari metode

yang sama tetapi berbeda dari segi studi kasus dan metodologi penelitian.

Terdapat penentuan kelulusan dengan menggunakan Algoritma C4.5 yang

terdapat di dalamnya pohon keputusan untuk dapat mendasari kesimpulan

yang ditarik, sehingga dalam hal ini hanya beberapa penulis yang

menerapkan dua metode dalam satu penelitian. Dan juga disini digunakan

22
data Ujian Sekolah Berstandar Nasional (USBN) yang sekiranya masih

sedikit penulis yang mengangkatnya sebagai studi kasus penelitian.


Sehingga penelitian ini menitik beratkan pada pemecahan masalah

dalam menggunakan data Ujian Sekolah Berstandar Nasional (USBN)

untuk dapat menentukan kelulusan siswa yang terdapat di dalamnya

dilakukan pengelompokkan dengan metode clustering dan setelahnya

dilakukan pengambilan keputusan dengan pohon keputusan.

23
BAB III

METODOLOGI PENELITIAN

3.1 Waktu dan Tempat Penelitian

Penelitian ini akan dilaksanakan pada bulan September sampai

bulan Oktober 2019. Adapun tempat pelaksanaan penelitian dilakukan di

Sekolah Menengah Atas (SMA) Negeri 1 Sangasanga. Sedangkan, analisa

data dilakukan pada Laboratorium Pusat Komputer, Fakultas Ilmu

Komputer dan Teknologi Informasi (FKTI), Universitas Mulawarman.

3.2 Metode Penelitian

3.2.1 Metode Pengumpulan Data


Teknik pengumpulan data yang digunakan dalam penelitian ini,

yaitu:
1. Studi Pustaka
Studi Kepustakaan adalah teknik pengumpulan data dengan

mengadakan studi penelaahan terhadap buku-buku, literatur-literatur,

catatan-catatan dan laporan-laporan yang ada hubungannya dengan

masalah yang dipecahkan yaitu melakukan pengelompokkan data dan

mengambil keputusan atas data tersebut.


2. Studi Dokumentasi
Studi Dokumentasi merupakan catatan peristiwa yang sudah berlalu.

Dokumen bisa berbentuk tulisan, gambar atau karya-karya

monumental dari seseorang.


3. Wawancara

24
Wawancara merupakan pertemuan dua orang atau lebih untuk bertukar

informasi dan ide melalui tanya jawab, sehingga dapat

dikonstruksikan makna dalam suatu topik tertentu.

3.2.2 Tahapan Pelaksanaan Penelitian


Pada penelitian ini terdapat beberapa tahapan, yaitu studi literatur,

pengumpulan data, pembuatan model, pengujian model, dan penarikan

kesimpulan dapat dilihat pada Gambar 3.1.

Gambar 3.1 Diagram Tahap Penelitian


1. Studi Lapangan
Pada tahap ini peneliti mempelajari terkait dengan topik yang diangkat

sebagai penelitian, mencakup materi serta langkah-langkah dalam

penyelesaian masalah.
2. Mengidentifikasi dan Merumuskan Masalah

25
Setelah memahami Studi Lapangan yang telah dipelajari, peneliti

melakukan pengenalan terhadap permasalahan yang terjadi sebagai

penyebab diangkatnya penelitian ini beserta dengan merumuskan

masalah yang terjadi.


3. Tujuan Penelitian
Pada tahapan ini, peneliti berfokus terhadap persoalan beserta tujuan

dilakukannya penelitian sebagai sebuah penyelesaian dari masalah

yang diangkat.
4. Pengumpulan Data dan Informasi
Pada tahap ini peneliti mengumpulkan data yang terkait dengan

penelitian. Data yang dikumpulkan adalah berupa data Ujian Sekolah

Berstandar Nasional (USBN) tahun 2019. Data ini diperoleh dari Staf

Tata Usaha SMA Negeri 1 Sangasanga.


5. Pengolahan Data
Pada tahap ini peneliti melakukan pengolahan terhadap ratusan data

USBN siswa SMA Negeri 1 Sangasanga dengan menggunakan

software yang sesuai dengan data yang besar.


6. Analisis Data
Setelah tahap pengolahan data, kemudian melakukan pengujian

terhadap data tersebut dengan memperhatikan algoritma yang

digunakan sebagai penyelesaian dari masalah yang diangkat.


7. Kesimpulan dan Saran
Data yang telah dianalisis kemudian akan ditarik kesimpulan yang

telah didapatkan berdasarkan algoritma yang digunakan.

3.2.3 Sampel Data Penelitian


Data dalam penelitian ini adalah 20 data sampel siswa dengan 3 data

sampel mata pelajaran yang diperoleh dari Staf Tata Usaha SMA Negeri 1

Sangasanga tahun 2019 pada SMA Negeri 1 Sangasanga. Adapun, data

USBN dapat dilihat pada Tabel 3.1.

26
Tabel 3.1 Data USBN SMA Negeri 1 Sangasanga 2019

Nama
B.Indo B.Ing MAT
Nilai
Nur Kartika 74 62 48
Annisa 64 56 46
Asriansyah 68 58 50
Sahrul Romadan 50 64 40
Dhea Anggita Putri 66 52 32
Syarifah Fahira Fasya 70 68 56
Yulia Eka Rahma Anisa 72 66 58
Sadam Syahrul 60 48 30
Nur Khafifah 78 70 64
Fitri Rahmadini 70 60 54
Oktavian Yoga 74 78 60
Siti Mariska Sari 68 66 58
Rizal Nursandi 58 50 28
Agil Tri S. 56 50 34
Dinul Qoyyimah 60 54 30
Ryanmizar Aini Iqbal 58 44 42
Nabila Juwita 80 76 62
Brian Franklin Tambunan 70 42 44
Rosita Andiani 68 54 44
Aldo Septiawan 80 66 58

3.3 Algoritma K-Means

Untuk melakukan pengelompokkan terhadap data USBN,

diperlukan metode Clustering terdapat beberapa langkah yang dapat dilihat

pada Gambar 3.2

27
Gambar 3.2 Flowchart metode Clustering Algoritma K-Means

Langkah melakukan clustering dengan ketode K-Means adalah

sebagai berikut:

1). Pilih jumlah cluster K

2). Inisialisasi K pusat cluster ini bisa dilakukan dengan berbagai

cara. Namun yang paling sering dilakukan adalah dengan cara

random. Pusat-pusat cluster diberi nilai awal dengan angka-angka

random.

3). Alokasi semua data atau objek ke cluster terdekat. Kedekatan

dua objek ditentukan berdasarkan jarak kedua objek tersebut.

Demikian juga kedekatan suatu data ke cluster tertentu ditentukan

jarak antara data dengan pusat cluster. Dalam tahap ini perlu

dihitung jarak tiap data ke tiap pusat cluster. Jarak antara satu data

28
dengan satu cluster tertentu akan menentukan suatu data masuk

dalam cluster mana. Untuk menghitung jarak semua data ke setiap

titik pusat cluster dapat menggunakan teori jarak Euclidean yang

dirumuskan pada rumus jarak data ke cluster di bawah ini:

d(i, j) = √(¿ X 1 − X 1 ¿ +¿ X 2 −X 2 ¿ +¿ X 3 − X 3 ¿ + …+¿ Xk − Xk ¿ )


i j
2
i j
2
i j
2
i j
2

Keterangan:

 d(ij): Jarak data(i) ke pusat cluster(j)


 Xki: Data(i) pada atribut(k)
 Xkj: Titik Pusat(j) pada atribut(k)

4.) Hitung kembali pusat cluster dengan keanggotaan cluster yang

sekarang. Pusat cluster adalah ratarata dari semua data atau objek

dalam cluster tertentu. Jika dikehendaki bisa juga menggunakan

median dari cluster tersebut. Jadi rata-rata bukan satu-satunya

ukuran yang bisa dipakai. Rumus rata-rata Cluster dapat dilihat di

bawah ini

X 1 k + X 2 k +…+ Xnk
Rk = 1 )
¿
Nk

Keterangan

 Rk: Rata-rata cluster baru


 Nk: Jumlah training pattern pada cluster(k)
 Xnk: Pola(n) yang menjadi bagian dari cluster(k)

29
5.) Tugaskan lagi tiap objek memakai ousat cluster yang baru. Jika

pusat cluster tidak berubah lagi maka proses clustering selesai.

Atau, kembali ke langkah 3 sampai pusat cluster tidak berubah

lagi.

3.4 Algoritma C4.5


Untuk melakukan pengambilan keputusan hasil dari

pengelompokkan terhadap data USBN, diperlukan metode Decision

terdapat beberapa langkah yang dapat dilihat pada Gambar 3.3

Gambar 3.3 Flowchart metode Decision Algoritma C4.5

Secara umum algoritma C4.5 untuk membangun pohon keputusan

dengan memilih atribut sebagai node akar, membuat cabang untuk tiap-tiap

nilai, bagi kasus tiap cabang, dan mengulangi proses untuk setiap cabang

sampai semua kasus pada cabang memiliki kelas yang sama. Untuk

30
memilih atribut sebagai node akar, didasarkan pada nilai Gain tertinggi

dari atribut-atribut yang ada. Proses pembuatan rumus Gain akan

dijelaskan seperti berikut:

¿ S∨¿
¿ Si∨ ¿¿
Gain(S, A) = Entropy(S) - * Entropy(Si)
n ¿
∑ i=1

Keterangan:

 S: Himpunan Kasus

 A: Atribut

 N: Jumlah Partisi Atribut

 |Si| = Jumlah Kasus pada Partisi ke-i

 |S| = Jumlah Kasus dalam S

Dan cara mencari entropy yang akan digunakan dalam algoritma

ini dapat dicari dengan menggunakan rumus yang ada di bawah ini:

−¿ pi∗log 2 pi
n
Entropy|S| =
∑¿
i−1

Keterangan:

 S: Himpunan Kasus

31
 A: Atribut

 N: Jumlah Partisi Atribut

 |Si|: Jumlah Kasus pada Partisi ke-i

 |S|: Jumlah Kasus dalam S

Kedua rumus tersebut akan digunakan untuk

mencari nilai-nilai yang akan dijadikan sebagai atribut

dalam mengambil keputusan.

3.5 Perangkat Penelitian

Untuk mendukung penyelesaian penelitian ini,maka diperlukan

perangkat keras dan perangkat lunak. Adapun, perangkat lunak yang

dibutuhkan terdiri dari:


1. Sistem Operasi Windows 10
2. Microsoft Office 2007
3. Rapid Miner 7.2

4. MATLAB

Sedangkan perangkat keras yang dibutuhkan terdiri dari:

1. Laptop dengan processor Intel Pentium Inside

2. RAM sebesar minimal 2 GB

32
3.6 Jadwal Penelitian

Berbagai aktivitas dan kegiatan dalam penelitian ini dapat

terjadwal dan selesai sesuai dengan waktu yang telah ditentukan, maka

perlu disusun dalam suatu jadwal penelitian. Adapun jadwal penelitian

dapat dilihat pada Tabel 3.2.

Tabel 3.2 Jadwal Penelitian

Bulan
No Kegiatan
Okt Nov Des Jan Feb Mar Apr Mei
Tahap Persiapan Penelitian
1. Pembuatan
Proposal
I
2. Seminar Proposal
3. Perbaikan Seminar
Proposal
Tahap Pelaksanaan
1. Pengumpulan Data
II
2. Mengolah Data
dan analisis
Tahap Penyusunan Laporan
1. Seminar Hasil
2. Perbaikan Seminar
Hasil
III 3. Penulisan Artikel
Ilmiah
4. Seminar Akhir
5. Perbaikan Seminar
Akhir

33
DAFTAR PUSTAKA
Adi Syah Petera Dewata, Putra Zoel Ibrahim, H. A. (2018). Aplikasi Data Mining
Berbasis Android Menggunakan Algoritma K-Means Clustering dan
Algoritma C4.5 Untuk Memprediksi Pengambilan Jurusan Siswa SMA Kelas
X Pada Sekolah Bunda Maria. Jurnal Sains Dan Teknologi, 5, No. 1(2356–
4393).
David Hartanto Kamagi, S. H. (2014). Implementasi Data Mining dengan
Algoritma C4.5 untuk memprediksi kelulusan Mahasiswa. Jurnal
ULTIMATICS, Vol.6, No.(2085–4552).
Fina Nasari, S. D. (2015). Penerapan K-Means Clustering Pada Data Penerimaan
Mahasiswa Baru. Jurnal Seminar Nasional Teknologi Informasi Dan
Multimedia, (2302–3805).
Kusrini, E. T. L. (2009). Algoritma Data Mining (T. A. Prabawati, ed.).
Yogyakarta: STMIK AMIKOM Yogyakarta.
M.Emre Celebi, Hassan A. Kingravi, P. A. V. (2013). A Comparative Study of
Efficient Initialization Methods for the K-Means Clustering Algorithm.
Expert Systems with Applications Journal, (1209–1960).
Windarto, A. P. (2017). Penerapan Data Mining Pada Ekspor Buah-Buahan
Menurut Negara Tujuan Menggunakan K-Means Clustering. Jurnal Techno
COM, Vol.16, No(348–357).

34

Anda mungkin juga menyukai