Bab 2

BAB II
KAJIAN PUSTAKA
2.1 Penelitian Relevan

Berdasarkan penelitian ini tidak terlepas dari penelitian-penelitian yang
pernah dilakukan sebelumnya sehingga dapat dijadikan sebagai bahan
perbandingan dan kajian. Berikut beberapa penelitian terdahulu yang berkaitan
dengan pembuatan penelitian ini antara lain :
Penelitian pertama dilakukan oleh (Ghozi Ghozali 2021) ‘’Penerapan
Algoritma K-Means Dan Algoritma Naïve Bayes Dalam Pemilihan Konsentrasi
Jurusan Siswa Di Sma Islam Ta’alumul Huda Bumiayu ’’. Saat ini sebagian
besar siswa Sekolah Menengah Pertama (SMP) yang akan melanjutkan
pendidikan ke jenjang selanjutnya yakni Sekolah Menengah Atas (SMA)
cenderung belum menngetahui minat dan kemampuannya, sehingga siswa
merasa kesulitan dalam memilih konsentrasi jurusan yang akan di pilih pada saat
memasuki SMA. Pemilihan konsentrasi jurusan sangat penting karena
mempengaruhi proses belajar siswa ke depannya, sehingga dalam memilih
konsentrasi harus dipertimbangkan secara matang seusai minat dan kemampuan
akademik siswa. SMA Islam Ta’alumul Huda Bumiayu cenderung banyak yang
ragu dalam memilih konsentrasi jurusan yang akan di pilih. Observasi dengan
pihak SMA Islam Ta’alumul Huda mendapat informasi, SMA tersebut tidak
menjadikan nilai ujian nasional sebagai acuan untuk menentukan jurusan bagi
siswa. Sebelum menentukan jurusan, siswa/siswi wajib mengikuti pretest tertulis
sebagai acuan untuk menentukan jurusannya. Hal ini membantu siswa yang
masih ragu dalam menentukan jurusan mana yang akan di pilih, sehingga untuk
meminimalisir memilih jurusan hanya mengikuti teman ataupun dorongan dari
orang tua yang nantinya mengakibatkan siswa merasa salah memilih jurusan.
Pemilihan konsentrasi jurusan harus mempertimbangkan minat dan kemampuan
akademik siswa agar tidak kesulitan dalam menyerap dan memahami materi,
untuk mengatasi masalah diatas diperlukan metode yang dapat memberikan
acuan bagi siswa dalam memilih konsentrasi jurusan. Metode yang digunakan
adalah algoritma K-Means clustering dan algoritma Naïve Bayes. Hasil
klasifikasi menggunakan algoritma K-Means clustering dan Naive Bayes
memperoleh akurasi sebesar 80%.
Penelitian kedua dilakukan oleh (Kurniasari & Fatmawati, 2019)
‘’Penerapan Algoritma C4.5 Untuk Penjurusan Siswa Sekolah Menengah Atas’’.
Jurusan di Sekolah Menengah Atas (SMA) digunakan sebagai acuan untuk
menyalurkan bakat dan kemampuan dari siswa. Penjurusan tersebut dilakukan
ketika pendaftaran siswa baru, sebelum siswa tersebut diterima sebagai siswa
kelas X. Banyaknya data siswa yang melakukan pendaftaran dan pelaksanaan
penjurusan saat ini yang masih menggunakan sistem manual, mengakibatkan
terjadinya kesalahan dan waktu pengolahan data yang cukup lama. Penelitian ini
bertujuan mengembangkan sistem untuk mengklasifikasikan jurusan bagi siswa
dengan tepat, efektif dan efisien. Metode penelitian yang digunakan dalam
penelitian ini dengan menerapkan. Algoritma C4.5 untuk mengklasifikasikan
siswa dalam menentukan jurusan. Algoritma C4.5 digunakan untuk mencari
pola-pola aturan berdasarkan variabel pendukung berupa nilai rata-rata raport
Sekolah Menengah Pertama (SMP), nilai tes akademik seperti nilai mata
pelajaran Ilmu Pengetahuan Alam (IPA), nilai mata pelajaran Ilmu Pengetahuan
Sosial (IPS), dan nilai Bahasa. Perlu adanya klasifikasi untuk permasalahan
tersebut, cara untuk melakukan klasifikasi yaitu dengan teknik data mining
menggunakan Algoritma C4.5. Nugroho [3] dalam penelitiannya mengenai
klasifikasi predikat kelulusan mahasiswa yang menggunakan Algoritma C4.5
menghasilkan akurasi sebesar 73.91%. Swastina [4], dalam penelitian Algoritma
Decision Tree C4.5 akurat diterapkan untuk penentuan kesesuaian jurusan
mahasiswa dengan tingkat akurasi 93,31 % dan akurasi rekomendasi jurusan
sebesar 82,64%. Maka dapat disimpulkan penggunaan Algoritma C4.5 dalam
klasifikasi menghasilkan tingkat akurat yang cukup tinggi dan cocok untuk
prediksi jurusan yang peneliti lakukan. Maka dari itu penelitian ini akan
dilakukan untuk mengembangkan sistem dengan menerapkan data mining
menggunakan Algoritma C4.5 guna memprediksi dan mengklasifikasi penentuan
jurusan siswa SMA. Hasil dari penelitian ini sendiri berupa aplikasi data mining
dengan Algoritma C4.5 untuk memprediksi penjurusan IPA, IPS, atau Bahasa.
Tingkat akurasi yang didapatkan sebesar 97,42 %.
Penelitian ketiga dilakukan oleh (Maulana Habibi & Ragam Santika,
2020) ‘’Implementasi Algoritma K-Nearest Neighbor Dalam Menentukan
Jurusan Menggunakan Metode Euclidean Distance Berbasis Web Pada Smp
Setia Gama’’. Sistem Pendukung Keputusan dalam dunia pendidikan dapat
digunakan oleh pengawas sekolah dalam melakukan monitoring pada seluruh
indikator sekolah yang harus diamati dan dinilai. Ini dilakukan untuk membantu
sekolah dalam menetapkan standar untuk mengukur prestasi para siswanya,
untuk menentukan apakah penilaian yang dilakukan sudah memenuhi standar
atau belum. Permasalahannya yang ada di Sekolah Menengah Pertama Setia
Gama adalah sering adanya pertanyaan yang dilontarkan siswanya kepada guru
Bimbingan Konseling di sekolah, tentang perihal jurusan yang harus mereka
ambil dengan menghitung nilai – nilai yang sudah mereka dapatkan selama
belajar mengajar. Maka dari itu penulis berniat membangun sebuah sistem yang
dapat membantu guru BK untuk menghitung nilai – nilai para siswanya
berdasarkan ketentuan sekolah. maka digunakanlah algoritma K-Nearest
Neighbor. Pemilihan algoritma ini dilakukan karena mudah untuk
diimplementasikan, dan juga salah satu metode yang memiliki kinerja yang cepat
ketika diberkan training dataset yang benar. algoritma K-Nearest Neighbor
merupakan salah satu metode yang digunakan dalam pengklasifikasian. Prinsip
kerja K-Nearest Neighbor (KNN) adalah mencari jarak terdekat antara data yang
akan dievaluasi dengan K tetangga (neighbor) terdekatnya dalam data pelatihan.
Metode pengukuran yang digunakan adalah pengukuran jarak terdekat Euclidean
Distance. Diharapkan sistem yang dibangun menggunakan Algoritma K-Nearest
Neighbor dengan metode pengukuran jarak terdekat Euclidean Distance ini dapat
meningkatkan efisiensi dan efektifitas dalam membantu memprediksi penjurusan
siswa/i SMP Setia Gama. Hasil dari klasifikasi dalam penelitian ini untuk
mengetahui algoritma dalam memprediksi berdasarkan nilai acuracy, recall, dan
precision. Hasilnya maka didapatkan nilai acuracy paling tinggi sebesar 79,68%
pada nilai K = 7, recall sebesar 85,00% dan precision sebesar 83,00% dengan
nilai K yang sama. Sehingga algoritma K-Nearest Neighbor baik digunakan
untuk membantu dalam menentukan pada SMP Setia Gama.
2.2 Landasan Teori
Landasan teori menjadi dasar dan deskripsi yang berkaitan dengan
teori-teori dalam penelitian ini,dan teori-teori tersebut dikontruksi secara
terstruktur, sehingga penelitian berjalan secara sistematis. Berikut ini adalah
beberapa landasan teori yang digunakan dalam penelitian ini adalah Data
Mining, Clustering, K-means, Confusion Matrix, Pemilihan Jurusan, Python,
Google Colaboratory.
2.2.1 Data Mining
Data mining (Pandu Cynthia & Ismanto, 2018) adalah bagian integral
dari penemuan pengetahuan dalam database yang merupakan proses dengan
urutan sebagai berikut :
1. Data cleaning (untuk menghilangkan noise dan inkonsistensi data)

2. Data integration (beberapa data sources akan dikombinasikan)
3. Data selection (hanya data yang dapat dipakai untuk analisis saja
yang akan diambil dari database)
4. Data transformation (data akan ditransformasikan ke bentuk yang
lebih terstruktur untuk mempermudah proses data mining)
5. Data mining (proses utama data mining dimana teknik data mining
diterapkan)
6. Pattern evaluation
7. Knowledge presentation (dimana visualisasi dan representasi hasil
diberikan kepada pengguna)
Tujuan utama penerapan data mining adalah untuk prediksi

(prediction) dan uraian (description). Klasifikasi adalah proses menemukan
model (atau fungsi) yang akan mengelompokkan kelas data sehingga dapat
memprediksi kelas obyek yang tidak diketahui. Model yang diperoleh bias
diwakili diberbagai bentuk, seperti klasifikasi berbentuk aturan IF-THEN,
pohon keputusan, rumus matematika, atau jaringan saraf tiruan. Rule based
classification adalah model berbentuk seperangkat aturan berbentuk IF-THEN.
Aturan berbentuk IF-THEN adalah cara yang baik untuk merepresentasikan
pengetahuan. Aturan dapat diekstraksi dari pohon keputusan.
2.2.2 Clustering
Clustering merupakan salah satu teknik dari salah satu fungsionalitas

data mining, algoritma clustering (Aditya 2020) merupakan algoritma
pengelompokan sejumlah data menjadi kelompok-kelompok data tertentu
(cluster). Pada proses clustering, tahapan menentukan atau mendeskripsikan
nilai kuantitatif dari tingkat kemiripan atau ketidakmiripan data (proximity
measure) memiliki peranan sangat penting, sehingga perlu dilakukannya
perbandingan beberapa metode yang sering digunakan, yaitu jarak euclidean,
manhattan, dan minkowski. Clustering merupakan salah satu teknik
pengelompokan data berdasarkan kesamaan karakteristik data. Clustering-
based memiliki beberapa tipe penting, diantaranya Partitional Clustering.
Partitional Clustering merupakan pembagian data ke dalam sebuah himpunan
data (cluster) yang tidak overlap sedemikian setiap data berada dalam satu
cluster saja.
2.2.3 K-Means
K-means Clustering adalah, K dimaksudkan sebagai konstanta jumlah
cluster yang diinginkan, Means dalam hal ini berarti nilai suatu ratarata dari
suatu grup data yang dalam hal ini didefinisikan sebagai cluster, sehingga
K-Means Clustering (Yunita, 2018) adalah suatu metode penganalisaan data
atau metode data mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang melakukan
pengelompokan data dengan sistem partisi. Metode K-Means berusaha
mengelompokkan data yang ada kedalam beberapa kelompok, dimana data
dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya
dan mempunyai karakteristik yang berbeda dengan data yang ada didalam
kelompok yang lain. Algoritma K-means merupakan algoritma yang
membutuhakan parameter input sebanyak k dan membagi sekumpulan n objek
kedalam k cluster sehingga tingkat kemiripan antar anggota dalam suatu
cluster tinggi sedangkan tingkat kemiripan dengan anggota pada cluster lain
sangat rendah. Kemiripan anggota tarhadap cluster diukur dengan kedekatan
objek terhadap nilai mean pada cluster atau dapat disebut sebagai centroid
cluster atau pusat massa.
Berikut adalah rumus untuk menentukan jarak data dari masing-
masing centrioid :
√
p
d ( P ,Q ) = ∑ (x j ( P )−x j (Q))2
j=1
Keterangan :
D = titik dokumen
P = data record
Q = data centroid
Jarak yang terpendek antara centroid dengan dokumen menentukan

posisi cluster suatu dokumen. Adapun rumus iterasi lainnya didefinisikan
sebagai berikut :
x 1+ x 2+ x 3+… ..+ xn
C ( i )=
∑x
Keterangan :
𝑋1 = Nilai data record ke-1
𝑋2 = Nilai data record ke-2
∑ 𝑥 = jumlah data record
Eksperimen ini menggunakan algoritma yang paling umum digunakan

dalam clustering yaitu algoritma K-Means. Algoritma ini populer karena
mudah diimplementasikan dan kompleksitas waktunya linear. Kelemahannya
adalah algoritma ini sensitif terhadap inisialisasi cluster.
Dasar algoritmanya adalah sebagai berikut:
1. Inisialisasi cluster.
2. Masukkan setiap dokumen ke cluster yang paling cocok berdasarkan
ukuran kedekatan dengan centroid. Centroid adalah vektor term yang
dianggap sebagai titik tengah cluster.
3. Setelah semua dokumen masuk ke cluster. Hitung ulang centroid
cluster berdasarkan dokumen yang berada di dalam cluster tersebut.
4. Jika centroid tidak berubah (dengan treshold tertentu) maka stop. Jika
tidak, kembali ke langkah 2.
2.2.4 Confusion Matrix
Confusion Matrix (Ghozi Ghozali 2021) adalah alat untuk
menganalisis seberapa baik classifier mengenali tuple dari kelas yang
berbeda. True Positive dan True Negative memberikan informasi ketika
classifier benar, sedangkan False Positive dan False Negative memberikan
informasi ketika classifier salah.
2.2.5 Pemilihan Jurusan
Penjurusan siswa merupakan usaha peningkatan kualitas pendidikan

yang langsung berkenaan dengan siswa sebagai salah satu bagian dari
peningkatan SDM. Penjurusan siswa ini (Syahra, 2018) bertujuan untuk
mengarahkan peserta didik agar lebih fokus mengembangkan kemampuan
diri dan minat yang dimiliki. Jurusan yang tidak tepat bisa sangat merugikan
siswa dan karirnya di masa mendatang. Dengan penjurusan tersebut
diharapkan dapat memaksimalkan potensi, bakat atau talenta individu,
sehingga juga akan memaksimalkan nilai akademisnya. Penentuan jurusan
yang dilakukan selama ini mempunyai banyak kelemahan, antara lain
berdasarkan keinginan siswa tanpa melihat latar belakang nilai akademisnya
dan tidak ada acuan yang yang jelas untuk melakukan pengelompokkan data
siswa. Sehingga jurusan yang dipilih terkadang menjadi masalah bagi siswa
di kemudian hari. Pemilihan jurusan merupakan hak dari siswa, namun tidak
jarang siswa masih bingung dengan pemilihan jurusan ini. Akibat dari
kesalahan pemilihan jurusan adalah penurunan motivasi belajar dan
menyebabkan rendahnya prestasi siswa karena jurusan yang dipilih ternyata
tidak sesuai dengan bakat dan kemampuan siswa.
2.2.6 Python
Pengertian Python (bahasa pemrograman) (Karunia Rahmadhika &

Muhammad Thantawi, 2021) merupakan bahasa pemrograman tinggi yang
bersifat open source dan bisa melakukan eksekusi sejumlah instruksi multi
guna secara langsung (interpretatif) dengan metode Object Oriented
Programming dan juga menggunakan semantik dinamis untuk memberikan
tingkat keterbacaan syntax. Sebagai bahasa pemrograman tinggi, python
dapat dipelajari dengan mudah karena telah dilengkapi dengan manajemen
memori otomatis. Python saat ini telah menduduki posisi empat atau lima
bahasa pemrograman paling sering digunakan di seluruh dunia.
2.2.7 Google Colaboratory

Colaboratory, atau “Colab” merupakan produk dari Google Research.
Colab memungkinkan siapa saja menulis dan mengeksekusi kode python
arbitrer melalui browser, dan sangat cocok untuk machine learning, analisis
data, serta pendidikan. Secara lebih teknis, Colab (Gabriel Irfon Elrohi Soen
2022) merupakan layanan notebook Jupyter yang dihosting dan dapat
digunakan tanpa penyiapan, serta menyediakan akses gratis ke resource
komputasi termasuk GPU. Resource Colab tidak dijamin dan sifatnya
terbatas, serta batas penggunaannya terkadang berfluktuasi. Hal ini
diperlukan agar Colab dapat menyediakan resource secara gratis. Pengguna
yang ingin memiliki akses lebih andal ke resource yang lebih baik dapat
menggunakan Colab Pro. Memperkenalkan Colab Pro merupakan langkah
pertama yang Google ambil untuk melayani pengguna yang ingin melakukan
lebih banyak hal di Colab. Tujuan jangka panjang pihak Google adalah untuk
terus menyediakan versi gratis Colab, dan di saat yang bersamaan
berkembang secara berkelanjutan untuk memenuhi kebutuhan pengguna
Google.

Bab 2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 2

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB II

2.1 Penelitian Relevan

1. Data cleaning (untuk menghilangkan noise dan inkonsistensi data)

Tujuan utama penerapan data mining adalah untuk prediksi

Clustering merupakan salah satu teknik dari salah satu fungsionalitas

Jarak yang terpendek antara centroid dengan dokumen menentukan

Eksperimen ini menggunakan algoritma yang paling umum digunakan

Dasar algoritmanya adalah sebagai berikut:

Penjurusan siswa merupakan usaha peningkatan kualitas pendidikan

Pengertian Python (bahasa pemrograman) (Karunia Rahmadhika &

2.2.7 Google Colaboratory

Anda mungkin juga menyukai