b. Kalsifikasi
Satu lagi jenis metode yang digunakan untuk menganalisis data dalam
supervised learning, yaitu klasifikasi. Klasifikasi adalah cara olah data dengan
mengelompokkan bagian-bagian tertentu yang belum memilki label sesuai dengan
jenis atau set kelas diskritnya.
Secara umum, klasifikasi tidak jauh berbeda dengan regresi. Perbedaannya
hanya terdapat pada istilah karena masing-masing cara memiliki konsep yang
berbeda. Sama halnya dengan regresi, klasifikasi juga memiliki dua jenis variabel,
yaitu target variable dan feature variable.
Nilai variabel target pada klasifikasi harus dalam bentuk nilai diskrit.
Kemudian dalam data tersebut akan terdapat beberapa kategori untuk meletakkan
data-data yang baru saja memiliki label.
Contoh penggunaan klasifikasi sebagai berikut
• Sistem klasifikasi dan pencarian jurnal dengna menggunakan
metode naïve bayes dan vector space model
• Penerapan metode klasifikasi support vector machine pada data
sekolah dasar (SD) di Kabupaten Magelang
• Implementasi motode klasifikasi naïve bayes dalam memprediksi
besarnya penggunaan listrik rumah tangga
c. Klasterisasi
Klasterisasi juga sebuah cara untuk melakukan analisis data. Clustering ini
kerap digunakan untuk mengelompokkan data-data yang memiliki kemiripan
menjadi satu wilayah yang sama. Sedangkan data dengan karakteristik berbeda
akan ditambahkan ke dalam wilayah lainnya. Jika diamati memang tampak mirip
dengan klasifikasi, namun dalam klasterisasi ini tidak terdapat label dalam setiap
wilayahnya. Untuk itu, cara ini kerap diaplikasikan untuk segmentasi dengan
pendekatan analitis.
Contoh penerapan metode klastering sebagai berikut :
• Penerapan metode clustering k-means dalam pengelompokan
penjualan produk
• Implementasi k-means clustering ujian nasional sekolah menengah
pertama di Indonesia tahun 2018/2019
• Penerapan algoritma k-means clustering analysis pada penyakit
menular manusia (studi kasus kabupaten Majalengka)
• Melakukan perhitungan frekuensi dari setiap kata yang ada pada seluruh dokumen
• Menghitung feature pada dokumen 5
Apa kaitan antara algoritma Random forest dan XGBoost dengan Decision
Tree?
Kaitan antara algoritma random forest dengan decision tree adalah algoritma yang
dikembangan dengan mengumpulkan beberapa decision tree. Dimana pohon-pohon
tersebut dihubungkan dan pada akhirnya memiliki hasil prediksi lebis stabil dan
akurat. Sedangkan pada algoritma XGBoost merupakan algoritma yang
ditingkatkan berdasarkan gradient boosting decision tree dan dapat membangun
boosted trees secara efisien dan beroperasi secara parallel. XGBoost merupakan
salah satu teknik pembelajaran mesin untuk mengatasi permasalahan regresi dan
klasifikasi berdasarkan Gradient Boosting Decision Tree (GBDT). XGBoost pada
dasarnya adalah metode ensemble yang didasarkan pada gradient boosting tree.
Didalam pohon regresi, nodes bagian dalam mewakili nilainilai untuk tes atribut
dan leaf nodes dengan skor mewakili keputusan. Hasil prediksi adalah jumlah skor
yang diprediksi oleh pohon K.
• Tahapan 2
Melakukan preprocesing: tokenizer, stopword removal, stemming
Kemudian dilakukan proses tfi-df setelah preprocessing
• Tahapan 3
Melakukan perhitungan distance
• Tahapan 4
Pengklasteran