Anda di halaman 1dari 12

1.

Perbedaan regresi, klasifikasi dan klasterisasi adalah :


a. Regresi
Istilah regresi pertama kali diperkenalkan oleh Francis Galton. Galton
(1886) dalam Gujarati (2009) mengatakan bahwa meskipun ada kecenderungan
orang tua yang tinggi untuk memiliki anak-anak yang tinggi dan orang tua yang
pendek untuk memiliki anak-anak yang pendek, rata-rata tinggi anak-anak yang
lahir dari orang tua dengan tinggi badan tertentu cenderung bergerak atau mundur
(regress) ke arah tinggi rata-rata dalam populasi secara keseluruhan. Dengan kata
lain, tinggi anak-anak dari orang tua yang luar biasa tinggi atau luar biasa pendek
cenderung bergerak ke arah ketinggian rata-rata populasi.
Gujarati (2009) mendefinisikan analisis regresi sebagai kajian terhadap
ketergantungan satu variabel (variabel terikat) pada satu atau beberapa variabel
(variabel tidak terikat). Variabel terikat disebut juga dengan respons, dan variabel
tidak terikat disebut juga sebagai variabel penjelas atau prediktor.
Contoh penggunaan regresi terdapat pada analisis regresi adalah dalam hal
melihat perubahan nilai suatu variabel respons ketika salah satu prediktor
diterapkan dan prediktor lain bernilai konstan.

b. Kalsifikasi
Satu lagi jenis metode yang digunakan untuk menganalisis data dalam
supervised learning, yaitu klasifikasi. Klasifikasi adalah cara olah data dengan
mengelompokkan bagian-bagian tertentu yang belum memilki label sesuai dengan
jenis atau set kelas diskritnya.
Secara umum, klasifikasi tidak jauh berbeda dengan regresi. Perbedaannya
hanya terdapat pada istilah karena masing-masing cara memiliki konsep yang
berbeda. Sama halnya dengan regresi, klasifikasi juga memiliki dua jenis variabel,
yaitu target variable dan feature variable.
Nilai variabel target pada klasifikasi harus dalam bentuk nilai diskrit.
Kemudian dalam data tersebut akan terdapat beberapa kategori untuk meletakkan
data-data yang baru saja memiliki label.
Contoh penggunaan klasifikasi sebagai berikut
• Sistem klasifikasi dan pencarian jurnal dengna menggunakan
metode naïve bayes dan vector space model
• Penerapan metode klasifikasi support vector machine pada data
sekolah dasar (SD) di Kabupaten Magelang
• Implementasi motode klasifikasi naïve bayes dalam memprediksi
besarnya penggunaan listrik rumah tangga

c. Klasterisasi
Klasterisasi juga sebuah cara untuk melakukan analisis data. Clustering ini
kerap digunakan untuk mengelompokkan data-data yang memiliki kemiripan
menjadi satu wilayah yang sama. Sedangkan data dengan karakteristik berbeda
akan ditambahkan ke dalam wilayah lainnya. Jika diamati memang tampak mirip
dengan klasifikasi, namun dalam klasterisasi ini tidak terdapat label dalam setiap
wilayahnya. Untuk itu, cara ini kerap diaplikasikan untuk segmentasi dengan
pendekatan analitis.
Contoh penerapan metode klastering sebagai berikut :
• Penerapan metode clustering k-means dalam pengelompokan
penjualan produk
• Implementasi k-means clustering ujian nasional sekolah menengah
pertama di Indonesia tahun 2018/2019
• Penerapan algoritma k-means clustering analysis pada penyakit
menular manusia (studi kasus kabupaten Majalengka)

2. Klasifikasi data teks menggunakan naïve bayes


Membuat dataset untuk pengklasifikasian
Kemudian rumus untuk klasifikasi naïve bayes

Langkah selanjutnya melakukan preproccesing pada data (tokenizer, stopword, limitation)


Dan menghasilkan term document metrik
Mengkategorikan jumlah kata yang unik

Melakukan perhitungan probabilitas tiap kata pada tiap dokumen

Menjumlahkan total semua probabilitas kata pada dokumen 21

Hasil yang didapatkan adalah


3. Klasifikasi data teks menggunakan regresi logistic
Mempersiapkan dataset ayang akan digunakan

Melakukan preprocessing dataset

Melakukan feature extraksi


• Tokenisasi

• Melakukan perhitungan frekuensi dari setiap kata yang ada pada seluruh dokumen
• Menghitung feature pada dokumen 5

Melakukan Perhitungan Logistik Regresi


Dengan rumus tersebut diperoleh
4. 3 algoritma untuk pengambilan keputusan dalam pembuatan pohon keputusan
(Decision Tree).
• CART
CART CLASSIFICATION AND REGRESSION TREES CART merupakan
metode partisi rekursif yang digunakan baik untuk regresi maupun klasifikasi.
CART dibangun dengan melakukan pemecahan subset-subset dari dataset
menggunakan variabel prediktor untuk membuat dua child node secara berulang,
dimulai dari keseluruhan dataset. Tujuannya adalah menghasilkan subset data yang
sehomogen mungkin untuk mengklasifikasikan variabel target.
• ID3
Iterative Dichotomiser 3 (ID3) adalah algoritma decision tree learning (algoritma
pembelajaran pohon keputusan) yang paling dasar. Algoritma ini melakukan
pencarian secara menyeluruh (greedy) pada semua kemungkinan pohon keputusan.
Salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3).
ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat diimplementasikan
menggunakan fungsi rekursif (fungsi yang memanggil dirinya sendiri). Algoritma
ID3 berusaha membangun decision tree (pohon keputusan) secara top-down (dari
atas ke bawah) (David, 2004).
• C4.5
Algoritma C4.5 adalah algoritma yang sudah banyak dikenal dan digunakan untuk
klasifikasi data yang memiliki atribut-atribut numerik dan kategorial. Hasil dari
proses klasifikasi yang berupa aturan-aturan dapat digunakan untuk memprediksi
nilai atribut bertipe diskret dari record yang baru.

Apa kaitan antara algoritma Random forest dan XGBoost dengan Decision
Tree?
Kaitan antara algoritma random forest dengan decision tree adalah algoritma yang
dikembangan dengan mengumpulkan beberapa decision tree. Dimana pohon-pohon
tersebut dihubungkan dan pada akhirnya memiliki hasil prediksi lebis stabil dan
akurat. Sedangkan pada algoritma XGBoost merupakan algoritma yang
ditingkatkan berdasarkan gradient boosting decision tree dan dapat membangun
boosted trees secara efisien dan beroperasi secara parallel. XGBoost merupakan
salah satu teknik pembelajaran mesin untuk mengatasi permasalahan regresi dan
klasifikasi berdasarkan Gradient Boosting Decision Tree (GBDT). XGBoost pada
dasarnya adalah metode ensemble yang didasarkan pada gradient boosting tree.
Didalam pohon regresi, nodes bagian dalam mewakili nilainilai untuk tes atribut
dan leaf nodes dengan skor mewakili keputusan. Hasil prediksi adalah jumlah skor
yang diprediksi oleh pohon K.

5. Proses klasterisasi data teks menggunakan pendekatan k means :


• Tahapan 1
Membuat dataset

• Tahapan 2
Melakukan preprocesing: tokenizer, stopword removal, stemming
Kemudian dilakukan proses tfi-df setelah preprocessing
• Tahapan 3
Melakukan perhitungan distance

• Tahapan 4
Pengklasteran

6. tabel perbandingan ketiga metode


Kelebihan Kekurangan
K-Means • Hasilnya sensitif
• Mudah dilakukan saat
terhadap jumlah
pengimpelementasian dan di
cluster (K).
jalankan.
• Sensitif terhadap
• Waktu yang di butuhkan untuk
inisialisasi “seed”
melakukan pembelajaran relatif
• Sensitif terhadap
lebih cepat.
pencilan atau
• Sangat fleksibel, adaptasi yang outlier
mudah untuk di lakukan • Sensitif terhadap
data dengan
• Sangat umum penggunaannya.
variabel yang
• Menggunakan prinsip yang memiliki skala
sederhana dapat di jelaskan dalam berbeda.
non-statistik. • Mengasumsikan
setiap klaster
berbentuk
menyerupai
lingkaran
(spherical) dan
kesulitan jika
bentuk cluster yang
memiliki bentuk
berbeda.
K-Means++ • Mengatasi kelemahan seed pada • Sensitive terhadap
algoritma k means vaiabel yang
• Waktu yang dibutuhkan dalam berbeda
komputasi relative lebih cepat • Sensitive terhadap
• Sifat yang sama dengan kmeans outlier
dalam fleksibilitas penggunaan
algoritma
K-Medoid • mengatasi kelemahan pada pada • Jika jumlah data
algoritma K-Means yang tidak banyak,
sensitif terhadap noise dan outlier, pengelompokan
dimana objek dengan nilai yang awal akan
besar yang memungkinkan menentukan cluster
menyimpang pada dari distribusi secara signifikan.
data • Hasilnya adalah
• hasil proses Clustering tidak bentuk cluster yang
bergantung pada urutan masuk melingkar.
dataset • Jumlah cluster K,
harus ditentukan
terlebih dahulu.
PemilihanK adalah
masalah itu sendiri
dan terkadang sulit
untukmemprediksi
terlebih dahulu
jumlah cluster yang
akan adadalam
data.
• Tidak diketahui
cluster nyata,
menggunakan data
yang sama, jika
dimasukkan dalam
urutan yang
berbeda dapat
menghasilkan
cluster yang
berbeda jika jumlah
data sedikit.

Anda mungkin juga menyukai