Anda di halaman 1dari 11

Tugas Machine Learning

Merangkum Materi Kuliah Bagian 2

Nama :
Muhammad Naufal Widiyantama (190100050)

Dosen Pengampu :
Teguh Budi Santoso , S.Kom., M.Kom.

Prodi :
Teknik Informatika

Universitas Satya Negara Indonesia


2022
1. Pertemuan 11 (Classification : Intro dan KNN)
A. Pengenalan Calssification
a. Apa itu Classification
Dalam machine learning, classification termasuk pendekatan supervised
learning. Tugasnya melakukan kategorisasi data yang tidak diketahui ke dalam
kelompok class yang diskrit

b. Apa tugas Classification


Classification harus menentukkan class dari observasi baru yang belum diberikan
label class. Contohnya:
Sebuah bank harus menentukan apakah salah satu nasabahnya yang ingin
melakukan peminjaman uang dapat mengembalikan pinjamannya atau tidak.

Yang bisa dilakukan bank ialah menganalisa data nasabah sebelumnya , nasabah
dengan ciri ciri seperti apa yang kemungkinan memiliki masalah dalam
melakukan pengembalian pinjaman. Ciri - ciri yang dimaksud adalah informasi
yang dimiliki nasabah , seperti : Umur, edukasi, lama bekerja, pendapatan, debit
yang dimiliki, dll.
Berdasarkan informasi informasi tersebut , sebuah classifier model dapat dibuat
yang akan digunakan untuk melakukan klasifikasi data baru.

Jika nasabah baru muncul , classifier model dapat melakukan kategorisasi


nasabah tersebut.
c. Target/class dari classification
Dari contoh yang sebelumnya , kita bias melihat bahwa target / class dari nasabah
tersebut berupa binary. Pada dasarnya , classification tidak hanya dapat
melakukan binary classification tetapi juga multiclass classification.
Sebagai contoh :
 Kelompok A, atau B, atau C.
 Kucing, Harimau, atau Macan.
 Bunga anggrek, melati, atau bakung.
Contoh Multiclass Classification :

 Terdapat data pasien yang mengalami sebuah penyakit yang sama


 Namun karena kondisi tubuh pasien tersebut berbeda beda , obat yang
dianjurkan oleh dokterpun harus sesuai dengan kondisi tubuhnya
 Ada tiga tipe obat yang tersedia : drugC , drugX , dan drugY

 Kita bisa membuat classifier model berdasarkan data pasien yang tersedia
 Jika pasien baru muncul, classifier model dapat melakukan kategorisasi,
yang mana dari ketiga obat tersebut yang cocok untuk pasien tersebut
B. Memahami Pengukuran Evaluasi
a. Training dan Testing Data
Pengukuran Evaluasi (Evaluation Metrics) mendeskripsikan performa dari model
classifier kita. Untuk membuat Evaluation Metrics, data training dibagi menjadi
dua:
- Training data = Membuat model classifier
- Testing data = Memeriksa akurasi dari classifier
C. Beberapa Evaluasi matrik yang umum
a. Jaccard Index

b. F1 Score
Cara membaca Confusion Matriks
D. Algoritma K-Nearest Neighbor (KNN)
a. Apa itu K-Nearest Neighbor
Sebuah metode untuk melakukan klasifikasi berdasarkan similaritas terhadap data
lainnya. Beberapadata terdekatdisebutdengan“Tetangga” atau “Neighbors”.
Tetangga yang terdekat dianggap memiliki fitur yang serupa dengan data yang
dimaksud.
2. Pertemuan 12 (Classification : Decision Tree)
A. Apa itu Decision Tree?
a. Studi Kasus Decision Tree
• Bayangkan anda sebagai peneliti
medis yang sedang melakukan
observasi data pasien.
• Data pasien telah terkumpul,
dimana pasien-pasien tersebut
memiliki penyakit yang sama.
• Selama penanganan, setiap
pasien harus menerima salah
satu dari dua obat yang tersedia.
• Drug A
• Drug B
• Tugas anda: memberikan saran
obat kepada pasien yang baru.
Fitur:
• Age
• Sex
• Blood Pressure (BP)
• Cholesterol
Target/Class:
• Drug A atau Drug B
Classifier model
Training Data

Untuk Modelling

Prediksi Class

b. Bentuk Decision Tree


 Kita ingin melakukan
klasifikasi pasien baru
 Keputusan obat yang akan
diterimanya akan tergantung
dari bentuk pohon.
 Tree memiliki node akar,
Age
 Age dianggap sebagai
variable paling
berpengaruh
c. Bentuk Decision Tree
 Setiap Node mendeskripsikan
sebuah tindakan observasi
 Apa gender/sex pasien tsb.
 Setiap Branch
mendeskripsikan hasil
observasi
 Pasien ternyata seorang pria
 Setiap Leaf mendeksripsikan
hasil klasifikasi.

B. Algoritma Membangun Decision Tree


a. Membangun Decision Tree
Atribut apa yang paling terbaik memisahkan data?
- Decision tree dibuat dengan menggunakan teknik recursive partitioning untuk
klasifikasi data
- Berdasarkan dataset, kita memiliki 14 pasien dengan 7 diklasifikasikan Drug
A, 7 lagi diklasifikasikan Drug B.
- Algoritma harus bisa memilih fitur/atribut yang paling baik dalam melakukan
klasifikasi
Apakah atribut cholesterol terbaik?
- Untuk mengetahui mana atribut yang terbaik, yang kita lakukan adalah kita
coba satu persatu.
- Pertama kita mulai dari Cholesterol.

- Klasifikasi yang dihasilkan jika kita memiliki Cholesterol sebagai atribut


pertama adalah:
 Untuk High: 3 buah Drug A; 4 buah Drug B
 Untuk Normal: 2 buah Drug A, 4 buah Drug B
C. Pemahaman Entropy
a. Pemahaman Entropy
• Entropy = Pengukuran tingkat
ketidak-aturan
• Semakin rendah entropy,
semakin teratur dan seragam
distribusi data yang kita punya.
• Semakin tinggi entropy,
semakin tidak teratur dan acak
distribusi data yang kita punya.
E=− p ( a ) log ( p ( a ) )− p( b)log ( p (b))
• Dengan p ( ∙ )
probabilitas atau
rasio proporsional
Drug A atau Drug B

3. Pengantar Visualisasi Data dengan Python


A. Pendahuluan Visualisasi Data
a. Pendahuluan

Anda mungkin juga menyukai