ML Pertemuan 4

1
MODUL PERKULIAHAN
P152110005
(1D6151BC) -
MACHINE
LEARNING
Klasifikasi
Abstrak Sub-CPMK
Klasifikasi merupakan teknik Sub-CPMK 1.2

dalam data mining untuk Mampu memahami, menganalisis dan
mengelompokkan data menerapkan teknik NN untuk
berdasarkan keterikatan data permasalahan klasifikasi sederhana.
terhadap data sampel.
Fakultas Program Studi Tatap Muka Disusun Oleh
04
Saruni Dwiasnati, ST.,MM.,M.Kom
Ilmu Komputer Teknik Informatika
Standardisasi Modul
1.1 Definisi Klasifikasi
Sama halnya dengan regresi, klasifikasi juga termasuk ke dalam supervised

learning. Klasifikasi adalah sebuah teknik untuk mengklasifikasikan atau mengkategorikan
beberapa item yang belum berlabel ke dalam sebuah set kelas diskrit. Klasifikasi
mencoba mempelajari hubungan antara kumpulan variabel fitur dan variabel target.
Dalam klasifikasi, variabel targetnya bertipe kategori. Classification adalah metode yang
paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk
Management biasanya melibatkan metode Classification. Classification adalah tindakan
untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok
atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah
model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai
mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan
sebuthan dengan Supervised Algoritma. Yang termasuk kepada Classification Algorithm
adalah:
 Decision Tree
 Naïve Bayes
 K-Nearest Neighbor (KNN)
 Logistic Regression
 Support Vector Machines (SVM)
 Neural Network
2022 MACHINE LEARNING
2 Saruni Dwiasnati, ST.,MM.,M.Kom
Biro Bahan Ajar E-learning dan MKCU
http://pbael.mercubuana.ac.id/
Gambar 1. Klasifikasi
Dapat dilihat pada contoh gambar tabel di atas, di dalam klasifikasi ada dua jenis
variabel yaitu Target variable dan Feature variabel. Ini sebenarnya mirip dengan regresi,
hanya penggunaan istilahnya saja yang berbeda karena disesuaikan dengan konsep
masing-masing. Perbedaan klasifikasi dan regresi yang dapat kita lihat dengan jelas
adalah nilai dari variabel targetnya. Di klasifikasi, variabel target harus berupa kategori
atau nilai diskrit. Data baru yang berlabel nantinya akan dikelompokkan ke dalam salah
satu dari kategori yang ada variabel target.
Tipe model klasifikasi:
Di dalam machine learning, klasifikasi dibagi menjadi dua jenis yaitu Binary
classification dan Multi-class classification.
Gambar 2. Model Tipe Klasifikasi

Klasifikasi adalah proses mengidentifikasi kategori atau label kelas dari
pengamatan baru yang dimilikinya. Predikasi adalah proses mengidentifikasi data numerik
yang hilang atau tidak tersedia untuk pengamatan baru. Itu adalah perbedaan utama
antara klasifikasi dan predikasi. Predikasi ini tidak menyangkut label kelas seperti dalam
klasifikasi.
Binary classification adalah jika kategori dalam target variabel hanya ada dua,
misalnya 0 dan 1, Yes dan No, X dan Y, dan sebagainya. Misalnya melihat kemungkinan
nasabah bank akan mengambil pinjaman atau tidak. Sebaliknya, Multi-class classification
memiliki lebih dari dua kategori pada variabel targetnya. Contoh dataset Iris di atas
termasuk jenis multi-class classification karena memiliki tiga kategori yaitu Iris-setosa, Iris-
versicolor, dan Iris-virginica.
Berikut beberapa aplikasi dari klasifikasi :
1. Penjualan Langsung (Direct Marketing)
2. Fraud Detection
Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu

kredit.
Pendekatan:
a. Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai
atributnya Misalkan : Kapan seorang pelanggan membeli, apa yang dibeli apa
selalu membayar tepat waktu, dsb.
b. Beri label transaksi-transaksi sebelumnya sebagai transaksi ‘fraud’ atau 'fair'
dan bentuk ini menjadi class attribute.
c. Pelajari satu model untuk class transaksi tersebut.
d. Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi
transaksi kartu kredit tiap account.
3. CustomerAttrition/Churn:
Tujuan: Untuk memprediksi pelanggan mana yang akan berpindah ke competitor
kita.
Pendekatan:
a. Gunakan record transaksi dengan pelanggan yang lalu maupun yang
sekarang untuk mendapatkan atribut, seperti : Seberapa sering pelanggan
menghubungi, dimana dia menghubungi, pada hari apa dia paling sering
menghubungi, status keuangannnya, status perkawinannya, dsb.
b. Beri label pelanggan sebagai ‘setia’ atau ‘tidak setia'.
c. Temukan suatu model untuk 'pinalty’.
Ketersediaan data yang melimpah dan kebutuhan akan informasi sebagai
pendukung pengambilan keputusan untuk membuat solusi bisnis, dan dukungan
infrastruktur di bidang teknologi merupakan cikal bakal lahirnya teknologi data mining.
Data mining merupakan teknologi yang sangat berguna untuk membantu menemukan
informasi yang sangat dibutuhkan dari Gudang data. Data mining adalah kegiatan
mengekstrak informasi atau pengetahuan penting dari suatu set data berukuran besar
dengan menggunakan teknik tertentu. Data mining melibatkan penggunaan metode atau
tool untuk mendeteksi pola dan melakukan suatu tugas prediksi. Dengan menggunakan
data yang ada dan relevan, data mining membuat beberapa model untuk mengidentifikasi
pola-pola diantara atribut-atribut yang ada di dalam dataset. Beberapa pola tersebut
adalah bersifat deskriptif (menjelaskan saling-keterkaitan atau persamaan dan kesamaan
diantara berbagai atribut tersebut), dan bersifat prediktif (meprediksi ‘value/hasil’ yang
akan terjadi). Pendekatan yang digunakan dalam data mining adalah discovery-based
dimana pencocokan pola (pattern matching) dan algorutma yang lain digunakan untuk
menentukan relasi-relasi kunci dalam data yang dieksplorasi.
Gambar 3. Integrasi Data

A. Decision Tree, sebuah metode pengambilan keputusan dengan menyusun setiap
opsi atau pilihan menjadi bentuk yang bercabang. Itulah kenapa metode ini
disebut sebagai pohon keputusan. Karena bentuknya yang seperti sebuah pohon
yang memiliki banyak cabang di bagian ranting maupun akarnya. Decision tree
menyediakan cara untuk menyajikan algoritma dengan pernyataan kontrol
bersyarat. Mereka termasuk cabang yang mewakili langkah-langkah pengambilan
keputusan yang dapat mengarah pada hasil yang menguntungkan. Struktur
flowchart mencakup node internal yang mewakili tes atau atribut pada setiap
tahap. Setiap cabang mewakili hasil untuk atribut, sedangkan jalur dari daun ke
akar mewakili aturan untuk klasifikasi. Decision tree merupakan salah satu bentuk
algoritma pembelajaran terbaik berdasarkan berbagai metode pembelajaran.
Pohon keputusan bekerja paling baik bila mengikuti aturan diagram alur dasar:
 Persegi panjang atau bujur sangkar: Tunjukkan awal pohon tempat Anda
menulis pertanyaan.
 Garis: Mewakili cabang-cabang pohon. Ini semua adalah kemungkinan tindakan.

 Lingkaran: Menandakan hasil yang tidak pasti bahwa Anda akan membutuhkan
cabang tambahan untuk diklarifikasi.
 Segitiga: Berikan jawaban yang jelas dan final. Mereka juga disebut “daun.”
Dengan membat decision tree memungkinkan Anda untuk memvisualisasikan
hasil dari setiap pilihan dalam cara yang terorganisir.
Dapat menggunakan pohon keputusan ketika memiliki tujuan tertentu, seperti
menentukan apakah harus menerima tawaran pekerjaan. Algoritma ini juga bermanfaat
jika memerlukan evaluasi sejumlah data besar data atau statistik. Misalnya, jika seorang
agen penjualan dan ingin menentukan berapa banyak pendapatan yang dapat dihasilkan
oleh calon pelanggan versus biaya untuk mengejar dan mempertahankan hubungan,
dapat menggunakan pohon keputusan untuk menganalisis laba atas investasi.
Jenis Keputusan
Ada dua jenis utama pohon keputusan yang didasarkan pada variabel target, yaitu
pohon keputusan variabel kategoris dan pohon keputusan variabel kontinu.
1. Decision tree variabel kategori
Sebuah pohon keputusan variabel kategori termasuk variabel target kategoris
yang dibagi ke dalam kategori. Misalnya, kategorinya bisa ya atau tidak. Kategori
berarti bahwa setiap tahap proses keputusan jatuh ke dalam salah satu kategori,
dan tidak ada di antaranya.
2. Decision tree variabel kontinu
Pohon keputusan variabel kontinu adalah pohon keputusan dengan variabel target
kontinu. Misalnya, pendapatan individu yang pendapatannya tidak diketahui dapat
diprediksi berdasarkan informasi yang tersedia seperti pekerjaan, usia, dan
variabel kontinu lainnya.
Contoh Pengaplikasian Decision Tree
1. Menilai peluang pertumbuhan prospektif
Salah satu penerapan decision tree melibatkan evaluasi peluang pertumbuhan
prospektif untuk bisnis berdasarkan data historis. Data historis tentang penjualan
dapat digunakan dalam pohon keputusan yang dapat menyebabkan perubahan
radikal dalam strategi bisnis untuk membantu ekspansi dan pertumbuhan.
2. Menggunakan data demografi untuk menemukan calon klien
Aplikasi lain dari alat ini adalah dalam penggunaan data demografis untuk
menemukan calon klien. Mereka dapat membantu dalam merampingkan anggaran
pemasaran dan dalam membuat keputusan yang tepat tentang pasar sasaran
yang menjadi fokus bisnis. Dengan tidak adanya decision tree, bisnis dapat

menghabiskan pasar pemasarannya tanpa mempertimbangkan demografi
tertentu, yang akan mempengaruhi pendapatannya secara keseluruhan.
3. Berfungsi sebagai alat pendukung di beberapa bidang
Pemberi pinjaman juga menggunakan decision tree untuk memprediksi
kemungkinan pelanggan gagal membayar pinjaman, dengan menerapkan
pembuatan model prediktif menggunakan data masa lalu klien. Penggunaan alat
pendukung pohon keputusan dapat membantu pemberi pinjaman dalam
mengevaluasi kelayakan kredit pelanggan untuk mencegah kerugian.
Gambar 4. Cara Kerja Dasar Decision Tree

Cara Membuat Decision Tree
1. Mulailah dengan pertanyaan atau ide
Gambarlah persegi panjang, dan tulis pertanyaan atau ide Anda di dalamnya. Jika
Anda ingin membuat pohon horizontal, gambar persegi panjang Anda di sisi kiri
halaman sehingga Anda memiliki ruang untuk menggambar garis. Untuk pohon
vertikal, gambar kotak di bagian atas halaman dan turunkan. Misalnya, jika ingin
menentukan apakah harus meminta kenaikan gaji, dapat menggambar persegi
panjang di bagian atas halaman dan menulis, “Meminta kenaikan gaji?”
2. Tambahkan cabang
Gambarlah garis sebanyak yang dibutuhkan dari kotak untuk menentukan tindakan.
Untuk melanjutkan contoh, dapat menggambar dua cabang di bawah persegi panjang
dan memberi label “Ya” dan “Tidak.” Ini menandakan bahwa meminta atau tidak
meminta kenaikan gaji.
3. Tambahkan simpul keputusan ke cabang
Lingkaran menunjukkan bahwa hasil dari cabang belum jelas dan Anda perlu
mengajukan lebih banyak pertanyaan. Segitiga menunjukkan bahwa hasilnya hampir
pasti. Contohnya, dapat menambahkan lingkaran di akhir cabang “Ya” dan “Tidak”. Di
lingkaran “Ya”, dapat menulis “Dapatkan kenaikan gaji?” untuk menentukan apakah
manajer akan memberi kenaikan gaji dan di lingkaran “Tidak”, dapat menulis,
“Dapatkan kenaikan gaji di masa mendatang?” untuk menentukan apakah yakin akan
mendapatkan kenaikan gaji tanpa meminta di masa mendatang.
4. Lanjutkan seperlunya
Lanjutkan decision tree sampai benar-benar memeriksa semua kemungkinan hasil dan
dapat membuat keputusan yang tepat. Dalam contoh, akan melanjutkan sampai Anda
mencapai jawaban apakah harus meminta kenaikan gaji.
Tips dalam Membuat Decision Tree
Pertimbangkan tip berikut untuk membuat decision tree yang efektif:
 Kode warna pohon Anda. Beri kode warna pada cabang dan simpul Anda untuk
mengidentifikasi hasil dengan mudah. Misalnya, Anda dapat membuat ide awal
Anda menjadi hijau dan simpul kuning, biru, dan ungu untuk membedakan
masing-masing. Gunakan skema warna untuk membuatnya menarik secara visual.
 Gunakan simbol diagram alur. Jika membuat decision tree untuk dibagikan
dengan tim atau manajer, simbol diagram alur standar memastikan pohon mudah
dipahami oleh banyak pemirsa.
 Buat simbol dengan ukuran yang sama. Saat menggambar simbol, cobalah
membuatnya dengan ukuran yang sama. Ini akan membantu memberikan nilai
yang sama pada masing-masing dan membuat pohon lebih mudah dibaca.
 Gunakan template. Ada banyak template online yang dapat digunakan untuk
membuat pohon terlihat sederhana. Beberapa juga memiliki fungsi matematika jika
menggunakan pohon untuk menangani data dan statistik.
 Ketahui kapan harus menggunakan decision tree. Pohon keputusan bekerja
paling baik ketika memiliki tujuan khusus dan perlu melihat hasil untuk setiap
pilihan yang dapat dibuat. Karena sulit untuk menentukan hasil dari ide orisinal,
harus menggunakan pohon keputusan saat dapat memprediksi jawabannya
dengan aman.
Keuntungan Menggunakan Decision Tree
1. Mudah dibaca dan ditafsirkan
2. Mudah disiapkan
3. Lebih sedikit pembersihan data yang diperlukan
Kekurangan Decision Tree
1. Sifat tidak stabil
2. Kurang efektif dalam memprediksi hasil dari variabel kontinu
B. Naïve Bayes merupakan sebuah metoda klasifikasi yang berakar pada teorema
Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan
statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes , yaitu
memprediksi peluang di masa depan berdasarkan pengalaman di masa
sebelumnya sehingga dikenal sebagai Teorema Bayes . Naive Bayes merupakan
teknik klasifikasi yang didasarkan pada asumsi kemandirian antar prediktor yang
dikenal dengan teorema Bayes . Secara sederhana, pengklasifikasi Naive Bayes
mengasumsikan bahwa keberadaan fitur tertentu dalam kelas tidak terkait dengan
keberadaan fitur lainnya.
Rumus yang di gunakan untuk algoritma Naïve Bayes, adalah:
C. K-Nearest Neighbor (KNN), Sebuah algoritma yang mencari jarak terdekat antara
data yang akan dievaluasi dengan K tetangga (neighbor) terdekatnya dalam
pelatihan. Metode KNN banyak digunakan karena mempunyai beberapa
kelebihan, diantaranya yaitu dapat menghasilkan data yang lebih akurat dan efektif
apabila training data cukup besar.
K-nearest neighbors melakukan klasifikasi dengan proyeksi data pembelajaran
pada ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang
merepresentasikan kriteria data pembelajaran. Setiap data pembelajaran
direpresentasikan menjadi titik-titik c pada ruang dimensi banyak.
Cara Kerja algoritma K-Nearest Neighbor, yaitu:
A1. Klasifikasi Terdekat (Nearest Neighbor Classification)
Data baru yang diklasifikasi selanjutnya diproyeksikan pada ruang dimensi banyak
yang telah memuat titik-titik c data pembelajaran. Proses klasifikasi dilakukan
dengan mencari titik c terdekat dari c-baru (nearest neighbor). Teknik pencarian
tetangga terdekat yang umum dilakukan dengan menggunakan formula jarak
euclidean. Berikut beberapa formula yang digunakan dalam algoritma KNN.
 Euclidean Distance
Jarak Euclidean adalah formula untuk mencari jarak antara 2 titik dalam ruang dua
dimensi.

 Hamming Distance
Jarak Hamming adalah cara mencari jarak antar 2 titik yang dihitung dengan
panjang vektor biner yang dibentuk oleh dua titik tersebut dalam block kode biner.
 Manhattan Distance
Manhattan Distance atau Taxicab Geometri adalah formula untuk mencari jarak d
antar 2 vektor p,q pada ruang dimensi n.
 Minkowski Distance
Minkowski distance adalah formula pengukuran antar 2 titik pada ruang vektor
normal yang merupakan hibridisasi yang menjeneralisasi euclidean distance dan
mahattan distance.
Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi,
dan kemudahan implementasi oleh pengguna.
A2. Banyaknya k Tetangga Terdekat
Untuk menggunakan algoritma k nearest neighbors, perlu ditentukan banyaknya k
tetangga terdekat yang digunakan untuk melakukan klasifikasi data baru.
Banyaknya k, sebaiknya merupakan angka ganjil, misalnya k = 1, 2, 3, dan
seterusnya. Penentuan nilai k dipertimbangkan berdasarkan banyaknya data yang
ada dan ukuran dimensi yang dibentuk oleh data. Semakin banyak data yang ada,
angka k yang dipilih sebaiknya semakin rendah. Namun, semakin besar ukuran
dimensi data, angka k yang dipilih sebaiknya semakin tinggi.
A3. Algoritma K-Nearest Neighbors
Tentukan k bilangan bulat positif berdasarkan ketersediaan data pembelajaran.
Pilih tetangga terdekat dari data baru sebanyak k. Tentukan klasifikasi paling
umum pada langkah (2), dengan menggunakan frekuensi terbanyak. Keluaran
klasifikasi dari data sampel baru.
D. Logistic Regression, adalah suatu cara permodelan masalah keterhubungan
antara suatu variabel independen terhadap variabel dependen. Contohnya adalah
menentukan apakah suatu nilai ukuran tumor tertentu termasuk kedalam tumor
ganas atau tidak.

Gambar 4. Contoh klasifikasi dengan Linear Regression
E. Support Vector Machines (SVM), merupakan sebuah teknik yang menggunakan 2
titik (2 vektor), yang selanjutnya 2 titik ini akan membentuk garis pembatas (atau
sisi pembatas jika 3 dimensi atau lebih). Garis/sisi pembatas yang dibentuk dari
dua buah vektor ini disebut dengan hyperplane. Cara kerja SVM bisa dilihat
melalui ilustrasi yang sangat sederhana. Perceptrons dibangun dengan mengambil
satu titik pada satu waktu dan menyesuaikan garis pemisah sesuai. Segera
setelah semua poin dipisahkan, algoritma perceptron berhenti. Perceptron tidak
secara eksplisit diberitahu untuk menemukan garis pemisah terbaik. Regresi
logistik dan model diskriminan linier dibangun serupa dengan perceptron. Garis
pemisah terbaik memaksimalkan jarak antara titik B yang paling dekat dengan A
dan titik A yang paling dekat dengan B. Tidak perlu melihat semua titik untuk
melakukan ini. Bahkan, memasukkan umpan balik dari titik-titik yang jauh dapat
menabrak garis sedikit terlalu jauh.
Gambar 5. Cara Kerja SVM

F. Neural Network, merupakan kategori ilmu Soft Computing. Neural Network
sebenarnya mengadopsi dari kemampuan otak manusia yang mampu
memberikan stimulasi/rangsangan, melakukan proses, dan memberikan output.
Output diperoleh dari variasi stimulasi dan proses yang terjadi di dalam otak
manusia. Kemampuan manusia dalam memproses informasi merupakan hasil
kompleksitas proses di dalam otak. Misalnya, yang terjadi pada anak-anak,
mereka mampu belajar untuk melakukan pengenalan meskipun mereka tidak
mengetahui algoritma apa yang digunakan. Kekuatan komputasi yang luar biasa
dari otak manusia ini merupakan sebuah keunggulan di dalam kajian ilmu
pengetahuan.
Fungsi dari Neural Network diantaranya adalah:
o Pengklasifikasian pola
o Memetakan pola yang didapat dari input ke dalam pola baru pada output
o Penyimpan pola yang akan dipanggil kembali
o Memetakan pola-pola yang sejenis
o Pengoptimasi permasalahan
o Prediksi

Daftar Pustaka
o Keahlian Matematika untuk Mulai Belajar Machine Learning (sekolahkoding.com)

o Peran Matematika dalam Pembelajaran Mesin (ichi.pro)
o Machine Learning Adalah Rebranding Dari Matematika, Benarkah... (dqlab.id)
o Mau Belajar Machine Learning, Apa Saja yang Harus Dipahami? (astradigital.id)
o Matematika dalam Perkembangan Kecerdasan Teknologi Buatan di Indonesia |
kumparan.com
o Decision Tree: Pengertian, Cara Buat, Kelebihan dan Kekurangannya (accurate.id)
o Konsep Supervised Learning Dalam Membangun Model Machine Learning |
TechForID
o


ML Pertemuan 4

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ML Pertemuan 4

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Klasifikasi merupakan teknik Sub-CPMK 1.2

Fakultas Program Studi Tatap Muka Disusun Oleh

Sama halnya dengan regresi, klasifikasi juga termasuk ke dalam supervised

Gambar 2. Model Tipe Klasifikasi

Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu

Gambar 3. Integrasi Data

2022 MACHINE LEARNING

2022 MACHINE LEARNING

Gambar 4. Cara Kerja Dasar Decision Tree

2022 MACHINE LEARNING

2022 MACHINE LEARNING

Gambar 5. Cara Kerja SVM

2022 MACHINE LEARNING

2022 MACHINE LEARNING

o Keahlian Matematika untuk Mulai Belajar Machine Learning (sekolahkoding.com)

2022 MACHINE LEARNING

Anda mungkin juga menyukai