Pertemuan10 - Encoding Variabel
Pertemuan10 - Encoding Variabel
Encoding Variable
STATISTIKA
Sebagian besar metode analisis statistika tidak dapat menangani variabel kategorik,
oleh karena itu kita perlu mengubahnya menjadi nilai numerik.
Karena Data ordinal dan nominal memiliki ciri-ciri yang berbeda, maka treatment /
penanganan yang diberikan kepada kedua tipe data tersebut juga berbeda
STATISTIKA
1.One Hot Encoding 10. Sum Encoder (Deviation Encoding or Effect Encoding)
2.Label Encoding 11. Leave One Out Encoding
3.Ordinal Encoding 12. CatBoost Encoding
4.Frequency or Count Encoding 13. James-Stein Encoding
5.Binary Encoding 14. M-estimator Encoding
6.Base-N Encoding 15. Hashing Encoding
7.Helmert Encoding 16. Backward Difference Encoding
8.Mean Encoding or Target Encoding 17. Polynomial Encoding
9.Weight of Evidence Encoding 18. MultiLabelBinarizer
Teknik pengkodean data kategorik ini digunakan untuk variable nominal (tidak memiliki urutan apa
pun). Dalam One Hot Encoding, untuk setiap kategori dari variable nominal, maka dibuat variabel
baru. Setiap kategori dipetakan dengan variabel biner yang berisi 0 atau 1. Di sini, 0 mewakili
ketidakhadiran, dan 1 mewakili keberadaan kategori tersebut.
Skema pengkodean dummy mirip dengan one-hot encoding. Metode pengkodean data kategorik ini
mengubah variabel kategorik menjadi satu set variabel biner. Dalam kasus one-hot encoding, untuk N
kategori dalam sebuah variabel, ia menggunakan N variabel biner. Sedangkan dummy encoding
menggunakan sebanyak N-1 variabel untuk mewakili N kategori.
One-hot encoding dan dummy encoding adalah dua skema pengkodean yang kuat dan
efektif. Sangat populer digunakan, namun ada beberapa kondisi yang menimbulkan kesulitan,
yaitu :
Jika ada beberapa kategori dalam variabel suatu kasus, memerlukan jumlah variabel dummy
1 yang sama untuk menyandikan data. Misalnya, kolom dengan 30 nilai berbeda akan
membutuhkan 30 variabel baru untuk pengkodean.
Jika terdapat beberapa variable kategorik dalam kumpulan data, situasi yang sama akan
terjadi dan sekali lagi akan berakhir dengan memiliki beberapa variabel biner yang masing-
2
masing mewakili variable kategorik dan beberapa kategorinya, misalnya kumpulan data yang
memiliki 10 atau lebih kolom kategorik.
Label Encoding STATISTIKA
Dalam pengkodean ini, setiap kategori diberi nilai dari 1 hingga N (di mana N adalah
jumlah kategori dari variabel), dan dalam pendekatan ini tidak ada hubungan atau urutan
antara kelas-kelas.
Suhu Suhu
Dingin 0
Kelebihan Label Encoding :
Panas 1 • Langsung untuk diimplementasikan.
Hangat 2 • Tidak memperluas ruang variabel.
• Membuat hubungan monoton antara
Sangat Panas 3 kategori dan target.
Pengkodean biner mengubah kategori menjadi digit biner. Setiap digit biner membuat satu kolom
variabel.
n
Jika ada kategori unik, maka pengkodean biner menghasilkan log(basis 2)ⁿ .
8 KAT = 3 variabel
binary decimal
000 0
001 1
4 KAT = 2 variabel 010 2
Dibandingkan dengan One Hot Encoding,
binary encoding membutuhkan lebih sedikit binary decimal 011 3
kolom variabel 00 0 100 4
(untuk 100 kategori, One Hot Encoding akan
memiliki 100 variabel, sedangkan untuk Binary 01 1 101 5
encoding, kita hanya membutuhkan 7 variabel). 10 2 110 6
11 3 111 7
Binary Encoding STATISTIKA
Mean Encoding memperhitungkan jumlah label dengan variabel target untuk mengkodekan label menjadi nilai
yang dapat dipahami.
WoE akan menjadi 0 jika P(Goods) / P(Bads) = 1. Jika P(Bads) > P(Goods) rasio odds akan < 1
dan WoE akan < 0; jika, di sisi lain, P(goods) > P(bads) rasio odds akan > 1, maka WoE > 0.
Weight of Evidence Encoding STATISTIKA
1. Hitung peluang dengan target = 1, yang artinya “Good” = 1, untuk setiap kategori
2. Hitung peluang “bad” = 1 – “good”
3. Jika nilai “bad” sebesar 0, maka ganti dengan nilai kecil (misal 0.001) untuk untuk
menghindari membagi dengan nol dalam penyebut
4. Hitung WoE
Frequency atau Count Encoder Mengkodekan variabel Kategorik melalui pemetaan Nilai ke
frekuensinya. Ini akan menjaga informasi tentang nilai distribusi. Apa yang diasumsikan oleh
teknik ini adalah bahwa jumlah pengamatan bersifat informatif tentang daya prediksi kategori.
Count Encoder =
Frequency atau Count Encoder STATISTIKA
https://finnstats.com/index.php/2021/10/19/convert-categorical-variable-to-numeric-in-r/
STATISTIKA
Normalisasi adalah teknik penskalaan di mana nilai-nilai digeser dan diubah skalanya sehingga
nilainya berkisar antara 0 dan 1, sehingga data berada di bawah rentang sempit.
Setiap record data dalam dataset akan diubah menjadi rentang antara 0 & 1, sehingga data berada di
bawah rentang sempit.
Standarisasi mengubah rata-rata data menjadi 0 & variansnya menjadi 1. Karena nilai data
cenderung menuju tak terhingga, varians data cenderung ke 1.
Data standarisasi biasanya lebih disukai ketika data digunakan untuk analisis multivariat yaitu ketika
kita menginginkan semua variabel dari unit yang sebanding. Biasanya diterapkan ketika data
memiliki kurva lonceng yaitu memiliki distribusi gaussian.
DATA ASLI
DATA
STANDARISASI
DATA ASLI
DATA
NORMALISASI
TERIMAKASIH