Pertemuan10 - Encoding Variabel

STATISTIKA
Analisis Data Eksplorasi
Encoding Variable, Normalisasi

Dan Standarisasi
Pertemuan - 10
Muthia Nadhira Faladiba, S.Stat., M.Si.

STATISTIKA
Encoding Variable
STATISTIKA
Penanganan variabel Kategorik/Kualitatif merupakan langkah penting

dalam pre-processing data.
Karena sebagian besar analisis statistika lanjut menggunakan variabel
numerik, maka kita perlu mengubah variabel kategorik ini menjadi angka.
Mengapa perlu melakukan pengkodean / encoding ?
 Sebagian besar metode analisis statistika tidak dapat menangani variabel kategorik,
oleh karena itu kita perlu mengubahnya menjadi nilai numerik.
 Banyak kinerja analisis statistika yang hasilnya bervariasi berdasarkan bagaimana

variabel kategorik dikodekan.
Encoding Variable STATISTIKA
Variabel kategorik dapat dibagi menjadi dua kategori:
Data ordinal adalah data dimana terdapat

unsur ordering secara intrinsik.
Contohnya data ordinal adalah :
• Low, Medium, High.
• SD, SMP, SMA, S1, S2
Sebaliknya, Data nominal dimana tidak
terdapat ordering secara intrinsik.
Contohnya adalah data nama kota seperti
Jakarta, Bandung, Bali.
Karena Data ordinal dan nominal memiliki ciri-ciri yang berbeda, maka treatment /
penanganan yang diberikan kepada kedua tipe data tersebut juga berbeda
STATISTIKA
Ada banyak cara untuk melakukan pengkodean variabel kategori
1.One Hot Encoding 10. Sum Encoder (Deviation Encoding or Effect Encoding)
2.Label Encoding 11. Leave One Out Encoding
3.Ordinal Encoding 12. CatBoost Encoding
4.Frequency or Count Encoding 13. James-Stein Encoding
5.Binary Encoding 14. M-estimator Encoding
6.Base-N Encoding 15. Hashing Encoding
7.Helmert Encoding 16. Backward Difference Encoding
8.Mean Encoding or Target Encoding 17. Polynomial Encoding
9.Weight of Evidence Encoding 18. MultiLabelBinarizer

STATISTIKA

One Hot Encoding STATISTIKA
Teknik pengkodean data kategorik ini digunakan untuk variable nominal (tidak memiliki urutan apa
pun). Dalam One Hot Encoding, untuk setiap kategori dari variable nominal, maka dibuat variabel
baru. Setiap kategori dipetakan dengan variabel biner yang berisi 0 atau 1. Di sini, 0 mewakili
ketidakhadiran, dan 1 mewakili keberadaan kategori tersebut.
WARNA Merah Kuning Hijau

Merah 1 0 0
Kuning 0 1 0
Merah 1 0 0
Hijau 0 0 1
Kuning 0 1 0
Dummy Encoding STATISTIKA
Skema pengkodean dummy mirip dengan one-hot encoding. Metode pengkodean data kategorik ini
mengubah variabel kategorik menjadi satu set variabel biner. Dalam kasus one-hot encoding, untuk N
kategori dalam sebuah variabel, ia menggunakan N variabel biner. Sedangkan dummy encoding
menggunakan sebanyak N-1 variabel untuk mewakili N kategori.
One Hot Dummy
WARNA Merah Kuning Hijau Merah Kuning Hijau

Merah 1 0 0 1 0 0
Kuning 0 1 0 0 1 0
Merah 1 0 0 1 0 0
Hijau 0 0 1 0 0 1
Kuning 0 1 0 0 1 0
Dummy Encoder STATISTIKA
Untuk lebih memahaminya mari kita lihat

gambar berikut. Untuk mengkodekan data
yang sama menggunakan teknik
pengkodean one-hot dan pengkodean
dummy.
one-hot menggunakan 3 variabel untuk merepresentasikan data sedangkan

dummy menggunakan 2 variabel untuk mengkodekan 3 kategori.
Kekurangan One-Hot dan Dummy Encoding STATISTIKA
One-hot encoding dan dummy encoding adalah dua skema pengkodean yang kuat dan
efektif. Sangat populer digunakan, namun ada beberapa kondisi yang menimbulkan kesulitan,
yaitu :
Jika ada beberapa kategori dalam variabel suatu kasus, memerlukan jumlah variabel dummy
1 yang sama untuk menyandikan data. Misalnya, kolom dengan 30 nilai berbeda akan
membutuhkan 30 variabel baru untuk pengkodean.
Jika terdapat beberapa variable kategorik dalam kumpulan data, situasi yang sama akan
terjadi dan sekali lagi akan berakhir dengan memiliki beberapa variabel biner yang masing-
2
masing mewakili variable kategorik dan beberapa kategorinya, misalnya kumpulan data yang
memiliki 10 atau lebih kolom kategorik.
Label Encoding STATISTIKA
Dalam pengkodean ini, setiap kategori diberi nilai dari 1 hingga N (di mana N adalah
jumlah kategori dari variabel), dan dalam pendekatan ini tidak ada hubungan atau urutan
antara kelas-kelas.
Suhu Suhu
Dingin 0
Kelebihan Label Encoding :
Panas 1 • Langsung untuk diimplementasikan.
Hangat 2 • Tidak memperluas ruang variabel.
• Membuat hubungan monoton antara
Sangat Panas 3 kategori dan target.
Kelemahan Label Ecoding :

• dapat menyebabkan overfitting.
Ordinal Encoding STATISTIKA
Pendidikan Pendidikan Pendidikan

Pengkodean ini terlihat hampir mirip dengan Pengkodean
SMA SMA 1 Label tetapi sedikit berbeda karena Pengkodean Label
D3 D3 2 tidak akan mempertimbangkan apakah variabel tersebut
S1 ordinal atau tidak, dan itu akan menetapkan urutan
S3 5 bilangan.
S2 SMA 1
S3 S1 3  Teknik ini hanya digunakan untuk kategori Ordinal.
 Peringkat diberikan berdasarkan pentingnya
D3 2
kategori.
S2 4  pengkodean harus mencerminkan urutan.
S2 4  Tabel di samping ini menggambarkan bahwa S3
dianggap sebagai derajat tertinggi.
S1 3
S3 5 S3 > S2 > S1 > D3 > SMA
D3 2
SMA 1
5>4>3>2>1
Binary Encoding STATISTIKA
Pengkodean biner mengubah kategori menjadi digit biner. Setiap digit biner membuat satu kolom
variabel.
n
Jika ada kategori unik, maka pengkodean biner menghasilkan log(basis 2)ⁿ .
8 KAT = 3 variabel
binary decimal
000 0
001 1
4 KAT = 2 variabel 010 2
Dibandingkan dengan One Hot Encoding,
binary encoding membutuhkan lebih sedikit binary decimal 011 3
kolom variabel 00 0 100 4
(untuk 100 kategori, One Hot Encoding akan
memiliki 100 variabel, sedangkan untuk Binary 01 1 101 5
encoding, kita hanya membutuhkan 7 variabel). 10 2 110 6
11 3 111 7
Binary Encoding STATISTIKA
Untuk sekelompok n bit, dimungkinkan untuk mewakili nilai
Warna Order Binary War_1 War_2 War_3

Berikut Langkah pengkodean biner : Merah 0 0 1
1
001
Hijau 2 0 1 0
• Kategori pertama-tama dikonversi ke urutan 010
numerik mulai dari 1 (urutan dibuat saat Kuning 3 0 1 1
011
kategori muncul dalam kumpulan data dan Biru 4 1 0 0
100
tidak berarti sifat ordinal apa pun). Ungu 5 1 0 1
101
Coklat 6 1 1 0
• Kemudian bilangan bulat tersebut diubah 110
Kuning 3 0 1 1
menjadi kode biner, jadi misalnya 3 menjadi 011
Merah 1 0 0 1
011, 4 menjadi 100 001
Biru 4 100 1 0 0
• Kemudian digit bilangan biner membentuk Hijau 2 010 0 1 0
kolom terpisah. Merah 1 001 0 0 1
Mean Encoding atau Target Encoding STATISTIKA
Mean Encoding memperhitungkan jumlah label dengan variabel target untuk mengkodekan label menjadi nilai
yang dapat dipahami.
Langkah mean encoding :
1. Pilih variabel 2. Kelompokkan 3. Kelompokkan 4. Bagi hasil STEP 1/STEP

kategorik yang ingin berdasarkan variabel berdasarkan variabel 2, setelah nilai
diubah. kategorik dan dapatkan “temperature” (STEP 2) didapatkan gabungkan
jumlah agregat atas kembali dengan tabel
variabel "Target” (STEP 1)
Mean Encoding atau Target Encoding STATISTIKA
Kelebihan Mean encoding :

• Langsung dapat diimplementasikan.
• Tidak memperluas ruang variabel.
• Menciptakan hubungan monoton antara kategori dan target.
Kekurangan Mean encoding :

• Dapat menyebabkan overfitting.
• Dapat menyebabkan kemungkinan hilangnya nilai jika dua kategori memiliki rata-rata yang
sama dengan target—dalam kasus ini, (nomor yang sama menggantikan yang asli).
Weight of Evidence Encoding STATISTIKA
Weight of Evidence (WoE) mengukur “kekuatan” suatu teknik pengelompokan untuk

memisahkan yang baik dan yang buruk. Weight of Evidence (WoE) mengukur seberapa
banyak bukti mendukung atau melemahkan hipotesis.
WoE akan menjadi 0 jika P(Goods) / P(Bads) = 1. Jika P(Bads) > P(Goods) rasio odds akan < 1
dan WoE akan < 0; jika, di sisi lain, P(goods) > P(bads) rasio odds akan > 1, maka WoE > 0.
1. Hitung peluang dengan target = 1, yang artinya “Good” = 1, untuk setiap kategori
2. Hitung peluang “bad” = 1 – “good”
3. Jika nilai “bad” sebesar 0, maka ganti dengan nilai kecil (misal 0.001) untuk untuk
menghindari membagi dengan nol dalam penyebut
4. Hitung WoE
Temperature Good Bad Bad WoE

Cold 1.000 0.000 0.001 690.7755
Hot 0.750 0.250 0.250 109.8612
Very Hot 1.000 0.000 0.001 690.7755
Warm 0.333 0.667 0.667 -69.4648
Langkah seperti pada 1 - good Nilai 0.00 Hitung WoE

cara target encoding ditambah nilai
kecil
Kelebihan Weight of Evidence Encoding :
• Menciptakan hubungan monoton antara target dan variabel.

• Mengurutkan kategori pada skala "logistik“.
• Kita dapat membandingkan variabel yang ditransformasikan karena mereka berada
pada skala yang sama. Oleh karena itu, dimungkinkan untuk menentukan mana yang
lebih prediktif.
Kekurangan Weight of Evidence Encoding :
• Dapat menyebabkan overfitting.

• Tidak dapat ditentukan jika penyebutnya 0.
Frequency atau Count Encoder STATISTIKA
Frequency atau Count Encoder Mengkodekan variabel Kategorik melalui pemetaan Nilai ke
frekuensinya. Ini akan menjaga informasi tentang nilai distribusi. Apa yang diasumsikan oleh
teknik ini adalah bahwa jumlah pengamatan bersifat informatif tentang daya prediksi kategori.
Count Encoder =
Frequency atau Count Encoder STATISTIKA
Kelebihan Count Encoder

• Langsung dapat diimplementasikan.
• Tidak memperluas ruang variabel.
Kelemahan Count Encoder

• Tidak cocok untuk model linier.
• Tidak menangani kategori baru dalam set pengujian secara otomatis.
• Memungkinkan kehilangan informasi berharga jika ada dua kategori berbeda dengan jumlah
pengamatan yang sama, hal ini terjadi karena digganti dengan angka yang sama.
Pengayaan STATISTIKA
https://finnstats.com/index.php/2021/10/19/convert-categorical-variable-to-numeric-in-r/
STATISTIKA
Normalisasi dan Standarisasi

Apa bedanya?

Normalisasi vs Standarisasi STATISTIKA
Standardisasi dan Normalisasi keduanya digunakan untuk Penskalaan variabel
Normalisasi pada dasarnya adalah teknik perubahan skala yang

mana mengubah nilai dari data ke dalam skala dalam kisaran 0–1
Standarisasi adalah teknik lain dalam melakukan perubahan skala,

dimana data yang dimiliki akan diubah sehingga memiliki rata rata
= 0 (terpusat) dan standar deviasi = 1.

Perbedaan Penggunaan STATISTIKA
Normalisasi baik digunakan ketika distribusi data tidak mengikuti distribusi

Gaussian. Ini dapat berguna dalam algoritme yang tidak mengasumsikan
distribusi data apa pun.
Standardisasi dapat membantu dalam kasus di mana data mengikuti distribusi

Gaussian. Namun, ini tidak harus selalu terjadi. Juga, tidak seperti normalisasi,
standardisasi tidak memiliki batasan jangkauan. Jadi, bahkan jika memiliki
outlier dalam data, maka outliertersebut tidak akan terpengaruh oleh
standardisasi.
Pada implementasinya, penggunaan keduanya dikembalikan lagi
kepada si pengguna. Tidak ada aturan baku kapan kita harus memakai
salah satunya, kita selalu dapat mencoba pada data yang dimiliki dan
melihat pengaruhnya pada model.

Perbedaan Normalisasi dan Standarisasi STATISTIKA

Normalisasi STATISTIKA
Normalisasi adalah teknik penskalaan di mana nilai-nilai digeser dan diubah skalanya sehingga
nilainya berkisar antara 0 dan 1, sehingga data berada di bawah rentang sempit.
Dapat juga disebut “ Min-Max scaling “
Setiap record data dalam dataset akan diubah menjadi rentang antara 0 & 1, sehingga data berada di
bawah rentang sempit.

Kasus penggunaan Normalizer?
• Setiap situasi di mana rentang variabel harus antara 0 hingga 1. Misalnya,

dalam data Gambar, memiliki rentang piksel warna dari 0 hingga 255 (total
256 warna), di sini Normalizer adalah yang terbaik untuk digunakan.
• Mungkin ada beberapa skenario di mana kisaran 0 -1 ini diharapkan, di sana

optimal untuk menggunakan MinMaxScaler.

Standarisasi STATISTIKA
Standarisasi mengubah rata-rata data menjadi 0 & variansnya menjadi 1. Karena nilai data
cenderung menuju tak terhingga, varians data cenderung ke 1.
Data standarisasi biasanya lebih disukai ketika data digunakan untuk analisis multivariat yaitu ketika
kita menginginkan semua variabel dari unit yang sebanding. Biasanya diterapkan ketika data
memiliki kurva lonceng yaitu memiliki distribusi gaussian.

STATISTIKA

Contoh kasus : Standarisasi STATISTIKA
scale(x, center = TRUE, scale = TRUE)
DATA ASLI DATA STANDARISASI

Standarisasi STATISTIKA
DATA ASLI
DATA
STANDARISASI

Normalize <- function(x){

(x- min(x)) /(max(x)-min(x)) }
DATA ASLI DATA NORMALISASI


DATA ASLI
DATA
NORMALISASI


Min. 1st Qu. Median Mean 3rd Qu. Max. SD
Data asli  1.100 3.450 5.300 6.309 9.250 13.500 3.61861

Years Normalisasi  0.0000 0.1895 0.3387 0.4200 0.6573 1.0000 0.29182
Experience
Standarisasi  -1.4394 -0.7900 -0.2787 0.0000 0.8129 1.9873 1
Min. 1st Qu. Median Mean 3rd Qu. Max. SD
Data asli  37731 57019 81363 83946 113224 139465 32162.6
Salary Normalisasi  0.0000 0.1896 0.4289 0.4543 0.7421 1.0000 0.31614
Standarisasi  -1.4369 -0.8372 -0.0803 0.0000 0.9103 1.7262 1


STATISTIKA
TERIMAKASIH

Pertemuan10 - Encoding Variabel

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pertemuan10 - Encoding Variabel

Diunggah oleh

Hak Cipta:

Format Tersedia

STATISTIKA

Analisis Data Eksplorasi

Encoding Variable, Normalisasi

Muthia Nadhira Faladiba, S.Stat., M.Si.

Penanganan variabel Kategorik/Kualitatif merupakan langkah penting

Mengapa perlu melakukan pengkodean / encoding ?

 Banyak kinerja analisis statistika yang hasilnya bervariasi berdasarkan bagaimana

Variabel kategorik dapat dibagi menjadi dua kategori:

Data ordinal adalah data dimana terdapat

Ada banyak cara untuk melakukan pengkodean variabel kategori

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

WARNA Merah Kuning Hijau

One Hot Dummy

WARNA Merah Kuning Hijau Merah Kuning Hijau

Untuk lebih memahaminya mari kita lihat

one-hot menggunakan 3 variabel untuk merepresentasikan data sedangkan

Kelemahan Label Ecoding :

Pendidikan Pendidikan Pendidikan

Untuk sekelompok n bit, dimungkinkan untuk mewakili nilai

Warna Order Binary War_1 War_2 War_3

Langkah mean encoding :

1. Pilih variabel 2. Kelompokkan 3. Kelompokkan 4. Bagi hasil STEP 1/STEP

Kelebihan Mean encoding :

Kekurangan Mean encoding :

Weight of Evidence (WoE) mengukur “kekuatan” suatu teknik pengelompokan untuk

Temperature Good Bad Bad WoE

Langkah seperti pada 1 - good Nilai 0.00 Hitung WoE

Kelebihan Weight of Evidence Encoding :

• Menciptakan hubungan monoton antara target dan variabel.

Kekurangan Weight of Evidence Encoding :

• Dapat menyebabkan overfitting.

Kelebihan Count Encoder

Kelemahan Count Encoder

Normalisasi dan Standarisasi

Muthia Nadhira Faladiba, S.Stat., M.Si.

Standardisasi dan Normalisasi keduanya digunakan untuk Penskalaan variabel

Normalisasi pada dasarnya adalah teknik perubahan skala yang

Standarisasi adalah teknik lain dalam melakukan perubahan skala,

Muthia Nadhira Faladiba, S.Stat., M.Si.

Normalisasi baik digunakan ketika distribusi data tidak mengikuti distribusi

Standardisasi dapat membantu dalam kasus di mana data mengikuti distribusi

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Dapat juga disebut “ Min-Max scaling “

Muthia Nadhira Faladiba, S.Stat., M.Si.

Kasus penggunaan Normalizer?

• Setiap situasi di mana rentang variabel harus antara 0 hingga 1. Misalnya,

• Mungkin ada beberapa skenario di mana kisaran 0 -1 ini diharapkan, di sana

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

scale(x, center = TRUE, scale = TRUE)

DATA ASLI DATA STANDARISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Normalize <- function(x){

DATA ASLI DATA NORMALISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Muthia Nadhira Faladiba, S.Stat., M.Si.

Min. 1st Qu. Median Mean 3rd Qu. Max. SD