Anda di halaman 1dari 41

STATISTIKA

Analisis Data Eksplorasi

Encoding Variable, Normalisasi


Dan Standarisasi
Pertemuan - 10

Muthia Nadhira Faladiba, S.Stat., M.Si.


STATISTIKA

Encoding Variable
STATISTIKA

Penanganan variabel Kategorik/Kualitatif merupakan langkah penting


dalam pre-processing data.
Karena sebagian besar analisis statistika lanjut menggunakan variabel
numerik, maka kita perlu mengubah variabel kategorik ini menjadi angka.

Mengapa perlu melakukan pengkodean / encoding ?

 Sebagian besar metode analisis statistika tidak dapat menangani variabel kategorik,
oleh karena itu kita perlu mengubahnya menjadi nilai numerik.

 Banyak kinerja analisis statistika yang hasilnya bervariasi berdasarkan bagaimana


variabel kategorik dikodekan.
Encoding Variable STATISTIKA

Variabel kategorik dapat dibagi menjadi dua kategori:

Data ordinal adalah data dimana terdapat


unsur ordering secara intrinsik.
Contohnya data ordinal adalah :
• Low, Medium, High.
• SD, SMP, SMA, S1, S2
Sebaliknya, Data nominal dimana tidak
terdapat ordering secara intrinsik.
Contohnya adalah data nama kota seperti
Jakarta, Bandung, Bali.

Karena Data ordinal dan nominal memiliki ciri-ciri yang berbeda, maka treatment /
penanganan yang diberikan kepada kedua tipe data tersebut juga berbeda
STATISTIKA

Ada banyak cara untuk melakukan pengkodean variabel kategori

1.One Hot Encoding 10. Sum Encoder (Deviation Encoding or Effect Encoding)
2.Label Encoding 11. Leave One Out Encoding
3.Ordinal Encoding 12. CatBoost Encoding
4.Frequency or Count Encoding 13. James-Stein Encoding
5.Binary Encoding 14. M-estimator Encoding
6.Base-N Encoding 15. Hashing Encoding
7.Helmert Encoding 16. Backward Difference Encoding
8.Mean Encoding or Target Encoding 17. Polynomial Encoding
9.Weight of Evidence Encoding 18. MultiLabelBinarizer

Muthia Nadhira Faladiba, S.Stat., M.Si.


STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


One Hot Encoding STATISTIKA

Teknik pengkodean data kategorik ini digunakan untuk variable nominal (tidak memiliki urutan apa
pun). Dalam One Hot Encoding, untuk setiap kategori dari variable nominal, maka dibuat variabel
baru. Setiap kategori dipetakan dengan variabel biner yang berisi 0 atau 1. Di sini, 0 mewakili
ketidakhadiran, dan 1 mewakili keberadaan kategori tersebut.

WARNA Merah Kuning Hijau


Merah 1 0 0
Kuning 0 1 0
Merah 1 0 0
Hijau 0 0 1
Kuning 0 1 0
Dummy Encoding STATISTIKA

Skema pengkodean dummy mirip dengan one-hot encoding. Metode pengkodean data kategorik ini
mengubah variabel kategorik menjadi satu set variabel biner. Dalam kasus one-hot encoding, untuk N
kategori dalam sebuah variabel, ia menggunakan N variabel biner. Sedangkan dummy encoding
menggunakan sebanyak N-1 variabel untuk mewakili N kategori.

One Hot Dummy

WARNA Merah Kuning Hijau Merah Kuning Hijau


Merah 1 0 0 1 0 0
Kuning 0 1 0 0 1 0
Merah 1 0 0 1 0 0
Hijau 0 0 1 0 0 1
Kuning 0 1 0 0 1 0
Dummy Encoder STATISTIKA

Untuk lebih memahaminya mari kita lihat


gambar berikut. Untuk mengkodekan data
yang sama menggunakan teknik
pengkodean one-hot dan pengkodean
dummy.

one-hot menggunakan 3 variabel untuk merepresentasikan data sedangkan


dummy menggunakan 2 variabel untuk mengkodekan 3 kategori.
Kekurangan One-Hot dan Dummy Encoding STATISTIKA

One-hot encoding dan dummy encoding adalah dua skema pengkodean yang kuat dan
efektif. Sangat populer digunakan, namun ada beberapa kondisi yang menimbulkan kesulitan,
yaitu :

Jika ada beberapa kategori dalam variabel suatu kasus, memerlukan jumlah variabel dummy
1 yang sama untuk menyandikan data. Misalnya, kolom dengan 30 nilai berbeda akan
membutuhkan 30 variabel baru untuk pengkodean.

Jika terdapat beberapa variable kategorik dalam kumpulan data, situasi yang sama akan
terjadi dan sekali lagi akan berakhir dengan memiliki beberapa variabel biner yang masing-
2
masing mewakili variable kategorik dan beberapa kategorinya, misalnya kumpulan data yang
memiliki 10 atau lebih kolom kategorik.
Label Encoding STATISTIKA

Dalam pengkodean ini, setiap kategori diberi nilai dari 1 hingga N (di mana N adalah
jumlah kategori dari variabel), dan dalam pendekatan ini tidak ada hubungan atau urutan
antara kelas-kelas.

Suhu Suhu
Dingin 0
Kelebihan Label Encoding :
Panas 1 • Langsung untuk diimplementasikan.
Hangat 2 • Tidak memperluas ruang variabel.
• Membuat hubungan monoton antara
Sangat Panas 3 kategori dan target.

Kelemahan Label Ecoding :


• dapat menyebabkan overfitting.
Ordinal Encoding STATISTIKA

Pendidikan Pendidikan Pendidikan


Pengkodean ini terlihat hampir mirip dengan Pengkodean
SMA SMA 1 Label tetapi sedikit berbeda karena Pengkodean Label
D3 D3 2 tidak akan mempertimbangkan apakah variabel tersebut
S1 ordinal atau tidak, dan itu akan menetapkan urutan
S3 5 bilangan.
S2 SMA 1
S3 S1 3  Teknik ini hanya digunakan untuk kategori Ordinal. 
 Peringkat diberikan berdasarkan pentingnya
D3 2
kategori. 
S2 4  pengkodean harus mencerminkan urutan.
S2 4  Tabel di samping ini menggambarkan bahwa S3
dianggap sebagai derajat tertinggi.
S1 3
S3 5 S3 > S2 > S1 > D3 > SMA
D3 2
SMA 1
5>4>3>2>1
Binary Encoding STATISTIKA

Pengkodean biner mengubah kategori menjadi digit biner. Setiap digit biner membuat satu kolom
variabel. 
n
Jika ada   kategori unik, maka pengkodean biner menghasilkan log(basis 2)ⁿ . 

8 KAT = 3 variabel

binary decimal
000 0
001 1
4 KAT = 2 variabel 010 2
Dibandingkan dengan One Hot Encoding,
binary encoding membutuhkan lebih sedikit binary decimal 011 3
kolom variabel 00 0 100 4
(untuk 100 kategori, One Hot Encoding akan
memiliki 100 variabel, sedangkan untuk Binary 01 1 101 5
encoding, kita hanya membutuhkan 7 variabel). 10 2 110 6
11 3 111 7
Binary Encoding STATISTIKA

 Untuk sekelompok n bit, dimungkinkan untuk mewakili nilai

Warna Order Binary War_1 War_2 War_3


Berikut Langkah pengkodean biner : Merah 0 0 1
1
001
Hijau 2 0 1 0
• Kategori pertama-tama dikonversi ke urutan 010
numerik mulai dari 1 (urutan dibuat saat Kuning 3 0 1 1
011
kategori muncul dalam kumpulan data dan Biru 4 1 0 0
100
tidak berarti sifat ordinal apa pun). Ungu 5 1 0 1
101
Coklat 6 1 1 0
• Kemudian bilangan bulat tersebut diubah 110
Kuning 3 0 1 1
menjadi kode biner, jadi misalnya 3 menjadi 011
Merah 1 0 0 1
011, 4 menjadi 100 001
Biru 4 100 1 0 0
• Kemudian digit bilangan biner membentuk Hijau 2 010 0 1 0
kolom terpisah. Merah 1 001 0 0 1
Mean Encoding atau Target Encoding STATISTIKA

Mean Encoding memperhitungkan jumlah label dengan variabel target untuk mengkodekan label menjadi nilai
yang dapat dipahami.

Langkah mean encoding :

1. Pilih variabel 2. Kelompokkan 3. Kelompokkan 4. Bagi hasil STEP 1/STEP


kategorik yang ingin berdasarkan variabel berdasarkan variabel 2, setelah nilai
diubah. kategorik dan dapatkan “temperature” (STEP 2) didapatkan gabungkan
jumlah agregat atas kembali dengan tabel
variabel "Target” (STEP 1)
Mean Encoding atau Target Encoding STATISTIKA

Kelebihan Mean encoding :


• Langsung dapat diimplementasikan.
• Tidak memperluas ruang variabel.
• Menciptakan hubungan monoton antara kategori dan target.

Kekurangan Mean encoding :


• Dapat menyebabkan overfitting.
• Dapat menyebabkan kemungkinan hilangnya nilai jika dua kategori memiliki rata-rata yang
sama dengan target—dalam kasus ini, (nomor yang sama menggantikan yang asli).
Weight of Evidence Encoding STATISTIKA

Weight of Evidence (WoE) mengukur “kekuatan” suatu teknik pengelompokan untuk


memisahkan yang baik dan yang buruk. Weight of Evidence (WoE) mengukur seberapa
banyak bukti mendukung atau melemahkan hipotesis.

WoE akan menjadi 0 jika P(Goods) / P(Bads) = 1. Jika P(Bads) > P(Goods) rasio odds akan < 1
dan WoE akan < 0; jika, di sisi lain, P(goods) > P(bads) rasio odds akan > 1, maka WoE > 0.
Weight of Evidence Encoding STATISTIKA

1. Hitung peluang dengan target = 1, yang artinya “Good” = 1, untuk setiap kategori
2. Hitung peluang “bad” = 1 – “good”
3. Jika nilai “bad” sebesar 0, maka ganti dengan nilai kecil (misal 0.001) untuk untuk
menghindari membagi dengan nol dalam penyebut
4. Hitung WoE

Temperature Good Bad Bad WoE


Cold 1.000 0.000 0.001 690.7755
Hot 0.750 0.250 0.250 109.8612
Very Hot 1.000 0.000 0.001 690.7755
Warm 0.333 0.667 0.667 -69.4648

Langkah seperti pada 1 - good Nilai 0.00 Hitung WoE


cara target encoding ditambah nilai
kecil
Weight of Evidence Encoding STATISTIKA

Kelebihan Weight of Evidence Encoding :

• Menciptakan hubungan monoton antara target dan variabel.


• Mengurutkan kategori pada skala "logistik“.
• Kita dapat membandingkan variabel yang ditransformasikan karena mereka berada
pada skala yang sama. Oleh karena itu, dimungkinkan untuk menentukan mana yang
lebih prediktif.

Kekurangan Weight of Evidence Encoding :

• Dapat menyebabkan overfitting.


• Tidak dapat ditentukan jika penyebutnya 0.
Frequency atau Count Encoder STATISTIKA

Frequency atau Count Encoder Mengkodekan variabel Kategorik melalui pemetaan Nilai ke
frekuensinya. Ini akan menjaga informasi tentang nilai distribusi. Apa yang diasumsikan oleh
teknik ini adalah bahwa jumlah pengamatan bersifat informatif tentang daya prediksi kategori.

 Count Encoder =
Frequency atau Count Encoder STATISTIKA

Kelebihan Count Encoder


• Langsung dapat diimplementasikan.
• Tidak memperluas ruang variabel.

Kelemahan Count Encoder


• Tidak cocok untuk model linier.
• Tidak menangani kategori baru dalam set pengujian secara otomatis.
• Memungkinkan kehilangan informasi berharga jika ada dua kategori berbeda dengan jumlah
pengamatan yang sama, hal ini terjadi karena digganti dengan angka yang sama.
Pengayaan STATISTIKA

https://finnstats.com/index.php/2021/10/19/convert-categorical-variable-to-numeric-in-r/
STATISTIKA

Normalisasi dan Standarisasi


Apa bedanya?

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi vs Standarisasi STATISTIKA

Standardisasi dan Normalisasi keduanya digunakan untuk Penskalaan variabel

Normalisasi pada dasarnya adalah teknik perubahan skala yang


mana mengubah nilai dari data ke dalam skala dalam kisaran 0–1

Standarisasi adalah teknik lain dalam melakukan perubahan skala,


dimana data yang dimiliki akan diubah sehingga memiliki rata rata
= 0 (terpusat) dan standar deviasi = 1.

Muthia Nadhira Faladiba, S.Stat., M.Si.


Perbedaan Penggunaan STATISTIKA

Normalisasi baik digunakan ketika distribusi data tidak mengikuti distribusi


Gaussian. Ini dapat berguna dalam algoritme yang tidak mengasumsikan
distribusi data apa pun.

Standardisasi dapat membantu dalam kasus di mana data mengikuti distribusi


Gaussian. Namun, ini tidak harus selalu terjadi. Juga, tidak seperti normalisasi,
standardisasi tidak memiliki batasan jangkauan. Jadi, bahkan jika memiliki
outlier dalam data, maka outliertersebut tidak akan terpengaruh oleh
standardisasi.
Pada implementasinya, penggunaan keduanya dikembalikan lagi
kepada si pengguna. Tidak ada aturan baku kapan kita harus memakai
salah satunya, kita selalu dapat mencoba pada data yang dimiliki dan
melihat pengaruhnya pada model.

Muthia Nadhira Faladiba, S.Stat., M.Si.


Perbedaan Normalisasi dan Standarisasi STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi STATISTIKA

Normalisasi adalah teknik penskalaan di mana nilai-nilai digeser dan diubah skalanya sehingga
nilainya berkisar antara 0 dan 1, sehingga data berada di bawah rentang sempit.

Dapat juga disebut “ Min-Max scaling “

Setiap record data dalam dataset akan diubah menjadi rentang antara 0 & 1, sehingga data berada di
bawah rentang sempit.

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi STATISTIKA

Kasus penggunaan Normalizer?

• Setiap situasi di mana rentang variabel harus antara 0 hingga 1. Misalnya,


dalam data Gambar, memiliki rentang piksel warna dari 0 hingga 255 (total
256 warna), di sini Normalizer adalah yang terbaik untuk digunakan.

• Mungkin ada beberapa skenario di mana kisaran 0 -1 ini diharapkan, di sana


optimal untuk menggunakan MinMaxScaler.

Muthia Nadhira Faladiba, S.Stat., M.Si.


Standarisasi STATISTIKA

Standarisasi mengubah rata-rata data menjadi 0 & variansnya menjadi 1. Karena nilai data
cenderung menuju tak terhingga, varians data cenderung ke 1.

Data standarisasi biasanya lebih disukai ketika data digunakan untuk analisis multivariat yaitu ketika
kita menginginkan semua variabel dari unit yang sebanding. Biasanya diterapkan ketika data
memiliki kurva lonceng yaitu memiliki distribusi gaussian.

Muthia Nadhira Faladiba, S.Stat., M.Si.


STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


Contoh kasus : Standarisasi STATISTIKA

scale(x, center = TRUE, scale = TRUE)

DATA ASLI DATA STANDARISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.


Standarisasi STATISTIKA

DATA ASLI

DATA
STANDARISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi STATISTIKA

Normalize <- function(x){


(x- min(x)) /(max(x)-min(x)) }

DATA ASLI DATA NORMALISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi STATISTIKA

DATA ASLI

DATA
NORMALISASI

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi vs Standarisasi STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi vs Standarisasi STATISTIKA

Min. 1st Qu. Median Mean 3rd Qu. Max. SD

Data asli  1.100 3.450 5.300 6.309 9.250 13.500 3.61861


Years Normalisasi  0.0000 0.1895 0.3387 0.4200 0.6573 1.0000 0.29182
Experience
Standarisasi  -1.4394 -0.7900 -0.2787 0.0000 0.8129 1.9873 1

Min. 1st Qu. Median Mean 3rd Qu. Max. SD

Data asli  37731 57019 81363 83946 113224 139465 32162.6

Salary Normalisasi  0.0000 0.1896 0.4289 0.4543 0.7421 1.0000 0.31614

Standarisasi  -1.4369 -0.8372 -0.0803 0.0000 0.9103 1.7262 1

Muthia Nadhira Faladiba, S.Stat., M.Si.


Normalisasi vs Standarisasi STATISTIKA

Muthia Nadhira Faladiba, S.Stat., M.Si.


STATISTIKA

TERIMAKASIH

Muthia Nadhira Faladiba, S.Stat., M.Si.

Anda mungkin juga menyukai