Anda di halaman 1dari 19

Pertemuan 8

Estimasi / Regresi

Aldi Pratama
2

Atribut Class Metode Contoh algoritma


Numerik Numerik Estimation Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
Support Vector Machine (SVM), Generalized Linear Model (GLM),
Ex: pengaruh bentuk perusahaan, struktur modal, ROE, terhadap
kepatuhan pajak.

Numerik, Numerik Forecasting Linear Regression (LR), Neural Network (NN), Deep Learning (DL),
ada time series Support Vector Machine (SVM), Generalized Linear Model (GLM),
Ex: harga saham, nilai tukar, inflasi, cuaca, dll

Numerik dan Nominal Classification Decision tree, K-nearest neighbor (KNN), linier discriminant analysis
nominal (LDA), logistic regression (LogR)
Ex: prediksi perilaku konsumen, sentiment analysis, prediksi
kebrankutan, prediksi kepatuhan wajib pajak
Numerik dan N/A Clustering K-Means, Fuzzy C-Means, Self-Organizing Map (SOM), K-Medoids
nominal
Numerik dan N/A Asscociation FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc
nominal
Peran data analytics (data mining) 3

SUPERVISED LEARNING
• Pembelajaran dengan guru, data set memiliki
target/label/class
• Sebagian besar algoritma data mining
(estimation, prediction/forecasting,
classification) adalah supervised learning
Estimasi Prediksi Klasifikasi
(estimation) (forecasting) (classification) • Algoritma melakukan proses belajar
berdasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variable
prediktor

Pengelompokan Asosiasi UNSUPERVISED LEARNING


(clustering) (association) • Algoritma data mining mencari pola dari
semua variable (atribut)
• Variable (atribut) yang menjadi
target/label/class tidak ditentukan (tidak
ada)
Tipe-tipe data 4

Tipe Data Deskripsi Contoh


• Data yang diperoleh dengan cara pengukuran, dimana • Umur
jarak dua titik pada skala sudah diketahui • Berat badan
Ratio (mutlak)
• Memiliki titik nol yang absolut • Tinggi badan
• Jumlah uang
• Data yang diperoleh dengan cara pengukuran, dimana • Suhu
jarak dua titik pada skala sudah diketahui • IPK
Interval (jarak)
• Tidak memiliki titik nol yang absolut

• Diperoleh dengan cara kategorisasi dan klasifikasi • Tingkat persepsi (sangat


Ordinal
• Hubungan berurutan antar data (lebih besar, lebih kecil, baik, baik, cukup, kurang,
(peringkat)
dst) sangat kurang)
• Diperoleh dengan cara kategorisasi dan klasifikasi • NPWP
• Menunjukkan kelompok (kategori) data (sama dengan • Jenis wajib pajak
Nominal (label)
atau tidak sama dengan) • Jenis kelamin
• Lokasi
Machine
Learning vs
Statistics

5
Machine
Learning vs
Statistics

6
Contoh Penerapan 7

• Pengaruh Kesadaran Wajib Pajak, • Retail price optimization


Kualitas Pelayanan dan Tingkat
Penghasilan Terhadap Kepatuhan • Food Delivery Time Prediction
Pembayaran Pajak Bumi Bangunan
• Pengaruh EPS, PER, CR dan ROE • Student Marks Prediction
terhadap harga saham di Bursa Efek
Indonesia • House Price Prediction
• Pengaruh Return on Assets,
Leverage, Corporate Governance,
Ukuran Perusahaan, dan Kompensasi
Rugi Fiskal pada Tax Avoidance
• Pengaruh ekspor, impor, dan nilai
tukar terhadap pertumbuhan
ekonomi di Indonesia periode 2002-
2012
Analisis Regresi 8

ANALISIS REGRESI

REGRESI LINEAR REGRESI NONLINEAR

REGRESI LINEAR REGRESI LINEAR REGRESI


REGRESI KUBIK
SEDERHANA BERGANDA KUADRATIK
Analisis Regresi 9

Non-Linear Regression Non-Linear Regression


Evaluation Metrics 10

• R2 = seberapa mampu model menggambarkan fenomena yang


sedang dianalisis. Nilai berada antara 0 – 1. Semakin besar semakin
baik
• MSE (mean squared error) = Menunjukkan seberapa akurat
model memprediksi keadaan di masa yang akan datang. Semakin
kecil semakin baik
• RMSE (root mean squared error) = Menunjukkan seberapa akurat
model memprediksi keadaan di masa yang akan datang. Semakin
kecil semakin baik
• MAE (mean average error) = Menunjukkan seberapa akurat model
memprediksi keadaan di masa yang akan datang. Semakin kecil
semakin baik
Evaluation Metrics 11

• R2 = seberapa mampu model menggambarkan fenomena yang


sedang dianalisis. Nilai berada antara 0 – 1. Semakin besar semakin
baik
• MSE (mean squared error) = Menunjukkan seberapa akurat
model memprediksi keadaan di masa yang akan datang. Semakin
kecil semakin baik.
• RMSE (root mean squared error) = Menunjukkan seberapa akurat
model memprediksi keadaan di masa yang akan datang. Semakin
kecil semakin baik.
• MAE (mean average error) = Menunjukkan seberapa akurat model
memprediksi keadaan di masa yang akan datang. Semakin kecil
semakin baik. Digunakan jika terdapat outlier pada data.
Evaluation Metrics 12

MAE MSE RMSE RMS Log Error

It doesn't account for the It does account for positive or It does account for positive or It does account for positive
direction of the value. Even if negative value. negative value. or negative value.
value is negative, positive value
is used for calculation.
RMSE & MSE share many RMSE & MSE share many
properties with MSE because properties with MSE because RMSE
RMSE is simply the square root is simply the square root of MSE.
of MSE.
MAE is less biased for higher MSE is highly biased for higher RMSE is better in terms of
values. It may not adequately values. reflecting performance when
reflect the performance when dealing with large error values.
dealing with large error values
RMSE is more useful when lower
residual values are preferred
MAE is less than RMSE RMSE tends to be higher than MAE
as the sample size goes up as the sample size goes up.
Evaluation Metrics 13

MAE MSE RMSE RMS Log Error

MAE doesn’t necessarily MSE penalize large errors. RMSE penalize large errors. RMSLE doesn’t penalize large errors.
penalize large errors. It is usually used when you don't
want to influence the results if there
are large errors. RMSLE penalize
lower errors
MAE is more useful when the RMSE is more useful when the
overall impact is proportionate overall impact is disproportionate
to the actual increase in error to the actual increase in error
For example- if error values go For example- if error values go up
up to 6 from 3, actual impact on to 6 from 3, actual impact on the
the result is twice result is more
than twice
When actual and predicted When actual and predicted values
values are low, RMSE & are low, RMSE &
RMSLE are usually same RMSLE are usually same
When either of actual or When either of actual or predicted
predicted values are high, RMSE > values are high, RMSE >
RMSLE. RMSLE.
Analisis Regresi 14

Fenomena
Analisis Regresi 15

Linier Regression Non-Linier Regression (Degree = 2)


RMSE = 15.908242501429998 RMSE = 10.120437473614711
R2 = 0.6386750054827146 R2= 0.8537647164420812
Analisis Regresi 16

Non-Linier Regression (Degree = 3) Non-Linier Regression (Degree = 20)

RMSE = 3.449895507408725.
R2= 0.9830071790386679
Bias vs Varians 17

• Bias merujuk pada kesalahan karena asumsi model yang terlalu


sederhana dalam menyesuaikan data.
• Bias yang tinggi artinya bahwa, model tidak dapat menangkap pola di
dalam data dan ini mengakibatkan kondisi under-fitting.

• Varians mengacu pada kesalahan karena model yang terlalu kompleks


mencoba menyesuaikan data.
• Varians tinggi artinya model melewati sebagian besar titik pada data dan
menghasilkan kondisi over-fitting
Bias vs Varians (2) 18
Terima kasih

19

Anda mungkin juga menyukai