Anda di halaman 1dari 32

GTA – DATA SCIENCE FUNDAMENTAL

ESTIMASI – REGRESI LINIER


Estimasi
● Estimasi digunakan untuk menerka nilai yang belum diketahui
● Estimasi nilai dari variable target (dependen) ditentukan berdasarkan nilai dari
variabel prediktor (Independen)
○ Misalnya : menerka penghasilan seseorang ketika informasi mengenai orang tersebut diketahui
○ Metode yang digunakan diantaranya : Linier Regresi Sederhan, Regresi Berganda, Corelation
● Prediksi untuk memperkirakan nilai masa mendatang (peramalan mengenai
sesuatu yang belum terjadi), missal memprediksi stok barang satu tahun ke
depan
● Prediksi sama dengan estimasi di mana label/target/class bertipe numerik, bedanya
adalah data yang digunakan merupakan data rentet waktu (time-series) -> forcasting
● Estimasi mirip dengan klasifikasi, tapi variabel target adalah berupa bilangan numerik
(kontiniu) dan bukan kategorikal (nominal atau diskrit), pada klasifikasi label berupa nilai
kategorikal (nominal)

DTS 2022
Regresi
Linier
Sederhana

DTS 2022
Regresi Linier

● Teknik yang digunakan untuk menentukan kekuatan (mencari) hubungan


antara variable dependen (tak bebas) dengan variable independent (bebas).
● Estimasi sesuatu (variable dependen) dari data yang dimiliki (variable
independen).
● Di dalam regresi, tipe data dari variable dependen adalah numerik.
● Contoh :
○ Memperkirakan harga rumah dari luas tanah.
○ Memperkirakan berat badan dari kalori yang dikonsumsi/hari.
○ Memperkirakan jarak tempuh dari konsumsi bahan bakar, efisiensi
mesin, jenis bahan bakar, dan kondisi jalan.

DTS 2022
Kegunaan Regresi Linier
● Menentukan Kekuatan Prediktor
○ Digunakan untuk mengidentifikasi kekuatan effect yang dimiliki variable independent terhadap
variable dependen
○ Contoh : Apa kekuatan hubungan antara dosis dan efek, apa hubungan pengeluaran dan
penjualan, adakah hubungan usia dan pendapatan?
● Memperkirakan Effect
○ Digunakan untuk memperkirakan effect / hasil dari perubahan pada varible dependen dengan
jika terjadi perubahan dalam satu atau lebih variable independent
○ Contoh : Berapa banyak tambahan penjualan yang saya terima untuk setiap tambahan modal
Rp. 15Jt untuk pemasaran?
● Memperkirakan Trend
○ Digunakan untuk memprediksi trend dan nilai – nilai dimasa depan
○ Contoh : Berapa harga emas 6 bulan kedepan ?

DTS 2022
Model Persamaan Regresi Linier Sederhana

● Persamaan : Y = a + bX
● Dimana :
○ Y = Variabel Response atau Variabel Akibat
(Dependent)
○ X = Variabel Predictor atau Variabel Faktor
Penyebab (Independent)
○ a = konstanta / intercept
○ b = koefisien regresi (kemiringan/slope);
besaran Response yang ditimbulkan oleh
Predictor .
○ Intercept (a) adalah nilai Y Ketika X bernilai
nol.

DTS 2022
Model Persamaan Regresi Linier Sederhana

● Besarnya konstanta a dan b dapat ditentukan menggunakan persamaan :

DTS 2022
Membangun Model dengan Regresi Linier

● Menentukan tujuan dari Analisis Regresi Linear Sederhana


● Siapkan Dataset (pengumpulan data)
● Identifikasi Atribut dan label
● Hitung X2, Y2, XY dan total dari masing – masing nya
● Hitung a dan b berdasarkan dari persamaan yang ditentukan
● Buat model persamaan linier regresi sederhana
● Melakukan prediksi terhadap variabel dependen/predictor/response
● Uji Korelasi

DTS 2022
Evaluasi

DTS 2022
Evaluasi Model Data Mining

● Pembagian data set dapat dibagi dengan perbadingan 90:10 atau 80:20,
berupa:
○ Data training untuk jumlah yang lebih besar dan
○ Data testing untuk jumlah yang lebih kecil.
● Data training digunakan untuk pembentukan model dan data testing
digunakan untuk pengujian model
● Pemisahan data dapat dilakukan dengan cara:
1. Manual,
2. Otomatis menggunakan operator Split Data,
3. Otomatis menggunakan X Validation.

DTS 2022
Metric Evaluasi Regresi
● Mean Absolute Error (MAE)
○ Nilai rata-rata dari perbedaan absolut antara nilai y asli dengan y prediksi (y topi).
● Root Mean Squared Error (RMSE)
○ Akar dari penjumlahan selisih kuadrat antara nilai y asli dengan y prediksi (y topi).
● Mean Squared Error
○ Nilai kuadrat dari RMSE → (RMSE2)
● R-squared (R2)
○ Seberapa fit model dengan data secara keseluruhan.
○ Bisa juga diartikan seberapa besar variansi di var dependen dapat menjelaskan variansi var. independen
● Mean Absolute Percentage Error (MAPE)
○ Nilai persentase error dan memberikan penalty terhadap error negative (y<y)
○ <10% highly accurate, 11-20% good, 21%-50% reasonable, >51% innacurate
● AIC and BIC
○ Digunakan untuk membandingkan 2 model atau lebih. Semakin sederhana model maka semakin baik.
○ Jika ada 2 model, maka pilihlah skor AIC atau BIC yang lebih kecil. BIC mirip dengan AIC tapi dengan penalty lebih besar.

DTS 2022
Studi
Kasus

DTS 2022
Studi Kasus 1 – Berat Badan
● Business Problem : Berat badan ASN
Terdapat suatu data penelitian tentang berat badan 10 ASN yang diperkirakan
dipengaruhi oleh konsumsi jumlah kalori/hari”

● Tujuan : Menentukan apakah konsumsi jumlah kalori/hari mempengaruhi


berat badan ASN?

● Data Understanding dari dataset beratbadanasn.csv:


● Mengidentifikasi variabel predictor dan variabel response
● X (variable bebas/ predictor) = jumlah kalori/hari
● Y (variable tak bebas/ response) = berat badan

DTS 2022
Perhitungan Variable X2,Y2, XY
● Dataset ● Menghitung Nilai variable

DTS 2022
Perhitungan Koefesian a dan b

DTS 2022
Persamaan Garis Regresi

● Membuat model
persamaan garis regresi
● Setelah didapat koefisien
a dan b, maka persamaan
garisnya adalah:
● Y = 2,608 + 0,149 X

DTS 2022
Estimasi Terhadap Faktor Penyebab

● Melakukan estimasi terhadap variabel predictor atau response


● Estimasi berat badan ASN jika asupan kalori adalah 600 kalori/ hari:
● Y = 2,608 + 0,149 X
● Estimasi Y = 2,608 + (0,149 * 600) = 92 kilo gram

● Estimasi asupan kalori ASN, jika berat badan ASN adalah 40 kilo gram:
● 40 = 2,608 + 0,149 X
● 37,392 = 0,149X
● Estimasi X = 250.59 kalori/ hari

DTS 2022
Uji Korelasi

▪ Untuk mengukur kekuatan hubungan antar variable independent X dan


dependen Y, dilakukan analisis korelasi yang hasilnya dinyatakan oleh suatu
bilangan yang dikenal dengan koefisien korelasi.
▪ Biasanya analisis regresi sering dilakukan bersama-sama dengan analisis
korelasi. Persamaan koefisien korelasi (r ) diekspresikan oleh:

DTS 2022
Uji Korelasi

● Berdasarkan data perhitungan koefesien korelasi :

▪ Kesimpulan :

▪ Nilai ini memberi arti bahwa, hubungan variable bebas/ predictor X dengan variabel terikat/
response Y adalah sangat kuat, persentasenya 95%.

▪ Jadi, berat badan memang sangat dipengaruhi oleh konsumsi jumlah kalori/hari

DTS 2022
Implementasi di Rapidminer
● beratbadanasn.csv
● Buat flow proses modeling
seperti pada gambar
● Set Role :
○ Label = Berat Badan
○ Id = Nama Mahasiswa
● Hasil Regresi Linier

DTS 2022
Visualisasi Regresi Linier (Scatter Plot)

DTS 2022
Estimasi Berat Badan

● Pada model, tambahkan


datates-beratbadan.csv
● Set Role 2 : Id = nama
● Update model seperti gambar
● Hasil Prediksi berat badan
ditunjukan pada kolom prediction

DTS 2022
Visualisasi Scater Plot (garis regresi)

DTS 2022
Evaluasi

● Tambahkan operator : Operator


Performance (Regression)

DTS 2022
Latihan Lagi … (belajar mandiri)

▪ Pada Dataset FuelConsumptionCo2.csv ini berisi peringkat konsumsi bahan bakar khusus dan perkiraan emisi karbon
dioksida untuk kendaraan ringan pada penjualan eceran di Kanada. Dataset source
▪ Berikut ini beberapa field / kolom / fitur yang terdapat dalam dataset:
• MODELYEAR e.g. 2014
• MAKE e.g. Acura Lakukan :
• MODEL e.g. ILX
• VEHICLE CLASS e.g. SUV Estimasi Pengaruh Volume Mesin Terhadap Emisi C02
• ENGINE SIZE e.g. 4.7
• CYLINDERS e.g 6
• TRANSMISSION e.g. A6 Gunakan Operator Select Atribute untuk memilih atribut yang
• FUEL CONSUMPTION in CITY(L/100 km) e.g. 9.9 dibutuhkan.
• FUEL CONSUMPTION in HWY (L/100 km) e.g. 8.9
• FUEL CONSUMPTION COMB (L/100 km) e.g. 9.2
• CO2 EMISSIONS (g/km) e.g. 182 --> low --> 0

DTS 2022
Linear
Regression
Berganda
(Multi Linear
©image: https://en.wikipedia.org/wiki/Regression_analysis
Regression)
DTS 2022
Regresi multilinear (multiple regression)

▪ Mencari hubungan antara 1 variable dependen (Y) dengan banyak variable independen (X1,
X2, …, Xn).
▪ Simple linear

▪ Multilinear

DTS 2022
Regresi Polinomial

▪ Mencari hubungan antara 1 variable dependen (Y) dengan banyak variable independen (X1,
X2, …, Xn) yang tidak linear secara 2 dimensi.
▪ Modelnya memiliki fungsi kuadratik:

DTS 2022
Bagaimana Jika Tidak Linear?

• Fungsi linear:

• Fungsi non-linear: ▪ Teknik Non – Linear :


▪ Support vector regression
▪ Decision tree regression
▪ Random forest regression
▪ GAM (Generalized additive models)

DTS 2022
Studi
Kasus

DTS 2022
Latihan

▪ Pada Dataset FuelConsumptionCo2.csv ini berisi peringkat konsumsi bahan bakar khusus dan perkiraan emisi karbon
dioksida untuk kendaraan ringan pada penjualan eceran di Kanada. Dataset source
▪ Berikut ini beberapa field / kolom / fitur yang terdapat dalam dataset:
• MODELYEAR e.g. 2014
• MAKE e.g. Acura Lakukan :
• MODEL e.g. ILX
• VEHICLE CLASS e.g. SUV Estimasi beberapa pengaruh attribute terhadap Emisi
• ENGINE SIZE e.g. 4.7 C02
• CYLINDERS e.g 6
• TRANSMISSION e.g. A6
• FUEL CONSUMPTION in CITY(L/100 km) e.g. 9.9 Gunakan Operator Select Atribute untuk memilih atribut yang
• FUEL CONSUMPTION in HWY (L/100 km) e.g. 8.9 dibutuhkan.
• FUEL CONSUMPTION COMB (L/100 km) e.g. 9.2
• CO2 EMISSIONS (g/km) e.g. 182 --> low --> 0

DTS 2022
#Jadijagoandigital
Terima Kasih

DTS 2022

Anda mungkin juga menyukai