Dunia saat ini berada pada era industri 4.0 yang lebih banyak menggunakan teknologi
digital dan Indonesia telah mempersiapkan diri untuk masuk ke dalam tahap industri
4.0 tersebut melalui agenda percepatan transformasi digital. Salah satu langkah yang
dilakukan dalam percepatan transformasi digital adalah penyiapan talenta digital.
Laporan Bank Dunia tahun 2019 menyatakan bahwa Indonesia memiliki kekurangan 9
juta pekerja berketerampilan teknologi informasi dan komunikasi, sehingga perlu
dilakukan penyiapan talenta digital untuk memenuhi kebutuhan tersebut dengan
alokasi 600.000 orang setiap tahun. Upaya penyiapan talenta digital dilakukan oleh
berbagai unsur baik pemerintah, institusi pendidikan, industri, komunitas masyarakat,
maupun media publik.
Sejak tahun 2018, Kementerian Komunikasi dan Informatika melalui Badan Penelitian
dan Pengembangan Sumber Daya Manusia menginisiasi Program Beasiswa Pelatihan
Digital bernama Digital Talent Scholarship (DTS) yang telah berhasil dianugerahkan
kepada lebih dari 300.000 penerima pelatihan bidang teknologi informasi dan
komunikasi. Program Digital Talent Scholarship ini ditujukan untuk memberikan
pelatihan dan sertifikasi berbagai tema pada bidang informatika, komunikasi, dan
telekomunikasi, serta diharapkan melengkapi pemenuhan kebutuhan talenta digital
Indonesia.
Program DTS tahun 2023 secara garis besar dibagi menjadi delapan akademi, salah
satunya Vocational School Graduate Academy (VSGA). VSGA merupakan program
pelatihan berbasis kompetensi kerja nasional bagi lulusan pendidikan vokasi
SMK/sederajat dan diploma bidang Science, Technology, Engineering, Mathematics
(STEM) yang belum mendapatkan pekerjaan atau sedang tidak bekerja. Tujuan
Program VSGA adalah menyiapkan talenta digital dengan standar kompetensi sesuai
Standar Kompetensi Kerja Nasional Indonesia (SKKNI). Oleh karena itu, penyusunan
modul pelatihan untuk Program VSGA disusun dengan berbasis pada kompetensi
(Competency Based Training). Kami berpesan agar modul pelatihan berbasis
kompetensi yang telah disusun ini dapat menjadi referensi bagi peserta dan pengajar
agar pelatihan berjalan efektif dan efisien.
Selamat mengikuti Pelatihan Digital Talent Scholarship, mari persiapkan diri kita
menjadi talenta digital Indonesia yang kompeten.
Unit kompetensi ini berhubungan dengan pengetahuan, keterampilan, dan sikap kerja
yang dibutuhkan dalam dalam mengumpulkan data untuk data science.
A. Tujuan Umum
Setelah mempelajari modul ini peserta latih diharapkan mampu melakukan proses
pemodelan regresi.
B. Tujuan Khusus
Adapun tujuan mempelajari unit kompetensi melalui buku informasi Pelatihan
Associate Data Scientist ini guna memfasilitasi peserta latih sehingga pada akhir
pelatihan diharapkan memiliki kemampuan sebagai berikut:
LATAR BELAKANG
Unit kompetensi ini dinilai berdasarkan tingkat kemampuan dalam merancang website.
Adapun penilaian dilakukan dengan menggabungkan serangkaian metode untuk
menilai kemampuan dan penerapan pengetahuan pendukung penting. Penilaian
dilakukan dengan mengacu kepada Kriteria Unjuk Kerja (KUK) dan dilaksanakan di
Tempat Uji Kompetensi (TUK), ruang simulasi atau workshop dengan cara:
1.1 Lisan
1.2 Wawancara
1.3 Tes tertulis
1.4 Demonstrasi
1.5 Metode lain yang relevan.
DESKRIPSI PELATIHAN
Materi ini berisi penjelasan mengenai pengolahan data menggunakan metode regresi
dengan meggunakan algoritma regresi.
TUJUAN PEMBELAJARAN
Setelah mempelajari modul ini peserta latih diharapkan mampu menggunakan metode
AI berbasis regresi untuk menyelesaikan suatu permasalahan
1
KOMPETENSI DASAR
INFORMASI PELATIHAN
2
INFORMASI PEMBELAJARAN
Materi Pokok
3
REGRESI LINIER SEDERHANA
A. Pengertian Regresi
Regresi diperkenalkan oleh Francis Galton. Analisis regresi merupakan analisis
yang memanfaatkan dua atau lebih variabel sehingga salah satu variabel bisa
diramalkan dari variabel lainnya. Pada analisis regresi terdiri dua jenis variabel
yaitu variabel bebas (variabel independen) dan variabel tak bebas (variabel
dependen). Variabel bebas (variabel independen) adalah variabel yang
mempengaruhi atau yang menjadi sebab perubahan atau timbulnya variabel tak
bebas, sedangkan variabel tak bebas (variabel dependen) adalah variabel yang
dipengaruhi atau yang menjadi akibat karena adanya variabel bebas. dengan
maksud menaksir atau meramalkan nilai rata-rata hitung (mean) atau rata- rata
(populasi) variabel tak bebas, dipandang dari segi yang diketahui atau tetap
(constant).
Secara umum ada dua macam hubungan antara dua variabel atau lebih, yaitu
bentuk hubungan dan keeratan hubungan. Untuk mengetahui bentuk hubungan
digunakan analisis regresi. Untuk keeratan hubungan dapat diketahui dengan
analisis korelasi. Analisis regresi dipergunakan untuk menelaah hubungan antara
dua variabel atau lebih, terutama untuk menelusuri pola hubungan yang
modelnya belum diketahui dengan sempurna, atau untuk mengetahui bagaimana
variasi dari beberapa variabel independen mempengaruhi variabel dependen
dalam suatu fenomena yang kompleks. Jika X1, X2, … , Xi adalah variabel-variabel
independen dan Y adalah variabel dependen, maka terdapat hubungan
fungsional antara X dan Y, di mana variasi dari X akan diiringi pula oleh variasi
dari Y. Secara matematika hubungan di atas dapat dijabarkan sebagai berikut: Y =
f(X1, X2, …, Xi, e), di mana : Y adalah variabel dependen, X adalah variabel
independen dan e adalah variabel residu (disturbance term).
Berkaitan dengan analisis regresi ini, setidaknya ada empat empat kegiatan yang
dapat dilaksanakan dalam analisis regresi, diantaranya: (1) mengadakan estimasi
terhadap parameter berdasarkan data empiris, (2) menguji berapa besar variasi
variabel dependen dapat diterangkan oleh variasi variabel independen, (3)
menguji apakah estimasi parameter tersebut signifikan atau tidak, dan (4)
4
melihat apakah tanda dan magnitud dari estimasi parameter cocok dengan teori
(M. Nazir, 1983).
Keterangan:
5
b. Menghitung jumlah kuadrat regresi b|a (JK reg b|a), dengan rumus:
e. Menghitung rata-rata jumlah kuadrat regresi b/a (RJK reg (a)) dengan
rumus:
1. Menentukan nilai kritis (α) atau nilai tabel F pada derajat bebas dbreg b/a = 1 dan dbres
= n – 2.
2. Membandingkan nilai uji F dengan nilai tabel F, dengan kriteria uji, Apabila nilai
hitung F lebih besar atau sama dengan (≥) nilai tabel F, maka H0 ditolak.
3. Membuat kesimpulan
Langkah-langkah uji keberartian regresi di atas dapat disederhanakan dalam
sebuah tabel anova sebagai berikut :
6
Tabel 4.2
Analisis of Varians
Keterangan:
JKT = ∑Y2
Jk (a) =
Jk (b/a) =
Jk Res =
RJk (b/a) = Jk (b/a)
RJk Res =
7
Kuadrat nilai korelasi ini diinterpretasikan sebagai sumbangan variabel X terhadap
variabel Y atau yang sering disebut sebagai koefisien korelasi determinasi.
Koefisien korelasi ini dapat digunakan untuk predictor signfikansi hubungan antara
variabel X dan variabel Y. Hubungan antara kedua variabel ini juga dapat diketahui
secara mudah dengan membuat diagram pencar (Scater Plot). Gambar 1 menunjukkan
hubungan jika variabel X dan Y tidak ada korelasinya. Gambar 2 menunjukkan berbagai
jenis data dengan koefisien korelasi yang bervariasi.
Gambar 1. Diagram pencar data yang koefisien korelasi antara X dan Y sama dengan 0.
8
Gambar 2. Diagram pencar berbagai jenis data
Tidak semua hubungan antara X dan Y bersifat linear atau dapat dikatakan
hubungannya nonlinear. Sebagai contoh data yang disajikan pada diagram pencar pada
gambar 3.
9
besar berada pada kategori sedang atau rata-rata. Jika kelas tersebut bodoh semua
maka tidak normal, atau sekolah luar biasa. Dan sebaliknya jika suatu kelas banyak yang
pandai maka kelas tersebut tidak normal atau merupakan kelas unggulan. Pengamatan
data yang normal akan memberikan nilai ekstrim rendah dan ekstrim tinggi yang sedikit
dan kebanyakan mengumpul di tengah. Demikian juga nilai rata-rata, modus dan
median relatif dekat. Uji normalitas dapat dilakukan dengan uji histogram, uji normal P
Plot, uji Chi Square, Skewness dan Kurtosis
atau uji Kolmogorov Smirnov. Tidak ada metode yang paling baik atau paling tepat.
Tipsnya adalah bahwa pengujian dengan metode grafik sering menimbulkan perbedaan
persepsi di antara beberapa pengamat, sehingga penggunaan uji normalitas dengan uji
statistik bebas dari keragu- raguan, meskipun tidak ada jaminan bahwa pengujian
dengan uji statistik lebih baik dari pada pengujian dengan metode grafik. Jika residual
tidak normal tetapi dekat dengan nilai kritis (misalnya signifikansi Kolmogorov Smirnov
sebesar 0,049) maka dapat dicoba dengan metode lain yang mungkin memberikan
justifikasi normal. Tetapi jika jauh dari nilai normal, maka dapat dilakukan beberapa
langkah yaitu: melakukan transformasi data, melakukan trimming data outliers atau
menambah data observasi. Transformasi dapat dilakukan ke dalam bentuk Logaritma
natural, akar kuadrat, inverse, atau bentuk yang lain tergantung dari bentuk kurva
normalnya, apakah condong ke kiri, ke kanan, mengumpul di tengah atau menyebar ke
samping kanan dan kiri.
b. Uji Multikolinearitas.
Uji multikolinearitas adalah untuk melihat ada atau tidaknya korelasi yang tinggi antara
variabel-variabel
bebas dalam suatu model regresi linear berganda. Jika ada korelasi yang tinggi di antara
variabel-variabel bebasnya, maka hubungan antara variabel bebas terhadap variabel
terikatnya menjadi terganggu. Sebagai ilustrasi, adalah model regresi dengan variabel
bebasnya motivasi, kepemimpinan dan kepuasan kerja dengan variabel terikatnya
adalah kinerja. Logika sederhananya adalah bahwa model tersebut untuk mencari
pengaruh antara motivasi, kepemimpinan dan kepuasan kerja terhadap kinerja. Jadi
tidak boleh ada korelasi yang tinggi antara motivasi dengan kepemimpinan, motivasi
dengan kepuasan kerja atau antara kepemimpinan dengan kepuasan kerja. Alat statistik
yang sering dipergunakan untuk menguji gangguan multikolinearitas adalah dengan
10
variance inflation factor (VIF), korelasi pearson antara variabel- variabel bebas, atau
dengan melihat eigenvalues dan condition index (CI). Beberapa alternatif cara untuk
mengatasi masalah multikolinearitas adalah sebagai berikut: Mengganti atau
mengeluarkan variabel yang mempunyai korelasi yang tinggi.
d. Uji Autokorelasi.
Uji autokorelasi adalah untuk melihat apakah terjadi korelasi antara suatu periode t
dengan periode sebelumnya (t -1). Secara sederhana adalah bahwa analisis regresi
adalah untuk melihat pengaruh antara variabel bebas terhadap variabel terikat, jadi
tidak boleh ada korelasi antara observasi dengan data observasi sebelumnya. Sebagai
contoh adalah pengaruh antara tingkat inflasi bulanan terhadap nilai tukar rupiah
terhadap dollar. Data tingkat inflasi pada bulan tertentu, katakanlah bulan Februari,
akan dipengaruhi oleh tingkat inflasi bulan Januari. Berarti terdapat gangguan
autokorelasi pada model tersebut. Contoh lain, pengeluaran rutin dalam suatu rumah
11
tangga. Ketika pada bulan Januari suatu keluarga mengeluarkan belanja bulanan yang
relatif tinggi, maka tanpa ada pengaruh dari apapun, pengeluaran pada bulan Februari
akan rendah.
Uji autokorelasi hanya dilakukan pada data time series (runtut waktu) dan tidak perlu
dilakukan pada data cross section seperti pada kuesioner di mana pengukuran semua
variabel dilakukan secara serempak pada saat yang bersamaan. Model regresi pada
penelitian di Bursa Efek Indonesia di mana periodenya lebih dari satu tahun biasanya
memerlukan uji autokorelasi. Beberapa uji statistik yang sering dipergunakan adalah uji
Durbin-Watson, uji dengan Run Test dan jika data observasi di atas 100 data sebaiknya
menggunakan uji Lagrange Multiplier. Beberapa cara untuk menanggulangi masalah
autokorelasi adalah dengan mentransformasikan data atau bisa juga dengan mengubah
model regresi ke dalam bentuk persamaan beda umum (generalized difference
equation). Selain itu juga dapat dilakukan dengan memasukkan variabel lag dari
variabel terikatnya menjadi salah satu variabel bebas, sehingga data observasi menjadi
berkurang
e. Uji Linearitas.
Uji linearitas dipergunakan untuk melihat apakah model yang dibangun mempunyai
hubungan linear atau tidak. Uji ini jarang digunakan pada berbagai penelitian, karena
biasanya model dibentuk berdasarkan telaah teoretis bahwa
hubungan antara variabel bebas dengan variabel terikatnya adalah linear. Hubungan
antar variabel yang secara teori bukan merupakan hubungan linear sebenarnya sudah
tidak dapat dianalisis dengan regresi linear, misalnya masalah elastisitas. Jika ada
hubungan antara dua variabel yang belum diketahui apakah linear atau tidak, uji
linearitas tidak dapat digunakan untuk memberikan adjustment bahwa hubungan
tersebut bersifat linear atau tidak. Uji linearitas digunakan untuk mengkonfirmasikan
apakah sifat linear antara dua variabel yang diidentifikasikan secara teori sesuai atau
tidak dengan hasil observasi yang ada. Uji linearitas dapat menggunakan uji
Durbin-Watson, Ramsey Test atau uji Lagrange Multiplier.
12
Macam regresi diuraikan sebagai berikut.
Regresi linear sederhana yaitu regresi yang hanya menentukan hubungan dari dua
variabel saja dan keduanya merupakan data kuantitatif.
Regresi linear berganda ini merupakan regresi yang menghubungkan satu variabel Y
terhadap dua atau lebih variabel X serta data yang digunakan merupakan data
kuantitatif.
Misalnya pengaruh banyak makanan yang dikonsumsi terhadap berat badan dan tinggi
badan.
Regresi non linear ini merupakan regresi yang menghubungkan antara variabel X dan
variabel Y yang tidak linear.
Misalnya pada pemberian pupuk pada tanaman dengan intensitas pemberian pupuk
rendah – sedang akan membuat tanaman tumbuh dengan optimal (tinggi tanaman
maksimum), sedangkan pemberian pupuk intensitas tinggi akan membuat tanaman
tumbu dengan lambat.
Regresi nonlinier Model Kuadratik adalah model regresi yang parameternya adalah
nonlinier artinya apabila diturunkan terhadap parameternya sendiri maka hasil yang
didapat masih mengandung parameter. Model regresi kuadratik itu adalah sebagai
berikut:
Y = a + b1X1 + b2X2i + e
Dengan :
a : konstanta
bi : koefisien regresi
Xi : variabel bebas
Y : Variabel terikat
e : eror
Error pada regresi non-linear diasumsikan untuk mempunyai nilai harapan sebesar nol,
ragam yang konstan dan tidak dikorelasikan, sama seperti asumsi error pada model
regresi linear (Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W., 1996). Analisis
regresi non linier yang sering digunakan adalah bentuk
1. logaritmic baik yang biasa (Log X), maupun logaritma natural (Ln X = 2,718Log
X). Koefisien yang diperoleh dari analisis regresi logaritma/fungsi pangkat akan
13
langsung menunjukkan elatisitasnya. Analisis ini harus mendasarkan pada teori
atau pengembangannya yang relevan dengan obyek penelitian
2. Regresi logistik adalah salah satu bentuk regresi non-linear yang mempunyai
variabel dependen yang diskrit dan mempunyai sebaran binomial, sedangkan
variable independennya dapat terdiri dari variabel yang continu, diskrit,
dikotomus, ataupun gabungannya. Regresi logistik dapat dibedakan menjadi 2,
yaitu: Binary Logistic Regression (Regresi Logistik Biner) dan Multinomial
Logistic Regression (Regresi Logistik Multinomial). Regresi Logistik biner
digunakan ketika hanya ada 2 kemungkinan variabel respon (Y), misal suka dan
tidak suka dengan skala Dummy (0=tidak suka; 1= suka). Sedangkan Regresi
Logistik Multinomial digunakan ketika pada variabel respon (Y) terdapat lebih
dari 2 kategorisasi, misalnya 1= tidak baik, 2= biasa saja, 3=baik, 4 sangat baik.
14
DAFTAR PUSTAKA
1. Aunuddin. 2005. Rancangan dan Analisis Data. Bogor : IPB Press. (Hal. 108-110 ,
171-202)
4. Sembiring, S.K. 1995. Analisis Regresi. Bandung : Penerbit ITB. (Hal. 35-90)
7. Walpole, Ronald E. Dan Myers, Raymond H. 1995 Ilmu Peluang dan Statistika
untuk Insinyur dan Ilmuwan, Edisi 4, Bandung: Penerbit ITB ( hal. 421 – 423)
1. Video Pembelajaran
2. E-book
3. Link Youtube/Website rujukan
Bahan Tayang
15
Link room Pelatihan dan Jadwal live sesi bersama instruktur
Penilaian
2 JP
16
17