Laporan ini disusun untuk memenuhi tugas mata kuliah Big Data dengan
dosen pengampu Dina Agustina, S.Pd., M.Sc.
DISUSUN OLEH
KELOMPOK 1
PRODI S1 STATISTIKA
DEPARTEMEN STATISTIKA
2023
SUPERVISED DAN UNSUPERVISED LEARNING
1. Perbedaan supervised dan unsupervised learning.
1. Regression
a) Linear Regression
2. Classification
a) Decision Tree
b) Logistic Regression
c) K-Nearest Neighbors
d) Naive Bayes
e) Random Forest
f) Neural Network.
1. Clustering
a) Non-Hierical Clustering (K-means)
b) Hierical Clustering
2. Association
3. Dimensionality Reduction
a) Principal Component Analysis (PCA)
b) Linear Discriminant Analysis (LDA)
c) t-Distributed Stochastic Neighbor Embedding (t-SNE)
REGRESI LINEAR
1. Teori Regresi Linear
Analisis regresi merupakan suatu model matematis yang dapat digunakan untuk
mengetahui pola hubungan antara dua atau lebih variabel. Analisis regresi lebih akurat
dalam melakukan analisis korelasi. Menggunakan analisis regresi, peramalan atau
perkiraan nilai variabel terikat pada nilai variabel bebas lebih akurat. Karena hasil
regresi merupakan nilai prediksi, maka nilai tersebut belum tentu tepat dengan nilai
riilnya, semakin sedikit penyimpangan nilai prediksi terhadap nilai riilnya, maka
persamaan regresi yang dihasilkan semakin tepat dengan kondisi riilnya. Analisis
regresi merupakan suatu metode statistika yang dipakai untuk mengetahui dan
menentukan bentuk hubungan yang terjadi antara variabel-variabel, yang bertujuan
untuk memerkirakan dan meramalkan nilai dari variabel lain yang telah diketahui. Ada
dua jenis persamaan regresi linear, yaitu:
a) Analisis regresi sederhana (simple analisis regresi)
b) Analisis regresi berganda (multiple analisis regresi)
𝑌 = 𝑎 + 𝑏𝑋
Dimana :
Y : Variabel dependen (variabel terikat)
X : Variabel independen (variabel bebas)
a : Nilai konstanta
b : Nilai koefisien regresi
Nilai dari koefisien 𝑎, 𝑏, dapat ditentukan dengan metode kuadrat terkecil (least
squared) berikut ini :
𝑛 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑏= 2
𝑛 ∑ 𝑋 2 − (∑ 𝑋)
Responden X Y
1 34 32
2 38 35
3 34 31
4 40 38
5 30 29
6 40 35
7 40 33
8 34 30
9 35 32
10 39 36
11 33 31
12 32 31
13 42 36
14 40 37
15 42 35
16 42 38
17 41 37
18 32 30
19 34 30
20 36 30
21 37 33
22 36 32
23 37 34
24 39 35
25 40 36
26 33 32
27 34 32
28 36 34
29 37 32
30 38 34
Total 1105 1000
∑ 𝑌 = 1.000
∑ 𝑋𝑌 = 37.056
∑ 𝑋 2 = 41.029
∑ 𝑌 2 = 33.528
𝑌 = 8,34 + 0,60𝑋
𝑛
|𝑆𝑖 |
𝐺𝑎𝑖𝑛𝑠(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆)
|𝑆|
𝑖=1
Keterangan :
S = Himpunan Kasus
A = Atribut
n = Jumlah partisi atribut A
|Si| = Jumlah kasus pada partisi ke-i
|S| = Jumlah kasus dalam S
Jawab
Atribut Akar
Memilih atribut akar dengan gain tertinggi. Adapun sebelum itu, lakukan perhitungan
nilai entropy dan nilai gain. Perhitungan entropy dihitung dengan rumus berikut.
𝑛
Perhitungan Entropy
Manual
3 3 8 8
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑻𝒐𝒕𝒂𝒍 = (− 11 ∗ 𝑙𝑜𝑔2 (11)) + (− 11 ∗ 𝑙𝑜𝑔2 (11)) = 0,845251
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑲𝒂𝒓𝒕𝒖
3 3 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑟𝑎𝑏𝑎𝑦𝑎𝑟) = (− 5 ∗ 𝑙𝑜𝑔2 (5)) + (− 5 ∗ 𝑙𝑜𝑔2 (5)) =
0,970951
0 0 6 6
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑎𝑠𝑐𝑎𝑏𝑎𝑦𝑎𝑟) = (− 6 ∗ 𝑙𝑜𝑔2 (6)) + (− 6 ∗ 𝑙𝑜𝑔2 (6)) = 0
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑷𝒂𝒏𝒈𝒈𝒊𝒍𝒂𝒏
1 1 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑒𝑑𝑖𝑘𝑖𝑡) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0,918296
1 1 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐶𝑢𝑘𝑢𝑝) = (− 4 ∗ 𝑙𝑜𝑔2 (4)) + (− 4 ∗ 𝑙𝑜𝑔2 (4)) = 0,811278
1 1 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐵𝑎𝑛𝑦𝑎𝑘) = (− 4 ∗ 𝑙𝑜𝑔2 (4)) + (− 4 ∗ 𝑙𝑜𝑔2 (4)) = 0,811278
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑩𝒍𝒐𝒌
1 1 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑅𝑒𝑛𝑑𝑎ℎ) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0,918296
1 1 4 4
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑒𝑑𝑎𝑛𝑔) = (− 5 ∗ 𝑙𝑜𝑔2 (5)) + (− 5 ∗ 𝑙𝑜𝑔2 (5)) = 0,721928
0 0 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑖𝑛𝑔𝑔𝑖) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0
Perhitungan Gain
|𝐾𝑎𝑟𝑡𝑢|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙| ∗
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐾𝑎𝑟𝑡𝑢𝑖 )
5 5
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,845251 − ((11 ∗ 0,970951) + (11 ∗ 0))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,40401
|𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙|
∗
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛𝑖 )
3 4
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,845251 − ((11 ∗ 0,918296) + (11 ∗
4
0,811278) + (11 ∗ 0,811278))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,004886
|𝐵𝑙𝑜𝑘|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐵𝑙𝑜𝑘𝑖 )
3 5
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 0,845251 − ((11 ∗ 0,918296) + (11 ∗ 0,721928) +
3
(11 ∗ 0))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 0,266757
Excell
Jml Tidak
Node Atribut Kasus Ya (Si) Entropy Gain
(Si)
(S)
1.1 Prabayar 5 2 3 0,970951
Panggilan 0,170951
Sedikit 1 0 1 0
Cukup 2 1 1 1
Banyak 2 1 1 1
Blok 0,419973
Rendah 2 0 2 0
Sedang 3 2 1 0,918296
Tinggi 0 0 0 0
Jml
Tidak
Node Atribut Kasus Ya (Si) Entropy Gain
(Si)
(S)
Prabayar
1.2 dan
Sedang 3 2 1 0,918296
Panggilan 0,918296
Sedikit 1 0 1 0
Cukup 1 1 0 0
Banyak 1 1 0 0
Pohon Keputusan :
Interpretasi :
- Semua pelanggan yang memiliki kartu pascabayar, maka dia mendapatkan
bonus. Adapun nama pelanggan tersebut, yaitu Budi, Evan, Feni, Jodi, Kafi, dan
Linda.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok yang rendah, maka
dia tidak mendapatkan bonus. Adapun pelanggan tersebut, yaitu Dedi dan Hani.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok sedang serta
panggilan yang sedikit, maka dia tidak mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Andi.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok sedang serta
panggilan yang cukup, maka dia mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Gito.
- Serta yang terakhir, pelanggan yang memiliki kartu prabayar dan blok sedang
derta panggilan yang banyak, maka dia mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Citra.