Laporan Ini Disusun Untuk Memenuhi Tugas Mata Kuliah Big Data Dengan Dosen Pengampu Dina Agustina, S.PD., M.SC

TUGAS BIG DATA
MACHINE LEARNING : SUPERVISED LEARNING
Laporan ini disusun untuk memenuhi tugas mata kuliah Big Data dengan
dosen pengampu Dina Agustina, S.Pd., M.Sc.
DISUSUN OLEH
KELOMPOK 1
Muhammad Amin (20337029)
Sabina Chairun Najwa (20337009)
Silfia Wisa Fitri (20337010)
PRODI S1 STATISTIKA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI PADANG
2023
SUPERVISED DAN UNSUPERVISED LEARNING
1. Perbedaan supervised dan unsupervised learning.
Kriteria Supervised Unsupervised

Konsep Machine Learning model yang Machine Learning Model yang
mempelajari data dengan label atau mempelajari pola data tanpa
target dimana evaluasi model tersebut adanya target data.
akan berdasarkan target ini
Model Model untuk melakukan prediksi Model hanya untuk mencoba
berdasarkan pola yang ditemukan menemukan pola dan menemukan
dalam menjawab data target. insight penting dari data.
Seringkali, proses ini disebut juga
sebagai data mining.
Training data Menggunakan data training untuk Tidak menggunakan data training
membuat machine learning model dan dan hanya tergantung pada data
model ini akan digunakan untuk diuji test sehingga tidak bisa melakukan
pada data test. evaluasi terhadap model.
Algoritma Algoritma klasifikasi untuk Algoritma Clustering untuk
memprediksi fitur kategori dan Regresi melakukan segmentasi data dan
untuk memprediksi fitur kontinu. dan Dimensional Reduction untuk
mereduksi data.
Evaluasi Model dari supervised Supervised learning harus di
learning dievaluasi berdasarkan dari evaluasi secara subjektif untuk
hasil prediksi yang dilatih mengetahui apakah prediksi yang
menggunakan Training Data dan dilakukan telah sesuai karena
dibandingkan hasilnya dengan prediksi pengukuran evaluasi secara
oleh Test data statistik pada unsupervised
learning tidak memiliki jawaban
yang benar.
2. Algoritma Supervised dan Unsupervised Learning
Algoritma Superviced Learning

Algoritma supervised learning merupakan algoritma machine learning yang proses
pembelajarannya di bawah pengawasan guru atau supervisor. Algoritma ini
memerlukan data berlabel untuk membangun sebuah model yang tingkat akurasinya
bisa ditingkatkan dari waktu ke waktu. Semakin banyak model tersebut mengolah data,
maka tingkat keakurasiannya juga akan semakin tinggi.
Dalam algoritma supervised learning, terdapat dua variabel, yaitu variabel input yang
biasa disebut variabel X dan variabel output yang biasa disebut variabel Y. Tujuan
algoritma supervised learning adalah untuk mempelajari fungsi pemetaan dari variabel
X ke variabel Y. Rumus umum pemetaan variabel X dan Y adalah Y = f(X). Tujuan
akhir dari algoritma supervised learning adalah untuk memperkirakan fungsi pemetaan
(f) agar kita dapat memprediksi variabel Y ketika kita memiliki data input (variabel X)
yang baru.
Algoritma Unsupervised Learning
Algoritma unsupervised learning lebih bebas dalam proses eksplorasi data karena tidak
memiliki data label dan bisa mencari karakteristik data yang tersembunyi. Algoritma
ini menggunakan titik data sebagai referensi untuk menemukan struktur dan pola yang
ada di dalam data set.
3. Jenis-jenis Supervised dan Unsupervised Learning
Jenis-jenis supervised learning
1. Regression
a) Linear Regression
2. Classification
a) Decision Tree
b) Logistic Regression
c) K-Nearest Neighbors
d) Naive Bayes
e) Random Forest
f) Neural Network.
Jenis-jenis Unsupervised learning
1. Clustering
a) Non-Hierical Clustering (K-means)
b) Hierical Clustering
2. Association
3. Dimensionality Reduction
a) Principal Component Analysis (PCA)
b) Linear Discriminant Analysis (LDA)
c) t-Distributed Stochastic Neighbor Embedding (t-SNE)
REGRESI LINEAR
1. Teori Regresi Linear
Analisis regresi merupakan suatu model matematis yang dapat digunakan untuk
mengetahui pola hubungan antara dua atau lebih variabel. Analisis regresi lebih akurat
dalam melakukan analisis korelasi. Menggunakan analisis regresi, peramalan atau
perkiraan nilai variabel terikat pada nilai variabel bebas lebih akurat. Karena hasil
regresi merupakan nilai prediksi, maka nilai tersebut belum tentu tepat dengan nilai
riilnya, semakin sedikit penyimpangan nilai prediksi terhadap nilai riilnya, maka
persamaan regresi yang dihasilkan semakin tepat dengan kondisi riilnya. Analisis
regresi merupakan suatu metode statistika yang dipakai untuk mengetahui dan
menentukan bentuk hubungan yang terjadi antara variabel-variabel, yang bertujuan
untuk memerkirakan dan meramalkan nilai dari variabel lain yang telah diketahui. Ada
dua jenis persamaan regresi linear, yaitu:
a) Analisis regresi sederhana (simple analisis regresi)
b) Analisis regresi berganda (multiple analisis regresi)
2. Formula Regresi Linear

Analisis regresi bertujuan untuk menguji hubungan pengaruh antara satu
variabel terhadap variabel lain. Variabel yang dipengaruhi disebut variabel terikat atau
dependen, sedangkan variabel yang mempengaruhi disebut variabel bebas atau variabel
independen.
Model persamaannya dapat digambarkan sebagai berikut :
𝑌 = 𝑎 + 𝑏𝑋
Dimana :
Y : Variabel dependen (variabel terikat)
X : Variabel independen (variabel bebas)
a : Nilai konstanta
b : Nilai koefisien regresi
Nilai dari koefisien 𝑎, 𝑏, dapat ditentukan dengan metode kuadrat terkecil (least
squared) berikut ini :
𝑛 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑏= 2
𝑛 ∑ 𝑋 2 − (∑ 𝑋)
(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌)

𝑎= 2
𝑛 ∑ 𝑋 2 − (∑ 𝑋)
Koefisien arah regresi linier dinyatakan dengan huruf b yang juga menyatakan
perubahan rata – rata variable Y untuk setiap veriabel X sebesar satu bagian. Bila harga
b positif, maka variable Y akan mengalami kenaikan atau pertambahan. Sebaliknya jika
b negative maka variable Y akan mengalami penurunan.
3. Algoritma Regresi Linear
Algoritma regresi adalah teknik machine learning yang digunakan untuk

memprediksi nilai dari sebuah variabel target berdasarkan nilai dari beberapa variabel
input (atau fitur). Algoritma regresi digunakan untuk membuat model matematis yang
dapat digunakan untuk memprediksi nilai target dari data baru.
• Jenis algoritma regresi yang digunakan, diantaranya adalah regresi linier,

regresi logistik, regresi polynomial, dll.
• Sumber data algoritma regresi adalah data internal, data eksternal, data sensor,
data dari media sosial, data dari internet dan data dari survey.
• Software untuk mengelola algoritma regresi ialah R, Python, SAS, SPSS,
Excel, dll.
4. Contoh Soal Sederhana
Seorang mahasiswa ingin melakukan analisis regresi terhadap data hasil

penelitiannya yang berjudul Hubungan antara motivasi dan hasil belajar KKPI di SMA
X. Pertanyaan penelitiannya seperti berikut : Apakah hasil belajar KKPI (Y) dapat
diprediksi dari motivasi (X) atau apakah terdapat hubungan fungsional antara motivasi
dan hasil belajar KKPI?
Variabel X = Variabel predictor (bebas, independent)
Variabel Y = Variabel kriterium (terikat, dependent)
DATA PENELITIAN
Responden X Y
1 34 32
2 38 35
3 34 31
4 40 38
5 30 29
6 40 35
7 40 33
8 34 30
9 35 32
10 39 36
11 33 31
12 32 31
13 42 36
14 40 37
15 42 35
16 42 38
17 41 37
18 32 30
19 34 30
20 36 30
21 37 33
22 36 32
23 37 34
24 39 35
25 40 36
26 33 32
27 34 32
28 36 34
29 37 32
30 38 34
Total 1105 1000
Dari tabel data penelitian di atas diperoleh :

∑ 𝑋 = 1.105
∑ 𝑌 = 1.000
∑ 𝑋𝑌 = 37.056
∑ 𝑋 2 = 41.029
∑ 𝑌 2 = 33.528
Dari nilai – nilai di atas masukkan ke dalam persamaan regresi regresi :
(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌)

𝑎=
𝑛
(1000)(41029) − (1105)(37056)
𝑎=
30(41029) − (1105)2
(41029000 − 40945880)
𝑎=
1230870 − 1221025
𝒂 = 𝟖, 𝟑𝟒𝟏𝟐𝟗
𝑛 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑏= 2
𝑛 ∑ 𝑋 2 − (∑ 𝑋)
20(37056) − (1105)(1000)
𝑏=
30(41029) − (1105)2
(1111680 − 1105000)
𝑏=
1230870 − 1221025
𝒃 = 𝟎, 𝟔𝟕𝟖𝟓𝟏𝟕
Dari hasil diatas, dapat dibuat persamaan garis regresinya :
𝑌 = 8,34 + 0,60𝑋
Jika X = 30, maka 𝑌 = 8,34 + 0,60(30) = 28,70

Jadi gambar persamaan garis regresi :
DECISION TREE
1. Teori Decision Tree
Decision tree adalah salah satu metode klasifikasi berupa model prediksi dengan
menggunakan struktur pohon atau struktur berhirarki. Manfaat utama dari
penggunakaan decision tree adalah kemampuannya untuk mem-break down proses
pengambilan keputusan yang kompleks menjadi lebih simple, sehingga pengambilan
keputusan akan lebih menginterpretasi solusi dari permasalahan. Salah satu metode
decision tree yang populer: Iterative Dychotomizer version 3 (ID3).
Metode ID3 berusaha membangun model klasifikasi yang berupa decision tree
(pohon keputusan) secara top-down. Caranya adalah dengan mengevaluasi semua
atribut menggunakan suatu ukuran statistik, biasanya berupa information gain, untuk
mengukur efektivitas suatu atribut dalam mengklasifikasikan himpunan sampel data.
2. Formula Decision Tree

Decision tree melakukan pembagian berdasarkan atribut yang paling sgignifkan,
sehingga untuk melihat atribut yang signifikan terlebih dahulu dihitung nilai Entoropy
dan Information Gainnya. Entoropy didefinisikan sebagai suatu parameter untuk
mengukur heterogenitas dalam suatu himpunan data, sedangkan information gain
didefinisikan sebagai ukuran efektivitas suatu atribut dalam mengklasifikiasikan data.
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖

𝑖=1
Keterangan :
S = Himpunan Kasus
n = Jumlah partisi dalam S
Pi = Proporsi dari Si terhadap S
𝑛
|𝑆𝑖 |
𝐺𝑎𝑖𝑛𝑠(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆)
|𝑆|
𝑖=1
Keterangan :
S = Himpunan Kasus
A = Atribut
n = Jumlah partisi atribut A
|Si| = Jumlah kasus pada partisi ke-i
|S| = Jumlah kasus dalam S
3. Algoritma Decision Tree

1) Menyiapkan data training
2) Pilih atribut sebagai akar dengan menghitung nilai entropy dan nilai gain\
3) Membuat cabang untuk tiap-tiap nilai
4) Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki
kelas yang sama
4. Contoh Penerapan Sederhana

Buatlah analisis data menggunakan decision tree dengan menggunakan perhitungan
manual pada dataset dibawah ini kemudian interpretasikan hasilnya!
Pelanggan Kartu Panggilan Blok Bonus

Andi Prabayar Sedikit Sedang Tidak
Budi Pascabayar Banyak Sedang Ya
Citra Prabayar Banyak Sedang Ya
Dedi Prabayar Banyak Rendah Tidak
Evan Pascabayar Cukup Tinggi Ya
Feni Pascabayar Cukup Sedang Ya
Gito Prabayar Cukup Sedang Ya
Hani Prabayar Cukup Rendah Tidak
Jodi Pascabayar Sedikit Tinggi Ya
Kafi Pascabayar Banyak Tinggi Ya
Linda Pascabayar Cukup Rendah Ya
Jawab
Atribut Akar
Memilih atribut akar dengan gain tertinggi. Adapun sebelum itu, lakukan perhitungan
nilai entropy dan nilai gain. Perhitungan entropy dihitung dengan rumus berikut.
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖

𝑖=1
𝑛
|𝑆𝑖 |
𝐺𝑎𝑖𝑛(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖 )
|𝑆|
𝑖=1
a. Entropy dan Gain (1)
Perhitungan Entropy
Manual
3 3 8 8
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑻𝒐𝒕𝒂𝒍 = (− 11 ∗ 𝑙𝑜𝑔2 (11)) + (− 11 ∗ 𝑙𝑜𝑔2 (11)) = 0,845251
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑲𝒂𝒓𝒕𝒖
3 3 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑟𝑎𝑏𝑎𝑦𝑎𝑟) = (− 5 ∗ 𝑙𝑜𝑔2 (5)) + (− 5 ∗ 𝑙𝑜𝑔2 (5)) =
0,970951
0 0 6 6
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑎𝑠𝑐𝑎𝑏𝑎𝑦𝑎𝑟) = (− 6 ∗ 𝑙𝑜𝑔2 (6)) + (− 6 ∗ 𝑙𝑜𝑔2 (6)) = 0
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑷𝒂𝒏𝒈𝒈𝒊𝒍𝒂𝒏
1 1 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑒𝑑𝑖𝑘𝑖𝑡) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0,918296
1 1 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐶𝑢𝑘𝑢𝑝) = (− 4 ∗ 𝑙𝑜𝑔2 (4)) + (− 4 ∗ 𝑙𝑜𝑔2 (4)) = 0,811278
1 1 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐵𝑎𝑛𝑦𝑎𝑘) = (− 4 ∗ 𝑙𝑜𝑔2 (4)) + (− 4 ∗ 𝑙𝑜𝑔2 (4)) = 0,811278
- 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑩𝒍𝒐𝒌
1 1 2 2
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑅𝑒𝑛𝑑𝑎ℎ) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0,918296
1 1 4 4
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑒𝑑𝑎𝑛𝑔) = (− 5 ∗ 𝑙𝑜𝑔2 (5)) + (− 5 ∗ 𝑙𝑜𝑔2 (5)) = 0,721928
0 0 3 3
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑖𝑛𝑔𝑔𝑖) = (− 3 ∗ 𝑙𝑜𝑔2 (3)) + (− 3 ∗ 𝑙𝑜𝑔2 (3)) = 0
Perhitungan Gain
|𝐾𝑎𝑟𝑡𝑢|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙| ∗
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐾𝑎𝑟𝑡𝑢𝑖 )
5 5
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,845251 − ((11 ∗ 0,970951) + (11 ∗ 0))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,40401
|𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙|
∗
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑃𝑎𝑛𝑔𝑔𝑖𝑙𝑎𝑛𝑖 )
3 4
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,845251 − ((11 ∗ 0,918296) + (11 ∗
4
0,811278) + (11 ∗ 0,811278))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐾𝑎𝑟𝑡𝑢) = 0,004886
|𝐵𝑙𝑜𝑘|
- 𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑇𝑜𝑡𝑎𝑙) − ∑𝑛𝑖=1 |𝑇𝑜𝑡𝑎𝑙| ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝐵𝑙𝑜𝑘𝑖 )
3 5
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 0,845251 − ((11 ∗ 0,918296) + (11 ∗ 0,721928) +
3
(11 ∗ 0))
𝐺𝑎𝑖𝑛(𝑇𝑜𝑡𝑎𝑙, 𝐵𝑙𝑜𝑘) = 0,266757
Excell
Node Atribut Ya (Si) Entropy Gain

Jml
Tidak
Kasus
(Si)
(S)
1 Total 11 8 3 0,845351
Kartu 0,40401
Prabayar 5 2 3 0,970951
Pascabayar 6 6 0 0
Panggilan 0,004886
Sedikit 3 2 1 0,918296
Cukup 4 3 1 0,811278
Banyak 4 3 1 0,811278
Blok 0,266757
Rendah 3 1 2 0,918296
Sedang 5 4 1 0,721928
Tinggi 3 3 0 0
Hasil Perhitungan Gain :

Diperoleh dari hasil perhitungan atribut dengan gain tertinggi adalah Kartu, yaitu
0,40401. Sehingga Kartu menjadi node akar dengan 2 nilai atribut Pelanggan, yaitu
Prabayar dan Pascabayar. Dari kedua nilai atribut tersebut, nilai atribut Pascabayar
sudah mengklasifikasikan kasus menjadi satu keputusan, yaitu Ya. Oleh karena
itu tidak perlu dilakukan perhitungan namun atribut Prabayar perlu dilakukan
perhitungan lagi sehingga iterasi masih berlanjut.
Pohon Keputusan Sementara :
b. Entropy dan Gain (2)

Data set di filter dengan mengambil data Kartu = Prabayar untuk membuat node 1.1
Kartu Panggilan Blok Bonus

Prabayar Sedikit Sedang Tidak
Prabayar Banyak Sedang Ya
Prabayar Banyak Rendah Tidak
Prabayar Cukup Sedang Ya
Prabayar Cukup Tinggi Tidak
Perhitungan Entropy dan Gain
Jml Tidak
Node Atribut Kasus Ya (Si) Entropy Gain
(Si)
(S)
1.1 Prabayar 5 2 3 0,970951
Panggilan 0,170951
Sedikit 1 0 1 0
Cukup 2 1 1 1
Banyak 2 1 1 1
Blok 0,419973
Rendah 2 0 2 0
Sedang 3 2 1 0,918296
Tinggi 0 0 0 0

Diperoleh dari hasil perhitungan atribut dengan gain tertinggi adalah Blok, yaitu
0,419973. Sehingga Blok dapat menjadi node akar kedua. Arribut Rendah = Tidak
sudah mengklasifikasikan kasus menjadi satu keputusan. Oleh karena itu tidak
perlu dilakukan perhitungan. Untuk atribut Tinggi tidak dimasukkan karena
nilainya 0 atau tidak ada. Selanjutnya dilakukan perhitungan untuk atribut Sedang,
sehingga iterasi masih berlanjut.
Pohon Keputusan Sementara :
c. Entropy dan Gain (3)

Data set di filter dengan mengambil data Kartu = Prabayar dengan Block = Sedang
untuk membuat node 1.2
Kartu Panggilan Blok Bonus
Prabayar Sedikit Sedang Tidak
Prabayar Banyak Sedang Ya
Prabayar Banyak Rendah Tidak
Prabayar Cukup Sedang Ya
Prabayar Cukup Tinggi Tidak
Perhitungan Entropy dan Gain
Jml
Tidak
Node Atribut Kasus Ya (Si) Entropy Gain
(Si)
(S)
Prabayar
1.2 dan
Sedang 3 2 1 0,918296
Panggilan 0,918296
Sedikit 1 0 1 0
Cukup 1 1 0 0
Banyak 1 1 0 0

Semua nilai atribut sudah mengklasifikasikan satu keputusan. Sehingga tidak perlu
dilakukan perhitungan dan iterasi berhenti.
Pohon Keputusan :
Interpretasi :
- Semua pelanggan yang memiliki kartu pascabayar, maka dia mendapatkan
bonus. Adapun nama pelanggan tersebut, yaitu Budi, Evan, Feni, Jodi, Kafi, dan
Linda.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok yang rendah, maka
dia tidak mendapatkan bonus. Adapun pelanggan tersebut, yaitu Dedi dan Hani.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok sedang serta
panggilan yang sedikit, maka dia tidak mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Andi.
- Pelanggan yang memiliki kartu prabayar dan memiliki blok sedang serta
panggilan yang cukup, maka dia mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Gito.
- Serta yang terakhir, pelanggan yang memiliki kartu prabayar dan blok sedang
derta panggilan yang banyak, maka dia mendapatkan bonus. Adapun pelanggan
tersebut, yaitu Citra.

Laporan Ini Disusun Untuk Memenuhi Tugas Mata Kuliah Big Data Dengan Dosen Pengampu Dina Agustina, S.PD., M.SC

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan Ini Disusun Untuk Memenuhi Tugas Mata Kuliah Big Data Dengan Dosen Pengampu Dina Agustina, S.PD., M.SC

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS BIG DATA

MACHINE LEARNING : SUPERVISED LEARNING

Muhammad Amin (20337029)

Sabina Chairun Najwa (20337009)

Silfia Wisa Fitri (20337010)

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI PADANG

Kriteria Supervised Unsupervised

2. Algoritma Supervised dan Unsupervised Learning

Algoritma Superviced Learning

Jenis-jenis supervised learning

Jenis-jenis Unsupervised learning

2. Formula Regresi Linear

(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌)

Algoritma regresi adalah teknik machine learning yang digunakan untuk

• Jenis algoritma regresi yang digunakan, diantaranya adalah regresi linier,

4. Contoh Soal Sederhana

Seorang mahasiswa ingin melakukan analisis regresi terhadap data hasil

Dari tabel data penelitian di atas diperoleh :

Dari nilai – nilai di atas masukkan ke dalam persamaan regresi regresi :

(∑ 𝑌)(∑ 𝑋 2 ) − (∑ 𝑋)(∑ 𝑋𝑌)

Jika X = 30, maka 𝑌 = 8,34 + 0,60(30) = 28,70

2. Formula Decision Tree

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖

3. Algoritma Decision Tree

4. Contoh Penerapan Sederhana

Pelanggan Kartu Panggilan Blok Bonus

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ −𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖

Node Atribut Ya (Si) Entropy Gain

Hasil Perhitungan Gain :

Pohon Keputusan Sementara :

b. Entropy dan Gain (2)

Kartu Panggilan Blok Bonus

Hasil Perhitungan Gain :

Pohon Keputusan Sementara :

c. Entropy dan Gain (3)

Perhitungan Entropy dan Gain

Hasil Perhitungan Gain :

Anda mungkin juga menyukai