MODUL PRAKTIKUM
DATA MINING
STANDAR KOMPETENSI
Mahasiswa diharapkan dapat menguasai konsep dan prinsip data akuisisi,
pengolahan data, pengelolaan data dan visualisasi data pada ranah data
mining.
Pokok Bahasan I
Data Pre-processing
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Memahami data pre- 1.1 Menganalisa data pre-
1 1 5
processing. processing dari data yang
disediakan
Mengimplementasikan pre- 1.1 Mampu memproses data
2 2 6
processing data. dengan Missing Values
1.2 Mampu membagi data
menjadi training dan test
dataset.
1.3 Mampu menerapkan feature
scaling pada data.
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa yang dimaksud dengan data pre-processing?
2. Mengapa perlu adanya tahapan pre-processing?
3. Sebutkan langkah-langkah dari data pre-processing?
TEORI SINGKAT
Data Preparation atau bisa disebut juga dengan data preprocessing adalah
suatu proses/langkah yang dilakukan untuk membuat data mentah
menjadi data yang berkualitas(input yang baik untuk data mining tools).
Tahapan dalam melakukan data mining salah satunya adalah preprosesing
data. Pertanyaannya adalah mengapa data perlu di bersihkan sebelum
diproses?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik,
penyebabnya antara lain :
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan
data warehouse memerlukan integrasi kualitas data yang konsisten.
Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik
adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
1. Menginstall library yang dibutuhkan untuk mengerjakan modul.
2. Menjalankan R Studio.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami data pre-processing.
Kompetensi Dasar:
1. Menganalisa data pre-processing dari data yang telah disediakan.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan analisis terhadap data
yang telah disediakan.
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
ELEMEN KOMPETENSI 2
Deskripsi:
Mengimplementasikan pre-processing data.
Kompetensi Dasar:
1. Mampu memproses data dengan Missing Values
2. Mmapu membagi data menjadi training dan test dataset.
3. Mampu menerapkan feature scaling pada data.
Latihan 1.2.1
Penjelasan Singkat:
Pada latihan ini praktikan diminta untuk memproses missing value dari data
yang telah disediakan. Bagaimana cara agar missing value tersebut tidak
menjadi kendala dalam tahap processing.
Langkah-Langkah Praktikum:
> head(dataku_namapraktikan)
Output :
5. Apakah baris ke-6 mengandung missing value pada variabel Age ? Y/T
> str(dataku_namapraktikan)
Output :
> my_data_namapraktikan$Age =
ifelse(is.na(my_data_namapraktikan$Age),ave(my_data_namapraktikan$Ag
e, FUN = function(x) mean(x, na.rm =
'TRUE')),my_data_namapraktikan$Age)
> head(my_data_namapraktikan)
Output :
Apakah variabel Age baris ke-6 masih mengandung missing value ? Y/T
Latihan :
Lakukan penanganan missing value pada variabel age dan salary sesuai langkah-langkah yang
telah dipelajari :
Output :
Latihan 1.2.2
Penjelasan Singkat:
Pada latihan ini praktikan diminta untuk mampu membagi data menjadi
training dan test dataset.
Langkah-Langkah Praktikum:
> install.packages("catTools")
> library(caTools) #adding caTools to the library
> set.seed(123)
> split = sample.split(dataset$Purchased,SplitRatio = 0.8)
> training_set = subset(dataset,split == TRUE)
> test_set = subset(dataset, split == FALSE)
output :
>head(test_set)
output :
Latihan 1.2.3
Penjelasan Singkat:
Pada latihan ini praktikan diminta untuk mampu melakukan featuring
scaling pada data uji.
Langkah-Langkah Praktikum:
#feature scaling
training_set[,2:3] = scale(training_set[,2:3])
test_set[,2:3] = scale(test_set[,2:3])
output :
> training_namapraktikan<-dataku_namapraktikan[,c(2,3)]
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
1.2.2
1.2.3
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami data pre-
Sangat Mudah Tidak Tertarik
processing.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Mengimplementasika
Sangat Mudah Tidak Tertarik
n pre-processing data.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan II
Data Pre-processing with Python.
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Memahami data pre- 1.1 Menganalisa data pre-
1 1
processing menggunakan processing dari data yang
Python. disediakan
2 Mengimplementasikan pre- 1.1 Mampu memproses data 2
processing data pada dengan Missing Values
console Jupyter Notebooks. 1.2 Mampu menangani missing
Value
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal Anaconda Python pada PC masing-masing praktikan.
2. Menginstal Jupyter Notebooks pada Anaconda Python untuk masing-
masing praktikan.
DAFTAR PERTANYAAN
1. Apa yang dimaksud dengan Missing Value?
2. Adakah Perbedaan penanganan Missing Value antara R dan Python,
berikan Alasannya?
TEORI SINGKAT
Data Preparation atau bisa disebut juga dengan data preprocessing adalah
suatu proses/langkah yang dilakukan untuk membuat data mentah
menjadi data yang berkualitas(input yang baik untuk data mining tools).
Tahapan dalam melakukan data mining salah satunya adalah preprosesing
data. Pertanyaannya adalah mengapa data perlu di bersihkan sebelum
diproses?
Hal ini terjadi karena biasanya data yang akan digunakan belum baik,
penyebabnya antara lain :
Disini kualitas data yang baik didasarkan oleh keputusan yang baik dan
data warehouse memerlukan integrasi kualitas data yang konsisten.
Beberapa hal yang perlu diperhatikan untuk mendapatkan data yang baik
adalah :
– Accuracy
– Completeness
– Consistency
– Timeliness
– Value added
– Interpretability
– Accessibility
– Contextual
– Representational
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
3. Menginstall library yang dibutuhkan untuk mengerjakan modul.
4. Menjalankan R Studio.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami data pre-processing menggunakan Python.
Kompetensi Dasar:
1. Menganalisa data pre-processing dari data yang telah disediakan.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan analisis terhadap data
yang telah disediakan.
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
ELEMEN KOMPETENSI 2
Deskripsi:
Mengimplementasikan pre-processing data pada console Jupyter Notebooks.
Kompetensi Dasar:
1. Mampu memproses data dengan Missing Values
2. Mampu menangani missing Value
Latihan 1.2.1
Penjelasan Singkat:
Pada latihan ini praktikan diminta untuk memproses missing value dari data
yang telah disediakan. Bagaimana cara agar missing value tersebut tidak
menjadi kendala dalam tahap processing menggunakan python.
Langkah-Langkah Praktikum:
1. Letakan dataset dalam sebuah folder, dataset adalah data train.csv dan
test.csv yang didownload dari https://www.kaggle.com/c/titanic/data
4. Import Library
import pandas as pd
import numpy as np
7. Mendeskripsi data
dataku_namapraktikan.describe()
Latihan 1.2.2
Penjelasan Singkat:
Pada latihan ini praktikan diminta untuk mampu menangani missing value
dengan data baru
Lakukan penanganan missing value pada variabel age dan salary sesuai langkah-langkah yang
telah dipelajari dari data berikut :
Output
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
1.2.2
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami data pre-
Sangat Mudah Tidak Tertarik
processing
menggunakan Python. Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Mengimplementasika
Sangat Mudah Tidak Tertarik
n pre-processing data
pada console Jupyter Mudah Cukup Tertarik
Notebooks
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Menerapkan Decision Tree 1.1 Membuat Decision Tree
1 1 12
pada data Weather menggunakan Library Rpart
Nominal dataset 1. dan Rpart Plot menggunakan
data Weather Nominal
1.1 Membuat Decision Tree
2 Menerapkan prediksi dan 2 15
menggunakan Library Rpart
class pada Decision Tree dan Rpart Plot menggunakan
data Weather Nominal data Weather Nominal
dataset 2. 1.2 Membuat prediksi dari
Decision Tree
1.3 Membuat class dari prediksi
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa itu decision tree?
2. Apa kegunaan Decision tree?
3. Berikan salah satu contoh dari decision tree suatu data!
TEORI SINGKAT
Decision tree adalah salah satu metode klasifikasi yang paling populer,
karena mudah untuk diinterpretasi oleh manusia. Decision tree adalah
model prediksi menggunakan struktur pohon atau struktur berhirarki.
Konsep dari pohon keputusan adalah mengubah data menjadi decision
tree dan aturan-aturan keputusan. Manfaat utama dari penggunaan
decision tree adalah kemampuannya untuk mem-break down proses
pengambilan keputusan yang kompleks menjadi lebih simple, sehingga
pengambil keputusan akan lebih menginterpretasikan solusi dari
permasalahan.
Nama lain dari decision tree adalah CART (Classification and Regression
Tree). Dimana metode ini merupakan gabungan dari dua jenis pohon,
yaitu classification tree dan juga regression tree. Untuk memudahkan,
berikut ilustrasi dari keduanya.
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Menerapkan Decision Tree pada data Weather Nominal dataset 1.
Kompetensi Dasar:
Membuat Decision Tree menggunakan Library Rpart dan Rpart Plot menggunakan
data Weather Nominal.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk membangun decision tree
menggunakan library yang disediakan oleh R.
Langkah-Langkah Praktikum:
Data set:
kelembaba berangi bermai
cuaca suhu n n n
cerah panas Tinggi salah tidak
cerah panas Tinggi benar tidak
berawa
n panas Tinggi salah ya
hujan sejuk Tinggi salah ya
hujan dingin Normal salah ya
hujan dingin Normal benar ya
berawa
n dingin Normal benar ya
cerah sejuk Tinggi salah tidak
cerah dingin Normal salah ya
hujan sejuk Normal salah ya
cerah sejuk Normal benar ya
berawa
n sejuk Tinggi benar ya
berawa
n panas Normal salah ya
hujan sejuk Tinggi benar tidak
Output :
ELEMEN KOMPETENSI II
Deskripsi:
Menerapkan prediksi menggunakan Decision Tree pada data Weather Nominal
dataset 2.
Kompetensi Dasar:
Membuat prediksi pada Tree menggunakan data Weather Nominal dataset 2.
Latihan 1.2.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk membangun decision tree dan
melakukan prediksi menggunakan library yang disediakan oleh R.
Langkah-Langkah Praktikum:
Data set 2 :
kelembaba
cuaca suhu n angin bermain
cerah 69 70 biasa ya
cerah 75 70 kencang ya
hujan 68 80 biasa ya
hujan 70 96 biasa ya
hujan 75 80 biasa ya
mendung 64 65 kencang ya
mendung 72 90 kencang ya
mendung 81 75 biasa ya
mendung 83 78 biasa ya
Output :
prediksi=predict(pohongolf,testinggolf)
pred.respon<- colnames(prediksi)[max.col(prediksi, ties.method = c("random"))]
class=table(pred.respon,testinggolf$bermain)
class
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
1.2.2
1.2.3
Waktu
Tingkat
Elemen Kompetensi Tingkat Kesulitan Penyelesaian
Ketertarikan
dalam menit
Memahami data pre-
Sangat Mudah Tidak Tertarik
processing.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Mengimplementasika
Sangat Mudah Tidak Tertarik
n pre-processing data.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan IV
K-Nearest Neighbor (KNN).
Kode Pokok Bahasan: TIK.RPL03.004.00.01
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Menampilkan hasil Mampu melakukan analisis
1. 1
Klasifikasi dari kasus yang terhadap klasifikasi data dari
diberikan. diagram yangmuncul.
Mampu melakukan perhitungan
2. Melakukan perhitungan 1
peluang secara manual
manual menggunakan menggunakan excel pada
excel. pada data yang ditentukan
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
3. Menginstal aplikasi pengolah data (Excel).
DAFTAR PERTANYAAN
1. Apa itu algoritma K-Nearest Neighbor?
2. Apa kegunaan K-Nearest Neighbor?
3. Sebutkan tahapan dari proses algoritma K-Nearest Neighbor!
TEORI SINGKAT
Algoritma K-Nearest Neighbor (K-NN) adalah sebuah metode
klasifikasi terhadap sekumpulan data berdasarkan pembelajaran data yang
sudah terklasifikasikan sebelumya. Termasuk dalam supervised learning,
dimana hasil query instance yang baru diklasifikasikan berdasarkan
mayoritas kedekatan jarak dari kategori yang ada dalam K-NN
KNN, Dapat digunakan untuk tujuan klasifikasi, Tidak menyusun
model atau mengekstrak aturan logika tertentu sebagai hasil dari analisis,
Identikasi k buah individu tetangga terdekat dilakukan dengan terlebih
dahulu menghitung jarak dari individu yang akan diduga dengan setiap
individu yang ada pada gugus data training. Jika ini sudah dilakukan maka
tinggal mencari k buah amatan yang jaraknya paling kecil. Penghitungan
jarak dari dua amatan A dan B dapat menggunakan formula Euclid distance.
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Menampilkan hasil klasifikasi dari kasus yang diberikan.
Kompetensi Dasar:
Menampilkan hasil Klasifikasi dari kasus yang diberikan.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta melakukan analisis terhadap klasifikasi
data dari diagram yang muncul.
Langkah-Langkah Praktikum:
1. Siapkan data
X y kelas
0.15 0 1
0.3 0.1 1
0.11 0.12 1
0.04 0.13 1
0.18 0.17 1
0.1 0.19 1
0.54 0.2 2
0.19 0.21 1
0.6 0.24 2
0.66 0.25 2
0.33 0.26 2
0.17 0.27 1
0.52 0.29 2
0.52 0.33 2
0.49 0.35 2
0.68 0.36 2
0.55 0.43 2
0.37 0.44 2
0.52 0.47 2
0.58 0.5 2
X Y Kelas
0.1 0.2 ?
0.4 0.1 ?
2. Buka Rstudio
3. Melakukan data preparation
> data.training <- data_emo[,1:2]
> kelas <- as.factor(data_emo[,3])
> View(data_emo)
> str(data_emo)
ELEMEN KOMPETENSI II
Deskripsi:
Kompetensi Dasar:
Menampilkan hasil Klasifikasi dari kasus yang diberikan.
Latihan 1.2.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta melakukan analisis terhadap klasifikasi
data dari diagram yang muncul.
for (j in y) {
grid <- rbind(grid, c(i, j))}}
datagambar <- data.frame(grid)
Tugas
Gunakan algorima k-NN pada R untuk kasus berikut ini dengan k=3 :
sepal.lengt
h sepal.width species
5.4 3.7 setosa
7.2 3.2 virginica
5.4 3.4 setosa
5.1 3.3 setosa
5.4 3.9 setosa
7.4 2.8 virginica
6.1 2.8 versicolor
7.2 2.9 virginica
6.1 2.7 versicolor
5.8 2.8 virginica
6.4 2.3 versicolor
5.1 2.7 versicolor
6.3 2.4 versicolor
5.4 2.3 versicolor
Data baru:
sepal.lengt
h sepal.width species
5.2 3.7 setosa
Script R :
Output :
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Menampilkan hasil
Sangat Mudah Tidak Tertarik
Klasifikasi dari kasus
yang diberikan. Mudah Cukup Tertarik
yang diberikan.
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Melakukan perhitungan
Sangat Mudah Tidak Tertarik
manual menggunakan
excel. Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan V
Naïve Bayes
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Menampilkan peluang dari Mampu melakukan analisis
1. 1 12
kasus yang diberikan. terhadap peluang atas
kejadian yang ditentukan.
Mampu melakukan perhitungan
2. Melakukan perhitungan 2 15
peluang secara manual
manual menggunakan menggunakan excel pada
excel. kondisi yang ditentukan
Mengimplementasikan fungsi
3. Menggunakan fungsi
naive bayes pada prediksi
naiveBayes dalam data
memprediksi data
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa itu algoritma Naïve Bayes?
2. Apa kegunaan Naïve Bayes?
3. Sebutkan tahapan dari proses algoritma Naïve Bayes!
TEORI SINGKAT
Hinde, and Roger G. Stone. “Naive Bayes vs. decision trees vs. neural
networks in the classification of training web pages.” (2009), mengatakan
bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yg lebih baik
dibanding model classifier lainnya”.
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Menampilkan peluang dari kasus yang diberikan.
Kompetensi Dasar:
Mampu melakukan analisis terhadap peluang atas kejadian yang ditentukan.
Latihan
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk menampilkan summarize dari data
menggunakan library yang disediakan oleh R.
Langkah-Langkah Praktikum:
install.packages("tidyverse")
library("tidyverse") #for data wrangling tools
install.packages("titanic")
library("titanic")
Compute the probability that a randomly selected passenger on the Titanic was female given
that the passenger was at least 35 years old.
tdf %>%
summarize(prob = sum(Age >= 35 & Sex == "female", na.rm = TRUE)/sum(Age >= 35, na.rm =
TRUE))
Output :
ELEMEN KOMPETENSI II
Deskripsi:
Melakukan perhitungan manual menggunakan excel.
Kompetensi Dasar:
Mampu melakukan perhitungan peluang secara manual menggunakan excel pada
kondisi yang ditentukan
Latihan 1.2.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan perhitungan peluang
secara manual menggunakan excel.
Langkah-Langkah Praktikum:
Lakukan perhitungan kasus di atas dengan menggunakan Excel. Pisahkan age dengan batas
35 tahun.
Output :
Latihan 1.3.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk mengimplementasikan naïve bayes
pada kasus yang diberikan.
Langkah-Langkah Praktikum:
Gunakan titanic.csv yang berisi data 887 penumpang Titanic passengers. Kolom data
menggambarkan survived (S), age (A), passenger-class (C), sex (G) and the fare paid (X).
Hitung peluang bersyarat (conditional probability) di bawah ini
P(S= true | G=female)
P(S= true | G=male)
P(S= true | C=1)
P(S= true | C=2)
P(S= true | C=3)
P(S= true | G=female,C=1) =
P(S= true | G=female,C=2) =
P(S= true | G=female,C=3) =
P(S= true | G=male,C=1) =
P(S= true | G=male,C=2) =
P(S= true | G=male,C=3) =
# https://www.kaggle.com/brirush/naive-bayes-for-titanic
library(e1071)
train <- read.csv("F:/Kuliah Data Mining gasal 1819/Kaggle/Titanic/train.csv")
test <- read.csv("F:/Kuliah Data Mining gasal 1819/Kaggle/Titanic/test.csv")
BayesTitanicModel<-naiveBayes(as.factor(Survived)~., train)
BayesPrediction<-predict(BayesTitanicModel, test)
summary(BayesPrediction)
output<-data.frame(test$PassengerId, BayesPrediction)
str(output)
colnames(output)<-cbind("PassengerId","Survived")
write.csv(output, file = 'Rushton_Solution.csv', row.names = F)
Output :
Data excelNaiveTest
Humadit
id Outlook Temp y Wndy
16 Rainy Mild Normal TRUE
Script R :
> excelNaive <- read.delim('clipboard')
> excelNaiveTest <- read.delim('clipboard')
> excelNaiveModel <- naiveBayes(as.factor(PlayGolf)~., excelNaive)
Output :
Sumber :
http://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html
http://rstudio-pubs-
static.s3.amazonaws.com/6595_b57093a21dfc46a4b3338cfee29ec61e.html
https://community.rstudio.com/t/conditional-probability-with-dplyr/5117
https://www.kaggle.com/brirush/naive-bayes-for-titanic
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
3 1.3.1
Waktu
Tingkat
Elemen Kompetensi Tingkat Kesulitan Penyelesaian
Ketertarikan
dalam menit
Memahami data pre-
Sangat Mudah Tidak Tertarik
processing.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Mengimplementasika
Sangat Mudah Tidak Tertarik
n pre-processing data.
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Menggunakan fungsi
Sangat Mudah Tidak Tertarik
naiveBayes dalam
memprediksi data Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Jurusan Teknik Informati ka 36
Fakultas Teknologi Industri – Universitas Trisakti
Modul Praktikum Data Mining
Pokok Bahasan VI
Titanic Dataset
Kode Pokok Bahasan: TIK.RPL03.001.006.01
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Memahami proses analisis Mampu Lakukan analisis group
1 1 12
group means means berdasarkan nilai survival
sebagai grouping variable pada R
Mampu melakukan pemodelan
2 Menerapkan decision tree 2 15
prediksi dengan decision tree
untuk membangun model
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa tujuan melakukan analisis group means?
2. apa keunggulan decision tree?
TEORI SINGKAT
The training set should be used to build your machine learning models. For the
training set, we provide the outcome (also known as the “ground truth”) for each
passenger. Your model will be based on “features” like passengers’ gender and class.
You can also use feature engineering to create new features.
The test set should be used to see how well your model performs on unseen data. For
the test set, we do not provide the ground truth for each passenger. It is your job to
predict these outcomes. For each passenger in the test set, use the model you trained
to predict whether or not they survived the sinking of the Titanic.
We also include gender_submission.csv, a set of predictions that assume all and only
female passengers survive, as an example of what a submission file should look like.
Data Dictionary
VariableDefinitionKey survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st, 2 = 2nd, 3 =
3rd sex Sex Age Age in years sibsp # of siblings / spouses aboard the Titanic parch # of
parents / children aboard the Titanic ticket Ticket number fare Passenger fare cabin Cabin
number embarked Port of Embarkation C = Cherbourg, Q = Queenstown, S = Southampton
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami proses analisis group means
Kompetensi Dasar:
Mampu Lakukan analisis group means berdasarkan nilai survival sebagai grouping
variable pada R
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk Lakukan analisis group means
berdasarkan nilai survival sebagai grouping variable. Dan menjelaskan
maknanya untuk setiap variable predictor yang bersifat numerik
Langkah-Langkah Praktikum:
Output :
Penjelasan :
Lakukan analisis tabulasi silang (cross tabulation) berdasarkan nilai survival sebagai grouping
variable. Jelaskan maknanya untuk setiap variable predictor yang bersifat kategorik
Output :
Penjelasan :
Lakukan analisis boxplot untuk setiap variable predictor yang bersifat numerik.
Jelaskan maknanya
#boxplot
boxplot(dataku$Age~dataku$Survived)
boxplot(dataku$Fare~dataku$Survived)
Output :
Penjelasan :
ELEMEN KOMPETENSI II
Deskripsi:
Menerapkan decision tree untuk membangun model
Kompetensi Dasar:
Mampu melakukan pemodelan prediksi dengan decision tree
Latihan 1.2.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk Lakukan analisis group means
berdasarkan nilai survival sebagai grouping variable untuk pemodelan
prediksi dengan decision tree.
Langkah-Langkah Praktikum:
Buatlah decision tree menggunakan data training untuk membangun model yang
dapat digunakan untuk memprediksi kelas survive. Bagi data menjadi 75% untuk
training dan 25% untuk uji (tes). Jelaskan maknanya serta nilai confusion matrix-nya
library(rpart)
library(rpart.plot)
library(caret)
head(dataku)
sampleTitanic<-sample(1:nrow(dataku),0.75*nrow(dataku))
trainingTitanic<-data.frame(dataku)[sampleTitanic,]
testingTitanic<-data.frame(dataku)[-sampleTitanic,]
pohonTitanic <- rpart(Survived ~ Sex + Age + Fare +
Pclass,data=trainingTitanic, method = "class", control = rpart.control(minsplit =
25, cp = 0))
prp(pohonTitanic,extra=4,box.col=c("pink","red","blue"))
Output :
Penjelasan :
prediksi=predict(pohonTitanic,testingTitanic)
pred.respon<- colnames(prediksi)[max.col(prediksi, ties.method = c("random"))]
class=table(pred.respon,testingTitanic$Survived)
class
Output :
Penjelasan :
Tugas :
Berdasarkan data yang sama (titanic.csv) dengan 887 observasi (row), lakukan
prediksi survival menggunakan teknik naive bayes. Data dibagi menjadi 75% data
latih dan 25% data uji.
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami proses
Sangat Mudah Tidak Tertarik
analisis group means
Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Menerapkan decision
Sangat Mudah Tidak Tertarik
tree untuk membangun
model Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Memahami proses Mampu memahami konsep
1 1 12
backpropagation dengan backpropagation dengan
neuralnet library di R neuralnet pada R
Mampu melakukan forecasting
2 Menerapkan Neural 2 15
data menggunakan neural
Network untuk melakukan network
Forecasting.
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa itu Neural Network?
2. Bagaimana gambaran dasar sebuah Neural Network?
3. Mengapa Neural Network dibutuhkan?
TEORI SINGKAT
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami proses backpropagation dengan neuralnet library di R.
Kompetensi Dasar:
Mampu memahami konsep backpropagation dengan neuralnet pada R.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk mempersiapkan data dan
membangun neural network pada R.
Langkah-Langkah Praktikum:
Data iris
Output :
Penjelasan :
Tugas :
Gunakan library neural net untuk membangun model backpropagation dengan input
suhu dan kelembaban menggunakan data di bawah ini.
69 70 ya
72 95 tidak
75 70 ya
80 90 tidak
85 85 tidak
65 70 tidak
68 80 ya
70 96 ya
71 80 tidak
75 80 ya
64 65 ya
72 90 ya
81 75 ya
83 78 ya
Script :
Output :
Penjelasan :
ELEMEN KOMPETENSI II
Deskripsi:
Menerapkan Neural Network untuk melakukan Forecasting.
Kompetensi Dasar:
Mampu melakukan forecasting data menggunakan neural network.
Latihan 1.2.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan prediksi menggunakan
R.
Langkah-Langkah Praktikum:
> library(RMySQL)
> library(dplyr)
> con = dbConnect(MySQL(), user = 'root', password = '', dbname = 'db_pibc_olap', host =
'localhost')
> dbListTables(con)
> myQuery <- "select * from fact_harga;"
> df <- dbGetQuery(con, myQuery)
> df1<-filter(df,SK_RICE_TYPE==10,
SK_DATE>=20170101,SK_DATE<=20171231, SK_MARKET==0)
> df2<- df1[order(df1$SK_DATE),]
> View(df2)
> tseries <- ts(df2$PRICE, start = c(2017, 1), frequency = 365)
> library(nnfor)
> library(forecast)
#MLP
> fit<-mlp(tseries)
> plot(fit)
> f2=forecast(fit, h=90)
> plot(f2)
> summary(f2)
Output :
Penjelasan :
Tugas :
Gunakan script di atas untuk membangun model peramalan dengan menggunakan
data pada database db_pasokanberas. Pilih interval waktu tertentu sebagai input.
Bandingkan error yang terjadi antara data prediksi dengan sesungguhnya.
Script :
Output :
Penjelasan :
Sumber :
https://hub.packtpub.com/training-and-visualizing-a-neural-network-with-r/
https://datascienceplus.com/neuralnet-train-and-test-neural-networks-using-r/
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami proses
Sangat Mudah Tidak Tertarik
backpropagation dengan
neuralnet library di R Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Menerapkan Neural
Sangat Mudah Tidak Tertarik
Network untuk
melakukan Forecasting. Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Mengimplementasikan 1.1 Menerapkan datamining pada
1 1 5
Integrasi CodeIgniter dan Integrasi CodeIgniter dan
Database Database
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
3. Menginstal CodeIgniter pada PC masing-masing praktikan.
4. Menginstal Database XAMPP pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa yang dimaksud dengan CodeIgniter?
2. Apa manfaat menggunakan Database?
TEORI SINGKAT
CodeIgniter adalah sebuah web application network yang bersifat
open source yang digunakan untuk membangun aplikasi php dinamis.
CodeIgniter menjadi sebuah framework PHP dengan model MVC (Model,
View, Controller) untuk membangun website dinamis dengan menggunakan
PHP yang dapat mempercepat pengembang untuk membuat sebuah aplikasi
web. Selain ringan dan cepat, CodeIgniter juga memiliki dokumentasi yang
super lengkap disertai dengan contoh implementasi kodenya. Dokumentasi
yang lengkap inilah yang menjadi salah satu alasan kuat mengapa banyak
orang memilih CodeIgniter sebagai framework pilihannya. Karena kelebihan-
kelebihan yang dimiliki oleh CodeIgniter, pembuat PHP Rasmus Lerdorf
memuji CodeIgniter di frOSCon (Agustus 2008) dengan mengatakan bahwa
dia menyukai CodeIgniter karena “it is faster, lighter and the least like a
framework.” XAMPP merupakan tool yang menyediakan paket perangkat
lunak ke dalam satu buah paket.Dengan menginstall XAMPP maka tidak
perlu lagi melakukan instalasi dan konfigurasi web server Apache, PHP dan
MySQL secara manual. XAMPP akan menginstalasi dan
mengkonfigurasikannya secara otomatis. Merupakan web server yang mudah
digunakan yang dapat melayani tampilan halaman web yang dinamis. Untuk
mendapatkanya dapat mendownload langsung dari web resminya.
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
1. Menginstal library yang dibutuhkan untuk mengerjakan modul.
2. Menjalankan R Studio.
3. XAMPP yang sudah dijalankan.
4. Membuat database pada phpmyadmin.
ELEMEN KOMPETENSI I
Deskripsi:
Mengimplementasikan Integrasi CodeIgniter dan Database
Kompetensi Dasar:
1 Menerapkan datamining pada Integrasi CodeIgniter dan Database
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk menginstal dan menjalankan
Framework CodeIgniter serta database dan menambahkan fungsi data.
Langkah Praktikum :
1. Mengekstrak file CodeIgniter “cicrud” yang diberi asistenlab ke folder
htdoc di XAMPP
<div class="col-lg-12">
<div class="card card-primary card-outline">
<div class="card-header">
<h5 class="m-0">Featured</h5>
</div>
<div class="card-body">
<div class="card card-primary">
$result=exec('"C:\Program Files\R\R-3.4.4\bin\Rscript.exe"
"C:\xampp\htdocs\cicrud\scriptR\BoxplotPIBC.R" "'.$v.'" "'.$x.'" "'.$y.'" "'.
$z.'" ');
$result=str_replace("[1] ","",$result);
$result=str_replace('"',"",$result);
$data=explode("%sp%",$result);
echo "<hr><img src=\"data:image/png;base64,$data[0]\"
width=\"600px\">";
?>
</div>
</div>
</div>
<!-- /.col-md-6 -->
</div>
<!-- /.row -->
</div><!-- /.container-fluid -->
</div>
boxplot(df1$jumlah_penumpang)
#myts=ts(df1$PRICE)
#MLP Prediction
#fit1 <- mlp(myts)
#plot(fit1)
#fit1$fitted
#fit1$MSE
#Base64-encode file
library(RCurl)
png(tf2 <- tempfile(fileext = ".png"));
boxplot(df1$jumlah_penumpang);dev.off()
txt3 <- base64Encode(readBin(tf2, "raw", file.info(tf2)[1, "size"]), "txt3")
print(paste(txt3,sep="%sp%"))
Tugas :
Lakukan analisa pada seperti langkah – langkah praktikum untuk menu
histogram dan forecast, tuliskan screenshot dan penjelasannya
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
2 1.2.1
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Mengimplementasikan
Sangat Mudah Tidak Tertarik
Integrasi CodeIgniter dan
Database Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan IX
Support Vector Regression
Kode Pokok Bahasan: TIK.RPL03.001.009.01
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Mengimplementasikan 1.1 Menerapkan SVR untuk data
1 1 5
SVR dalam kasus yang beras yang tersimpan dalam
diberikan database.
1.2 Membandingkan error metode
SVR dan MLP
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Apa yang dimaksud dengan Support Vector Regression (SVR)?
2. Apa manfaat menggunakan Support Vector Regression (SVR)?
3. Sebutkan kelebihan Support Vector Regression (SVR) dalam memprediksi
data?
TEORI SINGKAT
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
1. Menginstal library yang dibutuhkan untuk mengerjakan modul.
2. Menjalankan R Studio.
3. XAMPP yang sudah dijalankan.
4. Membuat database pada phpmyadmin.
ELEMEN KOMPETENSI I
Deskripsi:
Mengimplementasikan SVR dalam kasus yang diberikan.
Kompetensi Dasar:
1 Menerapkan SVR untuk data beras yang tersimpan dalam database.
2 Membandingkan error metode SVR dan MLP.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan analisis regresi dengan
SVR terhadap data beras yang diakses melalui database.
Langkah Praktikum :
1. Buatlah sebuah database pada phpmyadmin untuk menyimpan data
beras.
2. Import data beras yang akan tersimpan dalam bentuk beberapa tabel.
3. Panggil library yang dibutuhkan
library(RMySQL)
library(nnfor)
library(dplyr)
library(hydroGOF)
library(e1071)
df1<-filter(df,SK_RICE_TYPE==9, SK_DATE>=20180101,
SK_DATE<=20181231, SK_MARKET==0)
View(df1)
dim(df1)
Output :
Penjelasan :
Latihan 1.1.2
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk melakukan peramalan dengan
metode MLP terhadap data beras yang diakses melalui database. Lalu
dibandingkan dengan metode SVR.
Tugas:
Gunakan data yang sama pada latihan 1.1.1. Lakukan peramalan menggunakan
metode MLP dan bandingkan errornya dengan metode SVR. Manakah hasilnya yang
lebih akurat.
Catatan : Semua output dalam bentuk screenshot dimana nama object model
peramalannya ditulis sesuai nama praktikan (contoh modelsvm diganti dengan
svm_namapraktikan). Berikan penjelasan atas output yang didapatkan.
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
1.1.2
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Mengimplementasikan
Sangat Mudah Tidak Tertarik
SVR dalam kasus yang
diberikan Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan X
Association Rule
Kode Pokok Bahasan: TIK.RPL03.001.010.01
Jml
No Elemen Kompetensi Indikator Kinerja Hal
Jam
Memahami cara 1.1 Mampu memahami cara
1 1 12
implementasi Association implementasi Association Rule
Rule di R data kecelakaan pesawat pada R
dan excel
1.2 Menerapkan Association Rule
pada data nasabah
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Berikan penjelasan mengenai apa itu “Association Rule with R and Excel”?
2. Apa kelebihan Association Rule dibanding algoritma lainnya?
3. Sebutkan package yang dibutuhkan untuk melakukan Association Rule
with R !
TEORI SINGKAT
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami cara implementasi Association Rule di R
Kompetensi Dasar:
1 Mampu memahami cara implementasi Association Rule data kecelakaan pesawat
pada R
2 Menerapkan Association Rule pada data nasabah.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk menerapkan Association Rule pada
data kecelakaan pesawat menggunakan R studio.
Langkah-Langkah Praktikum:
library(arules)
install.packages("arulesViz")
library(arulesViz)
dataku=read.delim("clipboard")
categoric<- c("perusahaan", "sebab", "hasil")
5. Susun data secara bertumpuk (stacked) dengan dua kolom yaitu kejadian dan
peristiwa. Kolom kejadian diberi nilai 1 untuk peristiwa yang sama. Lengkapi
datanya, contoh :
kejadian peristiwa
1 A
1 Kerusakan Pesawat
1 Semua Selamat
2 A
2 Kerusakan Pesawat
2 Sebagian Selamat
.
.
.
#Install Packages
install.packages("arules")
install.packages("arulesViz")
#memanggil packages
library(arules)
library(arulesViz)
#memanggil data
latihan=read.delim("clipboard")
latihan
#analisis data
latihan1<-split(latihan$peristiwa,latihan$kejadian)
latihan2<-as(latihan1,"transactions")
latihan2
rules<-apriori(latihan2,parameter=list
(supp=0.04,conf=0.9,minlen=3))
inspect(rules)
itemFrequencyPlot(latihan2, topN = 7)
plot(rules, method="graph")
Output :
Latihan 1.1.2
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk menerapkan Association Rule pada
data nasabah menggunakan R studio.
Tugas :
Berikut dibawah ini adalah data mengenai 11 nasabah pada koperasi XYZ dengan
status kredit yang macet (Not Succeed) dan tidak macet (Succeed). Bangunlah
association rule berdasarkan data dibawah menggunakan langkah-langkah di atas
menggunakan R. Tetapkan nilai k-itemset dari support yang telah memenuhi
minimum support dari k-itemset.
Personalit
No Graduate Skill Wellfare y Credit History
1 High School Ok Poor Good Succeed
Very
2 Primary School Not Ok Poor Good Not Succeed
3 Primary School Ok Poor Moderate Not Succeed
4 High School Ok Poor Good Succeed
5 Primary School Not Ok Poor Good Not Succeed
Very
6 Primary School Ok Poor Moderate Not Succeed
7 Primary School Ok Poor Bad Not Succeed
8 Primary School Not Ok Poor Good Not Succeed
9 Primary School Not Ok Poor Good Not Succeed
10 Primary School Ok Poor Bad Not Succeed
11 High School Ok Poor Good Succeed
Script R
Output :
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
1.1.2
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami cara
Sangat Mudah Tidak Tertarik
implementasi
Association Rule di R Mudah Cukup Tertarik
Biasa Tertarik
Sulit Sangat Tertarik
Sangat Sulit
Pokok Bahasan XI
Analisis Cluster
Kode Pokok Bahasan: TIK.RPL03.001.011.01
TUGAS PENDAHULUAN
Hal yang harus dilakukan dan acuan yang harus dibaca sebelum praktikum :
1. Menginstal R pada PC masing-masing praktikan.
2. Menginstal R Studio pada PC masing-masing praktikan.
DAFTAR PERTANYAAN
1. Berikan penjelasan mengenai apa itu “Analisis Cluster”?
2. Jelaskan pengertian Hierarchical Cluster, Dendogram, k-mean clustering?
TEORI SINGKAT
Analisis cluster sering juga disebut analisis gerombol. Analisis
cluster adalah analisis statistika yang bertujuan untuk
mengelompokkan data sedemikian sehingga data yang berada
dalam kelompok yang sama mempunyai sifat yang relatif homogen
daripada data yang berada dalam kelompok yang berbeda.
LAB SETUP
Hal yang harus disiapkan dan dilakukan oleh praktikan untuk menjalankan
praktikum modul ini.
ELEMEN KOMPETENSI I
Deskripsi:
Memahami cara implementasi Analisis Cluster
Kompetensi Dasar:
1. Mampu memahami cara implementasi Analisis Cluster dengan Hierarchical
Cluster, Dendogram, k-mean clustering.
Latihan 1.1.1
Penjelasan Singkat :
Pada latihan ini anda akan diminta untuk menerapkan Analisi Cluster pada
data yang diberikan.
Langkah-Langkah Praktikum:
Dataset 1 :
observation Income Education
s1 5 5
s2 6 6
d.s3 15 14
s4 16 15
s5 25 20
s6 30 19
Hierarchical Cluster :
library("readxl")
#my_data <- read_excel(file.choose(), sheet = "",range = "")
my_data <- read_excel("E:/Cluster analysis/clusterPage127.xlsx",na
= "-") print(my_data) str(my_data)
d.euc <- dist(my_data)
d.sqeuc <- d.euc^2 cluster<- hclust(d =
d.sqeuc, method = "centroid")
library("factoextra") fviz_dend(cluster, cex
= 0.6)
#if(!require(devtools)) install.packages("devtools")
#devtools::install_github("kassambara/factoextra")
Output :
Dendogram :
Dataset 2 :
Supplier DAR DSR Quality
S1 96.81 73.85 100
S2 99.64 65.79 100
S3 96.5 71.63 62.86
S4 99.349 79.38 96.86
S5 100 88.24 100
S6 71.4 60.7 71.4
S7 99.827 84.54 79.43
S8 99.9 82.98 88
S9 99.058 95.16 98
S10 98.1 90.77 81.43
S11 99.574 79.66 95.14
S12 99.606 80.4 71.1
km.res=kmeans(data_latih, 3,
nstart=25) km.res library(dplyr)
fviz_cluster(km.res, data = data_latih, geom = "point",stand = FALSE, frame.type
=
"norm") fviz_cluster(km.res,
data = data_latih)
Output :
Output :
Interpretasi :
Tugas :
Diberikan data harga beberapa komoditas berbagai pasar di Jakarta. Lakukan analisis
cluster menggunakan metode hierarchical clustering dan k-means serta
interpretasikan maknanya.
Pasar Beras Jeruk Minyak
CEK LIST
Elemen Penyelesaian
No Latihan
Kompetensi Selesai Tidak selesai
1 1.1.1
1.1.2
Waktu
Elemen Kompetensi Tingkat Kesulitan Tingkat Ketertarikan Penyelesaian
dalam menit
Memahami cara
Sangat Mudah Tidak Tertarik
implementasi Analisa
Cluster Mudah Cukup Tertarik
Biasa Tertarik