EBOOK63 Cfa 587 D 4 C 8 A
EBOOK63 Cfa 587 D 4 C 8 A
Akses ke berkas
var <- read.csv(obyek, Membaca berkas dan menyimpan ke obyek.
sep = “,”,
header = TRUE, obyek boleh berupa berkas lokal dalam format penulisan
dec = “.”) UNIX → “C:/My Documents/file.csv” atau URL →
“https://arman.my.id/ds/file.csv”. Atau bisa
juga menampilkan kotak dialog berkas pakai
file.choose(). Bila berkas tidak bertajuk, pastikan
ubah header = FALSE. Bila berkas dibuat dengan Excel
wilayah Asia, pastikan sep = “;” dan dec = “,”.
Page 1 of 8
DATA SCIENCE Summary
Perulangan Kode
Bentuk 1 Perulangan
for(var in mulai:selesai) perintah
Menjalankan perintah berkali-kali secara
for(var in koleksi) perintah terprogram
Bentuk 2
for(var in mulai:selesai) {
perintah1
perintah2
}
for(var in koleksi) {
perintah1
perintah2
}
Contoh
for(var in 1:10) print(var)
Page 2 of 8
DATA SCIENCE Summary
Kondisi
Bentuk 1 Kondisi
ifelse(kondisi,
benar, Mengubah jalannya program berdasarkan keadaan
salah) tertentu
Bentuk 2
var <- ifelse(kondisi,
benar,
salah)
Contoh
hasil <- ifelse(df$nilai >= 75,
“lulus”,
“gagal”)
Kondisi Dasar
Format a > b a >= b a < b a <= b a != b a == b
Makna a lebih besar a lebih besar a lebih kecil a lebih kecil a beda a sama persis
dari b atau sama dari b atau sama dengan b dengan b
dengan b dengan b
Untuk ✓
angka
Untuk ✓
karakter
Kondisi Majemuk
kondisi1 & kondisi2 kondisi1 | kondisi2
Kedua kondisi harus benar agar terpenuhi Salah satu kondisi benar maka terpenuhi
hasil <- ifelse(df$presensi >= 80 & df$nilai >=75, “lulus”, “gagal”)
buat obyek hasil yang isinya jika fitur presensi dari obyek df lebih besar atau sama dengan 80 dan fitur
nilai dari obyek df lebih besar atau sama dengan 75, maka isilah lulus; jika tidak isilah gagal.
Page 3 of 8
DATA SCIENCE Summary
Subset data
Subset itu adalah cara gimana kita mengambil data dari data frame, memilih fitur mana yang mau diambil; atau
observasi mana yang mau diambil. Bayangkan seperti kita memilih baris dan kolom pada Microsoft Excel, tapi ini
pakai program R.
obyek$fitur Mengambil hanya satu fitur berdasarkan nama fitur (gunakan kutip
obyek[“fitur”] untuk konstanta karakter) atau nomor kolom fitur dari data frame.
obyek[kolom]
obyek[-kolom] Angka minus artinya kecuali fitur pada kolom bernomor itu
obyek[c(“fitur”, ”fitur”, …)] Mengambil beberapa fitur berdasarkan nama fitur (gunakan kutip
obyek[c(kolom, kolom, …)] untuk konstanta karakter) atau nomor kolom fitur dari data frame.
obyek[mulai:selesai]
Bentuk rentang dapat dipakai kalau yang mau diambil berurutan.
obyek[observasi, fitur] Mengambil observasi dari data frame. Jika tunggal, cukup sebut
obyek[-observasi, fitur] nomor observasi. Angka minus artinya ambil semua kecuali observasi
obyek[c(observasi, observasi,
…), fitur] itu saja. Jika mau ambil beberapa observasi yang loncat-loncat, pakai
obyek[mulai:selesai, fitur] bantuan c(). Kalau observasinya berurut, boleh gunakan bentuk
rentang.
Contoh
print(titanic$name)
print(titanic[“name”])
print(titanic[2])
Cetak dari data titanic yang nomor fitur ke-2 kebetulan namanya adalah name
Page 4 of 8
DATA SCIENCE Summary
Merekayasa Fitur
obyek$fitur <- NULL Menghapus fitur dari suatu obyek
obyek$fitur <- obyek Menambah baru/menimpa fitur yang sudah ada dengan obyek
baru yang lain. Obyek dapat berupa konstanta, fungsi, operasi
Contoh matematika atau variabel
Skewness: Bagaimana kecenderungan rata-rata Quartile: Perempat data yang menggambarkan nilai
data berkumpul; di kiri (+), tengah (~0) atau kanan data di sumbu x pada rentang tertentu
(-) dari plot?
Kurtosis: Seberapa padat data berkumpul pada nilai
rata-ratanya; tajam (> +2), baik (~0), landai (< 0)
Page 5 of 8
Page 6 of 8
Logistic Regression
Naive Bayes
Random Decision
Forest Tree
Classification
Targetnya data diskrit
Neural Network
Supervised
Simple
Time
Linear
Series
Machine Learning
Regression
Set data memiliki target. Tujuannya untuk prediksi atau prakiraan
Multiple Linear
Regression
Regression
Targetnya data kontinyu
Polynomial Regression
Clustering
k-Means Mencari
kesamaan
Dimension
Reduction
DATA SCIENCE Summary
Principal Component
pengenalan pola
Unsupervised
Mencari
Analysis
Set data tidak memiliki
hubungan
target. Tujuannya untuk
fitur
DATA SCIENCE Summary
Prediksi dengan?
Bisa digambar?
Harus diskala?
Nama pustaka
Hasilnya
Nama
Machine Perbaikan kinerja model dengan…
Learning
Neural model <- neuralnet(target ~ i1 + i2, Bisa, pakai prediksi <- as.data.frame(
Network train, plot compute(
hidden = c(node, model,
neuralnet
node), df)
linear.output = TRUE) Ya ) Tendensi
fitur) pakai
plot Tidak Kelas
Memilih parameter kernel: rbfdot, polydot,
vanilladot, tanhdot, laplacedot,
besseldot, anovadot, splinedot,
stringdot
Page 7 of 8
DATA SCIENCE Summary
Nama Machine
Sifat penggunaan Format Prediksi
Learning
Simple Linear Hanya berlaku untuk 1 fitur independen dan target. Model yang model <- lm(target ~ predict(model,
Regression baik bisa ditinjau dari: independen) newdata = df)
• cor() terhadap target >= 0,8;
• p-Value uji homoscedastic >= 0,05;
• Multiple R-squared >= 0,8;
• RSE kecil;
• p-Value model < 0,05.
Multiple Linear Berlaku untuk banyak fitur independen dan target. Model yang model <- lm(target ~
Regression baik bisa ditinjau dari: independen1 +
• cor() terhadap target >= 0,8; independen2)
• cor() terhadap independen lain < 0,8 (tidak terjadi
multikolinearitas);
• p-Value uji homoscedastic < 0,05;
• Adjusted R-squared >= 0,8;
• RSE kecil;
Polynomial • p-Value model < 0,05. model <- lm(target ~
Regression independen +
I(independen^2))
Time Series Hanya berlaku untuk target tanpa fitur independen. Target harus model <- ts(target, forecast(auto.arima(model),
lulus uji autocorrelation start = c(tahun, h = berapa)
bulan,
tanggal),
frequency = berapa)
Nama Machine
Sifat penggunaan Format Visualisasi
Learning
Page 8 of 8