Anda di halaman 1dari 30

Data Mining

Program Studi Sistem Informasi

Sesi 5 – Pengenalan R untuk Data Mining


(Bagian 2)

Syahid Abdullah, S.Si, M.Kom


If dan Loop
Fungsi if()
• Struktur kendali pada bahasa pemrograman R yang umum digunakan
adalah fugsi if().
• Argumen yang dibutuhkan pada fungsi if() adalah sebuah vector
logical tunggal bernilai TRUE atau FALSE.
• Bentuk umum dari perintah menggunakan if() adalah sebagai berikut:
if(kondisi) ekspresi

• Contoh:
if(2 < 3) print("Kondisi tersebut benar")

## [1] "Kondisi tersebut benar"


Fungsi if()
• Jika ada perintah yang akan dijalankan ketika masing-masing kondisi bernilai benar atau
salah, maka bentuk umumnya adalah sebagai berikut.
if(kondisi){
ekspresi jika kondisi benar
} else {
ekspresi jika kondisi salah
}
• Ekspresi atau perintah yang ada pada kondisi else{} akan dijalankan ketika kondisi pada
if() bernilai salah. Contoh:
if(2 > 3){
print("Kondisi tersebut benar")
} else {
print("Kondisi tersebut salah")
}
## [1] "Kondisi tersebut salah"
Looping for()
• Ketika membicarakan tentang melakukan proses looping dalam sebuah bahasa
pemrograman, pastinya yang akan dibahas adalah looping for(). Begitu juga di
bahasa pemrograman R. Bentuk umum dari looping for() adalah sebagai berikut.
for(indeks in vector) ekspresi

# atau
for(indeks in vector){
ekspresi1
ekspresi2
...
}
• Looping for() umumnya digunakan ketika kita mengetahui berapa kali iterasi yang
akan dilakukan.
Looping for()
• Contoh
for(i in 1:5){
print(i)
}
## [1] 1
## [1] 2
## [1] 3
## [1] 4
## [1] 5

• Argumen i in 1:5 pada looping for() di atas berarti looping ini akan menjalankan perintah
dengan indeks i bernilai 1 sampai dengan 5 pada setiap iterasinya. Atau dengan kata lain
kita memerintahkan R untuk melakukan iterasi sebanyak 5 kali. Kemudian karena indeks i
digunakan pada fungsi print(), maka nilai i yang dicetak akan berubah sesuai dengan nilai
i pada iterasi tersebut.
Looping while()
• Berbeda dengan fungsi for() yang digunakan ketika kita sudah mengetahui banayaknya
iterasi yang akan dijalankan, baik itu secara eksplisit ataupun secara pemrograman,
while() digunakan ketika kita tidak mengetahui banyaknya iterasi yang akan dijalankan
namun mengetahui kondisi logical yang menjadi syarat program tersebut tetap berjalan.
Bentuk umum dari fungsi while() ini adalah sebagai berikut.
while(kondisi) {
ekspresi
...
}

• Argumen kondisi adalah sebuah nilai logical (TRUE atau FALSE). Ekspresi atau perintah
yang ada di dalam while() akan terus dijalankan selama kondisi bernilai TRUE. Satu hal
penting yang harus diingat ketika menggunakan while() adalah kita harus bisa
memastikan bahwa argumen kondisi suatu saat akan bernilai FALSE agar iterasinya
berhenti.
Looping while()
• Contoh:
i <- 0
while(i < 5){
print(i)
i <- i + 1
}
## [1] 0
## [1] 1
## [1] 2
## [1] 3
## [1] 4
Import dan Export Data
Textfile
• Textfile (*.txt) adalah salah satu jenis file yang sering digunakan untuk
menyimpan atau bertukar data. Salah satu fungsi yang sudah tersedia
di R untuk import textfile adalah read.table()
• Misalnya kita akan import data dari file bernama iris.txt yang ada di
dalam folder D:\data dan kita simpan sebagai objek dataframe
iris_txt. Kita dapat gunakan perintah berikut ini.
iris_txt <- read.table("D:/data/iris.txt", header = TRUE)
CSV (Comma Separated Values)
• Selain textfile, CSV juga merupakan format file yang sering digunakan
untuk menyimpan atau bertukar data. Salah satu fungsi yang tersedia
di R untuk dapat mengimport data dari file CSV adalah read.csv()
• Contoh:
iris_csv <- read.csv(file = "data/iris.csv", header = TRUE)

• Fungsi read.csv() digunakan untuk file CSV yang menggunakan simbol


koma (,) sebagai delimiternya, sedangkan untuk file CSV yang
menggunakan simbol titik koma (;) sebagai delimiternya kita dapat
menggunakan fungsi read.csv2().
Excel
• Jenis file lain yang juga sering digunakan adalah file Excel.
• Kita dapat menggunakan package {readxl} dengan fungsi read_excel()
untuk import data dari file Excel. Argumen path = adalah lokasi dan
nama file Excel yang akan kita gunakan.
library(readxl)
iris_xls <- read_excel(path = "data/iris.xlsx", col_names = TRUE)
Eksplorasi dan Visualisasi
Eksplorasi Tabulasi
• Kita import terlebih dahulu data yang akan digunakan dari file iris.csv
di dalam folder data. Kita gunakan fungsi read_csv() dari package
{readr} sebagai latihan menggunakan package.
• Untuk mengetahui banyaknya baris data pada iris_csv kita dapat
gunakan fungsi nrow(), sedangkan untuk mengetahui banyaknya
kolom kita gunakan fungsi ncol().
nrow(iris_csv)

## [1] 150
ncol(iris_csv)
## [1] 5
Eksplorasi Tabulasi
• Setelah itu kita dapat megetahui nama-nama variabel yang ada pada
dataframe tersebut dengan menggunakan fungsi colnames() atau
names().
colnames(iris_csv)

names(iris_csv)

## [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"


Grafik Dasar di R
Barplot
• Barplot atau diagram batang adalah salah satu jenis visualisasi yang
digunakan untuk menampilkan informasi berupa frekuensi,
persentase atau nilai statistik lain dari beberapa nilai kategorik dalam
suatu variabel.
• Bentuk dari barplot sendiri berupa batang untuk masing-masing
kategori dengan ketinggian berdasarkan nilai yang ingin ditampilkan.
• Barplot sangat cocok digunakan ketika ingin membandingkan nilai
masing-masing kategori.
Barplot
• Contoh:
frekuensi <- table(iris_csv$Species)
barplot(frekuensi)
Barplot
• Contoh:
rataan <- aggregate(Sepal.Length ~ Species, data = iris_csv, FUN = mean)
barplot(Sepal.Length ~ Species, data = rataan, col = "skyblue")
Histogram
• Histogram adalah sebuah visualisasi terkait sebaran data numerik.
• Histogram juga dapat digunakan untuk melihat pola kisaran nilai yang
banyak muncul dari data numerik tersebut.
• Untuk membuat histogram menggunakan grafik dasar di R kita dapat
gunakan fungsi hist() dengan argument datanya berupa vector
numeric.
Histogram
• Contoh:
hist(sepal_length, breaks = 15,
main = "Distribution of Sepal Length",
xlab = "Sepal Length", col = "skyblue")
Boxplot
• Jenis visualisasi berikutnya untuk data numeric adalah diagram kotak-
garis atau biasa disebut dengan boxplot.
• Visualisasi ini dapat memberikan kepada Anda bentuk sebaran
dengan nilai minimum, Q1 (data ke-25% setelah diurutkan dari besar
ke kecil), Q2 (data ke-50% atau median), Q3 (data ke-75%) dan nilai
maksimum serta pencilan (outlier) jika ada.
• Data yang digunakan untuk membuat boxplot adalah data numerik.
Boxplot
• Contoh
boxplot(sepal_length)
Boxplot
• Contoh 2:
boxplot(Sepal.Length ~ Species, data = iris_csv)
Scatter Plot
• Scatter plot atau plot tebaran merupakan jenis visualisasi untuk dua
buah variable numerik berupa titik.
• Untuk membuat scatter plot Anda dapat gunakan fungsi plot()
dengan argumen x dan y berupa vector numerik yang mempunyai
panjang yang sama.
Scatter Plot
• Contoh:
x <- iris_csv$Sepal.Length
y <- iris_csv$Sepal.Width
plot(x, y)
Line Chart
• Line chart atau diagram garis umumnya digunakan untuk melihat
trend yang tejadi pada suatu data.
• Variable yang ditempatkan pada sumbu-x (horizontal) biasanya adalah
data waktu atau tanggal.
• Untuk membuat line chart menggunakan base R Anda juga dapat
gunakan fungsi plot() dengan tambahan argumen type = "l". Artinya
tipe plot yang akan dibuat adalah (l)ine atau garis.
Line Chart
• Contoh:
set.seed(1001)
x <- 1:100
y <- rnorm(100, mean = 100, 12)
plot(x, y, type = "l")
Terima Kasih

Anda mungkin juga menyukai