Anda di halaman 1dari 15

TUGAS BIG DATA

PENGGUNAAN SOFTWARE R

Disusun oleh :

1. Dyah Ayu Anindita (24010315140101)


2. Theresia Laraswati P (24010315130104)
3. Alvina Rahmi (24010315130110)
4. Anis Maghfiroh (24010315130091)

DEPARTEMEN ILMU KOMPUTER/ INFORMATIKA


FAKULTAS SAINS DAN MATEMATIKA
UNIVERSITAS DIPONEGORO
SEMARANG
2018
A. R Graphical User Interfaces
• Untuk instalasi Windows, R hadir dengan RGui.exe, yang menyediakan antarmuka
pengguna grafis dasar (GUI).
• Skrip: Berfungsi sebagai area untuk menulis dan menyimpan kode
• Workspace: Menampilkan dataset dan variabel di lingkungan R
• Plots: Menampilkan plot yang dihasilkan oleh kode R dan memberikan mekanisme
langsung untuk mengekspor plot
• Console: Menyediakan riwayat kode R yang dieksekusi dan hasilnya, konsol dapat
digunakan untuk mendapatkan informasi bantuan pada R.
• Fungsi seperti edit () dan fix () memungkinkan pengguna untuk memperbarui konten
dari variabel R.
B. Export dan Import Data ke R
Dikarenakan biasanya pengguna telah dimiliki data dengan format tertentu seperti
format plain text, CSV, Excel atau format keluaran aplikasi SPSS atau SAS, yang mana file
data tersebut ingin diolah di lingkungan R. Selain itu mungkin ada kebutuhan dimana data
hasil proses dari lingkuran R akan digunakan kembali atau akan digunakan oleh aplikasi lain
sehingga perlu dilakukan proses export.
1. Import Data
a. Fungsi read.table pada txt
Terlebih dahulu dilakukan pemeriksaan data yang dimiliki. Sebagai contoh
dimiliki data seperti berikut ini.

Pada contoh data di atas dapat dilihat setiap kolom data hanya dipisahkan
oleh tabulasi (tombol tab). Untuk mengimport data seperti itu dapat digunakan kode
di bawah ini.
bab4_data_text = read.table("Bab4DataText01.txt") bab4_data_text
Jika objek bab4_data_text dipanggil maka akan dapat dilihat data yang sesuai
dengan isi file
b. Fungsi read.csv
Fungsi read.csv() yang lebih spesifik bertujuan untuk menangani data CSV
(comma separated value) seperti di atas. Berikut adalah contoh kode penggunaan
kedua fungsi tersebut.
Contoh data yang lain adalah seperti contoh di bawah ini. Item-item pada
data di bawah ini dipisahkan oleh tanda koma (,).

bab4_data_text = read.csv("Bab4DataText03.txt")

c. Fungsi read.xlsx untuk excel


Untuk mengimport file Excel maka terlebih dahulu harus memuat paket xlsx.
Untuk menambahkan paket ini ke lingkungan R dapat dilakukan dengan cara
memilih menu Tools > Install Packages. Kemudian pada window Install Packages
tulis nama paket xlsx seperti pada gambar di bawah ini.
Fungsi yang digunakan untuk mengimport data dari file Excel adalah
read.xlsx(). Untuk menggunakan fungsi ini terlebih dahulu paket ini harus dimuat
dengan fungsi library(), seperti dicontohkan pada kode di bawah ini.
library(xlsx)
sintaks yang digunakan cukup seperti berikut ini.
read.xlsx("nama_file", header = FALSE , nomor_sheet)
contoh :
bab4_data_excel = read.xlsx("Bab4DataExcel.xlsx", header = FALSE , 1)
hasil:

Sedangkan jika file Excel memiliki header seperti pada perintah yang
digunakan adalah sebagai berikut.
bab4_data_excel = read.xlsx("Bab4DataExcel02.xlsx", 1)
bab4_data_excel
d. Fungsi spss.get pada SPSS
Untuk import data dari file SPSS terlebih dahulu perlu dilakukan file SPSS ke
format transport.
get file='c:\data_spss.sav'. export outfile='c:\data_spss.por'.
Kemudian gunakan paket Hmisc untuk mengimport data tersebut dengan
kode seperti berikut.
library(Hmisc) bab4_data_spss = spss.get("data_spss.por",
use.value.labels=TRUE)
e. Sasxport.get untuk SAS
Untuk import data dari file SAS terlebih dahulu perlu dilakukan file SAS ke
format transport.
libname out xport 'data_sas.xpt'; data out.mydata; set sasuser.mydata; run;
Kemudian gunakan paket Hmisc untuk mengimport data tersebut dengan
kode seperti berikut.
library(Hmisc) bab4_data_sas = sasxport.get("data_sas.xpt")
2. Eksport Data
Setelah melakukan perhitungan atau pengolahan data pada lingkungan R, maka
hasil perhitungan disimpan sementara pada suatu variable atau objek pada memory. Jika
ingin menyimpan data pada variable atau objek tersebut secara permanen maka data
tersebut bisa diexport ke file. Data tersebut dapat digunakan kembali pada lingkungan R
atau pada lingkungan lain seperti SPSS, SAS, Stata atau Excel. Untuk kebutuhan itu
maka dapat digunakan fungsi-fungsi berikut ini.
a. Teks dengan pemisah tab
Untuk menyimpan data ke dalam file teks dengan pemisah tab dapat
digunakan fungsi write.table() dengan contoh penggunaan seperti berikut ini.
write.table(mtcars, "mtcars.txt", sep="\t")
b. Excel
Sedangkan untuk mengekspor data untuk disimpan pada file dengan format
Excel digunakan fungsi write.xlsx() dari paket xlsx.
Contoh:
library(xlsx) write.xlsx(mtcars, "mtcars.xlsx")

c. SPSS
Untuk menyimpan data pada objek ke dalam format SPSS, SAS dan Strata
dapat digunakan fungsi write.foreign() dari paket foreign.
Berikut adalah contoh kode yang dapat digunakan. Untuk mengekspor data ke
format SPSS digunakan kode berikut.
write.foreign(mtcars, "mtcars.txt", "mtcars.sps", package="SPSS")
Untuk mengeksport data ke format SAS digunakan kode berikut.
write.foreign(mtcars, "mtcars.txt", "mtcars.sas", package="SAS")
C. Atribut dan tipe data
R memiliki berbagai fleksibilitas dalam memberikan nama variabel, namun demikian
beberapa aturan penamaan variabel yang perlu diketahui adalah sebagai berikut:
 Menggunakan huruf besar (kapital ) yaitu huruf A-Z juga menggunakan huruf kecil
yaitu huruf (a-z)
 Menggunakan karakter numerik (0-9), juga titik (.) atau garisbawah (**_**)
 Tidak dapat menggunakan spasi, misalnya penulisan variabel:“harga buku”" adalah
contoh yang salah dalam penamaan variabel, bisa diganti dengan variabel seperti ini:
“harga.buku”
 Variabel yang dibuat adalah case sensitive artinya pengetikkannya harus persis sama
dan membedakan antara huruf besar dan huruf kecil.
Misalnya Hargabuku dan hargabuku adalah dua variabel yang berbeda.
 Penamaan variabel sebaiknya mulai dengan huruf, meski Anda bisa memberikan nama
variabel dengan _hargabuku atau .hargabuku hanya saja penamaan itu tidak disarankan
 Sebaiknya hindari menggunakan kata-kata yang sama dengan perintah-perintah yang
dikenal R seperti: if, else, repeat, while, function, for,in, next, break, TRUE, FALSE,
NULL, NA, NA_integer dan sebagainya.

1. Tipe data
a. Numeric
Numeric adalah tipe data yang hanya berisikan angka-angka saja
Contoh: 12, -2.3, 1.2e-2

b. Character
Character adalah tipe data yang beranggotakan character
Contoh: ‘undip’, “informatika”

c. Logical
Logical adalah tipe data yang hanya berisikan True/False (benar/salah)
Contoh: T, F, TRUE, FALSE
2. Vector
Vector adalah tipe data yang minyimpan satu atau lebih tipe data lain, vector ini mirip
dengan collection atau array pada bahasa pemrograman mainstream.

Vector hanya bisa menyimpan tipe data yang sama, jika pun kita memaksakan
menyimpan tipe data berbeda, maka akan dikonversi ke character.

3. Array dan Matriks


Matriks merupakan objek data yang banyak digunakan dalam analisis statistika. Matriks
pada bahasa R umumnya dibuat melalui vektor. Matriks merupakan bentuk khusus dari
Array. Perbedaan diantara keduanya adalah dimensinya. Matriks adalah Array
berdimensi dua

4. Data Frames
Data frames merupakan tipe khusus list yang digunakan untuk menyimpan data dari
berbagai macam tipe dalam bentuk matriks. Ada banyak vector dari berbagai tipe yang
bisa disimpan dalam variabel yang sama. Vector tersebut bisa berupa strings, logika,
numerik dsb. caranya adalah sebagai berikut:

5. List
List merupakan objek data yang elemen didalamnya boleh memiliki mode yang berbeda.
Umumnya list digunakan untuk menyimpan hasil suatu fungsi. Perintah unlist akan
membuat list menjadi vektor.

6. Factor
Factor merupakan tipe khusus vektor dengan elemen data kategori. Faktor diprint tanpa
diapit oleh quotes “” --> memiliki metode print khusus. Pada dasarnya faktor adalah
vektor yang mengindikasikan taraf (level) dari peubah kategori.
D. Descriptive Statistics
1. Sturktur data
Untuk melihat struktur data kita dan variabel apa saja yang ada di data kita, kita bisa
mengetikkan script str(file). Sebagai contoh, pada file tersebut kita bisa mengetik
str(data_test), lalu tekan run atau ctrl+enter. Maka akan muncul tampilan di console
tekan run atau ctrl+enter. Maka akan muncul tampilan di console nama variabel
beserta jenisnya apakah itu factor atau angka.

2. Melihat Data Awal dan Akhir


Untuk melihat data teratas, ketik script head(nama file). Sebagai contoh untuk data di
atas, ketik head(data_test), lalu enter. Maka akan keluar enam data paling atas.

Sedangkan untuk melihat enam data paling akhir, ketikan script tail(data_test), lalu
tekan enter.

3. Melihat Rangkuman Statistik Data


Untuk melihat rangkuman statistik data, ketik summary(data_test) pada script editor,
lalu tekan enter. Maka akan muncul rangkuman statistik masing-masing variabel data
kita mulai dari min, max, mean, median, dan mean.

Jika kita menghendaki haya variabel tertentu yang ditampilkan rangkuman


statistiknya, maka beri tanda dolar ($) diikuti nama variabel. Misal untuk melihat
rangkuman statistik variabel region ketik summary(data_test$Region), lalu enter.

4. Melihat Standar Deviasi


Untuk melihat standar deviasi salah satu variabel kita, ketikan sd(variabel). Misal kita
ingin melihat standar deviasi variabel milk, maka ketiksd(perilakucsv$Milk), lalu
klik enter.
E. Exploratory Data Analysis
Kode dan perintah summary() berikut menujukkan ringkasan tanpa menunjukkan hubungan
antar variabel.

Seperti yang dilihat pada gambar di atas, perintah summary menunjukkan ringkasan data
Wholesale Customers Data.csv dengan menampilkan ringkasan data per atribut.

Salah satu cara yang berguna untuk dapat mendeteksi pattern dan anomaly adalah dengan
menganalisis data. Visualisasi memberikan tampilan ringkas dan ringkas dari data yang
mungkin sulit dipahami dari angka dan ringkasan saja. Berikut ditampilkan scatterplot yang
menggambarkan hubungan antara atribut Grocery sebagai X dan Channel sebagai Y.
F. Visualization before Analysis
Untuk menggambarkan pentingnya memvisualisasikan data, pertimbangkan kuartet
Anscombe.

Kemudian kita lakukan pembuatan level untuk indikasi ke group mana setiap data akan
dimasukkan.
G. Dirty Data
Berikut ditampilkan histogram dari data Pembeli Grocery pada data Wholesale customers
sale.csv.
H. Visualisasi variable Data
Dengan semakin meningkatnya volume data, tidak mungkin untuk menceritakannya
tanpa visualisasi. Visualisasi data adalah sebuah seni tentang cara mengubah angka menjadi
pengetahuan yang berguna.Visualisasi tersebut dapat ditampilkan menggunakan grafik.
Beberapa grafik tersebut bisa ditampilkan dengan fungsi-fungsi berikut:

Menggunakan fungsi dotchart pada atribut Fresh. Perintah pada console adalah sebagai
berikut.

Hasilnya adalah,
I. Memeriksa Beberapa Variabel
Sebuah scatterplot adalah visualisasi sederhana dan sederhana yang digunakan untuk
menemukan hubungan di antara banyak variabel. Scatterplot dapat mewakili data dengan
sampai lima variabel menggunakan sumbu x, sumbu y, ukuran, warna, dan bentuk. Tapi
biasanya hanya dua sampai empat variabel yang digambarkan dalam scatterplot untuk
meminimalkan kebingungan. Saat memeriksa scatterplot, seseorang perlu memperhatikan
tinjauan metode analisis data dasar menggunakan r dengan kemungkinan hubungan antar
variabel. Jika hubungan fungsional antara variabel agak diucapkan, data mungkin kira-kira
terletak di sepanjang garis lurus, parabola, atau kurva eksponensial. Jika variabel y
berhubungan secara eksponensial dengan x, maka plot x versus log (y) kira-kira linier. Jika
plot lebih mirip cluster tanpa pola, variabel yang sesuai mungkin memiliki hubungan yang
lemah.
Menggunakan fungsi dotchart pada atribut Fresh dan Milk. Perintah pada console adalah
sebagai berikut.

Hasilnya adalah,

Anda mungkin juga menyukai