BIG DATA
“Penggunaan dan Kelebihan Package
Bigmemory dalam Bigfamily untuk
Pengolahan Bigdata “
Kelompok 13
Anggota Kelompok :
1. Amin Septianingsih
2. Nofita ika utami
3. Dwi resti indah puspitawati
4. Robertus indra kurniawan
Selengkapnya : http://www.kompasiana.com/wmwijaya/apa-itu-big-data-menyimak-kembali-
definisi-big-data-jenis-teknologi-big-data-dan-manfaat-pemberdayaan-big-
data_56a38803a423bd831546e6e3
Salah satu contoh penerapan big data adalah pada bidang penerbangan. Salah satu
contoh datanya adalah mengenai kecelakaan terbang. Data ini berisi tentang tanggal
terjadinya kecelakaan, waktu terjadinya kecelakaan, lokasi terjadinya kecelakaan, operator
dari pesawat yang terjadi kecelakaan, jenis penerbangan, rute penerbangan, tipe pesawat,
nomor registrasi pesawat, cn/ln, penumpang, penumpang luka fatal, ground, dan summary.
Banyaknya kecelakan pesawat yang terjadi dari tahun ke tahun sehingga datanya akan
berjumlah banyak juga sehingga bisa dikategorikan sebagai big data.
Salah satu aplikasi yang sering digunakan mengolah data adalah R. R adalah suatu
sistem untuk menganalisis data yang termasuk software opensource sehingga tidak
memerlukan lisensi (gratis).Keunggulan software r dibanding software yang lain adalah :
Gratis. User dapat memiliki kopi dan menginstal software ini secara bebas tanpa perlu
membayar lisensi
Portability. Jika seorang user pernah mempelajari software ini, mereka bebas untuk
mempelajari dan menggunakannya sampai kapanpun yang diinginkan.
Multiplatform. R bersifat multiplatform operating systems, lebih umum dibanding
software statistika manapun yang pernah ada. Dengan demikian jika seorang user
memutuskan untuk berpindah sistem operasi, maka penyesuaian akan relatif lebih
mudah untuk dilakukan.
General dan Cutting Edge. Berbagai metode analisa statistik (metode-metode klasik
maupun metode-metode baru) telah diprogramkan kedalam bahasa R. Dengan
demikian, software ini dapat digunakan untuk berbagai macam analisa statistika (jika
tidak dapat dikatakan untuk semua hal berkaitan dengan analisa statistika)
Programmable. User dapat memprogramkan metode baru atau mengembangkan
modifikasi dari fungsi-fungsi analisa statistika yang telah ada dalam sistem R
Bahasa berbasis analisa matriks. Bahasa R sangat baik untuk melakukan
programming dengan basis matriks
Fasilitas grafik yang relatif baik
Relatif cukup cepat, dan khususnya memiliki kemampuan manajemen memori yang
lebih baik dibandingkan dengan beberapa software lain.
Lalu apakah dengan software R mampu digunakan untuk mengolah data yang
tergolong dalam big data?
Kebanyakan sistem tidak bisa digunakan untuk data lebih dari 2 GB.
Pada windows 7, hanya akan berjalan saat menggunakan RAM 8 GB.
Membutuhkan waktu sekitar 9 menit untuk fungsi read.table
Memakan penggunaan memori sebesar 6 GB
Beberapa fungsi dasar akan mengalami error
Tidak bisa membuka data di R hanya dengan memory 4 GB
Terlalu banyak menggunakan memori virtual menyebabkan sistem berhenti
1. Big Memory
Digunakan untuk menganalisis data yang berbentuk seperti matriks.
Contoh fungsi yang dapat diaplikasikan :
nrow, ncol, dim, tail, head, apply, big.matrix, read.big.matrix. mwhich.
2. Big Analytics
Dapat digunakan untuk analisis rutin pada big matrix.
Contoh fungsi yang dapat diaplikasikan :
sum, range, mean, colsum, colrange, colmean, biglm.big.matrix,
bigglm.big.matrix.
3. Big Tabulate
Dapat digunakan untuk menambah dan manipulasi tabel untuk objek big.matrix.
4. Big Algebra
Dapat digunakan untuk operasi – operasi aljabar pada matrix R seperti big.matrix.
2. FUNGSI PACKAGE BIGMEMORY
Fungsi dalam package bigmemory
Deepcopy → menghasilkan copy secara fisik dari big.matirx
Deskripsi : deepcopy diperlukan untuk menduplikat big.matrix
Penggunaan :
deepcopy(x,cols=NULL,rows=NULL,y=NULL,type=NULL,separated=NULL,
,shared=TRUE)
Keterangan :
X big.matrix
Cols kemungkinan subset kolom untuk deepcopy, bisa bernilai numerik,
nama, atau logikal
Rows kemungkinan subset baris untuk deepcopy, bisa bernilai numerik,
nama, atau logikal
Separated digunakan untuk memisahkan kolom data
Shared default bernilai TRUE
Contoh :
x <- as.big.matrix(matrix(1:30, 10, 3))
y <- deepcopy(x, -1)
x
head(x)
head(y)
morder(m, 1)
order(m[,1])
m[order(m[,1]), 2]
mpermute(m, cols=1)
m[,2]
Berikut adalah langkah langkah fungsi operasi yang akan yang akan didemonstrasikan pada
penggunaan package bigmemory pada R.
mydata=matrix(c(NA),nrow=10072112, ncol=5)
mydata[,1]=sample(c(1:17770), 10072112, replace = TRUE)
mydata[,2]=sample(c(1:480189), 10072112, replace = TRUE)
mydata[,3]=sample(c(1:5), 10072112, replace = TRUE)
mydata[,4]=sample(c(1999:2005), 10072112, replace = TRUE)
mydata[,5]=sample(c(1:12), 10072112, replace = TRUE)
write.table(mydata, file = "example.txt", sep = " ",row.names
= F, col.names = F)
Keterangan
Pada formula diatas akan membangkitkan data set besar yang terdiri dari
keterangan jumlah kolom dan jumlah baris. Pada masing masing kolom dalam
pembangkitan data diatas akan dijelaskan terkait keterangan range interval dari tiap
tiap kolom. Pada pembangkitan data diatas nama kolom dan nama baris belum
teridentifikasi, sehingga data yang akan terbentuk adalah data berupa kumpulan
angka angka dalam kolom dan baris. Data yang akan tersimulasi selanjutnya akan
tersimpan di my document computer.
Setelah data tersimpan dalam my document computer yang merupakan hasil dari simulasi
data maka data akan diread/ di panggil ke dalam R. Terdapat beberapa cara dalam
melakukan fungsi ini sebagai berikut :
Menggunakan read table sederhana
gc (reset=T)
start.time <-proc.time()
x1 <- read.table ("example.txt", header =T)
end.time <- proc.time ()
save.time <-end.time-start.time
cat("\n Number of minutes runnning:", save.time[3]/60, "\n \n")
gc()
Menggunakan read table function
gc(reset=T)
start.time<-proc.time()
x2 <- read.table("example.txt",colClasses = "integer", header=F,
col.names = c("movie", "customer", "rating","year",
"month"))
end.time<-proc.time()
save.time<-end.time-start.time
cat("\n Number of minutes running:", save.time[3]/60, "\n \n")
gc()
menggunakan read.big.matrix
library(bigmemory)
gc()
start.time<-proc.time()
x <-read.big.matrix("example.txt", header = F,type= "integer",sep= "
",col.names=c("movie","customer","rating","year","month"), shared=TRUE)
end.time<-proc.time()
save.time<-end.time-start.time
cat("\n Number of minutes running:",save.time[3]/60, "\n \n")
head (x)
summary (x)
summary (x[,])
3.4. Melakukan operasi untuk menampilkan sebagian data dengan kondisi tertentu.
(Fungsi mwhich)
mwhich(x, cols, vals, comps, op = 'AND')
x: a big.matrix object.
cols: a vector of column indices or names.
vals: a list of vectors of length 1 or 2; length 1.It is used to test
equality (or inequality),
comps: a list of operators including 'eq', 'neq', 'le', 'lt', 'ge' and 'gt‘.
op: either 'AND' or 'OR'.
"le"), "AND")
summary(x[these, ])
mean(x[these,"movie"])
3.5. Melakukan analisis dengan menggunakan biglm dan biganalytics untuk pengolahan
data besar menggunakan regresi.
library(biglm)
library(biganalytics)
lm.2= biglm.big.matrix(rating ~ year + movie, data = x, fc="year")
summary(lm.2)
4. KESIMPULAN
Berikut adalah karakteristik data yang tergolong bigdata yang tidak mampu diolah
tanpa package khusus bigmemory.
Kebanyakan sistem tidak bisa digunakan untuk data lebih dari 2 GB.
Pada windows 7, hanya akan berjalan saat menggunakan RAM 8 GB.
Membutuhkan waktu sekitar 9 menit untuk fungsi read.table
Memakan penggunaan memori sebesar 6 GB
Beberapa fungsi dasar akan mengalami error
Tidak bisa membuka data di R hanya dengan memory 4 GB
Terlalu banyak menggunakan memori virtual menyebabkan sistem berhenti
Beberapa fungsi yang dapat dilakukan dalam library bigmemory dapat dilihat di menu
help pada R.
5. REFERENSI
1. Ppt Presentation_bigmemory
2. Cran R
3. http://www.kompasiana.com/wmwijaya/apa-itu-big-data-menyimak-kembali-definisi-
big-data-jenis-teknologi-big-data-dan-manfaat-pemberdayaan-big-
data_56a38803a423bd831546e6e3