SKRIPSI
PRIAGUNG KHUSUMANEGARA
1006661084
JUNI 2014
UNIVERSITAS INDONESIA
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik
Priagung Khusumanegara
1006661084
JUNI 2014
HALAMAN PERNYATAAN ORISINALITAS
ii
HALAMAN PENGESAHAN
iii
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, karena atas berkat
dan rahmat-Nya, proses penulisan skripsi yang berjudul “Analisis Performa
Kecepatan MapReduce Pada Hadoop Menggunakan TCP Packet Flow
Analysis” ini dapat diselesaikan. Penulisan skripsi ini dilakukan dalam rangka
memenuhi persyaratan dari mata kuliah Skripsi yang terdapat dalam kurikulum
program studi Teknik Komputer Universitas Indonesia. Penulis menyadari bahwa
tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai
dengan masa penyusunan skripsi, sangatlah sulit bagi penulis untuk menyelesaikan
skripsi ini. Oleh karena itu, penulis mengucapkan terima kasih kepada:
(1) Bapak Yan Maraden Sinaga, ST., M.Sc. selaku dosen pembimbing yang telah
menyediakan waktu, tenaga, dan pikiran untuk mengarahkan penulis dalam
penyusunan skripsi ini,
(2) Para peneliti sebelum ini yang juga memberikan sumber bacaan yang banyak
bagi penulis,
(3) Keluarga tercinta yang telah memberikan dukungan doa, material dan moral,
(4) Rekan-rekan mahasiswa Departemen Teknik Elektro Universitas Indonesia
khususnya angkatan 2010,
(5) Noviyanti Angelina, SH. yang telah memberikan dukungan doa dan moral.
Akhir kata, saya berharap Tuhan Yang Maha Esa berkenan membalas segala
kebaikan semua pihak yang telah membantu. Semoga skripsi ini membawa manfaat
bagi pengembangan ilmu.
iv
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
UNTUK KEPENTINGAN AKADEMIS
v
Universitas Indonesia
ABSTRAK
vi
Universitas Indonesia
ABSTRACT
Distributed computing is one of the advance technology in data processing. The use
of distributed computing allows users to process data using multiple computers that
are separated or distributed physically. One of technology that uses the concept of
distributed computing is Hadoop. Hadoop is a Java-based software framework and
open source which is used to process the data that have a large size in a distributed
manner. Hadoop uses a framework for application and programing which called
MapReduce. Six scenarios are implemented to analyze the speed performance of
Hadoop MapReduce. Based on the study, known that the additional the number of
physical machines from one to two physical machines with suitable specifications
design can speed up the average speed of MapReduce. On file 512 MB, 1 GB, 1.5
GB, and 2 GB size additional the number of physical machines can accelerate
MapReduce average speed on each file size for 161.34, 328.00, 460.20, and 525.80
seconds. Meanwhile, additional the number of virtual machines from one to two
virtual machines with suitable specifications design can slow down the average
speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size, additional the
number of virtual machines can slow down the average speed of each MapReduce
on a file size for 164.00, 504.34, 781.27, and 1070.46 seconds. Based on the
measurement result is also known that the block size and number of slot maps in
Hadoop MapReduce can affect speed.
vii
Universitas Indonesia
DAFTAR ISI
viii
Universitas Indonesia
3.1 TCP Packet Flow Analysis .......................................................................16
3.2 Pembuktian Kebenaran Output TCP Packet Flow Analysis dengan
Menggunakan Wireshark ................................................................................20
3.3 Skenario Pertama ......................................................................................21
3.4 Skenario Kedua.........................................................................................23
3.5 Skenario Ketiga ........................................................................................23
3.6 Skenario Keempat.....................................................................................25
3.7 Skenario Kelima .......................................................................................26
3.8 Skenario Keenam ......................................................................................27
3.9 Cara Mengukur Kecepatan MapReduce pada Hadoop.............................28
3.10 Menentukan Block Size pada HDFS .......................................................29
3.11 Menentukan Jumlah Slot map .................................................................30
BAB 4 PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP .......................................................................31
4.1 Pengujian Skenario Pertama .....................................................................31
4.1.1 Hasil Pengukuran .............................................................................31
4.1.2 Analisis ............................................................................................32
4.2 Pengujian Skenario Kedua........................................................................33
4.2.1 Hasil Pengukuran .............................................................................33
4.2.2 Analisis ............................................................................................34
4.3 Pengujian Skenario Ketiga .......................................................................34
4.3.1 Hasil Pengukuran .............................................................................35
4.3.2 Analisis ............................................................................................35
4.4 Pengujian Skenario Keempat....................................................................37
4.4.1 Hasil Pengukuran .............................................................................38
4.4.2 Analisis ............................................................................................39
4.5 Pengujian Skenario Kelima ......................................................................40
4.5.1 Hasil Pengukuran .............................................................................41
4.5.2 Analisis ............................................................................................42
4.6 Pengujian Skenario Keenam .....................................................................42
4.6.1 Hasil Pengukuran .............................................................................42
4.6.2 Analisis ............................................................................................43
ix
Universitas Indonesia
BAB 5 KESIMPULAN ........................................................................................45
DAFTAR REFERENSI .......................................................................................46
LAMPIRAN ..........................................................................................................48
x
Universitas Indonesia
DAFTAR GAMBAR
Gambar 2.1 Inti Hadoop (a) komponen HDFS (b) komponen MapReduce [9].......6
Gambar 2.2 Komponen HDFS [11] .........................................................................8
Gambar 2.3 NameNode pada HDFS [2] ..................................................................8
Gambar 2.4 Interaksi antara NameNode dan DataNote pada HDFS [2] .................9
Gambar 2.5 Proses mapping [19] ...........................................................................11
Gambar 2.6 Proses shuffle [19] ..............................................................................12
Gambar 2.7 Proses reducing [19]...........................................................................12
Gambar 2.8 Keseluruhan proses MapReduce pada Hadoop [19] ..........................13
Gambar 2.9 Kerja JobTracker pada Hadoop [17] ..................................................14
Gambar 2.10 Kerja TaskTracker pada setiap node [2] ..........................................14
Gambar 3.1 Command line tshark untuk mengkonversi file dari format pcap ke
dalam bentuk plaintext [14] ...................................................................................16
Gambar 3.2 Contoh hasil konversi kedalam bentuk plaintext ...............................17
Gambar 3.3 Pseudocode TCP Packet Flow Analysis.............................................17
Gambar 3.4 Flowchart TCP Packet Flow Analysis ...............................................19
Gambar 3.5 Contoh output TCP Packet Flow Analysis (a) Packet Total (b) Packet
Length.....................................................................................................................20
Gambar 3.6 Contoh isi file pcap pada Wireshark ..................................................21
Gambar 3.7 Output packet total yang dihasilkan TCP Packet Flow Analysis .......21
Gambar 3.8 Output packet length yang dihasilkan TCP Packet Flow Analysis ....21
Gambar 3.9 Rancangan topologi skenario pertama (a) single node (b) multi
node ........................................................................................................................22
Gambar 3.10 Rancangan topologi skenario kedua (a) single node (b) multi node 23
Gambar 3.11 Pembagian block size pada Hadoop yang dijalankan secara single
node ........................................................................................................................24
Gambar 3.12 Pembagian block size pada Hadoop yang dijalankan secara multi
node ........................................................................................................................25
Gambar 3.13 Gambaran slot map pada Hadoop ....................................................26
xi
Universitas Indonesia
Gambar 3.14 Rancangan topologi skenario keenam ..............................................27
Gambar 3.15 Command line time pada terminal CentOS 6.3 ................................28
Gambar 3.16 Contoh tampilan JobTracker history pada webservice Hadoop .......28
Gambar 3.17 Command line untuk menentukan block size ...................................29
Gambar 4.1 Grafik pengaruh physical machine terhadap kecepatan MapReduce.32
Gambar 4.2 Grafik pengaruh virtual node terhadap kecepatan MapReduce .........33
Gambar 4.3 Grafik pengaruh block size terhadap kecepatan MapReduce skenario
ketiga ......................................................................................................................35
Gambar 4.4 Gambaran potongan blocks pada file 512 MB pada satu node ..........36
Gambar 4.5 Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block
size 128 MB ...........................................................................................................36
Gambar 4.6 Proses MapReduce pada ukuran file 512 MB dengan block size 256
MB .........................................................................................................................37
Gambar 4.7 Grafik pengaruh block size terhadap kecepatan MapReduce skenario
keempat ..................................................................................................................38
Gambar 4.8 Gambaran penyebaran blocks pada setiap node .................................39
Gambar 4.9 Grafik pengaruh jumlah slot map terhadap kecepatan MapReduce
skenario kelima ......................................................................................................41
Gambar 4.10 Grafik pengaruh jumlah slot map terhadap kecepatan MapReduce
skenario keenam .....................................................................................................43
xii
Universitas Indonesia
DAFTAR TABEL
Tabel 3.1 Spesifikasi laptop yang digunakan pada skenario pertama ....................22
Tabel 3.2 Parameter Hadoop skenario pertama .....................................................22
Tabel 3.3 Spesifikasi host dan virtual machine .....................................................23
Tabel 3.4 Spesifikasi laptop yang digunakan pada skenario ketiga .......................24
Tabel 3.5 Parameter Hadoop skenario ketiga ........................................................25
Tabel 3.6 Parameter Hadoop skenario kelima .......................................................27
Tabel 3.7 Spesifikasi PC pada skenario keenam ....................................................28
Tabel 3.8 Konfigurasi block size pada hdfs-site.xml .............................................29
Tabel 3.9 Konfigurasi jumlah slot map pada file mapred-site.xml ........................30
Tabel 4.1 Hasil kecepatan rata-rata MapReduce menggunakan physical
machine ..................................................................................................................31
Tabel 4.2 Hasil kecepatan rata-rata MapReduce menggunakan virtual node ........33
Tabel 4.3 Hasil kecepatan rata-rata MapReduce skenario ketiga ..........................35
Tabel 4.4 Hasil kecepatan rata-rata MapReduce skenario keempat ......................38
Tabel 4.5 Hasil kecepatan rata-rata MapReduce skenario kelima .........................41
Tabel 4.6 Hasil kecepatan rata-rata MapReduce skenario keenam........................43
xiii
Universitas Indonesia
BAB 1
PENDAHULUAN
Pada bab ini akan dijelaskan mengenai latar belakang, tujuan, batasan
masalah, metodologi serta sistematika penulisan pada penelitian ini.
1
Universitas Indonesia
2
Hadoop pertama kali diperkenalkan oleh Doug Cutting, yaitu seorang pembuat
Apache Lucene. Project Hadoop ini berasal dari project Apache Nutch yang
merupakan sebuah open source web search engine sebagai bagian dari project
Lucene.
Hadoop memiliki file system khusus yang bernama Hadoop Distributed File
System (HDFS). Hadoop Distributed File System (HDFS) berbeda dengan file
system biasa karena HDFS memiliki block size yang lebih besar yaitu 64 MB
dibandingkan dengan file system biasa yang memiliki ukuran 4 KB atau 8 KB. Hal
ini dikarenakan Hadoop dirancang untuk mengolah data dalam ukuran yang besar.
Hadoop menggunakan sebuah framework untuk aplikasi dan programming yang
disebut dengan MapReduce untuk mengolah data yang besar. MapReduce ini
memungkinkan Hadoop untuk mengolah data secara paralel dan terdistribusi dalam
ratusan bahkan ribuan komputer, sehingga MapReduce sangat tepat untuk
dijakankan pada Hadoop.
Universitas Indonesia
3
3. Physical machine yang digunakan terdiri dari dua laptop yang memiliki
spesifikasi CPU dual core, RAM 4 GB dengan sistem operasi CentOS 6.3
dan satu PC yang memiliki spesifikasi CPU i7, RAM 4 GB dengan sistem
operasi CentOS 6.3.
4. Virtual machine yang digunakan memiliki spesifikasi CPU one core, RAM 1
GB dengan sistem operasi CentOS 6.3 yang berjalan diatas VMWare
Workstasion 10 pada sebuah laptop yang memiliki spesifikasi CPU dual core,
RAM 4 GB dengan sistem operasi CentOS 6.3.
5. Ukuran file yang digunakan untuk di proses oleh MapReduce dibatasi hanya
menggunakan lima ukuran file yang berbeda yaitu 512 MB, 1 GB, 1.5 GB,
dan 2 GB.
6. Block size yang digunakan dibatasi hanya menggunakan ukuran 32 MB, 64
MB, 128 MB, dan 256 MB.
7. Jumlah slot map dibatasi hanya menggunakan 2 slot map, 4 slot map, 6 slot
map, dan 8 slot map.
Universitas Indonesia
4
BAB I PENDAHULUAN
Pada bab ini akan dijelaskan latar belakang, tujuan, batasan masalah, metodologi
dan sistematika penulisan pada penelitian ini.
BAB II HADOOP FRAMEWORK
Pada bab ini akan dijelaskan teori-teori yang menunjang percobaan yang dilakukan.
BAB III HADOOP FRAMEWORK
Pada bab ini akan dijelaskan mengenai rancangan dari sistem Hadoop baik dari segi
perangkat lunak dan komponen perangkat keras yang digunakan. Kemudian
penjelasan enam skenario yang akan diuji serta parameter pengujiannya.
BAB IV PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP
Pada bab ini menjelaskan hasil pengujian dan pengambilan data beserta analisisnya.
BAB V KESIMPULAN
Pada bab ini menjelaskan kesimpulan yang diperoleh dari hasil penelitian pada
skripsi ini.
Universitas Indonesia
BAB 2
HADOOP FRAMEWORK
Pada bab ini akan dijelaskan teori dasar yang melandasi sistem Hadoop yang
akan dirancang, terdiri dari teori komputasi terdistribusi, arsitektur Hadoop,
kelebihan Hadoop, dan penjelasan setiap komponen yang terdapat pada arsitektur
Hadoop.
2.2 Hadoop
Hadoop merupakan framework software berbasis Java dan open source yang
berfungsi untuk mengolah data yang memiliki ukuran yang besar secara
terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang
saling terhubung (parallel computing) [2]. Berdasarkan [13] Hadoop dapat
mengolah data dalam jumlah yang sangat besar hingga petabyte (1 petabyte = 10245
bytes) dan dijalankan di atas ratusan bahkan ribuan komputer. Hadoop dibuat oleh
Doug Cutting yang pada asalnya Hadoop ini adalah sub project dari Nutch yang
digunakan untuk search engine. Hadoop bersifat open source dan berada di bawah
bendera Apache Software Foundation.
5
Universitas Indonesia
6
Gambar 2.1 Inti Hadoop (a) komponen HDFS (b) komponen MapReduce [9]
Gambar 2.1 menggambarkan bagian inti Hadoop yang terdiri dari HDFS dan
MapReduce. Pada Gambar 2.1 (a) menggambarkan komponen dari HDFS yang
terdiri dari NameNode, DataNode, dan Secondary NameNode dan Gambar 2.1 (b)
menggambarkan komponen dari MapReduce yang terdiri dari JobTracker dan
TaskTracker.
Sebuah cluster kecil pada Hadoop dapat terdiri dari satu master node dan
beberapa slave node. Master node ini terdiri dari NameNode dan JobTracker,
sedangkan slave node terdiri dari DataNode dan TaskTracker. Hadoop
membutuhkan JRE 1.6 atau JRE dengan versi yang lebih tinggi. Dalam
menjalankan dan menghentikan sistem pada Hadoop dibutuhkan ssh yang harus
dibentuk antar node pada sebuah cluster [12].
Universitas Indonesia
7
2.3 HDFS
Hadoop Distributed File System (HDFS) merupakan file system berbasis Java
yang terdistribusi pada Hadoop [2]. Sebagai file system terdistribusi, HDFS berguna
untuk menangani data dalam jumlah besar yang disimpan dan tersebar didalam
banyak komputer yang berhubungan yang biasa disebut dengan cluster. File system
terdistribusi pada Hadoop dapat diartikan sebagai file system yang menyimpan data
tidak dalam satu Hard Disk Drive (HDD) atau media penyimpanan lainnya, tetapi
data dipecah-pecah (file dipecah dalam bentuk block dengan ukuran 64 MB – bisa
dikonfigurasi besarnya) dan disimpan tersebar dalam suatu cluster yang terdiri dari
beberapa komputer.
Universitas Indonesia
8
Secondary
NameNode
NameNode
a. NameNode
NameNode terdapat pada komputer yang bertindak sebagai master yang
mengkoordinasi DataNode untuk melakukan beberapa tugas (jobs) [5]. NameNode
ini adalah pusat dari sistem berkas pada HDFS. Gambaran NameNode yang berada
pada master sebagai pusat sistem berkas HDFS dapat dilihat pada Gambar 2.3.
NameNode
(Master)
DataNode DataNode
(Slave1) (Slave2)
Universitas Indonesia
9
NameNode membuat sistem direktori dari semua file yang ada di dalam
sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi
beberapa blocks data serta mengetahui nodes yang menyimpan blocks data tersebut
[2].
b. DataNode
Berdasarkan [2] DataNode adalah salah satu komponen dari HDFS yang
berfungsi untuk menyimpan dan mengambil kembali data pada slave node pada
setiap permintaan yang dilakukan oleh NameNode. DataNode berada pada setiap
slave node pada sebuah cluster yang telah dibuat.
DataNode juga berfungsi untuk membaca dan menulis block pada HDFS ke
file yang sebenarnya pada local file system. Sebagai contoh apabila user ingin
membaca atau menulis file ke HDFS, file tersebut akan dipecah menjadi beberapa
block, kemudian NameNode akan memberitahu dimana blocks tersebut berada
sehingga DataNode dapat membaca dan menulis blocks tersebut ke file yang
sebenarnya pada file system [2].
NameNode
(Master)
File metadata:
/user/hadoop/data1 -> 1,2,3
/user/hadoop/data2 -> 4,5
3 3 5 3 1 4
5 4 5 2 4
2 1 4 1 2
Gambar 2.4 Interaksi antara NameNode dan DataNote pada HDFS [2]
Pada Gambar 2.4 terlihat bahwa NameNode menjaga jalur dari file metadata
dimana setiap file tersebut adalah sebuah sistem yang dipecah-pecah menjadi
beberapa block [2]. DataNode menyimpan backup dari pecahan-pecahan block
tersebut dan secara berkala memberitahu kepada NameNode untuk tetap menjaga
Universitas Indonesia
10
jalur dari file metadata. Selama sistem berjalan, DataNode terhubung dengan
NameNode dan melakukan sebuah handshake. Bedasarkan [5] handshake ini
bertujuan untuk melakukan verifikasi terhadap namespace ID dan juga software
version pada sebuah DataNode.
Namespace ID adalah sebuah ID yang muncul ketika pertama kali melakukan
format pada NameNode [5]. Namespace ID ini disimpan pada semua node yang ada
pada sebuah cluster. Jika ada node yang memiliki namespace ID yang berbeda
maka node tersebut tidak akan dapat bergabung pada sebuah cluster. Tujuan adanya
namespace ID ini adalah untuk menjaga integritas dari HDFS.
Sofware version adalah versi software yang digunakan oleh Hadoop [5].
Konsistensi pada software version ini sangat penting, karena jika software version
yang digunakan berbeda maka akan menyebabkan file corrupt pada sebuah sistem.
Jika salah satu node memiliki namespace ID dan juga software version tidak sama
dengan nodes yang lain, maka node tersebut tidak akan terdaftar pada sistem cluster
yang ada [5].
c. Secondary NameNode
Bedasarkan [2] Secondary NameNode adalah daemon yang berfungsi
melakukan monitoring keadaan dari cluster HDFS. Sama seperti NameNode, pada
setiap cluster yang ada terdapat satu Secondary NameNode, yang berada pada
master node. Secondary NameNode ini juga berfungsi untuk membantu dalam
meminimalkan down time dan hilangnya data yang terjadi pada HDFS [2].
Secondary NameNode ini sering menimbulkan kesalahpahaman pengertian
bahwa apabila NameNode down maka akan langsung digantikan oleh Secondary
NameNode padahal Secondary NameNode ini hanya menyimpan informasi terbaru
dari struktur direktori pada NameNode [12]. Jadi jika terjadi kegagalan yang
dilakukan oleh NameNode maka dibutuhkan konfigurasi yang dilakukan oleh user
untuk menjadikan Secondary NameNode sebagai NameNode yang utama.
2.4 MapReduce
MapReduce sebuah framework untuk aplikasi dan programming yang
diperkenalkan oleh Google dan digunakan untuk melakukan suatu pekerjaan dari
Universitas Indonesia
11
komputasi terdistribusi yang dijalankan pada sebuah cluster [7]. MapReduce ini
terdiri dari konsep fungsi map dan reduce yang biasa digunakan pada functional
programming [12].
Salah satu program yang menggunakan konsep MapReduce yang telah
disediakan oleh Hadoop adalah WordCount. WordCount merupakan program yang
bertujuan untuk menghitung kata pada file plaintext. Proses MapReduce pada
WordCount ini dibagi menjadi 2 tahap yaitu proses mapping dan reducing.
Apple, 1
Mango, 1
Orange, 1
Orange, 1
Banana, 1
Apple, 1
Pada Gambar 2.5 terlihat sebuah file input yang berisikan kata-kata yang
dibagi menjadi beberapa bagian yang berisikan kata dan nilai 1 pada setiap kata
Universitas Indonesia
12
yang ada. Setelah proses mapping ini selesai maka akan dilanjutkan dengan proses
shuffle yang berfungsi untuk menggabungkan kata-kata yang sama untuk
mempersiapkan proses reducing. Gambaran dari proses shuffle ini dapat dilihat
pada Gambar 2.6.
Apple, 1
Apple, 1 Apple, 1
Mango, 1 Apple, 1
Orange, 1
Mango, 1 Banana, 1
Banana, 1 Banana, 1
Apple, 1
Orange, 1 Mango, 1
Banana, 1 Mango, 1
Apple, 1
Orange, 1
Orange, 1
Proses reducing: pada proses ini terjadi penggabungan kata yang sama setelah
proses shuffle dan menghitung jumlah kata yang sama tersebut. Gambaran proses
reducing ini dapat dilihat pada Gambar 2.7.
Apple, 1
Apple, 1 Apple, 3
Apple, 1
Banana, 1
Banana, 2
Banana, 1
Mango, 1
Mango, 2
Mango, 1
Orange, 1
Orange, 2
Orange, 1
Universitas Indonesia
13
Gambar 2.8 menggambarkan sebuah data yang dibagi menjadi beberapa bagian
yang kemudian pada setiap bagian dilakukan proses mapping, dan setelah proses
mapping selesai bagian-bagian data tersebut di acak (shuffle) untuk melalui proses
reducing.
Keuntungan dari MapReduce adalah proses map dan reduce yang dapat
diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing
bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu
yang sama, selama output dari proses mapping mengirimkan key value yang sesuai
dengan proses reducingnya. Didalam Hadoop, MapReduce ini terdiri dari satu
JobTracker dan beberapa TaskTracker pada sebuah cluster.
Universitas Indonesia
14
b. TaskTracker
TasTracker adalah sebuah daemon yang berfungsi untuk menerima tugas
(task) yang diberikan oleh JobTracker dan kemudian mengerjakan task tersebut ke
dalam Java Virtual Machine (JVM) yang terpisah, dengan menjalakan task tersebut
ke dalam Java Virtual Machine (JVM) yang terpisah, maka hal ini akan mengurangi
beban pekerjaan yang dilakukan secara paralel yang diberikan oleh JobTracker.
Universitas Indonesia
15
Universitas Indonesia
BAB 3
PERANCANGAN HADOOP
Pada bab ini akan membahas mengenai skenario yang dibuat, topologi pada
setiap skenario dan perangkat keras yang digunakan. Skenario yang digunakan
yaitu terbagi menjadi 6 bagian dengan keperluan pengambilan data untuk menguji
performa kecepatan MapReduce pada Hadoop. Pada setiap skenario yang diuji akan
menggunakan program yang menggunakan konsep MapReduce yang bernama TCP
Packet Flow Analysis yang berfungsi untuk menganalisa data aliran paket TCP dan
protokol yang terdapat pada sebuah jaringan.
Gambar 3.1 Command line tshark untuk mengkonversi file dari format pcap ke
dalam bentuk plaintext [14]
16
Universitas Indonesia
17
TCP Packet Flow Analysis ini cocok dijalankan pada Hadoop karena program
ini menggunakan konsep MapReduce sehingga dapat dijalankan pada satu
komputer maupun beberapa komputer (cluster). Pseudocode dari TCP Packet Flow
Analysis dapat dilihat pada Gambar 3.3 dan flowchart dari TCP Packet Flow
Analysis dapat dilihat pada Gambar 3.4.
Map:
reads the input line by line
split a string into separate "hasilPecahInput"
if: hasilPecahInput[2] > 1
create a token for hasilPecahInput[2] and hasilPecahInput[4]
while: token available from the hasilPecahInput[2] and hasilPecahInput[4]
set keyword: Koneksi "hasilPecahInput[2]" dan "hasilPecahInput[4]" Protokol "hasilPecahInput[6]"
else: set keyword : Koneksi protokol "hasilPecahInput[6]"
set lengthValue from value of hasilPecahInput[1]
create a pair <keyword,"Packet", one>
create a pair <keyword,"Length", lengthValue>
Reduce:
split pair into separate "splitKey" with comma is the separator
set splitKey[0] to keyOut
if: spiltKey[1] = 'Packet'
increment sumPacket
set sumPacket as outputValue
display ("PacketTotal", keyOut, outputValue)
else : increment sumLength
set PacketLength as outputValue
display ("PacketLength", keyOut, outputValue”)
Universitas Indonesia
18
Start
Reads the
input line by
line
No If Yes
hasilPecahInput [2] > 1
No
While: token available
Yes
Set keyword: Koneksi
“hasilPecahInput[2]”
dan
“hasilPecahInput[4]”
Protokol
“hasilPecahInput[6]”
Create a pair
<keyword,”Packet”,
one>
Universitas Indonesia
19
Create a pair
<keyword, ”Length”,
lengthValue)
Set splitKey[0] to
keyOut
No If Yes
splitKey[1] = ‘Packet’
Display Display
(“PacketLength” (“PacketTotal”,
, keyOut, keyOut,
outputValue) outputValue)
Stop
Universitas Indonesia
20
Output pada TCP Packet Flow Analysis terdiri dari dua bagian yaitu bagian
pertama adalah file packet total dan bagian kedua adalah file packet length.
Gambaran contoh output program TCP Packet Flow Analysis dapat dilihat pada
Gambar 3.5.
Gambar 3.5 Contoh output TCP Packet Flow Analysis (a) Packet Total (b) Packet
Length
Gambar 3.5 (a) menggambarkan isi output file packet total yang terdiri dari
ip source, ip destination, protocol yang digunakan, dan sum of packet. Gambar 3.5
(b) menggambarkan isi output file packet length yang terdiri dari ip source, ip
destination, protocol yang digunakan, dan packet length (bytes).
Universitas Indonesia
21
bahwa TCP Packet Flow Analysis menghasilkan output yang sesuai dengan isi file
pcap. Gambaran dari contoh isi file pcap yang dibuka menggunakan aplikasi
Wireshark dapat dilihat pada Gambar 3.6.
Gambar 3.6 menggambarkan contoh isi dari file pcap yang terdiri dari bagian time,
ip source, ip destination, protocol, length, dan info. Berdasarkan isi file pcap yang
terdapat pada Gambar 3.6, terlihat bahwa ip source 0.144.63.250 dan ip destination
64.159.221.130 berkomunikasi sebanyak 2 kali menggunakan protocol TCP
dengan total TCP length sebesar 36 bytes dan ip source 30.94.98.12 dan ip
destination 64.159.221.140 berkomunikasi sebanyak 2 kali menggunakan protocol
TCP dengan total TCP length sebesar 0 bytes . Output packet total dan output packet
length dari TCP Packet Flow Analysis dalam mengolah file pcap tersebut dapat
dilihat pada Gambar 3.7 dan Gambar 3.8.
Gambar 3.7 Output packet total yang dihasilkan TCP Packet Flow Analysis
Gambar 3.8 Output packet length yang dihasilkan TCP Packet Flow Analysis
Pada Gambar 3.7 dapat dilihat bahwa output packet total yang dihasilkan oleh TCP
Packet Flow Analysis sesuai dengan isi file pcap pada Wireshark, begitu juga pada
output packet length pada Gambar 3.8 yang menunjukkan output yang sesuai
dengan isi file pcap pada Wireshark.
Universitas Indonesia
22
pertama, Hadoop dijalankan pada physical machine secara single node dan multi
node (cluster). Topologi skenario pertama pada saat menjalankan Hadoop secara
single node dan multi node dapat dilihat pada Gambar 3.9. Spesifikasi laptop yang
digunakan pada skenario pertama pada saat menjalankan Hadoop secara single
node dan multi node (cluster) dapat dilihat pada Tabel 3.1.
Gambar 3.9 Rancangan topologi skenario pertama (a) single node (b) multi node
Pada skenario pertama, ukuran file yang digunakan pada saat single node
maupun multi node (cluster) yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario
pertama, parameter Hadoop yang digunakan adalah parameter secara default yang
dapat dilihat pada Tabel 3.2.
Universitas Indonesia
23
Gambar 3.10 Rancangan topologi skenario kedua (a) single node (b) multi node
Pada skenario kedua, ukuran file yang digunakan pada saat single node
maupun multi node yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario kedua,
parameter Hadoop yang digunakan adalah parameter yang sama dengan Tabel 3.2.
Universitas Indonesia
24
pada skenario ketiga sama dengan topologi pada Gambar 3.9 (a) dengan
menggunakan perangkat yang memiliki spesifikasi yang dapat dilihat pada Tabel
3.4.
Gambar 3.11 Pembagian block size pada Hadoop yang dijalankan secara single
node
Universitas Indonesia
25
memiliki ukuran besar. Pada skenario ketiga, parameter Hadoop yang digunakan
dapat diliat pada Tabel 3.5.
Gambar 3.12 Pembagian block size pada Hadoop yang dijalankan secara multi
node
Universitas Indonesia
26
Universitas Indonesia
27
Gambar 3.13 menunjukan slot map yang akan memproses setiap block yang
ada. Pada skenario kelima percobaan akan dilakukan menggunakan ukuran file
yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario kelima,
parameter Hadoop yang digunakan dapat diliat pada Tabel 3.6.
Universitas Indonesia
28
Universitas Indonesia
29
Nilai yang terdapat pada tag value menunjukan ukuran block dalam bytes
pada HDFS. Besar nilai pada tag value dapat diganti sesuai dengan keinginan pada
saat sebelum menjalankan Hadoop. Cara kedua dapat dilakukan pada saat setelah
menjalankan Hadoop, yaitu dengan cara memasukkan command line yang dapat
dilihat pada Gambar 3.17.
Fungsi dari command line yang terdapat pada Gambar 3.17 adalah membagi
file menjadi beberapa block sesuai dengan parameter pada dfs.block.size yang
diinginkan dan mengcopy file tersebut dari local disk ke dalam HDFS. Pada
Universitas Indonesia
30
percobaan ini cara yang dilakukan adalah menggunakan cara kedua dalam
mengatur block size pada Hadoop.
Nilai pada tag name menunjukan nama parameter yang dapat diganti pada
Hadoop yaitu jumlah slot map. Nilai yang terdapat pada tag value menentukan
jumlah slot map yang akan dijalankan oleh Hadoop.
Universitas Indonesia
BAB 4
PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP
31
Universitas Indonesia
32
1400
1166,27
1200
Waktu (detik)
1000
742,67 1.005,00
800 1 Node
2 Node
600 706,07
352,27
400
414,67
200
190,93
0
512 MB 1 GB 1.5 GB 2 GB
Ukuran File
Gambar 4.1 yang merupakan gambaran dari Tabel 4.1 memperlihatkan bahwa
jumlah physical node pada setiap percobaan yang dilakukan dengan menggunakan
ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat
mempengaruhi kecepatan proses MapReduce pada Hadoop. Pada Gambar 4.1
terlihat bahwa penambahan jumlah physical node dapat mempercepat proses
MapReduce pada Hadoop.
4.1.2 Analisis
Berdasarkan hasil pengukuran yang dilakukan pada skenario pertama
terlihat bahwa penambahan jumlah physical machine sebagai node dapat
mempercepat proses MapReduce pada Hadoop. Penambahan jumlah physical
machine dari satu physical machine menjadi dua physical machine dengan
spesifikasi physical machine yang sesuai perancangan dapat mempercepat
kecepatan rata-rata MapReduce sebesar 161.34 detik pada ukuran file 512 MB,
328.00 detik pada ukuran file 1 GB, 460.20 detik pada ukuran file 1.5 GB, dan
525.80 detik pada ukuran file 2 GB.
Hal ini terjadi karena setiap node akan mengambil resource dari machine
yang berbeda. Node pertama mengambil resource dari laptop 1 dan node kedua
Universitas Indonesia
33
3500
2.885,13
3000
2500 2.137,40
Waktu (detik)
2000
1.416,27
1500 1.814,67 1 VM
2 VM
1000 645,40 1.356,13
500 911,93
481,40
0
512 MB 1 GB 1.5 GB 2 GB
Ukuran File
Universitas Indonesia
34
Gambar 4.2 yang merupakan gambaran dari Tabel 4.2 yang memperlihatkan bahwa
jumlah virtual node pada setiap percobaan yang dilakukan dengan menggunakan
ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat
mempengaruhi kecepatan proses MapReduce pada Hadoop. Pada Gambar 4.2
terlihat bahwa penambahan jumlah virtual node dapat memperlambat proses
MapReduce pada Hadoop.
4.2.2 Analisis
Pada skenario kedua penambahan jumlah virtual machine sebagai node dapat
memperlambat proses MapReduce pada Hadoop. Penambahan jumlah virtual
machine dari satu virtual machine menjadi dua virtual machine dengan spesifikasi
virtual machine yang sesuai perancangan dapat memperlambat kecepatan rata-rata
MapReduce sebesar 164.00 detik pada ukuran file 512 MB, 504.34 detik pada
ukuran file 1 GB, 781.27 detik pada ukuran file 1.5 GB, dan 1070.46 detik pada
ukuran file 2 GB.
Hal ini terjadi karena setiap virtual machine mengambil resource dari
machine yang sama yaitu dari laptop yang menjalankan virtual machine tersebut.
Hal ini menyebabkan kecepatan MapReduce menjadi lambat ketika penambahan
jumlah virtual machine sebagai node dikarenakan akan memperberat kerja dari
laptop yang menjalankan virtual machine tersebut. Hal ini menyebabkan kecepatan
MapReduce pada Hadoop dengan menggunakan virtual machine akan lebih lambat
dibandingan dengan menggunakan physical machine.
Universitas Indonesia
35
Gambar 4.3 Grafik pengaruh block size terhadap kecepatan MapReduce skenario
ketiga
Gambar 4.3 yang merupakan gambaran dari Tabel 4.3 yang memperlihatkan
bahwa block size dapat mempengaruhi performa kecepatan MapReduce pada
Hadoop untuk setiap percobaan yang dilakukan pada ukuran file yang bervariasi
yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB.
4.3.2 Analisis
Pada skenario ketiga, file dengan ukurn 512 MB, 1 GB, 1.5 GB, dan 2GB
akan dipotong menjadi beberapa blocks. User dapat memastiakan files tersebut
Universitas Indonesia
36
telah terpotong menjadi beberapa blocks dengan cara mengakses webservice untuk
melihat kondisi HDFS yang disediakan oleh Hadoop. Gambaran blocks tersebut
tersebut dapat dilihat pada Gambar 4.4. Berdasarkan Gambar 4.4 dapat terlihat
bahwa file dengan ukuran 512 MB dipotong-potong menjadi 8 blocks yang
disimpan pada node 1 (laptop 1).
Gambar 4.4 Gambaran potongan blocks pada file 512 MB pada satu node
Gambar 4.5 Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block
size 128 MB
Universitas Indonesia
37
Pada Gambar 4.5 (a) dan Gambar 4.5 (b) menunjukan bahwa jumlah task pada
ukuran file 1 GB dengan block size 64 MB menghasilkan 16 tasks yang artinya lebih
banyak dibandingkan dengan jumlah task pada ukuran file 1 GB dengan block size
128 MB yang menghasilkan 8 tasks. Jumlah task yang lebih sedikit pada ukuran file
1 GB dengan block size 128 MB dapat memudahkan scheduler task MapReduce
dalam menjadwalkan task yang diberikan sehingga dapat mengurangi kerja dari
scheduler task MapReduce yang berpengaruh terhadap kecepatan MapReduce pada
Hadoop. Selain itu dengan jumlah task yang semakin sedikit hal ini dapat
mengurangi waktu komunikasi antara scheduler task MapReduce dengan
JobTracker dan JobTracker dengan TaskTracker dalam permintaan task, sehingga
hal ini menyebabkan waktu proses MapReduce pada Hadoop semakin cepat.
Pada ukuran file 512 MB dengan block size 256 MB terlihat bahwa kecepatan
MapReduce pada Hadoop lebih lambat jika dibandingan dengan menggunakan
block size 128 MB. Hal ini dikarenakan pada ukuran file 512 MB dengan block size
256 MB akan menghasilkan 2 tasks, yang artinya bahwa 2 tasks tersebut langsung
dimapping seluruhnya secara bersamaan sampai selesai karena secara default
jumlah slot map pada Hadoop adalah 2 slot map untuk setiap node. Setelah proses
mapping dari seluruh tasks yang ada selesai baru dilakukan proses reducing. Hal
ini dapat dilihat pada Gambar 4.6.
Gambar 4.6 Proses MapReduce pada ukuran file 512 MB dengan block size 256
MB
Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB yang
ditunjukkan Gambar 4.6 dapat menyebabkan keterlambatan MapReduce dalam
melakukan proses reducing sehingga terjadi penerunan kecepatan MapReduce.
Universitas Indonesia
38
dengan menggunakan dua laptop sebagai node. Ukuran file yang diproses oleh
MapReduce pada skenario keempat yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB.
Percobaan pada skenario keempat dilakukan sebanyak 15 kali percobaan dengan
ukuran block size yang bervariasi yaitu 32 MB, 64 MB, 128 MB, dan 256 MB.
662,20
512 MB
600
457,73 1 GB
414,67 421,53
383,13 1.5 GB
400
270,47 2 GB
203,27 190,93 212,67
200
0
32 MB 64 MB 128 MB 256 MB
Block Size
Gambar 4.7 Grafik pengaruh block size terhadap kecepatan MapReduce skenario
keempat
Universitas Indonesia
39
Gambar 4.7 yang merupakan gambaran dari Tabel 4.4 memperlihatkan bahwa
block size dapat mempengaruhi kecepatan MapReduce pada setiap percobaan yang
dilakukan dengan menggunakan ukuran file yang bervariasi yaitu 512 MB, 1 GB,
1.5 GB, dan 2 GB.
4.4.2 Analisis
Pada skenario keempat, blocks pada Hadoop akan disebar pada masing-
masing node yang terdapat pada cluster. User dapat memastikan blocks tersebut
tersebar pada setiap node dengan cara mengakses webservice untuk melihat kondisi
HDFS yang disediakan oleh Hadoop. Gambaran dari penyebaran blocks tersebut
tersebut dapat dilihat pada Gambar 4.8.
Pada Gambar 4.8 terlihat bahwa setiap block tersebar pada setiap node yang
terdapat pada sebuah cluster, dimana pada skenario keempat percobaan dilakukan
dengan menggunakan dua node yaitu node 1 (laptop 1) dan node 2 (laptop 2).
Berdasarkan hasil percobaan yang dilakukan pada skenario keempat terlihat
bahwa block size dapat mempengaruhi kecepatan proses MapReduce pada Hadoop.
Pada ukuran file 1.5 GB dan 2 GB terlihat bahwa penambahan block size dapat
mempercepat proses MapReduce pada Hadoop. Hal ini dikarenakan dengan
menambah block size akan menghasilkan jumlah block yang lebih sedikit. Jumlah
block pada Hadoop menentukan jumlah task pada suatu pekerjaan (job), dimana
jumlah block merupakan jumlah task yang akan dikerjakan oleh MapReduce pada
Hadoop. Jumlah task yang lebih sedikit dapat memudahkan scheduler task
MapReduce dalam menjadwalkan task yang diberikan sehingga dapat mengurangi
Universitas Indonesia
40
Universitas Indonesia
41
GB, dan 2 GB. Percobaan pada skenario kelima dilakukan sebanyak 15 kali
percobaan dengan jumlah slot map yaitu 2 slot map, 4 slot map, 6 slot map, dan 8
slot map.
1800 1.629,60
1.530,80 1.550,00
1600 1.465,67
1400 1.285,20
1.166,27 1.186,80
Waktu (detik)
1200
512 MB
1000 866,80
750,80 777,33 1 GB
742,67
800
1.5 GB
600 2 GB
361,87 376,47 407,07
352,27
400
200
0
2 4 6 8
Jumlah Slot Map
Gambar 4.9 Grafik pengaruh jumlah slot map terhadap kecepatan MapReduce
skenario kelima
Universitas Indonesia
42
Gambar 4.9 yang merupakan gambaran dari Tabel 4.5 yang memperlihatkan bahwa
jumlah slot map dapat mempengaruhi kecepatan MapReduce pada setiap percobaan
yang dilakukan pada ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan
2 GB.
4.5.2 Analisis
Berdasarkan hasil percobaan yang dilakukan pada skenario kelima terlihat
bahwa jumlah slot map dapat mempengaruhi kecepatan proses MapReduce pada
Hadoop. Pada percobaan skenario kelima dengan menggunakan ukuran file 512, 1
GB, 1.5 GB, dan 2 GB, terlihat bahwa kecepatan MapReduce lebih maksimal ketika
menggunakan 2 slot map dibadingkan dengan menggunakan 4 slot map, 6 slot map,
dan 8 slot map. Hal ini dikarenakan pada skenario kelima machine yang digunakan
adalah laptop dengan CPU dual core, sehingga dengan jumlah 2 slot map akan
mampu memanfaatkan resource yang tersedia dengan baik.
Universitas Indonesia
43
500 453,73
Waktu (detik)
433,00 442,60
413,13
512 MB
400
1 GB
300 1.5 GB
234,47
214,27 203,60
195,47 2 GB
200
77,07 72,07 85,93
100 65,07
0
2 4 6 8
Jumlah Slot Map
Gambar 4.10 Grafik pengaruh jumlah slot map terhadap kecepatan MapReduce
skenario keenam
Gambar 4.10 yang merupakan gambaran dari Tabel 4.6 yang memperlihatkan
bahwa jumlah slot map dapat mempengaruhi kecepatan MapReduce pada setiap
percobaan yang dilakukan dengan menggunakan ukuran file yang bervariasi yaitu
512 MB, 1 GB, 1.5 GB, dan 2 GB.
4.6.2 Analisis
Berdasarkan hasil percobaan yang dilakukan pada skenario keenam terlihat
bahwa jumlah slot map dapat mempengaruhi kecepatan proses MapReduce pada
Hadoop. Pada percobaan skenario keenam dengan ukuran file 512, 1 GB, 1.5 GB,
dan 2 GB, terlihat bahwa performa kecepatan MapReduce pada Hadoop lebih cepat
ketika menggunakan 4 slot map dibadingkan dengan menggunakan 2 slot map, 6
Universitas Indonesia
44
slot map, dan 8 slot map. Hal ini dikarenakan pada skenario keenam machine yang
digunakan adalah PC dengan CPU i7 yang memiliki 4 core, sehingga dengan
jumlah 4 slot map akan mampu memanfaatkan resource yang tersedia dengan baik.
Universitas Indonesia
BAB 5
KESIMPULAN
Dari hasil pengujian dengan melakukan pengukuran dan analisis terhadap performa
kecepatan MapReduce pada Hadoop, maka dapat disimpulkan:
1. Penambahan jumlah physical machine dari satu physical machine menjadi dua
physical machine dengan spesifikasi physical machine yang sesuai perancangan
dapat mempercepat kecepatan rata-rata MapReduce sebesar 161.34 detik pada
ukuran file 512 MB, 328.00 detik pada ukuran file 1 GB, 460.20 detik pada
ukuran file 1.5 GB, dan 525.80 detik pada ukuran file 2 GB.
2. Penambahan jumlah virtual machine dari satu virtual machine menjadi dua
virtual machine dengan spesifikasi virtual machine yang sesuai perancangan
dapat memperlambat kecepatan rata-rata MapReduce sebesar 164.00 detik pada
ukuran file 512 MB, 504.34 detik pada ukuran file 1 GB, 781.27 detik pada
ukuran file 1.5 GB, dan 1070.46 detik pada ukuran file 2 GB.
3. Block size dapat mempengaruhi kecepatan MapReduce pada Hadoop, semakin
besar block size maka akan mempercepat proses MapReduce pada Hadoop
dengan syarat hasil pembagian ukuran file dengan block size lebih besar dari
jumlah slot map (number of tasks > number of slot maps).
4. Jumlah slot map dapat mempengaruhi kecepatan MapReduce pada Hadoop,
dimana performa kecepatan MapReduce lebih cepat jika jumlah slot map pada
Hadoop sesuai dengan jumlah core yang dimiliki oleh machine.
5. Hadoop memiliki keunggulan dalam mengolah data yang memiliki ukuran yang
besar dan jumlah yang banyak karena Hadoop dapat mengolah data tersebut
secara terdistribusi, dimana performa kecepatan Hadoop dalam mengolah data
masih dapat ditingkatkan dengan cara menambah physical machine sebagai
node, selain itu pengaturan parameter block size dan parameter jumlah slot map
yang tepat pada Hadoop juga dapat meningkatkan performa kecepatan
MapReduce pada Hadoop dalam mengolah data.
45
Universitas Indonesia
46
DAFTAR REFERENSI
[1] Leslie Lamport and Nancy Lynch. (1989, February 3). Chapter on
Distributed Computing.
[2] Chuck Lam. (2011). Hadoop In Action. Stamford: Mainning Publications Co.
[3] Tom White. (2009). Hadoop: The Definitive Guide. California: O’Reilly.
[4] Garry Turkington. (2013). Hadoop Beginner's Guide. Birmingham: Packt
Publishing.
[5] Shv, Hairong, SRadia, Chansler. (2010). The Hadoop Distributed File
System. Jurnal IEEE.
[6] Intel Corporation. (2013). Optimizing Java* and Apache Hadoop* for Intel®
Architecture. USA: Intel Corporation.
TM
[7] Apache Hadoop @ homepage. http://hadoop.apache.org/. Diakses 17
Oktober 2013.
[8] JeongJin Cheon, Tae-Young Choe. (2013). Distributed Processing of Snort
Alert Log using Hadoop. International Journal of Engineering and
Technology (IJET).
[9] Aditya B. Patel, Manashvi Birla, Ushma Nair. (2012). Addressing Big Data
Problem Using Hadoop and Map Reduce. Nirma University International
Conference On Engineering.
[10] Amit Anand. (2013). Configuration Parameters dfs.Block.Size. Hadoop.
[11] Dima May. (2012). Hadoop Distributed File System (HDFS) Overview.
coreservlets.com.
[12] Magang Industri. (2013). Definisi Cloud Computing. Meruvian.org Cloud
Computing.
[13] Colin White. (2012, January). MapReduce and the Data Scientist. BI
Research.
[14] R. David Idol. Large-Scale TCP Packet Flow Analysis for C Using Apache™
Hadoop. University of North Carolina at Chapel Hill.
[15] Tutorial dan Konfigurasi Hadoop Single Node.
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-
single-node-cluster/. Diakses pada tanggal 20 Oktober 2013.
Universitas Indonesia
47
Universitas Indonesia
LAMPIRAN
Data Pengukuran
Tabel L.5 Hasil kecepatan MapReduce skenario ketiga pada file 512 MB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 463 348 340 348
2 460 352 336 346
3 462 350 336 346
4 460 355 330 349
5 463 356 323 340
6 459 353 335 342
7 460 355 335 351
8 458 352 341 355
9 463 353 340 353
10 462 345 338 348
11 464 355 336 346
12 463 355 336 346
13 460 352 334 354
14 462 352 336 354
15 464 351 335 353
Rata-Rata Waktu (detik) 461.53 352.27 335.40 348.73
Tabel L.7 Hasil kecepatan MapReduce skenario ketiga pada file 1.5 GB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 1367 1173 1047 1037
2 1365 1163 1047 1034
3 1367 1166 1046 1034
4 1368 1160 1048 1035
5 1367 1168 1050 1034
6 1367 1165 1046 1036
7 1367 1163 1056 1038
8 1368 1170 1040 1035
9 1368 1168 1041 1034
10 1365 1166 1045 1038
11 1362 1169 1046 1036
12 1365 1166 1046 1036
13 1366 1165 1041 1037
14 1367 1163 1043 1039
15 1367 1169 1046 1038
Rata-Rata Waktu (detik) 1366.40 1166.27 1045.87 1036.07
Tabel L.9 Hasil kecepatan MapReduce skenario keempat pada file 512 MB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 204 196 210 264
2 201 191 216 269
3 202 187 215 278
4 203 192 216 274
5 202 191 213 274
6 204 191 210 275
7 205 188 213 269
8 204 190 214 270
9 206 193 216 268
10 206 191 216 270
11 205 194 212 272
12 202 191 209 270
13 201 189 211 266
14 202 188 210 268
15 202 192 209 270
Rata-Rata Waktu (detik) 203.27 190.93 212.67 270.47
Tabel L.11 Hasil kecepatan MapReduce skenario keempat pada file 1.5 GB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 742 715 668 666
2 739 700 671 661
3 740 702 668 664
4 745 706 678 662
5 742 708 665 666
6 743 703 673 666
7 742 703 676 660
8 741 707 676 660
9 742 707 675 662
10 742 710 672 661
11 740 702 670 661
12 742 709 671 659
13 746 706 671 662
14 745 706 671 661
15 743 707 671 662
Rata-Rata Waktu (detik) 742.27 706.07 671.73 662.20
Tabel L.13 Hasil kecepatan MapReduce skenario kelima pada file 512 MB
Jumlah Slot Map
Percobaan
2 Slot 4 Slot 6 Slot 8 Slot
1 348 359 375 408
2 352 359 378 405
3 350 363 378 406
4 355 360 377 406
5 356 362 380 404
6 353 362 375 405
7 355 362 375 408
8 352 362 375 410
9 353 361 379 406
10 345 365 376 405
11 355 363 375 408
12 355 365 376 409
13 352 364 375 410
14 352 362 378 408
15 351 359 375 408
Rata-Rata Waktu (detik) 352.27 361.87 376.47 407.07
Tabel L.15 Hasil kecepatan MapReduce skenario kelima dengan file 1.5 GB
Jumlah Slot Map
Percobaan
2 Slot 4 Slot 6 Slot 8 Slot
1 1173 1189 1284 1465
2 1163 1186 1284 1464
3 1166 1184 1282 1464
4 1160 1186 1286 1465
5 1168 1186 1284 1466
6 1165 1184 1284 1464
7 1163 1184 1286 1465
8 1170 1185 1287 1468
9 1168 1184 1286 1470
10 1166 1186 1286 1468
11 1169 1191 1285 1469
12 1166 1189 1286 1466
13 1165 1191 1288 1465
14 1163 1188 1286 1463
15 1169 1189 1284 1463
Rata-Rata Waktu (detik) 1166.27 1186.80 1285.20 1465.67
Tabel L.17 Hasil kecepatan MapReduce skenario keenam pada file 512 MB
Jumlah Slot Map
Percobaan
2 Slot 4 Slot 6 Slot 8 Slot
1 76 67 70 88
2 76 61 71 87
3 76 66 71 88
4 79 66 70 83
5 79 67 73 83
6 75 67 72 88
7 78 67 73 88
8 78 67 73 85
9 75 63 73 85
10 79 65 71 83
11 77 63 73 83
12 78 65 70 85
13 76 64 72 88
14 76 65 75 87
15 78 63 74 88
Rata-Rata Waktu (detik) 77.07 65.07 72.07 85.93
Tabel L.19 Hasil kecepatan MapReduce skenario keenam pada file 1.5 GB
Jumlah Slot Map
Percobaan
2 Slot 4 Slot 6 Slot 8 Slot
1 431 412 441 453
2 435 412 440 453
3 435 415 442 455
4 433 412 442 453
5 433 413 443 455
6 431 413 442 451
7 432 413 445 453
8 433 412 447 454
9 430 414 445 451
10 431 413 443 455
11 436 415 443 457
12 437 412 441 455
13 435 413 442 455
14 431 413 442 453
15 432 415 441 453
Rata-Rata Waktu (detik) 433.00 413.13 442.60 453.73