Analisis Performa Kecepatan MapReduce Pa

UNIVERSITAS INDONESIA
ANALISIS PERFORMA KECEPATAN MAPREDUCE PADA

HADOOP MENGGUNAKAN TCP PACKET FLOW ANALYSIS
SKRIPSI
PRIAGUNG KHUSUMANEGARA
1006661084
FAKULTAS TEKNIK UNIVERSITAS INDONESIA

DEPARTEMEN TEKNIK ELEKTRO
PROGRAM STUDI TEKNIK KOMPUTER
DEPOK
JUNI 2014
UNIVERSITAS INDONESIA
SKRIPSI
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik
Priagung Khusumanegara
1006661084
FAKULTAS TEKNIK UNIVERSITAS INDONESIA

DEPARTEMEN TEKNIK ELEKTRO
PROGRAM STUDI TEKNIK KOMPUTER
DEPOK
JUNI 2014
HALAMAN PERNYATAAN ORISINALITAS
ii
HALAMAN PENGESAHAN
iii
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa, karena atas berkat
dan rahmat-Nya, proses penulisan skripsi yang berjudul “Analisis Performa
Kecepatan MapReduce Pada Hadoop Menggunakan TCP Packet Flow
Analysis” ini dapat diselesaikan. Penulisan skripsi ini dilakukan dalam rangka
memenuhi persyaratan dari mata kuliah Skripsi yang terdapat dalam kurikulum
program studi Teknik Komputer Universitas Indonesia. Penulis menyadari bahwa
tanpa bantuan dan bimbingan dari berbagai pihak, dari masa perkuliahan sampai
dengan masa penyusunan skripsi, sangatlah sulit bagi penulis untuk menyelesaikan
skripsi ini. Oleh karena itu, penulis mengucapkan terima kasih kepada:
(1) Bapak Yan Maraden Sinaga, ST., M.Sc. selaku dosen pembimbing yang telah
menyediakan waktu, tenaga, dan pikiran untuk mengarahkan penulis dalam
penyusunan skripsi ini,
(2) Para peneliti sebelum ini yang juga memberikan sumber bacaan yang banyak
bagi penulis,
(3) Keluarga tercinta yang telah memberikan dukungan doa, material dan moral,
(4) Rekan-rekan mahasiswa Departemen Teknik Elektro Universitas Indonesia
khususnya angkatan 2010,
(5) Noviyanti Angelina, SH. yang telah memberikan dukungan doa dan moral.
Akhir kata, saya berharap Tuhan Yang Maha Esa berkenan membalas segala
kebaikan semua pihak yang telah membantu. Semoga skripsi ini membawa manfaat
bagi pengembangan ilmu.
Depok, 30 Juni 2014

Penulis
iv
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
UNTUK KEPENTINGAN AKADEMIS
v
Universitas Indonesia
ABSTRAK
Nama : Priagung Khusumanegara

Program Studi : Teknik Komputer
Judul : Analisis Performa Kecepatan MapReduce Pada Hadoop
Menggunakan TCP Packet Flow Analysis
Komputasi terdistribusi merupakan salah satu kemajuan teknologi dalam mengolah

data. Penggunaan komputasi terdistribusi memudahkan user untuk mengolah data
menggunakan beberapa komputer yang secara fisik terpisah atau terdistribusi. Salah
satu teknologi yang menggunakan konsep komputasi terditribusi adalah Hadoop.
Hadoop merupakan framework software berbasis Java dan open source yang
berfungsi untuk mengolah data yang memiliki ukuran yang besar secara
terdistribusi. Hadoop menggunakan sebuah framework untuk aplikasi dan
programming yang disebut dengan MapReduce. Enam skenario diimplementasikan
untuk menganalisa performa kecepatan MapReduce pada Hadoop. Berdasarkan
hasil pengujian yang dilakukan diketahui penambahan jumlah physical machine
dari satu menjadi dua physical machine dengan spesifikasi physical machine yang
sesuai perancangan dapat mempercepat kecepatan rata-rata MapReduce. Pada
ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan physical machine dapat
mempercepat kecepatan rata-rata MapReduce pada masing-masing ukuran file
sebesar 161.34, 328.00, 460.20, dan 525.80 detik. Sedangkan, penambahan jumlah
virtual machine dari satu menjadi dua virtual machine dengan spesifikasi virtual
machine yang sesuai perancangan dapat memperlambat kecepatan rata-rata
MapReduce. Pada ukuran file 512 MB, 1 GB, 1.5 GB, dan 2 GB, penambahan
virtual machine dapat memperlambat kecepatan rata-rata MapReduce pada masing-
masing ukuran file sebesar 164.00, 504.34, 781.27, dan 1070.46 detik. Berdasarkan
hasil pengukuran juga diketahui bahwa block size dan jumlah slot map pada Hadoop
dapat mempengaruhi kecepatan MapReduce.
Kata Kunci: Komputasi terdistribusi, Hadoop, HDFS, MapReduce, Block Size,

Slot Map
vi
ABSTRACT
Name : Priagung Khusumanegara

Major : Computer Engineering
Title : Execution Time Performance Analysis of Hadoop MapReduce
Using TCP Packet Flow Analysis
Distributed computing is one of the advance technology in data processing. The use
of distributed computing allows users to process data using multiple computers that
are separated or distributed physically. One of technology that uses the concept of
distributed computing is Hadoop. Hadoop is a Java-based software framework and
open source which is used to process the data that have a large size in a distributed
manner. Hadoop uses a framework for application and programing which called
MapReduce. Six scenarios are implemented to analyze the speed performance of
Hadoop MapReduce. Based on the study, known that the additional the number of
physical machines from one to two physical machines with suitable specifications
design can speed up the average speed of MapReduce. On file 512 MB, 1 GB, 1.5
GB, and 2 GB size additional the number of physical machines can accelerate
MapReduce average speed on each file size for 161.34, 328.00, 460.20, and 525.80
seconds. Meanwhile, additional the number of virtual machines from one to two
virtual machines with suitable specifications design can slow down the average
speed of MapReduce. On file 512 MB, 1 GB, 1.5 GB, and 2 GB size, additional the
number of virtual machines can slow down the average speed of each MapReduce
on a file size for 164.00, 504.34, 781.27, and 1070.46 seconds. Based on the
measurement result is also known that the block size and number of slot maps in
Hadoop MapReduce can affect speed.
Keywords: Distributed computing, Hadoop, HDFS, MapReduce, Block Size, Slot

Map
vii
DAFTAR ISI
UNIVERSITAS INDONESIA ................................................................................. i

HALAMAN PERNYATAAN ORISINALITAS .................................................... ii
HALAMAN PENGESAHAN ................................................................................ iii
KATA PENGANTAR ........................................................................................... iv
HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI UNTUK
KEPENTINGAN AKADEMIS ...............................................................................v
ABSTRAK ...............................................................................................................v
ABSTRACT .......................................................................................................... vii
DAFTAR ISI ........................................................................................................ viii
DAFTAR GAMBAR ............................................................................................. xi
DAFTAR TABEL ................................................................................................ xiii
BAB 1 PENDAHULUAN ......................................................................................1
1.1 Latar Belakang Penelitian ...........................................................................1
1.2 Tujuan Penelitian ........................................................................................2
1.3 Batasan Masalah .........................................................................................2
1.4 Metodologi Penelitian.................................................................................3
1.5 Sistematika Penulisan .................................................................................3
BAB 2 HADOOP FRAMEWORK .......................................................................5
2.1 Komputasi Terdistribusi .............................................................................5
2.2 Hadoop........................................................................................................5
2.2.1 Arsitektur Hadoop .............................................................................6
2.2.2 Kelebihan Hadoop .............................................................................7
2.3 HDFS ..........................................................................................................7
2.3.1 Model Data HDFS .............................................................................7
2.3.2 Komponen HDFS ..............................................................................8
2.4 MapReduce ...............................................................................................10
2.4.1 Konsep Dasar MapReduce ..............................................................11
2.4.2 Komponen MapReduce ...................................................................13
BAB 3 PERANCANGAN HADOOP..................................................................16
viii
3.1 TCP Packet Flow Analysis .......................................................................16
3.2 Pembuktian Kebenaran Output TCP Packet Flow Analysis dengan
Menggunakan Wireshark ................................................................................20
3.3 Skenario Pertama ......................................................................................21
3.4 Skenario Kedua.........................................................................................23
3.5 Skenario Ketiga ........................................................................................23
3.6 Skenario Keempat.....................................................................................25
3.7 Skenario Kelima .......................................................................................26
3.8 Skenario Keenam ......................................................................................27
3.9 Cara Mengukur Kecepatan MapReduce pada Hadoop.............................28
3.10 Menentukan Block Size pada HDFS .......................................................29
3.11 Menentukan Jumlah Slot map .................................................................30
BAB 4 PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP .......................................................................31
4.1 Pengujian Skenario Pertama .....................................................................31
4.1.1 Hasil Pengukuran .............................................................................31
4.1.2 Analisis ............................................................................................32
4.2 Pengujian Skenario Kedua........................................................................33
4.2.2 Analisis ............................................................................................34
4.3 Pengujian Skenario Ketiga .......................................................................34
4.3.2 Analisis ............................................................................................35
4.4 Pengujian Skenario Keempat....................................................................37
4.4.2 Analisis ............................................................................................39
4.5 Pengujian Skenario Kelima ......................................................................40
4.5.2 Analisis ............................................................................................42
4.6 Pengujian Skenario Keenam .....................................................................42
4.6.2 Analisis ............................................................................................43
ix
BAB 5 KESIMPULAN ........................................................................................45
DAFTAR REFERENSI .......................................................................................46
LAMPIRAN ..........................................................................................................48
x
DAFTAR GAMBAR
Gambar 2.1 Inti Hadoop (a) komponen HDFS (b) komponen MapReduce [9].......6
Gambar 2.2 Komponen HDFS [11] .........................................................................8
Gambar 2.3 NameNode pada HDFS [2] ..................................................................8
Gambar 2.4 Interaksi antara NameNode dan DataNote pada HDFS [2] .................9
Gambar 2.5 Proses mapping [19] ...........................................................................11
Gambar 2.6 Proses shuffle [19] ..............................................................................12
Gambar 2.7 Proses reducing [19]...........................................................................12
Gambar 2.8 Keseluruhan proses MapReduce pada Hadoop [19] ..........................13
Gambar 2.9 Kerja JobTracker pada Hadoop [17] ..................................................14
Gambar 2.10 Kerja TaskTracker pada setiap node [2] ..........................................14
Gambar 3.1 Command line tshark untuk mengkonversi file dari format pcap ke
dalam bentuk plaintext [14] ...................................................................................16
Gambar 3.2 Contoh hasil konversi kedalam bentuk plaintext ...............................17
Gambar 3.3 Pseudocode TCP Packet Flow Analysis.............................................17
Gambar 3.4 Flowchart TCP Packet Flow Analysis ...............................................19
Gambar 3.5 Contoh output TCP Packet Flow Analysis (a) Packet Total (b) Packet
Length.....................................................................................................................20
Gambar 3.6 Contoh isi file pcap pada Wireshark ..................................................21
Gambar 3.7 Output packet total yang dihasilkan TCP Packet Flow Analysis .......21
Gambar 3.8 Output packet length yang dihasilkan TCP Packet Flow Analysis ....21
Gambar 3.9 Rancangan topologi skenario pertama (a) single node (b) multi
node ........................................................................................................................22
Gambar 3.10 Rancangan topologi skenario kedua (a) single node (b) multi node 23
Gambar 3.11 Pembagian block size pada Hadoop yang dijalankan secara single
node ........................................................................................................................24
Gambar 3.12 Pembagian block size pada Hadoop yang dijalankan secara multi
node ........................................................................................................................25
Gambar 3.13 Gambaran slot map pada Hadoop ....................................................26
xi
Gambar 3.14 Rancangan topologi skenario keenam ..............................................27
Gambar 3.15 Command line time pada terminal CentOS 6.3 ................................28
Gambar 3.16 Contoh tampilan JobTracker history pada webservice Hadoop .......28
Gambar 3.17 Command line untuk menentukan block size ...................................29
Gambar 4.1 Grafik pengaruh physical machine terhadap kecepatan MapReduce.32
Gambar 4.2 Grafik pengaruh virtual node terhadap kecepatan MapReduce .........33
Gambar 4.3 Grafik pengaruh block size terhadap kecepatan MapReduce skenario
ketiga ......................................................................................................................35
Gambar 4.4 Gambaran potongan blocks pada file 512 MB pada satu node ..........36
Gambar 4.5 Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block
size 128 MB ...........................................................................................................36
Gambar 4.6 Proses MapReduce pada ukuran file 512 MB dengan block size 256
MB .........................................................................................................................37
keempat ..................................................................................................................38
Gambar 4.8 Gambaran penyebaran blocks pada setiap node .................................39
Gambar 4.9 Grafik pengaruh jumlah slot map terhadap kecepatan MapReduce
skenario kelima ......................................................................................................41
skenario keenam .....................................................................................................43
xii
DAFTAR TABEL
Tabel 3.1 Spesifikasi laptop yang digunakan pada skenario pertama ....................22
Tabel 3.2 Parameter Hadoop skenario pertama .....................................................22
Tabel 3.3 Spesifikasi host dan virtual machine .....................................................23
Tabel 3.4 Spesifikasi laptop yang digunakan pada skenario ketiga .......................24
Tabel 3.5 Parameter Hadoop skenario ketiga ........................................................25
Tabel 3.6 Parameter Hadoop skenario kelima .......................................................27
Tabel 3.7 Spesifikasi PC pada skenario keenam ....................................................28
Tabel 3.8 Konfigurasi block size pada hdfs-site.xml .............................................29
Tabel 3.9 Konfigurasi jumlah slot map pada file mapred-site.xml ........................30
Tabel 4.1 Hasil kecepatan rata-rata MapReduce menggunakan physical
machine ..................................................................................................................31
Tabel 4.2 Hasil kecepatan rata-rata MapReduce menggunakan virtual node ........33
Tabel 4.3 Hasil kecepatan rata-rata MapReduce skenario ketiga ..........................35
Tabel 4.4 Hasil kecepatan rata-rata MapReduce skenario keempat ......................38
Tabel 4.5 Hasil kecepatan rata-rata MapReduce skenario kelima .........................41
Tabel 4.6 Hasil kecepatan rata-rata MapReduce skenario keenam........................43
xiii
BAB 1
PENDAHULUAN
Pada bab ini akan dijelaskan mengenai latar belakang, tujuan, batasan
masalah, metodologi serta sistematika penulisan pada penelitian ini.
1.1 Latar Belakang Penelitian

Saat ini adalah era dimana teknologi sangat berkembang dengan cepat dan
pesat. Seiring dengan berkembangnya teknologi yang ada, maka ukuran data yang
diolah juga akan semakin besar. Data yang semakin besar ukurannya tersebut dan
sudah sangat sulit untuk dikoleksi, disimpan, dikelola maupun dianalisa dengan
menggunakan sistem database biasa dikarenakan ukurannya yang terus bertambah
disebut dengan big data [2]. International Data Corporation memperkirakan ukuran
data semesta digital berada pada angka 0.18 zettabytes (1 zettabytes = 10247 bytes),
serta meramalkan akan menjadi 10 kali lipatnya setiap 5 tahun [2].
Data yang memiliki ukurannya yang semakin besar tentunya membutuhkan
tempat penyimpanan yang sangat besar dan sistem pengelolaan yang tepat agar
mudah dalam mengolahnya. Ada beberapa platform yang dapat digunakan untuk
menyimpan dan mengolah data yang berukuran besar (big data) antara lain
1010data, Actian, Amazon Web Services (AWS), Cloudera, IBM SmartCloud,
Rackspace, dan lain-lain. Untuk dapat menyimpan dan mengolah data yang
berukuran besar (big data) secara baik dan cepat dibutuhkan teknologi komputer
yang khusus yang disebut high performance computer atau super computer, akan
tetapi untuk membangun suatu sistem super computer tersebut membutuhkan biaya
yang tidak murah. Untuk mengatasi masalah ini, maka platforms yang digunakan
untuk menyimpan dan mengolah big data menggunakan sebuah sistem yang
disebut parallel computing.
Parallel computing adalah penggunaan beberapa komputer yang saling
terhubung untuk mengolah data dalam ukuran yang besar. Salah satu platform yang
masih sering digunakan sampai saat ini untuk mengolah data yang berukuran besar
(big data) secara terdistribusi dan dapat berjalan diatas cluster adalah Hadoop.
Hadoop merupakan sebuah framework software berbasis Java dan open source.
1
2
Hadoop pertama kali diperkenalkan oleh Doug Cutting, yaitu seorang pembuat
Apache Lucene. Project Hadoop ini berasal dari project Apache Nutch yang
merupakan sebuah open source web search engine sebagai bagian dari project
Lucene.
Hadoop memiliki file system khusus yang bernama Hadoop Distributed File
System (HDFS). Hadoop Distributed File System (HDFS) berbeda dengan file
system biasa karena HDFS memiliki block size yang lebih besar yaitu 64 MB
dibandingkan dengan file system biasa yang memiliki ukuran 4 KB atau 8 KB. Hal
ini dikarenakan Hadoop dirancang untuk mengolah data dalam ukuran yang besar.
Hadoop menggunakan sebuah framework untuk aplikasi dan programming yang
disebut dengan MapReduce untuk mengolah data yang besar. MapReduce ini
memungkinkan Hadoop untuk mengolah data secara paralel dan terdistribusi dalam
ratusan bahkan ribuan komputer, sehingga MapReduce sangat tepat untuk
dijakankan pada Hadoop.
1.2 Tujuan Penelitian

Tujuan dilaksanakan penelitian ini adalah:
1. Mengimplementasikan sebuah program untuk mengolah data aliran paket
TCP pada sebuah jaringan.yang dapat dijalankan secara terditribusi oleh
Hadoop,
2. Percobaan terhadap enam skenario berdasarkan topologi yang telah
dirancang,
3. Melakukan analisis pengaruh physical node, virtual node, block size dan
jumlah slot map terhadap kecepatan MapReduce pada Hadoop.
1.3 Batasan Masalah

Ruang lingkup dari pembahasan skripsi ini terbatas pada hal-hal berikut ini:
1. Membahas performa kecepatan MapReduce pada Hadoop dalam mengolah
data aliran paket TCP pada sebuah jaringan.
2. Perancangan yang dibuat adalah dengan menjalankan Hadoop secara single
node dan multi node (cluster).
3
3. Physical machine yang digunakan terdiri dari dua laptop yang memiliki
spesifikasi CPU dual core, RAM 4 GB dengan sistem operasi CentOS 6.3
dan satu PC yang memiliki spesifikasi CPU i7, RAM 4 GB dengan sistem
operasi CentOS 6.3.
4. Virtual machine yang digunakan memiliki spesifikasi CPU one core, RAM 1
GB dengan sistem operasi CentOS 6.3 yang berjalan diatas VMWare
Workstasion 10 pada sebuah laptop yang memiliki spesifikasi CPU dual core,
RAM 4 GB dengan sistem operasi CentOS 6.3.
5. Ukuran file yang digunakan untuk di proses oleh MapReduce dibatasi hanya
menggunakan lima ukuran file yang berbeda yaitu 512 MB, 1 GB, 1.5 GB,
dan 2 GB.
6. Block size yang digunakan dibatasi hanya menggunakan ukuran 32 MB, 64
MB, 128 MB, dan 256 MB.
7. Jumlah slot map dibatasi hanya menggunakan 2 slot map, 4 slot map, 6 slot
map, dan 8 slot map.
1.4 Metodologi Penelitian

Metode yang digunakan dalam membantu penulisan skripsi ini yaitu:
1. Studi literatur, yaitu pencarian jurnal-jurnal ilmiah, pencarian buku dan
sumber referensi lainnya. Kemudian mempelajari dan memahami konsep
Hadoop baik secara single node maupun multi node dan konsep MapReduce
yang berjalan pada Hadoop.
2. Konsultasi kepada pembimbing skripsi mengenai perancangan dan skenario
yang akan dilakukan.
3. Melakukan percobaan dari perancangan dan skenario yang telah dibuat.
4. Melakukan pengamatan, pengambilan data, analisis dan penarikan
kesimpulan dari percobaan yang dilakukan.
1.5 Sistematika Penulisan

Pembahasan pada skripsi ini meliputi lima bab yang akan mengacu pada
sistematika berikut:
4
BAB I PENDAHULUAN
Pada bab ini akan dijelaskan latar belakang, tujuan, batasan masalah, metodologi
dan sistematika penulisan pada penelitian ini.
BAB II HADOOP FRAMEWORK
Pada bab ini akan dijelaskan teori-teori yang menunjang percobaan yang dilakukan.
BAB III HADOOP FRAMEWORK
Pada bab ini akan dijelaskan mengenai rancangan dari sistem Hadoop baik dari segi
perangkat lunak dan komponen perangkat keras yang digunakan. Kemudian
penjelasan enam skenario yang akan diuji serta parameter pengujiannya.
BAB IV PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP
Pada bab ini menjelaskan hasil pengujian dan pengambilan data beserta analisisnya.
BAB V KESIMPULAN
Pada bab ini menjelaskan kesimpulan yang diperoleh dari hasil penelitian pada
skripsi ini.
BAB 2
HADOOP FRAMEWORK
Pada bab ini akan dijelaskan teori dasar yang melandasi sistem Hadoop yang
akan dirancang, terdiri dari teori komputasi terdistribusi, arsitektur Hadoop,
kelebihan Hadoop, dan penjelasan setiap komponen yang terdapat pada arsitektur
Hadoop.
2.1 Komputasi Terdistribusi

Berdasarkan [1] komputasi terdistribusi adalah penggunaan terkoordinasi dari
komputer yang secara fisik terpisah atau terdistribusi. Tujuan dari komputasi
terdistribusi adalah menyatukan kemampuan dari sumber daya (sumber komputasi
atau sumber informasi) yang terpisah secara fisik ke dalam suatu sistem gabungan
yang terkoordinasi dengan kapasitas yang jauh melebihi dari kapasitas individual
komponen-komponennya sehingga dapat mempercepat proses pekerjaan yang
dilakukan.
Cara kerja dari komputasi terdistribusi ini berdasarkan [1] adalah proses
perkerjaan yang dilakukan dijalankan secara bersamaan untuk mencapai tujuan
yang sama dimana koordinasi aktifitas dan pertukaran informasi yang dilakukan
dikirim melalui jaringan komunikasi. Salah satu framework yang mendukung
komputasi terdistribusi ini adalah Apache Hadoop.
2.2 Hadoop
Hadoop merupakan framework software berbasis Java dan open source yang
berfungsi untuk mengolah data yang memiliki ukuran yang besar secara
terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang
saling terhubung (parallel computing) [2]. Berdasarkan [13] Hadoop dapat
mengolah data dalam jumlah yang sangat besar hingga petabyte (1 petabyte = 10245
bytes) dan dijalankan di atas ratusan bahkan ribuan komputer. Hadoop dibuat oleh
Doug Cutting yang pada asalnya Hadoop ini adalah sub project dari Nutch yang
digunakan untuk search engine. Hadoop bersifat open source dan berada di bawah
bendera Apache Software Foundation.
5
6
2.2.1 Arsitektur Hadoop

Hadoop terdiri dari common Hadoop yang berguna dalam menyediakan akses
ke dalam file system yang didukung oleh Hadoop. Common Hadoop ini berisi paket
yang diperlukan oleh JAR file, skrip yang dibutuhkan untuk memulai Hadoop dan
dokumentasi pekerjaan yang telah dilakukan oleh Hadoop.
Bedasarkan [2] inti dari Hadoop adalah terdiri dari:
1. Hadoop Distributed File System (HDFS)  Untuk data yang terdistribusi.
2. MapReduce  Framework untuk aplikasi dan programming yang
terdistribusi.
Gambar 2.1 Inti Hadoop (a) komponen HDFS (b) komponen MapReduce [9]
Gambar 2.1 menggambarkan bagian inti Hadoop yang terdiri dari HDFS dan
MapReduce. Pada Gambar 2.1 (a) menggambarkan komponen dari HDFS yang
terdiri dari NameNode, DataNode, dan Secondary NameNode dan Gambar 2.1 (b)
menggambarkan komponen dari MapReduce yang terdiri dari JobTracker dan
TaskTracker.
Sebuah cluster kecil pada Hadoop dapat terdiri dari satu master node dan
beberapa slave node. Master node ini terdiri dari NameNode dan JobTracker,
sedangkan slave node terdiri dari DataNode dan TaskTracker. Hadoop
membutuhkan JRE 1.6 atau JRE dengan versi yang lebih tinggi. Dalam
menjalankan dan menghentikan sistem pada Hadoop dibutuhkan ssh yang harus
dibentuk antar node pada sebuah cluster [12].
7
2.2.2 Kelebihan Hadoop

Komputasi terdistribusi merupakan bidang yang sangat beragam dan luas,
namun Hadoop memiliki beberapa kelebihan yang dapat membedakannya dengan
yang lain, berdasarkan [2] kelebihan Hadoop adalah sebagai berikut:
1. Mudah untuk di akses
Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada layanan
komputasi awan seperti Amazon Elastic Compute Cloud (EC2).
2. Stabil
Hadoop sangat baik dalam menangani sebuah masalah yang muncul ketika
sedang memproses sebuah pekerjaan, hal ini dikarenakan dari awalnya Hadoop
memang ditunjukan untuk di jalankan pada komuditas perangkat keras.
3. Memiliki skala yang besar
Hadoop memiliki jangkauan skala yang besar, sehingga dapat menghandle
ketika adanya pertambahan jumlah node dalam sebuah cluster.
4. Mudah digunakan
Hadoop sangat mudah dijalankan dan digunakan pada single node maupun
multi node.
2.3 HDFS
Hadoop Distributed File System (HDFS) merupakan file system berbasis Java
yang terdistribusi pada Hadoop [2]. Sebagai file system terdistribusi, HDFS berguna
untuk menangani data dalam jumlah besar yang disimpan dan tersebar didalam
banyak komputer yang berhubungan yang biasa disebut dengan cluster. File system
terdistribusi pada Hadoop dapat diartikan sebagai file system yang menyimpan data
tidak dalam satu Hard Disk Drive (HDD) atau media penyimpanan lainnya, tetapi
data dipecah-pecah (file dipecah dalam bentuk block dengan ukuran 64 MB – bisa
dikonfigurasi besarnya) dan disimpan tersebar dalam suatu cluster yang terdiri dari
beberapa komputer.
2.3.1 Model Data HDFS

HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan-
potongan data yang berukuran 64 MB (default), dan potongan-potongan data
8
tersebut kemudian disimpan tersebar dalam setiap node yang membentuk

clusternya. Potongan-potongan data tersebut didalam HDFS disebut block. Ukuran
block pada setiap file tidak terpaku harus 64 MB, dimana ukuran block tersebut
dapat disesuaikan dengan keinginan user. Meskipun data yang ada disimpan secara
tersebar ke beberapa node, namun dari kacamata user, data tersebut tetap terlihat
seperti halnya kita mengakses file pada satu komputer. File yang secara fisik
tersebar dalam banyak komputer dapat diperlakukan layaknya memperlakukan file
dalam satu komputer.
2.3.2 Komponen HDFS

Sebagai file system terdistribusi, HDFS memiliki komponen-komponen
utama berupa NameNode, DataNode, dan Secondary NameNode [2]. Arsitektur
ketiga komponen tersebut dapat dilihat pada Gambar 2.2.
Secondary
NameNode
NameNode
DataNode DataNode DataNode DataNode
Node 1 Node 2 Node 3 Node N
Gambar 2.2 Komponen HDFS [11]
a. NameNode
NameNode terdapat pada komputer yang bertindak sebagai master yang
mengkoordinasi DataNode untuk melakukan beberapa tugas (jobs) [5]. NameNode
ini adalah pusat dari sistem berkas pada HDFS. Gambaran NameNode yang berada
pada master sebagai pusat sistem berkas HDFS dapat dilihat pada Gambar 2.3.
NameNode
(Master)
DataNode DataNode
(Slave1) (Slave2)
Gambar 2.3 NameNode pada HDFS [2]
9
NameNode membuat sistem direktori dari semua file yang ada di dalam
sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi
beberapa blocks data serta mengetahui nodes yang menyimpan blocks data tersebut
[2].
b. DataNode
Berdasarkan [2] DataNode adalah salah satu komponen dari HDFS yang
berfungsi untuk menyimpan dan mengambil kembali data pada slave node pada
setiap permintaan yang dilakukan oleh NameNode. DataNode berada pada setiap
slave node pada sebuah cluster yang telah dibuat.
DataNode juga berfungsi untuk membaca dan menulis block pada HDFS ke
file yang sebenarnya pada local file system. Sebagai contoh apabila user ingin
membaca atau menulis file ke HDFS, file tersebut akan dipecah menjadi beberapa
block, kemudian NameNode akan memberitahu dimana blocks tersebut berada
sehingga DataNode dapat membaca dan menulis blocks tersebut ke file yang
sebenarnya pada file system [2].
NameNode
(Master)
File metadata:
/user/hadoop/data1 -> 1,2,3
/user/hadoop/data2 -> 4,5
3 3 5 3 1 4
5 4 5 2 4
2 1 4 1 2
DataNode DataNode DataNode DataNode

(Slave 1) (Slave 2) (Slave 3) (Slave 4)
Gambar 2.4 Interaksi antara NameNode dan DataNote pada HDFS [2]
Pada Gambar 2.4 terlihat bahwa NameNode menjaga jalur dari file metadata
dimana setiap file tersebut adalah sebuah sistem yang dipecah-pecah menjadi
beberapa block [2]. DataNode menyimpan backup dari pecahan-pecahan block
tersebut dan secara berkala memberitahu kepada NameNode untuk tetap menjaga
10
jalur dari file metadata. Selama sistem berjalan, DataNode terhubung dengan
NameNode dan melakukan sebuah handshake. Bedasarkan [5] handshake ini
bertujuan untuk melakukan verifikasi terhadap namespace ID dan juga software
version pada sebuah DataNode.
Namespace ID adalah sebuah ID yang muncul ketika pertama kali melakukan
format pada NameNode [5]. Namespace ID ini disimpan pada semua node yang ada
pada sebuah cluster. Jika ada node yang memiliki namespace ID yang berbeda
maka node tersebut tidak akan dapat bergabung pada sebuah cluster. Tujuan adanya
namespace ID ini adalah untuk menjaga integritas dari HDFS.
Sofware version adalah versi software yang digunakan oleh Hadoop [5].
Konsistensi pada software version ini sangat penting, karena jika software version
yang digunakan berbeda maka akan menyebabkan file corrupt pada sebuah sistem.
Jika salah satu node memiliki namespace ID dan juga software version tidak sama
dengan nodes yang lain, maka node tersebut tidak akan terdaftar pada sistem cluster
yang ada [5].
c. Secondary NameNode
Bedasarkan [2] Secondary NameNode adalah daemon yang berfungsi
melakukan monitoring keadaan dari cluster HDFS. Sama seperti NameNode, pada
setiap cluster yang ada terdapat satu Secondary NameNode, yang berada pada
master node. Secondary NameNode ini juga berfungsi untuk membantu dalam
meminimalkan down time dan hilangnya data yang terjadi pada HDFS [2].
Secondary NameNode ini sering menimbulkan kesalahpahaman pengertian
bahwa apabila NameNode down maka akan langsung digantikan oleh Secondary
NameNode padahal Secondary NameNode ini hanya menyimpan informasi terbaru
dari struktur direktori pada NameNode [12]. Jadi jika terjadi kegagalan yang
dilakukan oleh NameNode maka dibutuhkan konfigurasi yang dilakukan oleh user
untuk menjadikan Secondary NameNode sebagai NameNode yang utama.
2.4 MapReduce
MapReduce sebuah framework untuk aplikasi dan programming yang
diperkenalkan oleh Google dan digunakan untuk melakukan suatu pekerjaan dari
11
komputasi terdistribusi yang dijalankan pada sebuah cluster [7]. MapReduce ini
terdiri dari konsep fungsi map dan reduce yang biasa digunakan pada functional
programming [12].
Salah satu program yang menggunakan konsep MapReduce yang telah
disediakan oleh Hadoop adalah WordCount. WordCount merupakan program yang
bertujuan untuk menghitung kata pada file plaintext. Proses MapReduce pada
WordCount ini dibagi menjadi 2 tahap yaitu proses mapping dan reducing.
2.4.1 Konsep Dasar MapReduce

Hadoop menyediakan dua jenis slot untuk melakukan MapReduce yaitu slot
map dan slot reduce. Secara default Hadoop telah menentukan jumlah slot map dan
slot reduce untuk setiap node yaitu dua slot map dan satu slot reduce. Pada saat
memproses data, Hadoop terlebih dahulu melakukan proses mapping pada task
yang terdapat pada slot map sampai selesai kemudian dilanjutkan dengan proses
reduce pada slot reduce.
Proses mapping: pertama WordCount menginput file plaintext yang
tersimpan pada direktori HDFS. Kemudian WordCount akan membagi file plaintext
tersebut menjadi beberapa bagian yang berisikan kata yang muncul pada file input
dan nilai 1 pada setiap kata yang ada. Gambaran pada saat WordCount melakukan
proses mapping ini dapat dilihat pada Gambar 2.5.
Apple, 1
Mango, 1
Orange, 1
Apple, Mango, Orange Mango, 1

Mango, Banana, Apple Banana, 1
Orange, Banana, Apple Apple, 1
Orange, 1
Banana, 1
Apple, 1
Gambar 2.5 Proses mapping [19]
Pada Gambar 2.5 terlihat sebuah file input yang berisikan kata-kata yang
dibagi menjadi beberapa bagian yang berisikan kata dan nilai 1 pada setiap kata
12
yang ada. Setelah proses mapping ini selesai maka akan dilanjutkan dengan proses
shuffle yang berfungsi untuk menggabungkan kata-kata yang sama untuk
mempersiapkan proses reducing. Gambaran dari proses shuffle ini dapat dilihat
pada Gambar 2.6.
Apple, 1
Apple, 1 Apple, 1
Mango, 1 Apple, 1
Orange, 1
Mango, 1 Banana, 1
Banana, 1 Banana, 1
Apple, 1
Orange, 1 Mango, 1
Banana, 1 Mango, 1
Apple, 1
Orange, 1
Orange, 1
Gambar 2.6 Proses shuffle [19]
Proses reducing: pada proses ini terjadi penggabungan kata yang sama setelah
proses shuffle dan menghitung jumlah kata yang sama tersebut. Gambaran proses
reducing ini dapat dilihat pada Gambar 2.7.
Apple, 1
Apple, 1 Apple, 3
Apple, 1
Banana, 1
Banana, 2
Banana, 1
Mango, 1
Mango, 2
Mango, 1
Orange, 1
Orange, 2
Orange, 1
Gambar 2.7 Proses reducing [19]
13
Gambaran proses MapReduce yang terjadi secara keseluruhan dapat dilihat

pada Gambar 2.8.
Gambar 2.8 Keseluruhan proses MapReduce pada Hadoop [19]
Gambar 2.8 menggambarkan sebuah data yang dibagi menjadi beberapa bagian
yang kemudian pada setiap bagian dilakukan proses mapping, dan setelah proses
mapping selesai bagian-bagian data tersebut di acak (shuffle) untuk melalui proses
reducing.
Keuntungan dari MapReduce adalah proses map dan reduce yang dapat
diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing
bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu
yang sama, selama output dari proses mapping mengirimkan key value yang sesuai
dengan proses reducingnya. Didalam Hadoop, MapReduce ini terdiri dari satu
JobTracker dan beberapa TaskTracker pada sebuah cluster.
2.4.2 Komponen MapReduce

MapReduce yang terdapat pada Hadoop memiliki 2 komponen utama penting
yaitu:
a. JobTracker
JobTracker adalah sebuah komponen dari MapReduce yang berfungsi untuk
memecah pekerjaan (job) yang diberikan ke HDFS menjadi beberapa tasks yang
lebih kecil berdasarkan jumlah slave yang ada [2]. Setelah pekerjaan (job) tersebut
14
dipecah-pecah menjadi beberapa tasks, JobTracker akan memberikan pekerjaan-

pekerjaan tersebut kepada setiap slave node yang terdapat di dalam cluster tersebut.
JobTracker secara berkala mengkoordinasi semua tasks yang diberikan kepada
TaskTracker menggunakan scheduler task (pengatur tugas), kemudian TaskTracker
akan mengerjakan tasks tersebut. Setelah TaskTracker menyelesaikan task yang
diberikan, maka TaskTracker akan meminta task yang baru kepada JobTracker.
Gambaran kerja dari JobTracker dapat dilihat pada Gambar 2.9.
Gambar 2.9 Kerja JobTracker pada Hadoop [17]
b. TaskTracker
TasTracker adalah sebuah daemon yang berfungsi untuk menerima tugas
(task) yang diberikan oleh JobTracker dan kemudian mengerjakan task tersebut ke
dalam Java Virtual Machine (JVM) yang terpisah, dengan menjalakan task tersebut
ke dalam Java Virtual Machine (JVM) yang terpisah, maka hal ini akan mengurangi
beban pekerjaan yang dilakukan secara paralel yang diberikan oleh JobTracker.
Gambar 2.10 Kerja TaskTracker pada setiap node [2]
15
Gambar 2.10 menggambarkan bagaimana sebuah JobTracker yang berkomunikasi

dengan beberapa TaskTracker yang melakukan proses MapReduce. Secara konstan
TaskTracker terus bekomunikasi dengan JobTracker dengan memberikan laporan
setiap proses yang telah dilakukan. Jika JobTracker gagal menerima hasil task yang
dikerjalan oleh TaskTracker, maka JobTracker akan mengirimkan kembali task
tersebut kepada nodes lain pada cluster tersebut untuk dikerjakan ulang.
BAB 3
PERANCANGAN HADOOP
Pada bab ini akan membahas mengenai skenario yang dibuat, topologi pada
setiap skenario dan perangkat keras yang digunakan. Skenario yang digunakan
yaitu terbagi menjadi 6 bagian dengan keperluan pengambilan data untuk menguji
performa kecepatan MapReduce pada Hadoop. Pada setiap skenario yang diuji akan
menggunakan program yang menggunakan konsep MapReduce yang bernama TCP
Packet Flow Analysis yang berfungsi untuk menganalisa data aliran paket TCP dan
protokol yang terdapat pada sebuah jaringan.
3.1 TCP Packet Flow Analysis

TCP Packet Flow Analysis adalah sebuah program yang menggunakan
konsep MapReduce dalam menganalisa aliran paket yang terdapat pada sebuah
jaringan menggunakan Hadoop. File yang diproses oleh program ini adalah file
dengan format pcap yang telah dikonversi ke dalam bentuk plaintext. Dalam
penelitian ini, untuk mengkonversi file dengan format pcap ke dalam bentuk
plaintext digunakan tool yang bernama tshark. Command line yang digunakan
untuk mengkonversi file dari format pcap menjadi bentuk plaintext dapat dilihat
pada Gambar 3.1.
tshark -T fields -n -r inputdata.pcap -e frame.time -e

tcp.len -e ip.src -e tcp.srcport -e ip.dst -e tcp.dstport
-e col.Protocol > outputdata.txt
Gambar 3.1 Command line tshark untuk mengkonversi file dari format pcap ke
dalam bentuk plaintext [14]
Command line pada Gambar 3.1 berfungsi untuk menyeleksi bagian

timestamp, length (size in bytes), source IP address, source TCP port, destination
IP address, destination TCP port, dan protocol pada file dengan format pcap yang
kemudian disimpan ke dalam bentuk plaintext. Contoh hasil konversi dari command
line yang terdapat pada Gambar 3.1 dapat dilihat pada Gambar 3.2.
16
17
Gambar 3.2 Contoh hasil konversi kedalam bentuk plaintext
TCP Packet Flow Analysis ini cocok dijalankan pada Hadoop karena program
ini menggunakan konsep MapReduce sehingga dapat dijalankan pada satu
komputer maupun beberapa komputer (cluster). Pseudocode dari TCP Packet Flow
Analysis dapat dilihat pada Gambar 3.3 dan flowchart dari TCP Packet Flow
Analysis dapat dilihat pada Gambar 3.4.
Map:
reads the input line by line
split a string into separate "hasilPecahInput"
if: hasilPecahInput[2] > 1
create a token for hasilPecahInput[2] and hasilPecahInput[4]
while: token available from the hasilPecahInput[2] and hasilPecahInput[4]
set keyword: Koneksi "hasilPecahInput[2]" dan "hasilPecahInput[4]" Protokol "hasilPecahInput[6]"
else: set keyword : Koneksi protokol "hasilPecahInput[6]"
set lengthValue from value of hasilPecahInput[1]
create a pair <keyword,"Packet", one>
create a pair <keyword,"Length", lengthValue>
Reduce:
split pair into separate "splitKey" with comma is the separator
set splitKey[0] to keyOut
if: spiltKey[1] = 'Packet'
increment sumPacket
set sumPacket as outputValue
display ("PacketTotal", keyOut, outputValue)
else : increment sumLength
set PacketLength as outputValue
display ("PacketLength", keyOut, outputValue”)
Gambar 3.3 Pseudocode TCP Packet Flow Analysis
18
Start
Reads the
input line by
line
Split a string into

separate
“hasilPecahInput”
No If Yes
hasilPecahInput [2] > 1
Set keyword: Koneksi Create token for

protokol hasilPecahInput[2]
“hasilPecahInput[6]” and
hasilPecahInput[4]
No
While: token available
Yes
Set keyword: Koneksi
“hasilPecahInput[2]”
dan
Protokol
Set lengthValue from

value of
hasilPecahInput[1]
Create a pair
<keyword,”Packet”,
one>
19
Create a pair
<keyword, ”Length”,
lengthValue)
Split pair into separate

“splitKey” with comma
is the separator
Set splitKey[0] to
keyOut
No If Yes
splitKey[1] = ‘Packet’
Increment sumLength Increment sumPacket
Set sumLength as Set sumPacket as

outputValue outputValue
Display Display
(“PacketLength” (“PacketTotal”,
, keyOut, keyOut,
outputValue) outputValue)
Stop
Gambar 3.4 Flowchart TCP Packet Flow Analysis
20
Output pada TCP Packet Flow Analysis terdiri dari dua bagian yaitu bagian
pertama adalah file packet total dan bagian kedua adalah file packet length.
Gambaran contoh output program TCP Packet Flow Analysis dapat dilihat pada
Gambar 3.5.
Gambar 3.5 Contoh output TCP Packet Flow Analysis (a) Packet Total (b) Packet
Length
Gambar 3.5 (a) menggambarkan isi output file packet total yang terdiri dari
ip source, ip destination, protocol yang digunakan, dan sum of packet. Gambar 3.5
(b) menggambarkan isi output file packet length yang terdiri dari ip source, ip
destination, protocol yang digunakan, dan packet length (bytes).
3.2 Pembuktian Kebenaran Output TCP Packet Flow Analysis dengan

Menggunakan Wireshark
Pembuktian kebenaran output dari TCP Packet Flow Analysis dapat
menggunakan software yang disebut Wireshark. Wireshark digunakan untuk
membuka file pcap sebelum dikonversi kedalam file plaintext untuk membuktikan
21
bahwa TCP Packet Flow Analysis menghasilkan output yang sesuai dengan isi file
pcap. Gambaran dari contoh isi file pcap yang dibuka menggunakan aplikasi
Wireshark dapat dilihat pada Gambar 3.6.
Gambar 3.6 Contoh isi file pcap pada Wireshark
Gambar 3.6 menggambarkan contoh isi dari file pcap yang terdiri dari bagian time,
ip source, ip destination, protocol, length, dan info. Berdasarkan isi file pcap yang
terdapat pada Gambar 3.6, terlihat bahwa ip source 0.144.63.250 dan ip destination
64.159.221.130 berkomunikasi sebanyak 2 kali menggunakan protocol TCP
dengan total TCP length sebesar 36 bytes dan ip source 30.94.98.12 dan ip
destination 64.159.221.140 berkomunikasi sebanyak 2 kali menggunakan protocol
TCP dengan total TCP length sebesar 0 bytes . Output packet total dan output packet
length dari TCP Packet Flow Analysis dalam mengolah file pcap tersebut dapat
dilihat pada Gambar 3.7 dan Gambar 3.8.
Gambar 3.7 Output packet total yang dihasilkan TCP Packet Flow Analysis
Gambar 3.8 Output packet length yang dihasilkan TCP Packet Flow Analysis
Pada Gambar 3.7 dapat dilihat bahwa output packet total yang dihasilkan oleh TCP
Packet Flow Analysis sesuai dengan isi file pcap pada Wireshark, begitu juga pada
output packet length pada Gambar 3.8 yang menunjukkan output yang sesuai
dengan isi file pcap pada Wireshark.
3.3 Skenario Pertama

Skenario pertama bertujuan untuk menganalisis perfoma kecepatan
MapReduce pada Hadoop yang dijalankan pada physical machine. Pada skenario
22
pertama, Hadoop dijalankan pada physical machine secara single node dan multi
node (cluster). Topologi skenario pertama pada saat menjalankan Hadoop secara
single node dan multi node dapat dilihat pada Gambar 3.9. Spesifikasi laptop yang
digunakan pada skenario pertama pada saat menjalankan Hadoop secara single
node dan multi node (cluster) dapat dilihat pada Tabel 3.1.
Gambar 3.9 Rancangan topologi skenario pertama (a) single node (b) multi node
Tabel 3.1 Spesifikasi laptop yang digunakan pada skenario pertama

Hardware Laptop 1 Laptop 2
AMD Dual Core, Intel Dual Core,
CPU
Clock Speed 1.48 GHz Clock Speed 2.0 GHz
RAM 4.00 GB 4.00 GB
Sistem Operasi CentOS 6.3 CentOS 6.3
Pada skenario pertama, ukuran file yang digunakan pada saat single node
maupun multi node (cluster) yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario
pertama, parameter Hadoop yang digunakan adalah parameter secara default yang
dapat dilihat pada Tabel 3.2.
Tabel 3.2 Parameter Hadoop skenario pertama

Parameter Value
Block Size 64 MB
Slot Map 2
23
3.4 Skenario Kedua

Pada skenario kedua percobaan dilakukan menggunakan sebuah software
yang mendukung laptop untuk melakukan virtualisasi yaitu VMWare Workstation
10. VMWare Workstation 10 diinstall pada sebuah laptop yang menjalankan sebuah
sistem operasi CentOS 6.3 dan kemudian laptop tersebut menjalankan satu virtual
machine untuk single node dan dua virtual node untuk multi node. Topologi pada
skenario kedua saat menjalankan Hadoop dapat dilihat pada Gambar 3.10.
Spesifikasi laptop (host) dan masing-masing virtual machine yang dijalankan baik
secara single node maupun multi node (cluster) dapat dilihat pada Tabel 3.3.
Gambar 3.10 Rancangan topologi skenario kedua (a) single node (b) multi node
Tabel 3.3 Spesifikasi host dan virtual machine

Hardware Host VM 1 VM 2
AMD Dual Core,
CPU One Core One Core
Clock Speed 1.48 GHz
RAM 4.00 GB 1.00 GB 1.00 GB
Sistem Operasi CentOS 6.3 CentOS 6.3 CentOS 6.3
Pada skenario kedua, ukuran file yang digunakan pada saat single node
maupun multi node yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario kedua,
parameter Hadoop yang digunakan adalah parameter yang sama dengan Tabel 3.2.
3.5 Skenario Ketiga

Skenario ketiga bertujuan untuk menganalisis pengaruh block size terhadap
kecepatan MapReduce pada Hadoop yang dijalankan secara single node. Topologi
24
pada skenario ketiga sama dengan topologi pada Gambar 3.9 (a) dengan
menggunakan perangkat yang memiliki spesifikasi yang dapat dilihat pada Tabel
3.4.
Tabel 3.4 Spesifikasi laptop yang digunakan pada skenario ketiga

Hardware Laptop 1
CPU AMD Dual Core, Clock Speed 1.48 GHz
RAM 4.00 GB
Sistem Operasi CentOS 6.3
Pada skenario ketiga, percobaan akan dilakukan menggunakan ukuran file

yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dengan menggunakan
ukuran block size yang bervariasi untuk setiap ukuran file yaitu 32 MB, 64 MB, 128
MB, dan 256 MB. Gambaran pembagian block size pada skenario ketiga dapat
dilihat pada Gambar 3.11.
Gambar 3.11 Pembagian block size pada Hadoop yang dijalankan secara single
node
Gambar 3.11 menunjukan gambaran Hadoop dalam membagi sebuah file

yang memiliki ukuran besar menjadi beberapa block. Blocks tersebut merupakan
potongan-potongan file yang memiliki ukuran kecil yang berasal dari file yang
25
memiliki ukuran besar. Pada skenario ketiga, parameter Hadoop yang digunakan
dapat diliat pada Tabel 3.5.
Tabel 3.5 Parameter Hadoop skenario ketiga

Parameter Value
Block Size 32 MB, 64 MB, 128 MB, dan 256 MB
Slot Map 2
3.6 Skenario Keempat

Skenario keempat bertujuan untuk menganalisis pengaruh block size terhadap
kecepatan MapReduce pada Hadoop yang dijalankan secara multi node. Topologi
pada skenario keempat sama dengan topologi pada Gambar 3.9 (b) dengan
spesifikasi perangkat yang sama dengan Tabel 3.1.
Pada skenario keempat, percobaan akan dilakukan menggunakan ukuran file
yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dengan menggunakan
ukuran block size yang bervariasi untuk setiap ukuran file yaitu 32 MB, 64 MB, 128
MB, dan 256 MB. Gambaran pembagian block size pada skenario keempat dapat
Gambar 3.12 Pembagian block size pada Hadoop yang dijalankan secara multi
node
26
Gambar 3.12 menunjukan gambaran Hadoop dalam membagi sebuah file

yang memiliki ukuran besar menjadi beberapa beberapa block. Pada skenario
keempat, potongan blocks tersebut akan dibagikan secara merata pada setiap node
yang ada pada sebuah cluster. Pada skenario empat, parameter Hadoop yang
digunakan adalah parameter yang sama dengan Tabel 3.5.
3.7 Skenario Kelima

Skenario kelima bertujuan untuk menganalisis pengaruh jumlah slot map
terhadap kecepatan MapReduce pada Hadoop. Topologi pada skenario kelima sama
seperti topologi pada Gambar 3.9 (a) yaitu menjalankan Hadoop secara single node
menggunakan satu laptop dengan spesifikasi yang sama dengan Tabel 3.4.
Pecobaan akan dilakukan menggunakan parameter jumlah slot map yang bervariasi
pada setiap percobaan yaitu 2 slot map, 4 slot map, 6 slot map, dan 8 slot map.
Contoh gambaran slot map pada Hadoop dapat dilihat pada Gambar 3.13.
Gambar 3.13 Gambaran slot map pada Hadoop
27
Gambar 3.13 menunjukan slot map yang akan memproses setiap block yang
ada. Pada skenario kelima percobaan akan dilakukan menggunakan ukuran file
yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario kelima,
parameter Hadoop yang digunakan dapat diliat pada Tabel 3.6.
Tabel 3.6 Parameter Hadoop skenario kelima

Parameter Value
Block Size 64 MB
Slot Map 2, 4, 6, dan 8
3.8 Skenario Keenam

Skenario keenam bertujuan untuk menganalisis pengaruh jumlah slot map
terhadap kecepatan MapReduce pada Hadoop. Skenario keenam akan menjalankan
Hadoop secara single node dengan menggunakan satu PC sebagai node. Topologi
pada skenario keenam dapat dilihat pada Gambar 3.14. Spesifikasi PC yang
digunakan pada skenario keenam pada saat menjalankan Hadoop secara single node
dapat dilihat pada Tabel 3.7.
Gambar 3.14 Rancangan topologi skenario keenam
28
Tabel 3.7 Spesifikasi PC pada skenario keenam

Hardware PC
CPU Intel i7-2600 , Clock Speed 3.4 GHz
RAM 4.00 GB
Sistem Operasi CentOS 6.3
Pada skenario keenam percobaan akan dilakukan menggunakan ukuran file

yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada skenario keenam,
parameter Hadoop yang digunakan adalah parameter yang sama dengan Tabel 3.6.
3.9 Cara Mengukur Kecepatan MapReduce pada Hadoop

Terdapat dua cara menentukan kecepatan MapReduce pada Hadoop. Cara
pertama yaitu dengan menggunakan command line pada terminal CentOS 6.3
dengan menuliskan perintah time dan cara kedua adalah dengan mengakses
tampilan webservice untuk melihat JobTracker history pada Hadoop, dimana pada
JobTracker history tersebut dapat diketahui seluruh history untuk setiap jobs yang
telah dikerjaan oleh Hadoop. Gambaran cara pertama dapat dilihat pada Gambar
3.15 dan gambaran cara kedua dapat dilihat pada Gambar 3.16.
.
$ time bin/hadoop jar tcppacketflow.jar /file_input /file_output
Gambar 3.15 Command line time pada terminal CentOS 6.3
Gambar 3.16 Contoh tampilan JobTracker history pada webservice Hadoop
Pada penelitian ini, cara yang digunakan untuk mengukur kecepatan

MapReduce pada Hadoop adalah dengan menggunakan cara kedua yaitu dengan
29
mengakses tampilan webservice yang disediakan oleh Hadoop untuk melihat

JobTracker history untuk setiap jobs yang telah diselesaikan oleh Hadoop.
3.10 Menentukan Block Size pada HDFS

Secara default Hadoop membagi file menjadi beberapa block dengan ukuran
64 MB pada setiap block. Akan tetapi blok-blok tersebut dapat diubah-ubah
ukurannya dengan menggunakan dua cara, yaitu dengan cara melakukan
konfigurasi pada file hdfs-site.xml atau dengan melakukan pembagian pada saat
mengcopy file dari lokal sistem kedalam HDFS. Cara pertama dapat dilakukan
dengan cara memasukkan konfigurasi yang ada pada Tabel 3.8 ke dalam file hdfs-
site.xml.
Tabel 3.8 Konfigurasi block size pada hdfs-site.xml

Konfigurasi pada hdfs-site.xml
<property>
<name>dfs.block.size</name>
<value>67108864</value>
</property>
Nilai yang terdapat pada tag value menunjukan ukuran block dalam bytes
pada HDFS. Besar nilai pada tag value dapat diganti sesuai dengan keinginan pada
saat sebelum menjalankan Hadoop. Cara kedua dapat dilakukan pada saat setelah
menjalankan Hadoop, yaitu dengan cara memasukkan command line yang dapat
$hadoop fs -D dfs.block.size=67108864 -put /local disk/

hadoop file system
Gambar 3.17 Command line untuk menentukan block size
Fungsi dari command line yang terdapat pada Gambar 3.17 adalah membagi
file menjadi beberapa block sesuai dengan parameter pada dfs.block.size yang
diinginkan dan mengcopy file tersebut dari local disk ke dalam HDFS. Pada
30
percobaan ini cara yang dilakukan adalah menggunakan cara kedua dalam
mengatur block size pada Hadoop.
3.11 Menentukan Jumlah Slot map

Secara default Hadoop memiliki dua slot map. Akan tetapi jumlah slot map
tersebut dapat divariasikan jumlahnya dengan melakukan konfigurasi pada file
mapred-site.xml yang terdapat pada folder conf pada Hadoop. Konfigurasi file
mapred-site.xml untuk melakukan perubahan pada jumlah slot map dapat dilihat
pada Tabel 3.9.
Tabel 3.9 Konfigurasi jumlah slot map pada file mapred-site.xml

Konfigurasi pada mapred-site.xml
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>2</value>
</property>
Nilai pada tag name menunjukan nama parameter yang dapat diganti pada
Hadoop yaitu jumlah slot map. Nilai yang terdapat pada tag value menentukan
jumlah slot map yang akan dijalankan oleh Hadoop.
BAB 4
PENGUKURAN DAN ANALISIS PERFORMA KECEPATAN
MAPREDUCE PADA HADOOP
Perancangan yang telah dibuat dengan skenario dan topologi yang

disarankan pada bab sebelumnya, selanjutnya dilakukan pengambilan data dan
analisis. Analisis dilakukan dengan tujuan untuk menganalisis performa kecepatan
MapReduce pada Hadoop pada setiap skenario yang telah dirancang pada bab
sebelumnya.
4.1 Pengujian Skenario Pertama

Skenario pertama bertujuan untuk mengetahui pengaruh physical machine
sebagai node terhadap performa kecepatan MapReduce pada Hadoop. Skenario
pertama menjalankan Hadoop secara single node dan multi node menggunakan
physical machine. Ukuran file yang diproses oleh MapReduce pada skenario
pertama adalah 512 MB, 1 GB, 1.5 GB, dan 2 GB. Percobaan pada skenario pertama
dilakukan sebanyak 15 kali percobaan.
4.1.1 Hasil Pengukuran

Hasil performa kecepatan rata-rata MapReduce pada skenario pertama
dengan menjalankan Hadoop secara single node dan multi node (cluster)
menggunakan physical machine dapat dilihat pada Tabel 4.1 dan Gambar 4.1.
Tabel 4.1 Hasil kecepatan rata-rata MapReduce menggunakan physical machine

Jumlah Physical Kecepatan (detik)
Machine File 512 MB File 1 GB File 1.5 GB File 2 GB
1 Node 352.27 742.67 1166.27 1530.80
2 Node 190.93 414.67 706.07 1005.00
31
32
Pengaruh Physical Machine Terhadap Kecepatan MapReduce

1800
1.530,80
1600
1400
1166,27
1200
Waktu (detik)
1000
742,67 1.005,00
800 1 Node
2 Node
600 706,07
352,27
400
414,67
200
190,93
0
512 MB 1 GB 1.5 GB 2 GB
Ukuran File
Gambar 4.1 Grafik pengaruh physical machine terhadap kecepatan MapReduce
Gambar 4.1 yang merupakan gambaran dari Tabel 4.1 memperlihatkan bahwa
jumlah physical node pada setiap percobaan yang dilakukan dengan menggunakan
ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat
mempengaruhi kecepatan proses MapReduce pada Hadoop. Pada Gambar 4.1
terlihat bahwa penambahan jumlah physical node dapat mempercepat proses
MapReduce pada Hadoop.
4.1.2 Analisis
Berdasarkan hasil pengukuran yang dilakukan pada skenario pertama
terlihat bahwa penambahan jumlah physical machine sebagai node dapat
mempercepat proses MapReduce pada Hadoop. Penambahan jumlah physical
machine dari satu physical machine menjadi dua physical machine dengan
spesifikasi physical machine yang sesuai perancangan dapat mempercepat
kecepatan rata-rata MapReduce sebesar 161.34 detik pada ukuran file 512 MB,
328.00 detik pada ukuran file 1 GB, 460.20 detik pada ukuran file 1.5 GB, dan
525.80 detik pada ukuran file 2 GB.
Hal ini terjadi karena setiap node akan mengambil resource dari machine
yang berbeda. Node pertama mengambil resource dari laptop 1 dan node kedua
33
mengambil resource dari laptop 2, sehingga dengan menambah jumlah physical

node sebagai node akan memperingan kerja dari cluster yang telah dibuat.
4.2 Pengujian Skenario Kedua

Skenario kedua bertujuan untuk mengetahui pengaruh virtual machine
sebagai node terhadap performa kecepatan MapReduce pada Hadoop. Skenario
kedua akan menjalankan Hadoop secara single node dan multi node menggunakan
virtual machine. Ukuran file yang diproses oleh MapReduce pada skenario kedua
untuk setiap percobaan adalah 512 MB, 1 GB, 1.5 GB, dan 2 GB. Percobaan pada
skenario kedua dilakukan sebanyak 15 kali percobaan.

Hasil performa kecepatan rata-rata MapReduce dengan menjalankan Hadoop
menggunakan satu virtual machine dan dengan menggunakan dua virtual machine
sebagai node dapat dilihat pada Tabel 4.2.
Tabel 4.2 Hasil kecepatan rata-rata MapReduce menggunakan virtual node

Jumlah Virtual Kecepatan (detik)
Machine File 512 MB File 1 GB File 1.5 GB File 2 GB
1 VM 481.40 911.93 1356.13 1814.67
2 VM 645.40 1416.27 2137.40 2885.13
Pengaruh Virtual Machine Terhadap Kecepatan MapReduce
3500
2.885,13
3000
2500 2.137,40
Waktu (detik)
2000
1.416,27
1500 1.814,67 1 VM
2 VM
1000 645,40 1.356,13
500 911,93
481,40
0
512 MB 1 GB 1.5 GB 2 GB
Ukuran File
Gambar 4.2 Grafik pengaruh virtual node terhadap kecepatan MapReduce
34
Gambar 4.2 yang merupakan gambaran dari Tabel 4.2 yang memperlihatkan bahwa
jumlah virtual node pada setiap percobaan yang dilakukan dengan menggunakan
ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat
mempengaruhi kecepatan proses MapReduce pada Hadoop. Pada Gambar 4.2
terlihat bahwa penambahan jumlah virtual node dapat memperlambat proses
MapReduce pada Hadoop.
4.2.2 Analisis
Pada skenario kedua penambahan jumlah virtual machine sebagai node dapat
memperlambat proses MapReduce pada Hadoop. Penambahan jumlah virtual
machine dari satu virtual machine menjadi dua virtual machine dengan spesifikasi
virtual machine yang sesuai perancangan dapat memperlambat kecepatan rata-rata
MapReduce sebesar 164.00 detik pada ukuran file 512 MB, 504.34 detik pada
ukuran file 1 GB, 781.27 detik pada ukuran file 1.5 GB, dan 1070.46 detik pada
ukuran file 2 GB.
Hal ini terjadi karena setiap virtual machine mengambil resource dari
machine yang sama yaitu dari laptop yang menjalankan virtual machine tersebut.
Hal ini menyebabkan kecepatan MapReduce menjadi lambat ketika penambahan
jumlah virtual machine sebagai node dikarenakan akan memperberat kerja dari
laptop yang menjalankan virtual machine tersebut. Hal ini menyebabkan kecepatan
MapReduce pada Hadoop dengan menggunakan virtual machine akan lebih lambat
dibandingan dengan menggunakan physical machine.
4.3 Pengujian Skenario Ketiga

Skenario ketiga bertujuan untuk mengetahui pengaruh block size terhadap
performa kecepatan MapReduce pada Hadoop yang dijalankan secara single node
dengan menggunakan satu laptop sebagai node. Ukuran file yang diproses oleh
MapReduce pada skenario ketiga yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB.
Percobaan pada skenario ketiga dilakukan sebanyak 15 kali percobaan dengan
ukuran block size yang bervariasi yaitu 32 MB, 64 MB, 128 MB, dan 256 MB.
35

Hasil performa kecepatan rata-rata MapReduce pada skenario ketiga dengan
menggunakan block size 32 MB, 64 MB, 128 MB, dan 256 MB pada ukuran file
512 MB, 1 GB, 1.5 GB, dan 2 GB dapat dilihat pada Tabel 4.3.
Tabel 4.3 Hasil kecepatan rata-rata MapReduce skenario ketiga
Ukuran Kecepatan (detik)

File Block 32 MB Block 64 MB Block 128 MB Block 256 MB
512 MB 461.53 352.27 335.40 348.73
1 GB 909.07 742.67 643.33 626.47
1.5 GB 1366.40 1166.27 1045.87 1036.07
2 GB 1822.40 1530.80 1447.20 1399.47
Pengaruh Block Size Terhadap Kecepatan MapReduce Pada Hadoop (1 node)

2000 1.822,40
1800
1.530,80
1600 1.447,20 1.399,47
1366,4
1400
1166,27
Waktu (detik)
1200 1045,87 1036,07

909,07 512 MB
1000
742,67 1 GB
800 643,33 626,47
1.5 GB
600 461,53
352,27 335,40 348,73 2 GB
400
200
0
32 MB 64 MB 128 MB 256 MB
Block Size
ketiga
Gambar 4.3 yang merupakan gambaran dari Tabel 4.3 yang memperlihatkan
bahwa block size dapat mempengaruhi performa kecepatan MapReduce pada
Hadoop untuk setiap percobaan yang dilakukan pada ukuran file yang bervariasi
yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB.
4.3.2 Analisis
Pada skenario ketiga, file dengan ukurn 512 MB, 1 GB, 1.5 GB, dan 2GB
akan dipotong menjadi beberapa blocks. User dapat memastiakan files tersebut
36
telah terpotong menjadi beberapa blocks dengan cara mengakses webservice untuk
melihat kondisi HDFS yang disediakan oleh Hadoop. Gambaran blocks tersebut
tersebut dapat dilihat pada Gambar 4.4. Berdasarkan Gambar 4.4 dapat terlihat
bahwa file dengan ukuran 512 MB dipotong-potong menjadi 8 blocks yang
disimpan pada node 1 (laptop 1).
Gambar 4.4 Gambaran potongan blocks pada file 512 MB pada satu node
Berdasarkan hasil percobaan yang dilakukan pada skenario ketiga terlihat

bahwa pengubahan parameter block size pada setiap ukuran file dapat
mempengaruhi kecepatan proses MapReduce pada Hadoop. Pada ukuran file 1 GB,
1.5 GB, dan 2 GB terlihat bahwa penambahan block size dapat mempercepat proses
MapReduce pada Hadoop. Hal ini dikarenakan dengan menambah block size akan
menghasilkan jumlah block yang lebih sedikit. Jumlah block pada Hadoop
menentukan jumlah task pada suatu pekerjaan (job), dimana jumlah block
merupakan jumlah task yang akan dikerjakan oleh MapReduce. Hal ini dapat
terlihat pada Gambar 4.5.
Gambar 4.5 Jumlah task pada file 1 GB dengan (a) block size 64 MB (b) block
size 128 MB
37
Pada Gambar 4.5 (a) dan Gambar 4.5 (b) menunjukan bahwa jumlah task pada
ukuran file 1 GB dengan block size 64 MB menghasilkan 16 tasks yang artinya lebih
banyak dibandingkan dengan jumlah task pada ukuran file 1 GB dengan block size
128 MB yang menghasilkan 8 tasks. Jumlah task yang lebih sedikit pada ukuran file
1 GB dengan block size 128 MB dapat memudahkan scheduler task MapReduce
dalam menjadwalkan task yang diberikan sehingga dapat mengurangi kerja dari
scheduler task MapReduce yang berpengaruh terhadap kecepatan MapReduce pada
Hadoop. Selain itu dengan jumlah task yang semakin sedikit hal ini dapat
mengurangi waktu komunikasi antara scheduler task MapReduce dengan
JobTracker dan JobTracker dengan TaskTracker dalam permintaan task, sehingga
hal ini menyebabkan waktu proses MapReduce pada Hadoop semakin cepat.
Pada ukuran file 512 MB dengan block size 256 MB terlihat bahwa kecepatan
MapReduce pada Hadoop lebih lambat jika dibandingan dengan menggunakan
block size 128 MB. Hal ini dikarenakan pada ukuran file 512 MB dengan block size
256 MB akan menghasilkan 2 tasks, yang artinya bahwa 2 tasks tersebut langsung
dimapping seluruhnya secara bersamaan sampai selesai karena secara default
jumlah slot map pada Hadoop adalah 2 slot map untuk setiap node. Setelah proses
mapping dari seluruh tasks yang ada selesai baru dilakukan proses reducing. Hal
ini dapat dilihat pada Gambar 4.6.
Gambar 4.6 Proses MapReduce pada ukuran file 512 MB dengan block size 256
MB
Proses MapReduce pada ukuran file 512 MB dengan block size 256 MB yang
ditunjukkan Gambar 4.6 dapat menyebabkan keterlambatan MapReduce dalam
melakukan proses reducing sehingga terjadi penerunan kecepatan MapReduce.
4.4 Pengujian Skenario Keempat

Skenario keempat bertujuan untuk mengetahui pengaruh block size terhadap
performa kecepatan MapReduce pada Hadoop yang dijalankan secara multi node
38
dengan menggunakan dua laptop sebagai node. Ukuran file yang diproses oleh
MapReduce pada skenario keempat yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB.
Percobaan pada skenario keempat dilakukan sebanyak 15 kali percobaan dengan
ukuran block size yang bervariasi yaitu 32 MB, 64 MB, 128 MB, dan 256 MB.

Hasil performa kecepatan rata-rata MapReduce pada skenario keempat
dengan menggunakan block size 32 MB, 64 MB, 128 MB, dan 256 MB dapat dilihat
pada Tabel 4.4.
Tabel 4.4 Hasil kecepatan rata-rata MapReduce skenario keempat

Ukuran Kecepatan (detik)
File Block 32 MB Block 64 MB Block 128 MB Block 256 MB
512 MB 203.27 190.93 212.67 270.47
1 GB 457.73 414.67 383.13 421.53
1.5 GB 742.27 706.07 671.73 662.20
2 GB 1031.93 1005.00 857.27 783.13
Pengaruh Block Size Terhadap Kecepatan MapReduce pada Hadoop

(2 node)
1200
1.031,93 1.005,00
1000
857,27
783,13
800 742,27
706,07
671,73
Waktu (detik)
662,20
512 MB
600
457,73 1 GB
414,67 421,53
383,13 1.5 GB
400
270,47 2 GB
203,27 190,93 212,67
200
0
32 MB 64 MB 128 MB 256 MB
Block Size
keempat
39
Gambar 4.7 yang merupakan gambaran dari Tabel 4.4 memperlihatkan bahwa
block size dapat mempengaruhi kecepatan MapReduce pada setiap percobaan yang
dilakukan dengan menggunakan ukuran file yang bervariasi yaitu 512 MB, 1 GB,
1.5 GB, dan 2 GB.
4.4.2 Analisis
Pada skenario keempat, blocks pada Hadoop akan disebar pada masing-
masing node yang terdapat pada cluster. User dapat memastikan blocks tersebut
tersebar pada setiap node dengan cara mengakses webservice untuk melihat kondisi
HDFS yang disediakan oleh Hadoop. Gambaran dari penyebaran blocks tersebut
tersebut dapat dilihat pada Gambar 4.8.
Gambar 4.8 Gambaran penyebaran blocks pada setiap node
Pada Gambar 4.8 terlihat bahwa setiap block tersebar pada setiap node yang
terdapat pada sebuah cluster, dimana pada skenario keempat percobaan dilakukan
dengan menggunakan dua node yaitu node 1 (laptop 1) dan node 2 (laptop 2).
Berdasarkan hasil percobaan yang dilakukan pada skenario keempat terlihat
bahwa block size dapat mempengaruhi kecepatan proses MapReduce pada Hadoop.
Pada ukuran file 1.5 GB dan 2 GB terlihat bahwa penambahan block size dapat
mempercepat proses MapReduce pada Hadoop. Hal ini dikarenakan dengan
menambah block size akan menghasilkan jumlah block yang lebih sedikit. Jumlah
block pada Hadoop menentukan jumlah task pada suatu pekerjaan (job), dimana
jumlah block merupakan jumlah task yang akan dikerjakan oleh MapReduce pada
Hadoop. Jumlah task yang lebih sedikit dapat memudahkan scheduler task
MapReduce dalam menjadwalkan task yang diberikan sehingga dapat mengurangi
40
kerja dari scheduler task MapReduce yang berpengaruh terhadap kecepatan

MapReduce. Selain itu, dengan jumlah task yang semakin sedikit dapat mengurangi
waktu komunikasi antara scheduler task MapReduce dengan JobTracker dan
JobTracker dengan TaskTracker dalam permintaan task, sehingga hal ini dapat
menyebabkan waktu proses MapReduce semakin cepat.
Pada ukuran file 512 MB dengan block size 128 MB dan 256 MB dan ukuran
file 1 GB dengan block size 256 MB terlihat bahwa kecepatan MapReduce pada
Hadoop semakin lambat meskipun block size yang dimiliki sudah diperbesar. Hal
ini dikarenakan pada ukuran file 512 MB dengan block size 128 MB dan ukuran file
1 GB dengan block size 256 MB akan menghasilkan jumlah task sebanyak 4 tasks.
Pada skenario keempat, Hadoop dijalankan secara multi node (cluster)
menggunakan 2 nodes dimana masing masing node memiliki 2 slot map, sehingga
total dari jumlah slot map yang terdapat pada cluster adalah 4 slot map. Hal ini
menyebabkan 4 tasks yang dihasilkan oleh file 512 MB dengan block size 128 MB
dan file 1 GB dengan block size 256 MB akan dimapping sampai selesai kemudian
baru akan dilakukan reducing, sehingga dapat memperlambat proses reducing
dikarenakan proses reducing baru dapat dilakukan setelah seluruh proses mapping
pada task yang ada selesai.
Pada ukuran file 512 MB dengan block size 256 MB terjadi penurunan
kecepatan MapReduce pada Hadoop karena jumlah task yang dihasilkan sebanyak
2 tasks. Hal ini menyebabkan jumlah task lebih sedikit dibandingkan dengan jumlah
slot map yang ada sehingga seluruh tasks yang ada akan dimapping seluruhnya
secara bersamaan sampai selesai dan kemudian setelah itu baru dilakukan proses
reducing. Hal ini dapat menyebabkan keterlambatan MapReduce dalam melakukan
proses reducing, sehingga menyebabkan proses MapReduce menjadi lebih lama.
4.5 Pengujian Skenario Kelima

Skenario kelima bertujuan untuk mengetahui pengaruh jumlah slot map pada
Hadoop terhadap performa kecepatan MapReduce pada Hadoop yang dijalankan
secara single node dengan menggunakan satu laptop yang memiliki spesifikasi CPU
AMD dual core, RAM 4 GB dan sistem operasi CentOS 6.3 sebagai node. Ukuran
file yang diproses oleh MapReduce pada skenario kelima yaitu 512 MB, 1 GB, 1.5
41
GB, dan 2 GB. Percobaan pada skenario kelima dilakukan sebanyak 15 kali
percobaan dengan jumlah slot map yaitu 2 slot map, 4 slot map, 6 slot map, dan 8
slot map.

Hasil performa kecepatan rata-rata MapReduce pada skenario kelima dengan
menggunakan 2 slot map, 4 slot map, 6 slot map, dan 8 slot map pada ukuran file
Tabel 4.5 Hasil kecepatan rata-rata MapReduce skenario kelima

Kecepatan (detik)
Ukuran File
2 Slot 4 Slot 6 Slot 8 Slot
512 MB 352.27 361.87 376.47 407.07
1 GB 742.67 750.80 777.33 866.80
1.5 GB 1166.27 1186.80 1285.20 1465.67
2 GB 1530.80 1550.00 1629.60 1896.73
Pengaruh Jumlah Slot Map Terhadap Kecepatan MapReduce Skenario

Kelima
2000 1.896,73
1800 1.629,60
1.530,80 1.550,00
1600 1.465,67
1400 1.285,20
1.166,27 1.186,80
Waktu (detik)
1200
512 MB
1000 866,80
750,80 777,33 1 GB
742,67
800
1.5 GB
600 2 GB
361,87 376,47 407,07
352,27
400
200
0
2 4 6 8
Jumlah Slot Map
skenario kelima
42
Gambar 4.9 yang merupakan gambaran dari Tabel 4.5 yang memperlihatkan bahwa
jumlah slot map dapat mempengaruhi kecepatan MapReduce pada setiap percobaan
yang dilakukan pada ukuran file yang bervariasi yaitu 512 MB, 1 GB, 1.5 GB, dan
2 GB.
4.5.2 Analisis
Berdasarkan hasil percobaan yang dilakukan pada skenario kelima terlihat
bahwa jumlah slot map dapat mempengaruhi kecepatan proses MapReduce pada
Hadoop. Pada percobaan skenario kelima dengan menggunakan ukuran file 512, 1
GB, 1.5 GB, dan 2 GB, terlihat bahwa kecepatan MapReduce lebih maksimal ketika
menggunakan 2 slot map dibadingkan dengan menggunakan 4 slot map, 6 slot map,
dan 8 slot map. Hal ini dikarenakan pada skenario kelima machine yang digunakan
adalah laptop dengan CPU dual core, sehingga dengan jumlah 2 slot map akan
mampu memanfaatkan resource yang tersedia dengan baik.
4.6 Pengujian Skenario Keenam

Skenario keenam bertujuan untuk mengetahui pengaruh jumlah slot map pada
Hadoop terhadap performa kecepatan MapReduce pada Hadoop yang dijalankan
secara single node dengan menggunakan satu PC yang memiliki spesifikasi CPU
Intel i7-2600, RAM 4 GB dan sistem operasi CentOS 6.3 sebagai node. Ukuran file
yang diproses oleh MapReduce pada skenario keenam bervariasi yaitu 512 MB, 1
GB, 1.5 GB, dan 2 GB. Percobaan pada skenario keenam dilakukan sebanyak 15
kali percobaan dengan jumlah slot map yaitu 2 slot map, 4 slot map, 6 slot map dan
8 slot map.

Hasil performa kecepatan rata-rata MapReduce pada skenario keenam dengan
menggunakan 2 slot map, 4 slot map, 6 slot map, dan 8 slot map pada ukuran file
43
Tabel 4.6 Hasil kecepatan rata-rata MapReduce skenario keenam

Kecepatan (detik)
Ukuran File
512 MB 77.07 65.07 72.07 85.93
1 GB 214.27 195.47 203.60 234.47
1.5 GB 433.00 413.13 442.60 453.73
2 GB 595.13 576.87 647.60 695.87
Pengaruh Jumlah Slot Map Terhadap Kecepatan MapReduce Skenario

Keenam
800
695,87
700 647,60
595,13
576,87
600
500 453,73
Waktu (detik)
433,00 442,60
413,13
512 MB
400
1 GB
300 1.5 GB
234,47
214,27 203,60
195,47 2 GB
200
77,07 72,07 85,93
100 65,07
0
2 4 6 8
Jumlah Slot Map
skenario keenam
Gambar 4.10 yang merupakan gambaran dari Tabel 4.6 yang memperlihatkan
bahwa jumlah slot map dapat mempengaruhi kecepatan MapReduce pada setiap
percobaan yang dilakukan dengan menggunakan ukuran file yang bervariasi yaitu
512 MB, 1 GB, 1.5 GB, dan 2 GB.
4.6.2 Analisis
Berdasarkan hasil percobaan yang dilakukan pada skenario keenam terlihat
bahwa jumlah slot map dapat mempengaruhi kecepatan proses MapReduce pada
Hadoop. Pada percobaan skenario keenam dengan ukuran file 512, 1 GB, 1.5 GB,
dan 2 GB, terlihat bahwa performa kecepatan MapReduce pada Hadoop lebih cepat
ketika menggunakan 4 slot map dibadingkan dengan menggunakan 2 slot map, 6
44
slot map, dan 8 slot map. Hal ini dikarenakan pada skenario keenam machine yang
digunakan adalah PC dengan CPU i7 yang memiliki 4 core, sehingga dengan
jumlah 4 slot map akan mampu memanfaatkan resource yang tersedia dengan baik.
BAB 5
KESIMPULAN
Dari hasil pengujian dengan melakukan pengukuran dan analisis terhadap performa
kecepatan MapReduce pada Hadoop, maka dapat disimpulkan:
1. Penambahan jumlah physical machine dari satu physical machine menjadi dua
physical machine dengan spesifikasi physical machine yang sesuai perancangan
dapat mempercepat kecepatan rata-rata MapReduce sebesar 161.34 detik pada
ukuran file 512 MB, 328.00 detik pada ukuran file 1 GB, 460.20 detik pada
ukuran file 1.5 GB, dan 525.80 detik pada ukuran file 2 GB.
2. Penambahan jumlah virtual machine dari satu virtual machine menjadi dua
virtual machine dengan spesifikasi virtual machine yang sesuai perancangan
dapat memperlambat kecepatan rata-rata MapReduce sebesar 164.00 detik pada
ukuran file 512 MB, 504.34 detik pada ukuran file 1 GB, 781.27 detik pada
ukuran file 1.5 GB, dan 1070.46 detik pada ukuran file 2 GB.
3. Block size dapat mempengaruhi kecepatan MapReduce pada Hadoop, semakin
besar block size maka akan mempercepat proses MapReduce pada Hadoop
dengan syarat hasil pembagian ukuran file dengan block size lebih besar dari
jumlah slot map (number of tasks > number of slot maps).
4. Jumlah slot map dapat mempengaruhi kecepatan MapReduce pada Hadoop,
dimana performa kecepatan MapReduce lebih cepat jika jumlah slot map pada
Hadoop sesuai dengan jumlah core yang dimiliki oleh machine.
5. Hadoop memiliki keunggulan dalam mengolah data yang memiliki ukuran yang
besar dan jumlah yang banyak karena Hadoop dapat mengolah data tersebut
secara terdistribusi, dimana performa kecepatan Hadoop dalam mengolah data
masih dapat ditingkatkan dengan cara menambah physical machine sebagai
node, selain itu pengaturan parameter block size dan parameter jumlah slot map
yang tepat pada Hadoop juga dapat meningkatkan performa kecepatan
MapReduce pada Hadoop dalam mengolah data.
45
46
DAFTAR REFERENSI
[1] Leslie Lamport and Nancy Lynch. (1989, February 3). Chapter on
Distributed Computing.
[2] Chuck Lam. (2011). Hadoop In Action. Stamford: Mainning Publications Co.
[3] Tom White. (2009). Hadoop: The Definitive Guide. California: O’Reilly.
[4] Garry Turkington. (2013). Hadoop Beginner's Guide. Birmingham: Packt
Publishing.
[5] Shv, Hairong, SRadia, Chansler. (2010). The Hadoop Distributed File
System. Jurnal IEEE.
[6] Intel Corporation. (2013). Optimizing Java* and Apache Hadoop* for Intel®
Architecture. USA: Intel Corporation.
TM
[7] Apache Hadoop @ homepage. http://hadoop.apache.org/. Diakses 17
Oktober 2013.
[8] JeongJin Cheon, Tae-Young Choe. (2013). Distributed Processing of Snort
Alert Log using Hadoop. International Journal of Engineering and
Technology (IJET).
[9] Aditya B. Patel, Manashvi Birla, Ushma Nair. (2012). Addressing Big Data
Problem Using Hadoop and Map Reduce. Nirma University International
Conference On Engineering.
[10] Amit Anand. (2013). Configuration Parameters dfs.Block.Size. Hadoop.
[11] Dima May. (2012). Hadoop Distributed File System (HDFS) Overview.
coreservlets.com.
[12] Magang Industri. (2013). Definisi Cloud Computing. Meruvian.org Cloud
Computing.
[13] Colin White. (2012, January). MapReduce and the Data Scientist. BI
Research.
[14] R. David Idol. Large-Scale TCP Packet Flow Analysis for C Using Apache™
Hadoop. University of North Carolina at Chapel Hill.
[15] Tutorial dan Konfigurasi Hadoop Single Node.
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-
single-node-cluster/. Diakses pada tanggal 20 Oktober 2013.
47
[16] Tutorial dan Konfigurasi Hadoop Multi Node.

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-
multi-node-cluster/. Diakses pada tanggal 21 Oktober 2013.
[17] MapReduce Hadoop. http://www.yalescientific.org/2012/03/hadapt-yale-
startup/. Diakses pada tanggal 29 Oktober 2013.
[18] Interaction between the JobTracker, TaskTracker and the Scheduler @
homepage. http://www.thecloudavenue.com/2011/11/interaction-between-
jobtracker.html. Diakses pada tanggal 29 Oktober 2013.
[19] The overall MapReduce WordCount process.
http://www.rabidgremlin.com/data20/#%283%29. Diakses pada tanggal 30
Oktober 2013.
[20] Thinking in MapReduce. https://engineering.cerner.com/2013/07/thinking-
in-mapreduce/. Diakses pada tanggal 30 Oktober 2013.
LAMPIRAN
Data Pengukuran
Tabel L.1 Hasil percobaan menggunakan satu physical node

Ukuran File
Percobaan
512 MB 1 GB 1.5 GB 2 GB
1 348 739 1173 1532
2 352 744 1163 1534
3 350 745 1166 1533
4 355 741 1160 1526
5 356 745 1168 1530
6 353 739 1165 1531
7 355 742 1163 1535
8 352 743 1170 1529
9 353 739 1168 1530
10 345 742 1166 1531
11 355 746 1169 1533
12 355 745 1166 1527
13 352 744 1165 1530
14 352 743 1163 1530
15 351 743 1169 1531
Rata-Rata Waktu (detik) 352.27 742.67 1166.27 1530.80
Tabel L.2 Hasil percobaan menggunakan dua physical node

Ukuran File
Percobaan
512 MB 1 GB 1.5 GB 2 GB
1 196 413 715 999
2 191 415 700 999
3 187 413 702 1009
4 192 413 706 990
5 191 416 708 1017
6 191 415 703 999
7 188 423 703 1012
8 190 420 707 1009
9 193 413 707 1009
10 191 412 710 998
11 194 415 702 1003
12 191 413 709 1012
49
13 189 413 706 1010

14 188 413 706 1009
15 192 413 707 1000
Tabel L.3 Hasil percobaan menggunakan satu virtual node

Ukuran File
Percobaan
512 MB 1 GB 1.5 GB 2 GB
1 482 913 1358 1814
2 478 910 1355 1814
3 480 913 1354 1812
4 480 913 1355 1816
5 485 908 1355 1815
6 481 909 1355 1811
7 479 908 1358 1818
8 483 915 1360 1817
9 482 916 1360 1817
10 485 912 1354 1819
11 480 913 1355 1816
12 480 907 1354 1814
13 485 912 1354 1811
14 483 915 1358 1812
15 478 915 1357 1814
Rata –Rata Waktu (detik) 481.40 911.93 1356.13 1814.67
Tabel L.4 Hasil percobaan menggunakan dua virtual machine

Ukuran File
Percobaan
512 MB 1 GB 1.5 GB 2 GB
1 648 1418 2139 2884
2 648 1415 2140 2886
3 645 1413 2142 2887
4 642 1413 2139 2884
5 645 1410 2137 2883
6 642 1412 2139 2889
7 643 1415 2138 2884
8 643 1418 2132 2881
9 643 1417 2135 2884
10 649 1415 2134 2883
11 648 1416 2140 2883
50
12 648 1420 2140 2887

13 647 1419 2139 2884
14 645 1422 2135 2890
15 645 1421 2132 2888
Rata –Rata Waktu (detik) 645.40 1416.27 2137.40 2885.13
Tabel L.5 Hasil kecepatan MapReduce skenario ketiga pada file 512 MB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 463 348 340 348
2 460 352 336 346
3 462 350 336 346
4 460 355 330 349
5 463 356 323 340
6 459 353 335 342
7 460 355 335 351
8 458 352 341 355
9 463 353 340 353
10 462 345 338 348
11 464 355 336 346
12 463 355 336 346
13 460 352 334 354
14 462 352 336 354
15 464 351 335 353
Tabel L.6 Hasil kecepatan MapReduce skenario ketiga pada file 1 GB

Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 910 739 645 628
2 908 744 643 625
3 909 745 640 627
4 909 741 642 623
5 909 745 641 627
6 909 739 639 626
7 905 742 647 630
8 907 743 644 622
9 908 739 643 624
10 910 742 643 626
51
11 911 746 645 630

12 910 745 647 625
13 912 744 641 628
14 910 743 645 628
15 909 743 645 628
Tabel L.7 Hasil kecepatan MapReduce skenario ketiga pada file 1.5 GB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 1367 1173 1047 1037
2 1365 1163 1047 1034
3 1367 1166 1046 1034
4 1368 1160 1048 1035
5 1367 1168 1050 1034
6 1367 1165 1046 1036
7 1367 1163 1056 1038
8 1368 1170 1040 1035
9 1368 1168 1041 1034
10 1365 1166 1045 1038
11 1362 1169 1046 1036
12 1365 1166 1046 1036
13 1366 1165 1041 1037
14 1367 1163 1043 1039
15 1367 1169 1046 1038
Tabel L.8 Hasil kecepatan MapReduce skenario ketiga pada file 2 GB

Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 1822 1532 1446 1401
2 1822 1534 1448 1399
3 1825 1533 1447 1402
4 1822 1526 1450 1399
5 1820 1530 1450 1398
6 1821 1531 1445 1397
7 1821 1535 1446 1403
8 1821 1529 1447 1400
9 1825 1530 1443 1402
52
10 1824 1531 1446 1399

11 1826 1533 1448 1399
12 1821 1527 1448 1398
13 1822 1530 1446 1405
14 1821 1530 1450 1396
15 1823 1531 1448 1394
Rata-Rata Waktu (detik) 1822,40 1530,80 1447,20 1399,47
Tabel L.9 Hasil kecepatan MapReduce skenario keempat pada file 512 MB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 204 196 210 264
2 201 191 216 269
3 202 187 215 278
4 203 192 216 274
5 202 191 213 274
6 204 191 210 275
7 205 188 213 269
8 204 190 214 270
9 206 193 216 268
10 206 191 216 270
11 205 194 212 272
12 202 191 209 270
13 201 189 211 266
14 202 188 210 268
15 202 192 209 270
Tabel L.10 Hasil kecepatan MapReduce skenario keempat pada file 1 GB

Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 458 413 399 429
2 450 415 391 416
3 458 413 380 420
4 458 413 381 424
5 460 416 379 424
6 459 415 383 416
7 459 423 391 420
8 456 420 381 414
53
9 458 413 380 416

10 458 412 380 428
11 458 415 375 424
12 458 413 383 424
13 458 413 383 420
14 460 413 380 416
15 458 413 381 422
Tabel L.11 Hasil kecepatan MapReduce skenario keempat pada file 1.5 GB
Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 742 715 668 666
2 739 700 671 661
3 740 702 668 664
4 745 706 678 662
5 742 708 665 666
6 743 703 673 666
7 742 703 676 660
8 741 707 676 660
9 742 707 675 662
10 742 710 672 661
11 740 702 670 661
12 742 709 671 659
13 746 706 671 662
14 745 706 671 661
15 743 707 671 662
Tabel L.12 Hasil kecepatan MapReduce skenario keempat pada file 2 GB

Block Size
Percobaan
32 MB 64 MB 128 MB 256 MB
1 1032 999 853 785
2 1035 999 857 782
3 1033 1009 851 782
4 1033 990 851 782
5 1030 1017 861 780
6 1031 999 853 781
7 1033 1012 853 782
54
8 1033 1009 859 785

9 1035 1009 863 784
10 1032 998 861 784
11 1028 1003 863 780
12 1029 1012 859 786
13 1030 1010 859 786
14 1033 1009 857 780
15 1032 1000 859 788
Tabel L.13 Hasil kecepatan MapReduce skenario kelima pada file 512 MB
Jumlah Slot Map
Percobaan
1 348 359 375 408
2 352 359 378 405
3 350 363 378 406
4 355 360 377 406
5 356 362 380 404
6 353 362 375 405
7 355 362 375 408
8 352 362 375 410
9 353 361 379 406
10 345 365 376 405
11 355 363 375 408
12 355 365 376 409
13 352 364 375 410
14 352 362 378 408
15 351 359 375 408
Tabel L.14 Hasil kecepatan MapReduce skenario kelima file 1 GB

Jumlah Slot Map
Percobaan
1 739 748 775 865
2 744 750 778 868
3 745 752 778 865
4 741 752 780 866
5 745 750 781 868
6 739 752 779 871
55
7 742 751 775 869

8 743 748 776 870
9 739 749 778 865
10 742 750 776 864
11 746 752 775 865
12 745 750 776 865
13 744 752 775 864
14 743 753 778 868
15 743 753 780 869
Tabel L.15 Hasil kecepatan MapReduce skenario kelima dengan file 1.5 GB
Jumlah Slot Map
Percobaan
1 1173 1189 1284 1465
2 1163 1186 1284 1464
3 1166 1184 1282 1464
4 1160 1186 1286 1465
5 1168 1186 1284 1466
6 1165 1184 1284 1464
7 1163 1184 1286 1465
8 1170 1185 1287 1468
9 1168 1184 1286 1470
10 1166 1186 1286 1468
11 1169 1191 1285 1469
12 1166 1189 1286 1466
13 1165 1191 1288 1465
14 1163 1188 1286 1463
15 1169 1189 1284 1463
Tabel L.16 Hasil kecepatan MapReduce skenario kelima pada file 2 GB

Jumlah Slot Map
Percobaan
1 1532 1549 1629 1896
2 1534 1552 1628 1896
3 1533 1552 1628 1895
4 1526 1550 1629 1898
5 1530 1552 1632 1900
56
6 1531 1550 1629 1896

7 1535 1553 1628 1895
8 1529 1551 1629 1894
9 1530 1548 1629 1896
10 1531 1548 1631 1896
11 1533 1549 1632 1900
12 1527 1549 1630 1896
13 1530 1548 1628 1898
14 1530 1550 1629 1899
15 1531 1549 1633 1896
Tabel L.17 Hasil kecepatan MapReduce skenario keenam pada file 512 MB
Jumlah Slot Map
Percobaan
1 76 67 70 88
2 76 61 71 87
3 76 66 71 88
4 79 66 70 83
5 79 67 73 83
6 75 67 72 88
7 78 67 73 88
8 78 67 73 85
9 75 63 73 85
10 79 65 71 83
11 77 63 73 83
12 78 65 70 85
13 76 64 72 88
14 76 65 75 87
15 78 63 74 88
Tabel L.18 Hasil kecepatan MapReduce skenario keenam pada file 1 GB

Jumlah Slot Map
Percobaan
1 213 196 201 234
2 213 196 202 235
3 214 196 205 235
57
4 213 196 203 237

5 216 194 203 235
6 215 198 203 234
7 217 197 202 237
8 214 196 201 233
9 214 197 205 232
10 215 196 205 233
11 213 196 203 237
12 213 194 201 233
13 213 195 207 234
14 217 192 205 234
15 214 193 208 234
Tabel L.19 Hasil kecepatan MapReduce skenario keenam pada file 1.5 GB
Jumlah Slot Map
Percobaan
1 431 412 441 453
2 435 412 440 453
3 435 415 442 455
4 433 412 442 453
5 433 413 443 455
6 431 413 442 451
7 432 413 445 453
8 433 412 447 454
9 430 414 445 451
10 431 413 443 455
11 436 415 443 457
12 437 412 441 455
13 435 413 442 455
14 431 413 442 453
15 432 415 441 453
Tabel L.20 Hasil kecepatan MapReduce skenario keenam pada file 2 GB

Jumlah Slot Map
Percobaan
1 595 578 648 696
58
2 596 578 647 697

3 596 576 647 693
4 595 576 647 694
5 594 578 648 695
6 595 578 650 696
7 596 576 649 700
8 592 580 650 699
9 593 578 645 693
10 594 574 647 696
11 595 575 648 694
12 597 576 645 695
13 595 578 648 695
14 599 576 647 699
15 595 576 648 696

Analisis Performa Kecepatan MapReduce Pa

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Performa Kecepatan MapReduce Pa

Diunggah oleh

Hak Cipta:

Format Tersedia

UNIVERSITAS INDONESIA

ANALISIS PERFORMA KECEPATAN MAPREDUCE PADA

FAKULTAS TEKNIK UNIVERSITAS INDONESIA

FAKULTAS TEKNIK UNIVERSITAS INDONESIA

Depok, 30 Juni 2014

Nama : Priagung Khusumanegara

Komputasi terdistribusi merupakan salah satu kemajuan teknologi dalam mengolah

Kata Kunci: Komputasi terdistribusi, Hadoop, HDFS, MapReduce, Block Size,

Name : Priagung Khusumanegara

Keywords: Distributed computing, Hadoop, HDFS, MapReduce, Block Size, Slot

UNIVERSITAS INDONESIA ................................................................................. i

1.1 Latar Belakang Penelitian

1.2 Tujuan Penelitian

1.3 Batasan Masalah

1.4 Metodologi Penelitian

1.5 Sistematika Penulisan

2.1 Komputasi Terdistribusi

2.2.1 Arsitektur Hadoop

2.2.2 Kelebihan Hadoop

2.3.1 Model Data HDFS

tersebut kemudian disimpan tersebar dalam setiap node yang membentuk

2.3.2 Komponen HDFS

DataNode DataNode DataNode DataNode

Node 1 Node 2 Node 3 Node N

Gambar 2.2 Komponen HDFS [11]

Gambar 2.3 NameNode pada HDFS [2]

DataNode DataNode DataNode DataNode

2.4.1 Konsep Dasar MapReduce

Apple, Mango, Orange Mango, 1

Gambar 2.5 Proses mapping [19]

Gambar 2.6 Proses shuffle [19]

Gambar 2.7 Proses reducing [19]

Gambaran proses MapReduce yang terjadi secara keseluruhan dapat dilihat

Gambar 2.8 Keseluruhan proses MapReduce pada Hadoop [19]

2.4.2 Komponen MapReduce

dipecah-pecah menjadi beberapa tasks, JobTracker akan memberikan pekerjaan-

Gambar 2.9 Kerja JobTracker pada Hadoop [17]

Gambar 2.10 Kerja TaskTracker pada setiap node [2]

Gambar 2.10 menggambarkan bagaimana sebuah JobTracker yang berkomunikasi

3.1 TCP Packet Flow Analysis

tshark -T fields -n -r inputdata.pcap -e frame.time -e

Command line pada Gambar 3.1 berfungsi untuk menyeleksi bagian

Gambar 3.2 Contoh hasil konversi kedalam bentuk plaintext

Gambar 3.3 Pseudocode TCP Packet Flow Analysis

Split a string into

Set keyword: Koneksi Create token for

Set lengthValue from

Split pair into separate

Increment sumLength Increment sumPacket

Set sumLength as Set sumPacket as

Gambar 3.4 Flowchart TCP Packet Flow Analysis

3.2 Pembuktian Kebenaran Output TCP Packet Flow Analysis dengan

Gambar 3.6 Contoh isi file pcap pada Wireshark

3.3 Skenario Pertama

Tabel 3.1 Spesifikasi laptop yang digunakan pada skenario pertama

Tabel 3.2 Parameter Hadoop skenario pertama

3.4 Skenario Kedua

Tabel 3.3 Spesifikasi host dan virtual machine

3.5 Skenario Ketiga

Tabel 3.4 Spesifikasi laptop yang digunakan pada skenario ketiga

Pada skenario ketiga, percobaan akan dilakukan menggunakan ukuran file

Gambar 3.11 menunjukan gambaran Hadoop dalam membagi sebuah file

Tabel 3.5 Parameter Hadoop skenario ketiga

3.6 Skenario Keempat