TUGAS AKHIR
Puji dan syukur penulis panjatkan kepada Tuhan Yang Maha Esa, yang telah
laporan tugas akhir dengan judul “Analisis Kinerja Framework Big Data Pada
akhir ini merupakan salah satu syarat untuk memperoleh gelar Sarjana Strata Satu
Dalam proses pembuatan laporan tugas akhir ini, penulis banyak mendapat
bimbingan, arahan, dan bantuan dari berbagai pihak sehingga penulis dapat
menyelesaikan laporan ini tepat pada waktunya. Oleh karena itu dengan segala
2. Bapak Amil Ahmad Ilham, ST, M.IT, P.hD selaku Dosen Pembimbing I
ii
4. Bapak Amil Ahmad Ilham, ST, M.IT, P.hD selaku Ketua Departemen
Universitas Hasanuddin.
Hasanuddin.
dari awal hingga akhir masa perkuliahan dan untuk Dia yang selalu
menemani penulis dari awal hingga akhir penyusunan laporan skripsi ini.
dan duka.
Hasanuddin.
10. Serta seluruh pihak yang tak sempat kami sebutkan satu persatu yang telah
skripsi ini.
baik dari isi maupun cara penyajiannya. Oleh karena itu penulis
iii
dapat memberikan manfaat bagi pembaca pada umumnya dan penulis
khususnya.
Penulis
iv
ABSTRAK
Big Data saat ini menjadi topik hangat bagi instansi dan peneliti di seluruh
dunia berkat munculnya teknologi, peralatan, dan saran komunikasi yang baru.
Jumlah data yang diproduksi kini makin meningkat setiap tahun, bahkan setiap
harinya. Sehingga, algoritma dan teknologi tradisional kini tidak efisien dalam
memproses, menganalisis, dan menyimpan data dalam jumlah yang sangat besar
ini. Meningkatnya penggunaan analisis big data membuat teknologi yang lebih
efisien sangat dibutuhkan untuk menyimpan dan mengolah data dalam ukuran
sangat besar. Hadoop MapReduce dan Apache Spark adalah dua framework
komputasi populer yang bersifat opensource untuk melakukan pemrosesan dan
analisis data yang sangat besar. Kedua framework direkomendasikan untuk berjalan
pada server fisik, tetapi dalam membangun cluster dengan server fisik
membutuhkan biaya yang tidak sedikit. Cluster fisik membutuhkan energi yang
tinggi dan kaku dalam pengelolaannya. Maka, teknologi virtualisasi menjadi solusi
dalam membangun cluster yang fleksibel dan rendah biaya.
Dalam penelitian ini, akan dibuat cluster Hadoop MapReduce dan Apache
Spark yang tervirtualisasi memanfaatkan hypervisor Proxmox Virtual Environment
lalu akan dilakukan analisis pada kinerja komputasi dan kinerja I/O cluster dari
kedua framework.
Hasil penelitian menunjukkan pada pengujian kinerja komputasi
menunjukkan Apache Spark lebih cepat 3-5 kali lipat pada single node cluster
tervirtualisasi dan lebih cepat 1-4 kali lipat pada multi node cluster tervirtualisasi
dibandingkan dengan kinerja komputasi Hadoop MapReduce. Serta pada pengujian
kinerja I/O cluster, throughput yang diberikan lebih besar ketika digunakan
bersama dengan Apache Spark.
Kata Kunci: virtualisasi; Hadoop MapReduce; Apache Spark;
v
DAFTAR ISI
ABSTRAK .............................................................................................................. v
II.1.2.1 Volume....................................................................................... 6
vi
II.1.2.2 Velocity...................................................................................... 6
vii
II.3.1.2 Spark SQL................................................................................ 21
II.3.1.5 GraphX..................................................................................... 22
viii
III.1.1 Spesifikasi Perangkat Keras .............................................................34
ix
IV.2.1.1 Single Node Cluster ................................................................. 52
LAMPIRAN .......................................................................................................... 60
x
DAFTAR GAMBAR
xi
DAFTAR TABEL
Tabel 4 Hasil Pengujian Wordcount pada Single Node Cluster untuk Ukuran Data
Tabel 5 Hasil Pengujian Wordcount pada Single Node Cluster untuk Ukuran Data
Tabel 6 Hasil Pengujian Wordcount pada Multi Node Cluster untuk Ukuran Data
Tabel 7 Hasil Pengujian Wordcount pada Multi Node Cluster untuk Ukuran Data
xii
DAFTAR GRAFIK
Grafik 1 Hasil Pengujian Wordcount pada Single Node Cluster untuk Ukuran
Grafik 2 Hasil Pengujian Wordcount pada Single Node Cluster untuk Ukuran
Grafik 3 Hasil Pengujian Wordcount pada Multi Node Cluster untuk Ukuran Data
Grafik 4 Hasil Pengujian Wordcount pada Multi Node Cluster untuk Ukuran Data
xiii
DAFTAR LAMPIRAN
Lampiran 3 Instalasi Hadoop (Single Node dan Multi Node Cluster) .................. 66
xiv
BAB I
PENDAHULUAN
pada tahun 2011, jumlah data yang dibuat diseluruh dunia berjumlah sekitar
1,8 zettabytes[1], pada 2013 meningkat menjadi 4,4 zettabytes dan diprediksi
big data bukan hanya berbicara tentang kemampuan untuk menyimpan dan
mengelola data yang berukuran sangat besar dan bervariatif, tetapi juga
framework komputasi cluster untuk analisis big data yang paling populer saat
lebih banyak jenis komputasi secara efektif, seperti interactive queries dan
komputasi dan analisis big data pada server fisik tidaklah mudah. Sebagian
1
options di sistem operasi[8]. Virtualisasi mampu memberikan, skalabilitas,
kehandalan, dan kinerja yang lebih baik berkat pendekatan virtualisasi pada
cluster komputer.
penelitian ini akan dilakukan analisis kinerja dari kedua jenis model
berjudul:
permasalahan-permasalahan yaitu :
2
3. Bagaimana kinerja I/O dari cluster tervirtualisasi untuk pemrosesan big
antara lain :
dapat memilih framework big data yang tepat pada cluster yang
tervirtualisasi.
versi 4.2.
(KVM).
3
3. Perancangan sistem yang akan dibangun adalah single node cluster dan
5. Hadoop yang akan digunakan adalah versi 2.7.3 sedangkan Spark yang akan
BAB I PENDAHULUAN
Bab ini berisi latar belakang masalah, rumusan masalah, tujuan penelitian,
Pada bab ini akan dijelaskan teori-teori yang menunjang percobaan yang
dilakukan.
Bab ini berisi analisis kebutuhan sistem, perancangan sistem, dan skenario
pengujian.
4
BAB 5 PENUTUP
5
BAB II
LANDASAN TEORI
Pada bab ini akan dijelaskan konsep dasar big data, Hadoop MapReduce,
Apache Spark, konsep dasar virtualisasi, Proxmox VE, CentOS, dan benchmark.
dari sistem basis data konvensional. Mulai dari ukuran data yang sangat
besar, berpindah sangat cepat, ataupun tidak sesuai dengan struktur dari
II.1.2.1 Volume
II.1.2.2 Velocity
dihasilkan[12].
II.1.2.3 Variety
6
Istilah ini digunakan untuk menggambarkan banyaknya tipe
data[12].
memori.
7
Contoh dari data semi terstruktur antara lain data
processor[13].
8
- Fault Tolerance
cluster. Jadi ketika terdapat sebuah node yang down, data yang
- Economic
- Data Locality
9
Gambar 1 Arsitektur Framework Hadoop
data aplikasi dan cocok untuk aplikasi yang memiliki dataset yang
Apache Hadoop[15].
10
Sebuah sistem HDFS dapat terdiri dari
Model)
11
file dibuat, dituliskan, dan tidak bisa diubah lagi. Fitur
- Portabilitas
sistem file dan mengatur hak akses klien pada file. Selain
12
NameNode juga menentukan bagaimana pemetaan blok
DataNode[15].
13
menyimpan data di dalam direktori tersebut. Hirarki
oleh NameNode[15].
14
replikasi pada sebuah file. Replication Factor dapat
tersebut[15].
protokol TCP/IP.
II.2.3.6 FS Shell
II.2.4 MapReduce
15
MapReduce adalah sebuah model pemrograman untuk
hasil[17]
dan fungsi reduce. Fungsi map menerima setiap record dari data
membuat map task tunggal untuk setiap datablock HDFS dari input
sama dengan jumlah record dalam pada blok input data pada map
task tertentu[18].
16
reduce task ini disebut fase shuffle. Input data yang masuk ke tiap
Fungsi reduce dipanggil untuk tiap key dan tiap kelompok value
dieksekusi[19].
17
2. TaskTracker, berfungsi melaksanakan tasks yang
18
YARN terdiri dari dua komponen, ResourceManager dan
19
melakukan berbagai macam jenis komputasi seperti interactive queries dan
Apache Spark:
20
Spark seperti task scheduling, memory management, fault
ini[7].
21
melakukan manipulasi data stream yang serupa dengan API
dalam disk, dan data yang akan datang secara real time[7].
II.3.1.4 MLlib
II.3.1.5 GraphX
umum[7].
22
dari itu, untuk tetap mempertahankan fleksibilitasnya.
Standalone Scheduler[7].
executor[7].
- Pengolahan Cepat
yang 100 kali lebih cepat pada memori dan 10 kali lebih cepat
pada disk.
- Dinamis
23
- In-memory Computation
harus diambil pada disk yang mana menyita waktu yang banyak.
tinggi[4].
- Fault Tolerance
- Lazy Evaluation
24
driver dan beberapa worker yang terdistribusi. Driver
Application[7].
II.3.3.1 Driver
25
SparkContext dan RDD dibuat serta melakukan
plan[7].
penempatan data[7].
II.3.3.2 Executor
26
menjalankan task dan mengembalikan hasilnya kepada
II.3.4 SparkContext
pada sebuah RDD, maka Spark akan membuat RDD yang baru
27
query, dan mengembalikan sebuah nilai sebagai hasil dari operasi.
), dan lain-lain[21].
dan virtual disk file. Configuration file menjelaskan apa saja sumber
keras apa saja yang akan berada dalam casis tersebut seperti CPU,
28
Gambar 8 Ilustrasi dari Virtual Machine
II.4.3. Hypervisor
lain:
1. Hypervisor Tipe 1
29
Gambar dibawah merupakan arsitektur dari hypervisor
tipe 1[24]:
30
Gambar di bawah ini adalah arsitektur dari hypervisor
tipe 2[24]:
31
berjalan pada ribuan nodes. PVE dapat diakses via antarmuka command-
II.6. CentOS
Linux (RHEL)[28].
II.7. Benchmarks
II.7.1 Wordcount
menghasilkan key-value.
32
Di bawah ini adalah diagram tahapan program wordcount:
II.7.2 TestDFSIO
pertama adalah membuat data pada HDFS dan yang kedua adalah
menghasilkan kesimpulan.
33
BAB III
METODOLOGI PENELITIAN
dilakukan terbagi menjadi 2 dengan keperluan untuk menguji kinerja dari kedua
sebagai berikut:
spesifikasi:
Ukuran RAM 16 GB
34
- Satu buah komputer yang sudah terpasang browser yang
sebagai berikut:
- Hypervisor
- Java
adalah JDK 7.
- Hadoop
- Apache Spark
- Scala
Scala yang akan digunakan pada penelitian ini adalah Scala versi
2.12
35
Scala Build Tool yang digunakan pada penelitian ini adalah SBT
versi 1.0.2
VM:
36
- NAT - NAT
III.2.2 Arsitektur Sistem
digunakan
cluster :
37
Gambar 13 Arsitektur Single Node Cluster
38
node cluster dan multi node cluster. Lalu pada masing-masing
file.
File yang akan di uji berasal dari proses generate dari linux
wordcount terbagi menjadi dua jenis, yaitu ukuran file lebih kecil
dibanding ukuran memori (512 MB, 1 GB, 2GB, 4 GB, 8 GB) dan
ukuran file lebih besar dibandingkan ukuran memori (32 GB, 40 GB,
48 GB, 56 GB, 64 GB) adapun detail mengenai jumlah kata per baris
baris
39
64 gigabyte 100 kata 97792 x 103 baris
40
akan digunakan dan saling terhubung satu sama lain.
perintah:
pengeksekusian:
$ hadoop jar
$HADOOP_HOME/share/hadoop/mapr
educe/hadoop/hadoop-mapreduce-
$ $SPARK_HOME/bin/scala-shell;
sc.textFile("hdfs://localhost:900
0/user/hadoop/input/file.txt");
41
val counts = textFile.flatMap(line => line.split("
counts.saveAsTextFile("hdfs://localhost:9000/use
r/hadoop/output");
node cluster dan multi node cluster. Lalu akan pada masing-masing
adaptasi dari[29].
42
Gambar 16 Diagram Alir Pengujian TestDFSIO
43
1. Mengeksekusi program write masing-masing 5 kali
pengeksekusian:
$ hadoop jar
$HADOOP_HOME/share/hadoop/mapr
educe/hadoop-mapreduce-client-jobclient-2.7.3-
resFile ~hadoop/results-write-hadoop.txt
$ $SPARK_HOME/bin/spark-submit
--master spark://hadoop:7077
--class
com.bbva.spark.benchmarks.dfsio.TestDFSIO
./spark-benchmarks-master/dfsio/target/ scala-
2.11/sp
ark-benchmarks-dfsio-0.1.0-with-
[1GB/2GB] –outputDir
hdfs://master:9000/user/hadoop/dfsio --resFile
~hado
op/results-write-spark.txt
44
2. Mengeksekusi program read masing-masing 5 kali
pengeksekusian:
$ hadoop jar
$HADOOP_HOME/share/hadoop/mapr
educe/hadoop-mapreduce-client-jobclient-2.7.3-
resFile ~hadoop/results-read-hadoop.txt
$ $SPARK_HOME/bin/spark-submit
--master spark://hadoop:7077
--class
com.bbva.spark.benchmarks.dfsio.TestDFSIO
./spark-benchmarks-master/dfsio/target/ scala-
2.11/sp
ark-benchmarks-dfsio-0.1.0-with-
[1GB/2GB] –inputDir
hdfs://master:9000/user/hadoop/dfsio --resFile
~hado
45
op/results-read-spark.txt
framework di rata-ratakan.
46
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
dan analisis. Analisis dilakukan dengan tujuan untuk menganalisis kinerja dari
Hadoop MapReduce dan Apache Spark yang telah dirancang pada bab sebelumnya.
47
600
500
300
200
100
0
512 MB 1 GB 2 GB 4 GB 8 GB
Ukuran Data
Hadoop Spark
48
4000.0
3500.0
3000.0
Hadoop Spark
Ukuran Memori
49
4 GB 212.4 111
8 GB 420 350.4
450
400
350
Execution Time (s)
300
250
200
150
100
50
0
512 MB 1 GB 2 GB 4 GB 8 GB
Ukuran Data
Hadoop Spark
50
48 GB 3054.0 1235.8
56 GB 3542.6 1476.6
64 GB 3991.4 1737.0
4500.0
4000.0
3500.0
Execution Time (s)
3000.0
2500.0
2000.0
1500.0
1000.0
500.0
0.0
32 GB 40 GB 48 GB 56 GB 64 GB
Ukuran Data
Hadoop Spark
Ukuran Memori
IV.1.2 Pembahasan
node cluster dan 1-4 kali lebih cepat pada multi node cluster. Hal ini
51
Hadoop MapReduce yang melakukan proses komputasi data pada
Node Cluster
52
1000
900
800
Throughput (MB/s)
700
600
500
400
300
200
100
0
WRITE 4GB WRITE 8GB READ 4GB READ 8GB
Hadoop Spark
Node Cluster
Node Cluster
53
120
100
Throughput (MB/s)
80
60
40
20
0
WRITE 4GB WRITE 8GB READ 4GB READ 8GB
Hadoop Spark
Node Cluster
IV.2.2 Pembahasan
kinerja I/O cluster ketika menjalankan proses write dan read data
dari Apache Spark pada kedua jenis cluster lebih baik dibandingkan
waktu.
54
BAB V
PENUTUP
V.1. Kesimpulan
mengurang jumlah proses write dan read data pada disk yang
V.2. Saran
55
1. Penelitian berikutnya lebih berfokus untuk menganalisis kinerja
Hadoop MapReduce dan Apache Spark pada fungsi kerja yang lain
cluster tervirtualisasi.
56
DAFTAR PUSTAKA
[1] M. Chen, S. Mao, and Y. Liu, “Big Data : A Survey,” Mob. Networks
[2] T. White, Hadoop: The Definitive Guide, 4th ed. O’Reilly, 2015.
Available: http://spark.apache.org/.
[5] J. . Shi et al., “Clash of The Titans: Mapreduce vs. Spark for Large Scale
Data Analytics,” Proc. VLDB Endow., vol. 8, no. 13, pp. 2110–2121, 2015.
2015 IEEE Int. Conf. Big Data, IEEE Big Data 2015, pp. 243–252, 2015.
O’Reilly, 2015.
[8] A. Rabkin and R. H. Katz, “How Hadoop Clusters Break,” IEEE Softw.,
[11] O’Reilly, Big Data Now: Current Perspectives from O’Reilly Media.
57
O’Reilly Media, 2012.
https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html.
Publishing, 2015.
[20] M. Frampton, Mastering apache Spark, no. 14. Packt Publishing, 2012.
[21] Acodemy, Spark: Learn Spark In A DAY! - The Ultimate Crash Course to
http://www.kernelthread.com/publications/virtualization/.
58
Virtualization, vol. 53, no. 9. Packt Publishing, 2016.
59
LAMPIRAN
1. Unduh Proxmox
3. Memulai Penginstalan
60
4. Pada End User License Agreement (EULA) pilih I Agree
61
5. Lalu pada target harddisk, pilih harddisk yang akan digunakan untuk
6. Pada Location and Time Zone Selection pada Country pilih Indonesia,
62
8. Pada Network Configuration, tentukan hostname, IP address dari host,
10. Pada tampilan awal, login dengan menggunakan user root dan password
63
11. Proxmox VE siap digunakan.
1. Unduh JDK
(http://www.oracle.com/technetwork/java/javase/downloads/jdk8-
downloads-2133151.html)
2. Extract JDK
mv jdk1.8.0_144 /usr/local/java
3. Instalasi JDK
64
alternatives --install /usr/bin/java java /usr/local/java 2;
Selection Command
-----------------------------------------------
+1 /usr/local/java
perintah alternatives:
perintah:
export JRE_HOME=/usr/local/java/jre
65
export PATH=$PATH/usr/local/java/bin:/opt/jdk1.8.0_144/jre/bin
6. Verifikasi Java
berikut:
java –version;
terpasang.
# adduser hadoop;
# passwd hadoop;
New password:
66
9. Mengubah hostname (Multi Node Cluster)
menggunakan perintah:
vi /etc/hostname;
Reboot
dibawah ini:
10.134.11.102 master
10.134.11.103 slave1
10.134.11.104 slave2
67
# su - hadoop
$ ssh-keygen -t rsa
# su - hadoop
$ ssh-keygen -t rsa
$ exit
(http://hadoop.apache.org/releases.html).
Ekstrak file Hadoop yang baru saja diunduh dan letakkan pada
68
mv hadoop-2.7.3 hadoop
cd /home/hadoop/hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export
HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativ
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export HADOOP_CONF_DIR=/opt/hadoop/hadoop/conf
source ~/.bashrc
terpasang:
69
export JAVA_HOME=/usr/local/java/
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000/</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
70
<property>
<name>dfs.replication</name>
<value>1</value>
in create time.</description>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/infrahadoop/hdfs/namenode
</value>
redundancy.</description>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>file:///home/hadoop/infrahadoop/hdfs/datanode</
value>
71
<description>Determines where on the local filesystem
ignored.></description>
</property>
o Master
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
o Slave
<property>
<name>dfs.replication</name>
72
<value>1</value>
</property>
<property>
<name>dfs.datanode.name.dir</name>
<value>file:///home/hadoop/infrahadoop/hdfs/
datanode</value>
ignored.></description>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
73
<description>The runtime framework for executing
yarn.</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.cl
ass</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
use</description>
</property>
$ vi hadoop/etc/hadoop/slaves
74
slave1
slave2
$~ vi hadoop/etc/hadoop/master
master
sbin/start-dfs.sh;
sbin/start-yarn.sh
i. Hadoop MapReduce
Ukuran Data
Percobaan
512 MB 1 GB 2 GB 4GB 8 GB
75
1
41 79 133 263 521
2
40 78 134 267 528
3
42 77 132 217 526
4
43 76 135 262 521
5
41 78 134 261 525
Rata-Rata
41.4 77.6 133.6 254 524.2
Ukuran Data
Percobaan
512 MB 1 GB 2 GB 4GB 8 GB
1
7 14 28 52 102
2
7 13 27 56 102
3
8 14 28 54 104
4
8 14 28 54 102
5
7 14 27 55 102
Rata-Rata
7.4 13.8 27.6 54.2 102.4
i. Hadoop MapReduce
Ukuran Data
Percobaan
32 MB 40 GB 48 GB 56GB 64 GB
1
1403 1914 2341 2744 3641
2
1401 1909 2340 2741 3646
76
3
1404 1913 2342 2742 3649
4
1402 1914 2343 2743 3651
5
1401 1914 2342 2747 3649
Rata-Rata
1402.2 1912.8 2341.6 2743.4 3647.2
Ukuran Data
Percobaan
32 MB 40 GB 48 GB 56GB 64 GB
1
413 508 612 713 831
2
422 510 620 711 830
3
413 504 623 709 834
4
413 501 610 709 835
5
410 517 604 719 830
Rata-Rata
414.2 508 613.8 712.2 832
i. Hadoop MapReduce
Ukuran Data
Percobaan
512 MB 1 GB 2 GB 4GB 8 GB
1
41 73 128 210 421
2
42 75 130 209 423
3
42 72 124 213 418
77
4
41 75 129 214 419
5
41 72 126 216 419
Rata-Rata
41.4 73.4 127.4 212.4 420
Ukuran Data
Percobaan
512 MB 1 GB 2 GB 4GB 8 GB
1
10 17 33 132 452
2
9 17 33 122 472
3
9 18 33 110 295
4
10 18 34 120 268
5
10 17 32 107 265
Rata-Rata
9.6 17.4 33 118.2 350.4
i. Hadoop MapReduce
Ukuran Data
Percobaan
32 MB 40 GB 48 GB 56GB 64 GB
1
2300 2553 3054 3544 3992
2
2311 2548 3050 3542 3990
3
2316 2547 3049 3539 3987
4
2307 2559 3059 3540 3989
5
2301 2560 3058 3548 3999
78
Rata-Rata
2307 2553.4 3054 3542.6 3991.4
Ukuran Data
Percobaan
32 MB 40 GB 48 GB 56GB 64 GB
1
918 1052 1236 1476 1739
2
919 1048 1234 1469 1730
3
917 1059 1233 1467 1729
4
915 1052 1236 1481 1740
5
918 1046 1240 1490 1747
Rata-Rata
917.4 1051.4 1235.8 1476.6 1737
a. Hadoop MapReduce
Throughput (MB/s)
Percobaan
WRITE 4GB WRITE8GB READ 4GB READ 8GB
1 49.42 24.98 690.375 21.58
2 52.23 36.57 654.627 29.5
3 49.62 38.12 656.515 27.66
4 46.99 35.59 720.492 28.54
5 51.56 35.53 674.128 26.85
Rata-rata 49.96 34.16 679.23 26.83
79
b. Apache Spark
a. Hadoop MapReduce
Throughput (MB/s)
Percobaan
WRITE 4GB WRITE8GB READ 4GB READ 8GB
1 215.77 141.818 787.995 975.122
2 180.171 140.664 832.858 983.551
3 184.33 149.451 960.825 907.198
4 192.662 140.763 935.801 989.252
5 196.602 139.821 893.932 895.202
Rata-rata 193.91 142.50 882.28 950.07
b. Apache Spark
Throughput (MB/s)
Percobaan
WRITE 4GB WRITE8GB READ 4GB READ 8GB
1 215.77 141.818 787.995 975.122
2 180.171 140.664 832.858 983.551
3 184.33 149.451 960.825 907.198
80
4 192.662 140.763 935.801 989.252
5 196.602 139.821 893.932 895.202
Rata-rata 193.91 142.50 882.28 950.07
81
82