2. DASAR TEORI
2.4 Hadoop Distributed File System (HDFS)
2.1 Big Data HDFS adalah komponen penyimpanan Hadoop. HDFS adalah file
Big data merupakan konsep data yang memiliki dimensi 3Vs system terdistribusi yang dimodelkan setelah tulisan mengenai
volume, variasi, dan kecepatan data. Volume merujuk pada Google File System (GFS). HDFS dioptimasi untuk throughput
banyaknya data, variasi merujuk pada jumlah dari tipe data yang yang tinggi dan berkerja paling baik ketika membaca serta
digunakan dan kecepatan merujuk pada kecepatan dari menulis file besar (gigabytes atau lebih besar). Pengaruh HDFS
pemrosesan data. Berdasarkan model 3Vs, tantangan yang ini adalah untuk mendukung ukuran blok yang besar (untuk file
dihadapi untuk mengelola big data adalah dari ketiga dimensi system) dan optimasi data lokal untuk mengurangi input/output
tersebut, bukan hanya mengenai jumlah atau volume data saja. jaringan [2].
Doug Laney analis dari Gartner memperkenalkan konsep 3Vs
pada saat publikasi riset MetaGroup yang bertajuk 3D Data HDFS memiliki dua jenis node yang beroperasi dalam arsitektur
Management: Controling data volume, variety, and velocity [5]. master-slave. Sebuah namenode (master) dan beberapa datanodes
(slaves). Namenode mengelola filesystem namespace. Namenode
menjaga filesystem tree dan metadata untuk semua file dan
2.2 Distributed Systems (DS) direktori dalam tree. Datanode merupakan bagian yang berkerja
DS adalah adalah suatu sistem dimana komponen-komponennya
keras dalam fileysystem. Datanode menyimpan dan mendapatkan
terletak pada suatu jaringan komputer, berkomunikasi dan
blok ketika diperintahkan oleh (aplikasi client dan namenode),
mengkoordinasikan tindakan mereka dengan hanya mengirim
dan datanode juga melaporkan balik kepada namenode secara
pesan. Definisi tersebut mengikuti karakteristik utama dari DS
periodik dengan daftar blok yang disimpan dalam datanode
yaitu komponen yang digunakan bersamaan, kurangnya waktu
tersebut [7].
global, dan kegagalan komponen yang bersifat independen [1].