KEGIATAN BELAJAR 4
Framework dan Big Data
101
102
A. Pendahuluan
1. Deskripsi Singkat
Secara umum, tujuan Kegiatan Belajar 4 ini adalah untuk memberikan
pemahaman, pengetahuan, keterampilan, dan sikap kepada guru atau peserta
PPG tentang framework dan big data.
Secara khusus, tujuan Kegiatan Belajar 4 ini adalah agar peserta mampu: (1)
mengkonfigurasi framework big data; dan (2) mengevaluasi konfigurasi
framework big data.
2. Relevansi
Kegiatan Belajar 4 ini menggunakan beberapa dukungan perangkat yang
yang harus disediakan. Peserta dapat menggunakan perangkat yang dimiliki
tetapi harus memenuhi standar spesifikasi yang telah ditetapkan. Hal ini
bertujuan agar setiap kegiatan pembelajaran yang dilakukan dapat berjalan
dengan semestinya. Perangkat-perangkat yang digunakan dalam kegiatan
pembelajaran modul ini adalah Personal Computer/Laptop.
3. Panduan Belajar
Pada Kegiatan Belajar 4 ini, urutan yang harus dilakukan oleh peserta dalam
mempelajari modul ini adalah :
1. Membaca tujuan pembelajaran sehingga memahami target atau goal dari
kegiatan belajar tersebut.
2. Membaca indikator pencapaian kompetensi sehingga memahami kriteria
pengukuran untuk mencapai tujuan pembelajaran.
3. Membaca uraian materi pembelajaran sehingga memiliki pengetahuan,
keterampilan dan sikap kompetensi yang akan dicapai.
4. Melakukan aktifitas pembelajaran dengan urutan atau kasus permasalahan
sesuai dengan contoh.
5. Mengerjakan latihan/soal atau tugas dengan mengisi lembar kerja yang telah
disediakan.
103
B. Inti
1. Capaian Pembelajaran:
Mampu Konfigurasi framework big data
Mengevaluasi konfigurasi framework Big Data
2. Pokok-pokok Materi:
Framework big data
Konfigurasi framework big data
3. Uraian Materi
1. Framework big data
Framework adalah sebuah software untuk memudahkan para programer
untuk membuat sebuah aplikasi web yang di dalam nya ada berbagai fungsi
diantaranya plugin, dan konsep untuk membentuk suatu sistem tertentu agar
tersusun dan tersetruktur dengan rapih.
Menurut R. Kelly Rainer (2011) Data, menunjuk pada deskripsi dasar akan
benda, event, aktivitas, dan transaksi yang terdokumentasi, terklasifikasi,dan
tersimpan tetapi tidak terorganisasi untuk dapat memberikan suatu arti yang
spesifik.
Menurut Vience (2016) memasuki tren yang disebut Big Data, era di mana
ketersediaan data sosial yang terekam secara digital semakin berlimpah. Bagi
kalangan industri atau praktisi, big data telah membuka peluang untuk
menetapkan strategi bisnis serta inovasi dalam hal memproses, menganalisa
dan menyimpan data dengan volume serta tingkat votalitas yang tinggi secara
cepat dan efektif. Bagi kalangan akademisi, Big Data telah menobrak tradisi
lama penelitian ilmu sosial.
Big data memberikan solusi bagi penelitian sosial konvensional,
khususnya untuk menangkap realita seperti pola jaringan komunikasi,
diseminasi informasi, atau bahkan memprediksi pola gerakan sosial atau politik
berdasarkan perilaku secara online. Istilah-istilah seperti webometrics, social
network analysis, digital social research, web social science atau
104
computational social science menandakan transisi penelitian sosial
konvensional penelitian sosial cyber atau ‘e-research”’, yaitu di mana transisi
unit analisis dari manusia menuju algoritma (Lupton, 2015:17).
Menurut Eaton, Dirk, Tom, George, & Paul Big Data merupakan istilah
yang berlaku untuk informasi yang tidak dapat diproses atau dianalisis
menggunakan alat tradisional. Menurut Dumbill, (2012), Big Data adalah data
yang melebihi proses kapasitas dari kovensi sistem database yang ada. Data
terlalu besar dan terlalu cepat atau tidak sesuai dengan struktur arsitektur
database yang ada. Untuk mendapatkan nilai dari data, maka harus memilih
jalan altenatif untuk memprosesnya.
Big Data adalah sebuah sistem teknologi yang diperkenalkan untuk
menanggulangi 'ledakan informasi' seiring dengan semakin bertumbuhnya
ekosistem pengguna perangkat mobile dan data internet. Pertumbuhan
perangkat mobile dan data internet ternyata sangat mempengaruhi
perkembangan volume dan jenis data yang terus meningkat secara signifikan di
dunia maya. Berbagai jenis data, mulai data yang berupa teks, gambar atau
foto, video hingga bentuk data-data lainnya membanjiri sistem komputasi. Big
data sebagai kumpulan data yang memiliki ukuran besar dan melebihi kapasitas
dari perangkat lunak basis data untuk mengelola dan menganalisanya. Big Data
muncul dari proses transaksi data, interaksi data dan observasi data yang terus
menerus (M. James, 2011).
Karakteristik big data ada tiga yaitu:
a. Volume
Volume di sini berkaitan dengan ukuran media penyimpanan data yang
sangat besar atau mungkin tak terbatas. Big data memiliki jumlah data
yang sangat besar sehingga dalam proses pengolahan data dibutuhkan
suatu penyimpanan yang besar dan dibutuhkan analisis yang lebih
spesifik.
105
b. Velocity
Big data memiliki aliran data yang yang cepat dan real time. Velocity
dapat diartikan sebagai kecepatan proses.
c. Variety
Big data memiliki bentuk format data yang beragam baik terstruktur
ataupun tidak terstruktur dan bergantung pada banyaknya sumber data.
Variety berarti tipe atau jenis data yang dapat diakomodasi.
106
2. Pemicu Perkembangan Big Data
Menurut Hilbert dan Lopez, ada tiga hal utama yang memicu
perkembangan teknologi Big Data:
a. Pesatnya pertambahan kemampuan penyimpanan data, kemampuan
penyimpanan data telah bertumbuh sangat signifikan.
b. Pesatnya pertambahan kemampuan mesin pemrosesan data, seiring
dengan pesatnya perkembangan teknologi hardware, maka kapasitas
komputasi pada mesin/ perangkat komputer juga telah meningkat sangat
tajam.
c. Ketersediaan data yang melimpah, Perusahaan-perusahaan dari berbagai
sektor di Amerika Serikat memiliki data setidaknya 100 terabytes.
Bahkan banyak diantara perusahaan tersebut yang memiliki data lebih
dari 1 petabyte.
3. Klasifikasi Data
Teknologi Big Data memiliki kemampuan untuk menangani berbagai
variasi data. Secara umum ada 2 kelompok data yang harus dikelola, yaitu :
a. Data terstruktur
Kelompok data yang memiliki tipe data, format, dan struktur yang telah
terdefinisi. Sumber datanya dapat berupa data transaksional, OLAP data,
tradisional RDBMS, file CSV, spreadsheets
b. Data tidak terstruktur
Kelompok data tekstual dengan format tidak menentu atau tidak memiliki
struktur melekat, sehingga untuk menjadikannya data terstruktur
membutuhkan usaha, tools, dan waktu yang lebih. Data ini dihasilkan
oleh aplikasi-aplikasi internet, seperti data URL log, media sosial, e-mail,
blog, video, dan audio.
107
tahap:
a. Acquired
Berhubungan dengan sumber dan cara mendapatkan data.
b. Accessed
Berhubungan dengan daya akses data; data yang sudah dikumpulkan
memerlukan tata kelola, integrasi, storage dan computing agar dapat
dikelola untuk tahap berikutnya. Perangkat untuk pemrosesan (processing
tools) menggunakan Hadoop, Nvidia CUDA, Twitter Storm, dan
GraphLab. Sedangkan untuk manajemen penyimpanan data (storage
tools) menggunakan Neo4J, Titan, dan HDFS.
c. Analytic
Berhubungan dengan informasi yang akan didapatkan, hasil pengelolaan
data yang telah diproses. Analitik yang dilakukan dapat berupa
descriptive (penggambaran data), diagnostic (mencari sebab akibat
berdasar data), predictive (memprediksi kejadian dimasa depan) maupun
prescriptive analytics (merekomendasikan pilihan dan implikasi dari
setiap opsi). Tools untuk tahap analitik menggunakan MLPACK dan
Mahout.
d. Application
Terkait visualisasi dan reporting hasil dari analitik. Tools untuk tahap ini
menggunakan RStudio.
108
b. Membantu perusahaan mengambil keputusan secara lebih tepat dan
akurat berdasarkan data
c. Membantu meningkatkan citra perusahaan di mata pelanggan.
d. Perencanaan usaha, dengan mengetahui perilaku pelanggan seperti pada
perusahaan telekomunikasi dan perbankan.
e. Mengetahui trend pasar dan keinginan konsumen.
109
analisis mendalam pada set data gabungan. Requirement dalam big data
infrastruktur: (1) data acquisition, (2) data organization (3) data analysis
a. Data acquisition
Tahap akuisisi adalah salah satu perubahan besar dalam infrastruktur
pada hari-hari sebelum big data. Karena big data mengacu pada aliran
data dengan kecepatan yang lebih tinggi dan ragam yang bervariasi,
infrastruktur yang diperlukan untuk mendukung akuisisi data yang besar
harus disampaikan secara perlahan, dapat diprediksi baik di dalam
menangkap data dan dalam memprosesnya secara cepat dan sederhana,
dapat menangani volume transaksi yang sangat tinggi , sering dalam
lingkungan terdistribusi, dan dukungan yang fleksibel, struktur data
dinamis.
Database NoSQL sering digunakan untuk mengambil dan
menyimpan big data. Mereka cocok untuk struktur data dinamis dan
sangat terukur. Data yang disimpan dalam database NoSQL biasanya dari
berbagai variasi/ragam karena sistem dimaksudkan untuk hanya
menangkap semua data tanpa mengelompokkan dan parsing data.
Sebagai contoh, database NoSQL sering digunakan untuk
mengumpulkan dan menyimpan data media sosial. Ketika aplikasi yang
digunakan pelanggan sering berubah, struktur penyimpanan dibuat tetap
sederhana. Alih-alih merancang skema dengan hubungan antar entitas,
struktur sederhana sering hanya berisi kunci utama untuk
mengidentifikasi titik data, dan kemudian wadah konten memegang data
yang relevan. Struktur sederhana dan dinamis ini memungkinkan
perubahan berlangsung tanpa reorganisasi pada lapisan penyimpanan.
b. Data Organization
Dalam istilah Data pergudangan klasik, pengorganisasian data
disebut integrasi data. Karena ada volume/jumlah data yang sangat besar,
ada kecenderungan untuk mengatur data pada lokasi penyimpanan
aslinya, sehingga menghemat waktu dan uang dengan tidak
memindah-midahkan data dengen volume yang besar. Infrastruktur yang
110
diperlukan untuk mengatur data yang besar harus mampu mengolah dan
memanipulasi data di lokasi penyimpanan asli. Biasanya diproses didalam
batch untuk memproses data yang besar, beragam format, dari tidak
terstruktur menjadi terstruktur.
Apache Hadoop adalah sebuah teknologi baru yang memungkinkan
volume data yang besar untuk diatur dan diproses sambil menjaga data
pada cluster penyimpanan data asli. Hadoop Distributed File System
(HDFS) adalah sistem penyimpanan jangka panjang untuk log web
misalnya. Log web ini berubah menjadi perilaku browsing dengan
menjalankan program MapReduce di cluster dan menghasilkan hasil yang
dikumpulkan di dalam cluster yang sama. Hasil ini dikumpulkan
kemudian dimuat ke dalam sistem DBMS relasional.
c. Data Analysis
Karena data tidak selalu bergerak selama fase organisasi, analisis ini
juga dapat dilakukan dalam lingkungan terdistribusi, di mana beberapa
data akan tinggal di mana data itu awalnya disimpan dan diakses secara
transparan dari sebuah data warehouse. Infrastruktur yang diperlukan
untuk menganalisis data yang besar harus mampu mendukung analisis
yang lebih dalam seperti analisis statistik dan data mining, pada data
dengan jenis yang beragam dan disimpan dalam sistem yang terpisah,
memberikan waktu respon lebih cepat didorong oleh perubahan perilaku;
dan mengotomatisasi keputusan berdasarkan model analitis. Yang paling
penting, infrastruktur harus mampu mengintegrasikan analisis pada
kombinasi data yang besar dan data perusahaan tradisional. Wawasan
baru datang bukan hanya dari analisis data baru, tapi dari
menganalisisnya dalam konteks yang lama untuk memberikan perspektif
baru tentang masalah lama.
Misalnya, menganalisis data persediaan dari mesin penjual otomatis
cerdas dalam kombinasi dengan acara kalender untuk tempat di mana
mesin penjual otomatis berada, akan menentukan kombinasi produk yang
optimal dan jadwal pengisian untuk mesin penjual otomatis.
111
8. Tantangan dalam pemanfaatan Big Data
Dalam usaha pemanfaatan Big Data dapat terdapat banyak hambatan dan
tantangan, beberapa hal diantaranya berhubungan dengan data dimana
melibatkan acquisition, sharing dan privasi data, serta dalam analisis dan
pengolahan data.
a. Privasi
Privasi merupakan isu yang paling sensitif, dengan konseptual, hukum,
dan teknologi, Privasi dapat dipahami dalam arti luas sebagai usaha
perusahaan untuk melindungi daya saing dan konsumen mereka.
Data-data yang digunakan / disimpan sebagai big data.
b. Access dan sharing
Akses terhadap data, baik data lama maupun data baru dapat menjadi
hambatan dalam mendapatkan data untuk big data, terlebih pada data
lama dimana data-data tersimpan dalam bentuk-bentuk yang
berbeda-beda dan beragam ataupun dalam bentuk fisik, akses terhadap
data baru juga membutuhkan usaha yang lebih kerana diperlukannya izin
dan lisensi untuk mengakses data-data non-public secara legal.
c. Analisis
Bekerja dengan sumber data baru membawa sejumlah tantangan analitis.
relevansi dan tingkat keparahan tantangan akan bervariasi tergantung
pada jenis analisis sedang dilakukan, dan pada jenis keputusan yang
akhirnya akan bisa diinformasikan oleh data.
Tergantung dari jenis data terdapat 3 kategori dalam analisis data
1) Penentuan gambaran yang benar
Masalah ini biasanya ditemukan dalam penanganan unstructured
user-generated text-based data dimana data yang didapatkan belum
tentu benar karena data atau sumber yang salah.
2) Interpreting Data
Kesalahan-kesalahan seperti Sampling selection biasa
merupakan hal yang sering ditemukan dimana data yang ada tidak
dapat digunakan untuk mepresentasikan semua populasi yang ada,
112
dan apophenia, melihat adanya pola walaupun tidak benar-benar
ada dikarenakan jumlah data yang besar, dan kesalahan dalam
menginterpreasikan hubungan dalam data.
3) Defining and detecting anomalies
Tantangan sensitivitas terhadap spesifisitas pemantauansistem.
Sensitivitas mengacu pada kemampuan sistem pemantauan untuk
mendeteksi semua kasus sudah diatur untuk mendeteksi sementara
spesifisitas mengacu pada kemampuannya untuk mendeteksi hanya
kasus-kasus yang relevan. kegagalan untukmencapai hasil yang
terakhir "Tipe I kesalahan keputusan", juga dikenal sebagai "positif
palsu"; kegagalanuntuk mencapai mantan "Type II error", atau
"negatif palsu." Kedua kesalahan yang tidak diinginkan ketika
mencoba untuk mendeteksi malfungsi atau anomali, bagaimanapun
didefinisikan, untuk berbagai alasan. Positif palsu merusak
kredibilitas sistem sementara negatif palsu dilemparkan ragu pada
relevansinya. Tapi apakah negatif palsu lebih atau kurang
bermasalah daripada positif palsu tergantung pada apa yang sedang
dipantau, dan mengapa itu sedang dipantau.
113
dari menyimpan data di Cassandra yaitu untuk keperluan analisis lebih
lanjut.
Beberapa contoh framework big data yaitu:
a. Apache Hadoop
Hadoop adalah proyek dengan kode sumber terbuka yang dikelola oleh
Apache Software Foundation. Hadoop digunakan untuk perhitungan yang
andal, dapat diukur, didistribusikan, tetapi juga dapat dieksploitasi
sebagai penyimpanan file dengan tujuan umum yang dapat menyimpan
petabyte data. Solusinya terdiri dari dua komponen utama: HDFS
bertanggung jawab untuk penyimpanan data di cluster Hadoop; dan
sistem MapReduce dimaksudkan untuk menghitung dan memproses
volume data yang besar di cluster. Bagaimana tepatnya Hadoop
membantu memecahkan masalah memori DBMS modern? Hadoop
digunakan sebagai lapisan perantara antara database interaktif dan
penyimpanan data meningkatkan kecepatan kinerja pemrosesan data
tumbuh sesuai dengan peningkatan ruang penyimpanan data. Untuk
mengembangkannya lebih lanjut, Anda cukup menambahkan node baru
ke penyimpanan data. Secara umum, Hadoop dapat menyimpan dan
memproses banyak petabyte info. Di sisi lain, proses tercepat di Hadoop
masih membutuhkan beberapa detik untuk beroperasi. Itu juga melarang
kustomisasi data yang sudah disimpan dalam sistem HDFS. Last but not
least, solusinya mendukung transaksi. Jadi, terlepas dari popularitas yang
pasti dari solusi ini di antara pengguna selama bertahun-tahun yang akan
datang, alternatif baru yang lebih maju secara bertahap datang ke pasar
untuk menggantikannya (kami akan membahas beberapa di bawah).
114
Gambar 4. 2 Ilustrasi sistem apache hadoop
b. Apache Spark
Daftar kerangka kerja Big Data terbaik kami dilanjutkan dengan Apache
Spark. Ini adalah kerangka kerja open-source yang dibuat sebagai solusi
yang lebih maju dibandingkan dengan Apache Hadoop - kerangka awal
yang dibangun khusus untuk bekerja dengan Big Data. Perbedaan utama
antara kedua solusi ini adalah model pengambilan data. Hadoop
menyimpan data ke hard drive di sepanjang setiap langkah algoritma
MapReduce, sementara Spark mengimplementasikan semua operasi
menggunakan memori akses-acak. Karena hal ini, Spark memiliki kinerja
100 kali lebih cepat dan memungkinkan pemrosesan aliran data. Pilar
fungsional dan fitur utama Spark adalah kinerja tinggi dan keamanan
yang gagal. Ini mendukung empat bahasa: Scala, Java, Python, dan R;
dan terdiri dari lima komponen: inti dan empat perpustakaan yang
mengoptimalkan pekerjaan dengan Big Data dalam berbagai cara ketika
digabungkan. Spark SQL - salah satu dari empat pustaka kerangka kerja
115
khusus - berfungsi untuk pemrosesan data terstruktur menggunakan
DataFrames dan penyelesaian permintaan Hadoop Hive hingga 100 kali
lebih cepat. Spark juga dilengkapi alat Streaming untuk pemrosesan data
khusus utas secara real time. Dengan demikian, pendiri Spark
menyatakan bahwa waktu rata-rata pemrosesan setiap mikro-batch hanya
0,5 detik. Berikutnya, ada MLib - sistem pembelajaran mesin terdistribusi
sembilan kali lebih cepat dari perpustakaan Apache Mahout. Dan
perpustakaan terakhir adalah GraphX yang digunakan untuk pemrosesan
data grafik yang dapat diskalakan.
c. Apache Hive
Apache Hive dibuat oleh Facebook untuk menggabungkan skalabilitas
salah satu alat big data yang paling populer dan banyak diminati,
MapReduce dan aksesibilitas SQL. Hive pada dasarnya adalah mesin
yang mengubah permintaan SQL menjadi rantai tugas pengurangan peta.
Mesin mencakup komponen seperti Parser (yang mengurutkan
permintaan SQL yang masuk), Pengoptimal (yang mengoptimalkan
permintaan untuk efisiensi lebih), dan Pelaksana (yang meluncurkan
tugas dalam kerangka kerja MapReduce). Hive dapat diintegrasikan
dengan Hadoop (sebagai bagian server) untuk analisis volume data yang
besar.
116
Gambar 4. 4 Arsitektur apache hive
d. Map Reduce
MapReduce adalah algoritme untuk pemrosesan paralel volume data
mentah besar yang diperkenalkan oleh Google pada tahun 2004.
MapReduce melihat data sebagai jenis entri yang dapat diproses dalam
tiga tahap: Peta (pra-pemrosesan dan penyaringan data), Shuffle (node
pekerja mengurutkan data - setiap node pekerja sesuai dengan satu kunci
output yang dihasilkan dari fungsi peta), dan Reduce (fungsi pengurangan
diatur oleh pengguna dan mendefinisikan hasil akhir untuk kelompok
yang terpisah dari data output. Mayoritas semua nilai dikembalikan oleh
mengurangi () fungsi adalah hasil akhir dari tugas MapReduce). Karena
logika sederhana seperti itu, MapReduce menyediakan paralelisasi data
secara otomatis, penyeimbangan beban node pekerja yang efisien, dan
kinerja gagal-aman.
117
Gambar 4. 5 Pase map reduce
e. Apache Storm
Apache Storm adalah solusi terkemuka yang berfokus pada bekerja
dengan aliran data besar secara real time. Fitur utama Storm adalah
skalabilitas (tugas pemrosesan didistribusikan oleh node cluster dan
mengalir di setiap node) dan kemampuan memulihkan segera setelah
downtime (dengan demikian, tugas sedang dialihkan ke node pekerja lain
jika salah satu node sedang down). Anda dapat bekerja dengan solusi ini
dengan bantuan Java, serta Python, Ruby, dan Fancy. Strom
menampilkan sejumlah elemen yang membuatnya sangat berbeda dari
analog. Yang pertama adalah Tuple - elemen representasi data utama
yang mendukung serialisasi. Lalu ada Stream yang menyertakan skema
bidang penamaan di Tuple. Spout menerima data dari sumber eksternal,
membentuk Tuple dari mereka, dan mengirimkannya ke Stream. Ada juga
Bolt - pengolah data, dan Topologi - paket elemen dengan deskripsi
keterkaitan mereka analog pekerjaan MapReduce di Hadoop, pada
dasarnya). Ketika digabungkan, semua elemen ini membantu
118
pengembang untuk dengan mudah mengelola aliran besar data yang tidak
terstruktur.
119
Framework hadoop merupakan kumpulan berbagai aplikasi yang saling
terhubung satu-sama lain yang membat pengelolaan big data yang lebih baik,
baik dari volume, kecepatan, dan keberagaman data.
120
secara randon ke Relational Database (2) Tidak cocok untuk OLAP
(Online Analytic Processing) (3) Tidak cocok untuk DSS (Decission
Support System) (4) Proses update tidak bisa untuk dilakukan, namun
untuk Append bisa dilakukan.
c. Arsitektur hadoop
Framework hadoop terdiri atas empat modul/komponen utama yaitu (1)
Hadoop HDFS adalah sebuah sistem file terdistribusi. (2) Hadoop
MapReduce adalah sebuah model programming/Algoritma untuk
pengelolaan data skala besar dengan komputasi secara terdistribusi (3)
Hadoop YARN adalah sebuah platform resource-management yang
bertanggung jawab untuk mengelola resources dalam clusters dan scheduling
(4) Hadoop Common adalah berisi libraries dan utilities yang dibutuhkan
oleh modul Hadoop lainnya.
Framework hadoop bukan hanya empat modul utama namun merupakan
kumpulan modul open source seperti Hive, Pig, Oozie, Zookeeper, Flume
Sqoop, Mahout, Hbase, Ambari, Spark.
d. Cara kerja hadoop
Secara umum cara kerja hadoop dalam pemrosesan pada sistem
terdistribusi, sebagai berikut
1) Cara kerja HDFS
SHDFS terdiri dari NameNode, yang mengelola metadata dari
kluster, dan DataNode yang menyimpan data/file. File dan direktori
diwakili pada NameNode oleh inode. Inode menyimpan atribut
seperti permission, modifikasi dan waktu akses, atau
kuota namespace dan diskspace.
Isi file dibagi menjadi blok-blok file( biasanya 128 MB), dan
setiap blok file tersebut direplikasi di beberapa DataNodes. Blok file
disimpan pada sistem file lokal dari DataNode.
Namenode aktif memonitor jumlah salinan/replika blok file.
Ketika ada salinan blok file yang hilang karena kerusakan pada
DataNode, NameNode akan mereplikasi kembali blok file tersebut ke
121
datanode lainnya yang berjalan baik. NameNode mengelola struktur
namespace dan memetakan blok file pada datanode.
122
Gambar 4. 10 Cara kerja Map Reduce
123
e. Instalasi dan evaluasi konfigurasi framework big data (hadoop)
124
3) Tahap berikutnya adalah tahapan Configuration, pada tahap ini kita akan
menambahkan environment variable untuk 'JAVA_HOME' dan
'HADOOP_PREFIX' dengan cara pilih 'Control
Panel>System>Advanced System Settings>Environment Variables'
kemudian pilih New dan masukan 'JAVA_HOME' dan path instalasi
JDKnya misal 'C:\PROGRA~1\Java\jdk1.8.0_05'
125
HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin
file :'hdfs-site.xml'
dfs.replication 1 dfs.data.dir file:///d:/hadoop/tmp/dfs/name/data true dfs.na
me.dir file:///d:/hadoop/tmp/dfs/name true
File 'core-site.xml'
fs.default.name hdfs://127.0.0.1:41000
4) Dan sekarang kita masuk ke tahap menjalankan hadoop, pertama yang
kita lakukan adalah melakukan format untuk Hadoop Distributed File
System (HDFS) dengan perintah
D \hadoop\bin>hdfs namenode –format
dan sebagai indikator format yang kita lakukan berhasil, akan muncul
seperti gambar berikut
hadoop juga akan membuat file baru di dalam path yang sudah kita
konfigurasikan di dalam file 'hdfs-site.xml' tadi.
5) kemudian kita jalankan service atau daemon dfs
D \hadoop\sbin>start-dfs.cmd
Sekarang kita coba perintah untuk mengkopi file lokal README.txt
yang di drive D: ke dalam hadoop dan membuat directory
126
BelajarHadoop
D:\hadoop\bin>hdfs dfs -put d:\README.txt / D:\hadoop\bin>hdfs dfs
-mkdir /BelajarHadoop
D:\hadoop\bin>hdfs dfs -ls /
6) Setelah service atau daemon hdfs jalan kita juga bisa melihatnya melalui
web browser dengan mengetikan 1 7.0.0.1:50070 pada address bar.
127