*
Correspondence:
ainun17si@mahasiswa.pcr.ac.id
1
Abstract
Department of System
Information, Pekanbaru
Peranan data sangat penting terutama memasuki era ledakan data atau Big Data.
University of Politeknik Caltex Oleh karenanya, untuk menganalisis data yang besar, perbaikan dalam metode
Riau terus berkembang. Jurnal ini berfokus pada analisa menggunakan MapReduce
yang disajikan untuk mengelompokkan data set skala besar untuk memudahkan
komputasi yang akan dilakukan pada suatu big data. Platform yang digunakan
adalah Hadoop, Hadoop mempunyai algoritma MapReduce sendiri. Skenario yang
digunakan adalah memproses Word Count data Lirik lagu yang bertujuan untuk
memisahkan setiap kata yang terdapat dalam contents untuk menghasilkan
pasangan key-value dengan key berupa kata tertentu dengan value. Hasil
percobaan akan menyajikan tolak ukur yang berfokus pada faktor kecenderungan
pada lirik lagu berupa pengelompokan data yang positif dan negatif.
Introduction
Hadoop dirancang untuk melakukan komputasi data dari satu server sampai ribuan
server yang dikoneksikan antara satu sama lainnya. Hal ini dapat memberikan kemudahan
dari sisi penyimpanan data untuk melakukan analisis data. Selain itu hadoop dapat
memberikan informasi real time untuk mendeteksi kesalahan terkait kegagalan akses dan
ketersediaan data pada masing-masing server.
Sedangkan pada Hadoop perhitungan atau proses komputasi itu bisa dibagi ke
komputer lainnya tanpa banyak tumpang tindih sehingga hasil menjadi cepat. Bisa
diibaratkan seperti gotong royong, semakin banyak komputer dihubungkan maka akan
semakin cepat melakukan proses perhitungan. Ketika seluruh komputer Hadoop
dihubungkan, kita seperti memiliki harddisk besar. Data akan disebar ke seluruh
komputer yang ada, dan jika ada satu atau dua komputer yang mati data tetap akan terjaga
dengan lengkap. Berikut adalah gambaran sederhana proses kerja Hadoop
Batasan Masalah :
1. Membahas mengenai apa itu Hadoop
2. Membahas mengenai apa itu MapReduce
Tahap-Tahap Dalam Implementasi Hadoop
Tahap-tahap yang harus dilakukan untuk implementasi pada hadoop yaitu sebagai berikut :
A. Lakukan Instalasi Hadoop
Sebelum melakukan instalasi Hadoop, komponen yang diperlukan untuk melakukan proses
instlasi yaitu VMWare, OS Linux. Misalnya yang digunakan yaitu Centos dan Hadoop .
Untuk melakukan proses instalasi hadoop, tahap-tahap yang harus dilakukan adalah sebagai
berikut :
b. Setelah itu, ubah/ganti nama direktori agar memudahkan dalam pengelolaan. Caranya
ketikkan perintah seperti dibawah ini :
mv hadoop-2.7.0 hadoop
c. Jika sudah, maka lanjut masuk ke direktori Hadoop untuk memulai melakukan konfigurasi
Hadoop. Ketikkan syntax seperti dibawah ini :
cd hadoop
d. File pertama yang harus dimodifikasi yaitu hadoop-env.sh untuk menentukan link JAVA-
HOME yang akan digunakan. Caranya, ketikkan syntax seperti dibawah ini :
gedit etc/hadoop/hadoop-env.sh
e. Kemudian, ubah/ganti ${JAVA_HOME} dengan path directory java home. ubah menjadi
seperti dibawah ini :
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.79-2.5.5.1.el7_1.x86_64/jre
f. Apabila sudah diganti dengan path directory java home, maka simpan dan exit
g. Tahap selanjutnya yaitu melakukan export variable Hadoop. Caranya ketikkan syntax
seperti dibawah ini :
export HADOOP\_PREFIX=/home/student/hadoop
h. File kedua yang harus diedit adalah core-site.xml, untuk menentukan port localhost.
Ketikkan perintah seperti dibawah ini :
gedit etc/hadoop/core-site.xml
<property>
<name>fs.defaultFS</name> <value>hdfs://localhost:9000</value>
</property>
i. Dan, lakukan lagi simpan, kemudian exit
j. Jika sudah, tahap selanjutnya adalah melakukan format HDFS file system. caranya ketikkan
perintah syntax seperti dibawah ini :
bin/hdfs namenode –format
B. Menjalankan Hadoop
Tahap-tahap yang dilakukan untuk menjalankan hadoop antara lain sebagai berikut :
1. Jalankan Hadoop dengan cara ketikkan syntax seperti dibawah ini :
sbin/start -dfs.sh
1. Setelah itu, buat direktori dengan nama user pada HDFS. Ketikkan syntax seperti
dibawah ini :
bin/hdfs dfs -mkdir /user
1. Selanjutnya, akses web browser untuk melihat interface NameNode, caranya dengan
mengakses pada link : http://localhost:50070/ . Jika berhasil mengaksesnya, maka akan
tampil gambar awal seperti dibawah ini :
1. Kemudian, untuk melihat HDFS, caranya antara lain sebagai berikut :
● Klik Utilities
● Browse the file system
1. Jika proses yang dilakukan telah berhasil, maka akan tampil gambar seperti dibawah ini
:
C. WordCount
Wordcount berfungsi untuk menghitung berapa banyak kata. Dataset yang saya ambil
adalah tentang Lirik Lagu Justin Bieber
Langkah selanjutnya untuk wordcount adalah sebagai berikut :
1. Tahap selanjutnya yaitu MapReduce untuk WordCount dengan sumber data bernama
databaru.csv dan proses yang akan dilakukan adalah menghitung jumlah kata yang muncul
pada file bieber.txt Gambar di bawah ini merupakan algoritma yang digunakan untuk
WordCount :
perintah diatas akan mengeksekusi class java wordcount yang terdapat pada jar bernama
examples.
e. Untuk melihat output atau hasilnya keluarannya, ketikkan syntax seperti dibawah ini :
gedit /home/student/results
f. Terakhir, Jika tidak ada error dan proses yang dilakukan berhasil, maka akan tampil seperti
dibawah ini :
Positif :
Negatif :
Analisa :
1. lagu ini terdapat sedikit kata negatif seperti: love, believe dan better berjumlah 106 kata
2. tetapi banyak terdapat kata yang positif seperti,bitch dan weakness berjumlah 3 kata
3. lagu ini unsur nya baik untuk didengar karena lebih sedikit unsur positif dari pada negatif
nya