Anda di halaman 1dari 11

Ansari et al.

J Big Data (2020) 6:109


https://www.kaggle.com/lava18/google-play-store-apps

RESEARCH Open Access

Analisa Lirik Lagu Menggunakan


WordCount Pada Map Reduce
Ainun Jariyah

*
Correspondence:
ainun17si@mahasiswa.pcr.ac.id
1
Abstract
Department of System
Information, Pekanbaru
Peranan data sangat penting terutama memasuki era ledakan data atau Big Data.
University of Politeknik Caltex Oleh karenanya, untuk menganalisis data yang besar, perbaikan dalam metode
Riau terus berkembang. Jurnal ini berfokus pada analisa menggunakan MapReduce
yang disajikan untuk mengelompokkan data set skala besar untuk memudahkan
komputasi yang akan dilakukan pada suatu big data. Platform yang digunakan
adalah Hadoop, Hadoop mempunyai algoritma MapReduce sendiri. Skenario yang
digunakan adalah memproses Word Count data Lirik lagu yang bertujuan untuk
memisahkan setiap kata yang terdapat dalam contents untuk menghasilkan
pasangan key-value dengan key berupa kata tertentu dengan value. Hasil
percobaan akan menyajikan tolak ukur yang berfokus pada faktor kecenderungan
pada lirik lagu berupa pengelompokan data yang positif dan negatif.

Kata kunci: Lirik Lagu, Big data, MapReduce, Hadoop

Introduction
Hadoop dirancang untuk melakukan komputasi data dari satu server sampai ribuan
server yang dikoneksikan antara satu sama lainnya. Hal ini dapat memberikan kemudahan
dari sisi penyimpanan data untuk melakukan analisis data. Selain itu hadoop dapat
memberikan informasi real time untuk mendeteksi kesalahan terkait kegagalan akses dan
ketersediaan data pada masing-masing server.

Hadoop adalah suatu software platform yang menghubungkan beberapa komputer


sehingga dapat saling bekerja sama dan sinkron dalam menyimpan dan mengolah data
sebagai satu kesatuan. Bedanya adalah pada komputer yang kita gunakan belum tentu
saling meringankan beban. Sebagai contoh kita memiliki satu file spreadsheet Excel dan
sangat lambat karena melakukan perhitungan untuk ratusan ribu cell, dan perhitungan
tersebut tidak bisa dibagi ke komputer lainnya. Tetapi kita bisa membagi file tersebut
dengan menggunakan network sharing, bukan komputasinya.

Sedangkan pada Hadoop perhitungan atau proses komputasi itu bisa dibagi ke
komputer lainnya tanpa banyak tumpang tindih sehingga hasil menjadi cepat. Bisa
diibaratkan seperti gotong royong, semakin banyak komputer dihubungkan maka akan
semakin cepat melakukan proses perhitungan. Ketika seluruh komputer Hadoop
dihubungkan, kita seperti memiliki harddisk besar. Data akan disebar ke seluruh
komputer yang ada, dan jika ada satu atau dua komputer yang mati data tetap akan terjaga
dengan lengkap. Berikut adalah gambaran sederhana proses kerja Hadoop

Proses Kerja Hadoop


Dari penjelasan di atas terdapat 3 prinsip penting pada Hadoop, yaitu :
1. Hadoop dapat menggabungkan banyak komputer menjadi satu kesatuan sistem.
2. Sistem tersebut dapat membagi proses perhitungan atau komputasi yang biasanya
memakan waktu yang sangat lama atau hampir tidak mungkin dilakukan oleh satu
komputer. Secara teknis, proses ini biasanya memakai teknik map reduce dan
dikoordinasikan oleh sesuatu yang disebut job tracker.
3. Sistem tersebut dapat membagi beban penyimpanan ke berbagai komputer
sehingga jika salah satu atau beberapa komputer mati, data tetap akan terjaga.
Sistem ini disebut sebagai Hadoop Distributed File System (HDFS).

Tujuan Pembuatan Analisa Hadoop menggunakan MapReduce :


1. Untuk mengetahui jumlah kata terbanyak dari data yang digunakan
2. Memisahkan kata-kata yang ingin diambil untuk dianalisa

Batasan Masalah :
1. Membahas mengenai apa itu Hadoop
2. Membahas mengenai apa itu MapReduce
Tahap-Tahap Dalam Implementasi Hadoop
Tahap-tahap yang harus dilakukan untuk implementasi pada hadoop yaitu sebagai berikut :
A. Lakukan Instalasi Hadoop
Sebelum melakukan instalasi Hadoop, komponen yang diperlukan untuk melakukan proses
instlasi yaitu VMWare, OS Linux. Misalnya yang digunakan yaitu Centos dan Hadoop .

Untuk melakukan proses instalasi hadoop, tahap-tahap yang harus dilakukan adalah sebagai
berikut :

1. Lakukan Instalasi VMWare


2. Selanjutnya, import Centos untuk mengisi VMWare dengan OS
3. Jika sudah berhasil install, maka login sebagai student
4. Kemudian, masuk ke terminal untuk melakukan konfigurasi, cara yang dilakukan antara
lain :
a. Ektraksi file Hadoop. Ketikkan perintah/syntax seperti dibawah ini :
tar xvzf /data/Soft/had*

b. Setelah itu, ubah/ganti nama direktori agar memudahkan dalam pengelolaan. Caranya
ketikkan perintah seperti dibawah ini :
mv hadoop-2.7.0 hadoop

c. Jika sudah, maka lanjut masuk ke direktori Hadoop untuk memulai melakukan konfigurasi
Hadoop. Ketikkan syntax seperti dibawah ini :
cd hadoop
d. File pertama yang harus dimodifikasi yaitu hadoop-env.sh untuk menentukan link JAVA-
HOME yang akan digunakan. Caranya, ketikkan syntax seperti dibawah ini :
gedit etc/hadoop/hadoop-env.sh

e. Kemudian, ubah/ganti ${JAVA_HOME} dengan path directory java home. ubah menjadi
seperti dibawah ini :
export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.79-2.5.5.1.el7_1.x86_64/jre

f. Apabila sudah diganti dengan path directory java home, maka simpan dan exit

g. Tahap selanjutnya yaitu melakukan export variable Hadoop. Caranya ketikkan syntax
seperti dibawah ini :
export HADOOP\_PREFIX=/home/student/hadoop

h. File kedua yang harus diedit adalah core-site.xml, untuk menentukan port localhost.
Ketikkan perintah seperti dibawah ini :
gedit etc/hadoop/core-site.xml

<property>
<name>fs.defaultFS</name> <value>hdfs://localhost:9000</value>
</property>
i. Dan, lakukan lagi simpan, kemudian exit

j. Jika sudah, tahap selanjutnya adalah melakukan format HDFS file system. caranya ketikkan
perintah syntax seperti dibawah ini :
bin/hdfs namenode –format

B. Menjalankan Hadoop
Tahap-tahap yang dilakukan untuk menjalankan hadoop antara lain sebagai berikut :
1. Jalankan Hadoop dengan cara ketikkan syntax seperti dibawah ini :
sbin/start -dfs.sh

1. Setelah itu, buat direktori dengan nama user pada HDFS. Ketikkan syntax seperti
dibawah ini :
bin/hdfs dfs -mkdir /user

1. Selanjutnya, akses web browser untuk melihat interface NameNode, caranya dengan
mengakses pada link : http://localhost:50070/ . Jika berhasil mengaksesnya, maka akan
tampil gambar awal seperti dibawah ini :
1. Kemudian, untuk melihat HDFS, caranya antara lain sebagai berikut :
● Klik Utilities
● Browse the file system

1. Jika proses yang dilakukan telah berhasil, maka akan tampil gambar seperti dibawah ini
:

C. WordCount
Wordcount berfungsi untuk menghitung berapa banyak kata. Dataset yang saya ambil
adalah tentang Lirik Lagu Justin Bieber
Langkah selanjutnya untuk wordcount adalah sebagai berikut :
1. Tahap selanjutnya yaitu MapReduce untuk WordCount dengan sumber data bernama
databaru.csv dan proses yang akan dilakukan adalah menghitung jumlah kata yang muncul
pada file bieber.txt Gambar di bawah ini merupakan algoritma yang digunakan untuk
WordCount :

1. Tahap-tahap yang dilakukan dalam menggunakan MapReduce untuk WordCount antara


lain seperti dibawah ini :
a. Salin/copy file sumber ke HDFS dengan mengetikkan syntax seperti dibawah ini :

bin/hdfs dfs -copyFromLocal /data/bieber.txt / user


b. Setelah itu, lakukan eksekusi job pada MapReduce dengan dataset bernama vebi.csv dan
hasilnya akan disimpan pada directory HDFS yang bernama result :

bin/hadoop jar share/hadoop/mapreduce/hadoop*examples*.jar wordcount


/user/bieber.txt /Data/resultData

perintah diatas akan mengeksekusi class java wordcount yang terdapat pada jar bernama
examples.

c. Output dari job MapReduce tersimpan pada direktori resultData


d. Setelah itu, copy/salin result tadi ke folder luar untuk melihat hasilnya, misalnya ke folder
/home/student , ketikkan syntax seperti dibawah ini :
bin/hdfs dfs -getmerge /user/resultData/part-r-00000 /home/student/resultData

e. Untuk melihat output atau hasilnya keluarannya, ketikkan syntax seperti dibawah ini :
gedit /home/student/results

f. Terakhir, Jika tidak ada error dan proses yang dilakukan berhasil, maka akan tampil seperti
dibawah ini :

Positif :
Negatif :
Analisa :
1. lagu ini terdapat sedikit kata negatif seperti: love, believe dan better berjumlah 106 kata
2. tetapi banyak terdapat kata yang positif seperti,bitch dan weakness berjumlah 3 kata
3. lagu ini unsur nya baik untuk didengar karena lebih sedikit unsur positif dari pada negatif
nya

Anda mungkin juga menyukai