Anda di halaman 1dari 6

2022

BIG DATA
INFORMATIKA

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA
PERTEMUAN 15
Implementasi Data Input menggunakan Hadoop

A. Tujuan
Mahasiswa mampu memahami Implementasi data dasar dengan ETL menggunakan
Hadoop

B. Dasar Teori
Setelah mempelajari penggunaan file pada tahap MapReduce Hadoop, sekarang mari coba
untuk menggunakan data besar untuk analitik data. Pada pertemuan ini penggunaan data
menggunakan data .csv sebagai berikut:

Dataset yang digunakan berisi tweet random yang bertujuan untuk Klasifikasi Gender, tetapi
untuk mencoba implementasi penggunaan MapReduce dengan file python kita akan mencoba
mencari tahu username mana yang sering muncul/retweet. Dengan langkah sebagai berikut:

- Taruh dataset .csv pada folder materials yang telah di buat pada pertemuan
sebelumnya.
- Buat file Mapper dan Reducer untuk memproses data. File yang digunakan
menggunakan bahasa python.

Mapper2.py:

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA
Reducer2.py:

- Dan simpan kedua file python tersebut pada folder materials.

- Setelah itu buat lah hdfs baru yang bernama twitter, dengan sintaks sebagai berikut:

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA
- Setelah itu masukkan data yang telah disimpan pada hdfs yang telah dibuat, dengan
sintaks atau command sebagai berikut:

- Setelah itu silahkan MapReduce data tersebut dengan sintaks sebagai berikut:

hadoop jar C:/hadoop-2.9.2/share/hadoop/tools/lib/hadoop-streaming-2.9.2.jar -files


file:///C:/hadoop-2.9.2/materials/mapper2.py,file:///C:/hadoop-
2.9.2/materials/reducer2.py -mapper "python C:/hadoop-2.9.2/materials/mapper2.py"
-reducer “python C:/Hadoop-2.9.2/materials/reducer2.py” -input /pertemuan11_2/* -
output /result/hasil16

- Apabila MapReduce telah berhasil akan tampil sebagai berikut:

- Hasil Mapper dan Reducer menggunakan 2 file berikut dapat dilihat di GUI atau
browser http://localhost:9870, pada menu browser ultility dengan directory
/result/hasil16 sebagai berikut:

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA
- Atau bisa juga untuk ditampilkan data hasil proses Mapper dan Reducer dengan
sintaks berikut:

Hasil tersebut bisa dipilah menggunakan data excel lalu filter dari data terbesar seperti
berikut:

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA
Didapati username Pacific Time dengan paling banyak RT pada tiap akun yang data
yang di crawling, data diatas terdapat akun yes, no, dan 0 juga tinggi dikarenakan data
belum bersih/ preprocessing yang menyebabkan data bukan akun pun terhitung. Itulah
secara sederhana penggunaan dataset besar dan implementasi file python dengan
MapReduce pada Hadoop.

C. Tugas

Buatlah dataset crawling twitter yang baru lalu coba implementasi langkah MapRedice
diatas agar mengetahui fitur dan fungsi yang ada.

FAKULTAS ILMU KOMPUTER


UNIVERSITAS PEMBANGUNAN NASIONAL VETERAN JAKARTA

Anda mungkin juga menyukai