BIG DATA
INFORMATIKA
A. Tujuan
Mahasiswa mampu memahami Implementasi data dasar dengan ETL menggunakan
Hadoop
B. Dasar Teori
Setelah mempelajari penggunaan file pada tahap MapReduce Hadoop, sekarang mari coba
untuk menggunakan data besar untuk analitik data. Pada pertemuan ini penggunaan data
menggunakan data .csv sebagai berikut:
Dataset yang digunakan berisi tweet random yang bertujuan untuk Klasifikasi Gender, tetapi
untuk mencoba implementasi penggunaan MapReduce dengan file python kita akan mencoba
mencari tahu username mana yang sering muncul/retweet. Dengan langkah sebagai berikut:
- Taruh dataset .csv pada folder materials yang telah di buat pada pertemuan
sebelumnya.
- Buat file Mapper dan Reducer untuk memproses data. File yang digunakan
menggunakan bahasa python.
Mapper2.py:
- Setelah itu buat lah hdfs baru yang bernama twitter, dengan sintaks sebagai berikut:
- Setelah itu silahkan MapReduce data tersebut dengan sintaks sebagai berikut:
- Hasil Mapper dan Reducer menggunakan 2 file berikut dapat dilihat di GUI atau
browser http://localhost:9870, pada menu browser ultility dengan directory
/result/hasil16 sebagai berikut:
Hasil tersebut bisa dipilah menggunakan data excel lalu filter dari data terbesar seperti
berikut:
C. Tugas
Buatlah dataset crawling twitter yang baru lalu coba implementasi langkah MapRedice
diatas agar mengetahui fitur dan fungsi yang ada.