TEKNIK INFORMATIKA
UNIVERSITAS TRISAKTI
Modul ini menggunakan Oracle VirtualBox yang dapat diunduh melalui link berikut
https://download.virtualbox.org/virtualbox/6.1.12/VirtualBox-6.1.12-139181-Win.exe
Hadoop Distribution (Cloudera) dapat diunduh melalui link berikut :
https://downloads.cloudera.com/demo_vm/virtualbox/cloudera-quickstart-vm-5.12.0-
0-virtualbox.zip
3. Pekerjaan selanjutnya membuat direktori wordcount, masukan dan keluaran tempat Job
penghitung jumlah kata Hadoop bekerja. Folder local directory HDFS wordcount adalah
tempat data/file masukan dan juga tempat hasil/keluaran pemrosesan data. Perintah
membuat folder wordcount di direktori user/cloudera :
hdfs dfs -mkdir /user/cloudera/wordcount
hdfs dfs -mkdir /user/cloudera/wordcount/masukan
hdfs dfs -mkdir /user/cloudera/wordcount/keluaran
4. Berikutnya buat file dengan nama input.txt, dengan perintah cat> pada direktori lokal :
cat> input.txt
5. Pindahkan file input.txt dari direktori lokal ke direktori /user/cloudera/wordcount/masukan
hdfs dfs -put input.txt /user/cloudera/wordcount/masukan
File > New > Java Project. Isi nama project : WordCount lalu Next.
3. Pada tab Libraries pilih Add External JARs.
public void map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
}
@SuppressWarnings(“deprecation”)
Job job = new Job(conf, “wordcount”);
job.setJarByClass(WordCount.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
WordCount.java
Pada script diatas terdapat method Mapper dan Reducer, Map untuk menghitung pattern
kata misal berapa kali kata X muncul pada file, dan pada method Reduce berfungsi untuk
merangkum hasil.
12. Mengeksport script menjadi format .jar, dengan memilih File > export > java > JAR
file, lalu Next.
13. Centang project WordCount serta .classpath dan .project, Pilih Browse untuk mengatur
nama dan lokasi hasil export .jar.
14. Pilih destination filenya di home/cloudera, dan berinama WordCount.jar, lalu OK.
15. Jika semua sudah sesuai pilih Finish untuk mengexport .jar.
16. Jika ada warning OK saja.
17. Check pada folder Cloudera Home maka akan ada file baru WordCount.jar.
18. Menjalankan WordCount.jar untuk menghitung jumlah kata pada input.txt yang
tersimpan di HDFS yang sudah dilakukan sebelumnya, dengan perintah :
hadoop jar WordCount.jar WordCount
/user/cloudera/wordcount/masukan/input.txt
/user/cloudera/wordcount/keluaran/output_1
Hasil dari program WordCount.jar disimpan difolder baru yang diberi nama output_1.
19. Process MapReduce
20. Hasil MapReduce bisa dilihat dengan melihat isi folder output_1 :
hdfs dfs -ls /user/cloudera/wordcount/keluaran/output_1
21. Hasil komputasi algoritme MapReduce disimpan di file part-r-00000, untuk melihat
isinya menggunakan perintah :
hdfs dfs -cat /user/cloudera/wordcount/keluaran/output_1/part-r-
00000
Dari gambar diatas, program MapReduce Penghitung Kata (WordCount) menghitung jumlah
kata pada file input.txt secara case sensitive.