TEKNIK INFORMATIKA
UNIVERSITAS TRISAKTI
Nama kelompok :
Andreas Bagus Upo Aranda - 064002000012
Muhamad Aldo Fernanda - 064002000037
Supran Noto - 064002000024
Ricardo Dharma Saputra - 064002000040
Rastra Dequelhart Adichandra Ay - 064002000023
A. Instalasi Cloudera pada Virtualbox
Persiapkan 2 software berikut ini :
• Modul ini menggunakan Oracle VirtualBox yang dapat diunduh melalui link berikut
https://download.virtualbox.org/virtualbox/6.1.12/VirtualBox-6.1.12-139181-Win.exe
• Hadoop Distribution (Cloudera) dapat diunduh melalui link berikut :
https://downloads.cloudera.com/demo_vm/virtualbox/cloudera-quickstart-vm-5.12.0-
0-virtualbox.zip
File > New > Java Project. Isi nama project : WordCount lalu Next
3. Pada tab Libraries pilih Add External JARs.
6. Pilih kembali Add External JARs, Masuk ke File System > usr > lib > hadoop>client.
9. Buat class WordCount pada project WordCount yang sudah dibuat, dengan klik kanan
pada src project WordCount. Pilih New>clas
public void map(LongWritable key, Text value, Context context) throws IOException,
InterruptedException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
context.write(word, one);
}
}
}
@SuppressWarnings(“deprecation”)
Job job = new Job(conf, “wordcount”);
job.setJarByClass(WordCount.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
WordCount.java
Pada script diatas terdapat method Mapper dan Reducer, Map untuk menghitung pattern
kata misal berapa kali kata X muncul pada file, dan pada method Reduce berfungsi untuk
merangkum hasil.
12. Mengeksport script menjadi format .jar, dengan memilih File > export > java > JAR
file, lalu Next.
13. Centang project WordCount serta .classpath dan .project, Pilih Browse untuk mengatur
nama dan lokasi hasil export .jar.
14. Pilih destination filenya di home/cloudera, dan berinama WordCount.jar, lalu OK.
15. Jika semua sudah sesuai pilih Finish
18. Check pada folder Cloudera Home maka akan ada file baru WordCount.jar.
19. Menjalankan WordCount.jar untuk menghitung jumlah kata pada input.txt yang
tersimpan di HDFS yang sudah dilakukan sebelumnya, dengan perintah :
hadoop jar WordCount.jar WordCount
/user/cloudera/wordcount/masukan/input.txt
/user/cloudera/wordcount/keluaran/output_1
Hasil dari program WordCount.jar disimpan difolder baru yang diberi nama output_1.
20. Process MapReduce
21. Hasil MapReduce bisa dilihat dengan melihat isi folder output_1 :
hdfs dfs -ls /user/cloudera/wordcount/keluaran/output_1
22. Hasil komputasi algoritme MapReduce disimpan di file part-r-00000, untuk melihat
isinya menggunakan perintah :
hdfs dfs -cat /user/cloudera/wordcount/keluaran/output_1/part-r-
00000
Dari gambar diatas, program MapReduce Penghitung Kata (WordCount) menghitung jumlah
kata pada file input.txt secara case sensitive.
Lampiran