1,2,3,4,5
Program Studi Informatika/Ilmu Komputer Universitas Brawijaya
Email: mail.ivanagustinus@gmail.com1, rakhmadina11@gmail.com2, bayudhabay@gmail.com3,
zulianurhaqq@gmail.com4, imam.cholissodin@gmail.com5
Abstrak
Big data merupakan teknologi baru di dunia teknologi informasi dimana memungkinkan proses pengolahan,
penyimpanan dan analisis data dalam beragam bentuk/format yang berjumlah besar dan pertambahan data yang
sangat cepat. Namun komputasi big data dibutuhkan suatu program dan algoritma yang cepat dan juga efektif.
Pada penelitian ini digunakan algoritma Naive Bayes menggunakan MapReduce. Penelitian ini dilakukan untuk
proses perhitungan klasifikasi dengan cara yang sangat cepat. Dataset yang digunakan adalah data Nursery dari
UCI yang berjumlah 14000 data, dengan jumlah atribut sebesar 8, dan jumlah kelas sebesar 5. Data tersebut di
hitung menggunakan Naive Bayes kemudian di uji dengan mengambil beberapa data sebagai sampel. Data
tersebut di uji sebanyak 10 kali. Sehingga dapat diambil kesimpulan dari pengujian tersebut adalah bahwa
semakin besar jumlah data maka waktu konvergensi semakin cepat.
Kata kunci: Naive Bayes Classifier, Hadoop Multi Node, Mapreduce. Nursery
Abstract
Big data is a new technology in world of information technology which allows processing, storage and analysis
of data in many formats that can increase value of large data very quickly. But computing in big data requires a
program , a fast algorithm and it also effective. The Research of this paper is using Naive Bayes algorithm and
also use MapReduce. This research was conducted for the process calculating of classification in a very quick
way. The dataset that used is a data from the UCI Nursery that amounted to 14000 data, with a total of
8 attributes, and number of total 5 class . The data will be calculated using a Naive Bayes and then be tested by
taking some data as sample data. The data will be tested as many as 10 times.so at the end of calculated we have
a conclusion about the process calculating
Keywords: Naive Bayes Classifier, Hadoop Multi Node, Mapreduce, Nursery
out_key=output.getKey();
}
8 Paper Final Project MK Analisis Big Data, Kelas. [C], Kelompok. [5], Desember 2016, hlm. x-
x
5. Copy data inputan dari komputer ke
direktori hadoop, sebelumnya buatlah
direktori di hadoop. Pengujian Konvergensi
500 Data 1000 Data
6. Run program naive bayes menggunakan
1500 Data 2000 Data
satu data testing. Run data tsb sebanyak 10
2500 Data 3000 Data
kali pada data training 500, catat waktu
dalam pengeksekusian program tsb. Lalu 3500 Data
membandingan dengan jumlah data training 16
lainnya. 14
12
10
8
Waktu Komputasi (per detik)
7. Jika compile program berhasil maka akan 6
tampil di output seperti berikut. 4
2
0
Pengujian ini dapat dilakukan dengan membuat Aplikasi ini merupakan aplikasi yang bertujuan
variasi dataset yang berbeda ukuran atau banyaknya menentukan apakah anak tersebut cocok bersekolah.
data yang digunakan dari keseluruhan data dipecah- Data yang digunakan berjumlah 14000 data dengan
pecah menjadi beberapa bagian. Pada paper ini kami 8 atribut dan 5 kelas.
menggunakan 7 variasi data set untuk pengujian Aplikasi ini menerima inputan berupa frekuensi
konvergensi. Dilakukan dengan memecah data set dari data yang akan di klasifikasikan. Aplikasi akan
menjadi 7 bagian dari 14000 ribu data. Data ke-1 menghitung peluang klasifikasi setiap kelas yang
500, data ke-2 1000, data ke-3 1500, data ke-4 2000, diinputkan dengan menggunakan algoritma nave
data ke-5 2500, data ke-6 3000 dan data ke-7 3500. bayes, dan kemudian di cari nilai yang paling
Dari 7 variasi tersebut dilakukan proses compile masksimal pada setiap probablitas kelas yang telah
program sebanyak 10 kali, lalu dicatat waktu ditentukan yakni not_recom, recommend,
komputasinya. Berikut grafik pengujian konvergensi very_recom, priority, special_priority dan pada nilai
7 variasi data set pada Gambar 4. maksimal itulah data yang diuji akan diberikan
pelabelan kelas sesuai probabilitas yang bernilai
maksimal tersebut.
Pengujian yang akan dilakukan terhadap
aplikasi adalah dengan menginputkan beberapa data
latih yang dipilih secara acak dan kemudian
dilakukan test berjumlah 10 kali pada setiap data.
Data uji yang digunakan adalah data yang
berkelipatan 500 yaitu, 500, 1000, 1500, 2000, 2500,
3000 dan 3500. Masing-masing di uji sebanyak 10
Ivan A, Rakhmadina N, Bayu L Y, Zulianur K, Imam C., Big Data Klasifikasi Menggunakan Nave Bayes Mapreduce pada
Hadoop Multi Node Cluster 9
kali dan dilihat waktu yang ditempuh selama Approach for Big Data Classification. IEEE
memproses data tersebut. Trustcom / BigDataSE / ISPA . University
of Granada, Spain.
Padhy, Rabi Prasad. (Februari 2013). Big Data
6. DAFTAR PUSTAKA Processing with Hadoop-MapReduce in
Cloud Systems. International Journal of
Agarwal, R., & Vyas, A. (April 2016). Cloud Computing and Services Science (IJ-
Implementation Of Nave Bayes And Map CLOSER). Vol.2, No.1, pp. 16~27.
Reduce C4.5 Technique. International Bangalore, Karnataka, India
Journal of Scientific Research and Rosadi, Rudi.,Suryana, Ino., (Juli 2013).
Engineering Studies (IJSRES), Volume 3 Pengembangan Aplikasi Klasifikasi Naive
Issue 4. ISSN: 2349-8862, 53-57. Bayesian Pendaftar ke Program D-Iii
Bakry, M. E., Safwat, S., & Hegazy, O. (December Teknik Informatika Fmipa UNPAD
2015). Big Data Classification using Fuzzy Berdasarkan Asal Daerah dan Sosial
K-Nearest Neighbor. International Journal Ekonomi Pendaftar. Universitas
of Computer Applications (0975 8887), Padjadjaran, Bandung
Volume 132 No.10, 8-13. Zhao, W.,Ma, Huifang., He, Qing. 2010. Parallel K-
Cohen, W. (2015). Naive Bayes and Map-Reduce. 1- Means Clustering Based on MapReduce.
17. The Key Laboratory of Intelligent
Fahad, S. A., & Alam, M. M. (April 2016). A Information Processing, Institute of
Modified K-Means Algorithm for Big Data. Computing Technology, Chinese Academy
IJCSET(www.ijcset.net), Vol 6, Issue 4, of Sciences. Graduate University of Chinese
129-132. Academy of Sciences
Pitchaimalai, S. K., Ordonez, C., & Alvarado, C. G.
(2012). Comparing SQL and MapReduce to
compute Naive Bayes in a Single Table Scan.
University of Houston, 9-16.
Maillo, Jesus., Triguero, I., Herrera, F., (2015). A
MapReduce-based k-Nearest Neighbor