Ketua Peneliti : Aditya Calderon Naibaho (183303030214) Anggota Peneliti 1 : Alhoi Andrew Jefferson (183303030201) Anggota Peneliti 2 : Lolo Mulatua Bancin (183303030209)
PROGRAM STUDI S1 - TEKNIK INFORMATIKA
FAKULTAS TEKNOLOGI DAN ILMU KOMPUTER UNIVERSITAS PRIMA INDONESIA MEDAN 2021 KLASIFIKASI BAHASA SLANG INDONESIA MENGGUNAKAN METODE NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA MEDIA SOSIAL
BAB I
PENDAHULUAN
1.1 Latar Belakang
Bahasa adalah salah satu hal penting dalam hidup manusia karena manusia bias berkomunikasi satu sama lain dengan mudah melalui bahasa (Sagala, 2019). Hebatnya, fitur makna bahasa tidak hanya terkait dengan pemilihan kata, tetapi juga bagaimana cara menyampaikannya. Ketika pembicara tidak dapat menyampaikan pesannya dengan menggunakan satu bahasa, pembicara perlu ubah bahasa menjadi lebih dipahami. Saat ini, bahasa gaul telah menjadi fenomena di era generasi milenial, bukan hanya untuk mereka yang tinggal di kota tetapi juga untuk mereka yang tinggal di desa pasti tahu bahasa gaul bahasa seolah-olah sudah menjadi tren di kalangan milenial zaman. Sementara di sisi lain, orang tua dan orang dewasa mengeluh tentang tata bahasa dan ucapan bahasa anak-anak mereka yang sulit untuk dipahami. Apalagi media sosial adalah berkembang saat ini, yang dimulai dari Short Message Service (SMS) ke Instagram, Facebook, WhatsApp, Twitter, dan lain-lain[1]. Hornby (1974) menyatakan bahwa bahasa gaul adalah kata, frasa, arti kata, yang biasa digunakan dalam percakapan di antara teman-teman atau kolega, tetapi tidak cocok untuk tulisan yang bagus atau acara resmi. Slang adalah bahasa (kata-kata, frase, dan penggunaan) dari register informal bahwa anggota kelompok khusus seperti remaja, musisi, atau penjahat mendukung untuk membangun identitas kelompok. Bahasa Slang biasanya populer di kalangan generasi milenial[2]. Algoritma Naïve Bayes adalah metode klasifikasi berdasarkan Teorema Bayes mengasumsikan independensi parameter satu sama lain. Teorema Bayes menyediakan cara untuk menghitung probabilitas nilai parameter menggunakan nilai yang lain parameter[3]. Probabilitas dari fitur tertentu dalam data muncul sebagai anggota dalam urutan probabilitas dan diperoleh dengan menghitung frekuensi setiap nilai fitur di kelas dari training dataset. Training dataset adalah subset yang digunakan untuk melatih algoritma klasifikasi. proses pelatihan menggunakan nilai yang diketahui untuk memprediksi nilai yang tidak diketahui[4]. Algoritma K-Nearest Neighbor adalah metode klasifikasi yang menggunakan semua training dataset yang membuat perhitungan proses training menjadi lebih kompleks dan tidak dapat menunjukkan hasil yang berbeda dari sampel yang berbeda[5]. Selain digunakan untuk klasifikasi, algoritma K-NN juga digunakan untuk estimasi dan prediksi[6].
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan diatas, peneliti ingin menganalisa seberapa akurat algoritma Naive Bayes dan K-Nearest Neighbor dalam mengklasifikasi Bahasa Slang Pada Sosial Media Facebook serta melihat apakah algoritma Naive Bayes dan K-Nearest Neighbor lebih efisien jika dibandingkan dengan penelitian sebelumnya yang menggunakan algoritma berbeda? 1.3 Tujuan dan Manfaat 1.3.1 Tujuan
Penelitian ini bertujuan untuk melihat banyaknya penggunaan bahasa
Slang di Sosial Media Facebook dan bertujuan untuk melihat seberapa akurat algoritma Naive Bayes dan K-Nearest Neighbor dalam penelitian ini.
1.3.2 Manfaat
1. Agar tidak mengganggu pemahaman bahasa bagi orang lain.
2. Sebagai pengetahuan bahwa ada bahasa slang yang berkonotasi negatif.
3. Penelitian ini diharapkan agar masyarakat tetap menggunakan bahasa
Indonesia yang baik dan benar. 1.4 Batasan Masalah
Batasan penelitian ini sebagai berikut :
1. Dalam penelitian ini menggunakan algoritma Naive Bayes dan K-Nearest
Neighbor. 2. Dataset yang di ambil berupa komentar dari postingan di Facebook, Twitter dan Instagram. 3. Jumlah sampel dataset adalah sebanyak 10.000 sampel dengan 4 fitur. 4. Data di dapatkan dengan metode web scraping. 5. Proses data dilakukan menggunakan software Rapidminer Studio. 6. Persentase data akan digunakan sebagai 60% untuk data training, 20% untuk data evaluation, dan 20% untuk data testing. 1.5 Keterbaruan 1. Menurut Handayani I. (2020) Hasil pengujian sistem menggunakan K-NN metode klasifikasi mampu mengklasifikasikan 438 data dengan benar. Sebagai perbandingan, Naïve Bayes benar mengklasifikasikan 428 data menggunakan k- fold cross-validation uji dengan k = 10. Hal ini menunjukkan bahwa K-NN metode klasifikasi memiliki akurasi yang lebih baik daripada metode Metode klasifikasi Naïve Bayes pada data yang digunakan. Metode K-NN mendapatkan akurasi yang lebih tinggi karena Algoritma Naïve Bayes adalah algoritma parametrik yang mengasumsikan bahwa setiap atribut data adalah independen, yang merupakan properti langka di dunia nyata. 2. Menurut Wibawa AP (2019) Berdasarkan hasil pembahasan dalam penelitian ini, data diklasifikasikan ke dalam beberapa label yaitu Q1, Q2, Q3, Q4 dan NQ. Variabel yang digunakan dalam penelitian ini adalah H in dex, SJR, Total Docs. (2017), Total Docs. (3years), Total Refs, Total Cites (3years), Citable Docs. (3years), Cites / Doc. (2years), and Ref. / Doc. Klasifikasi dari kualitas jurnal dapat memudahkan masyarakat untuk memilih jurnal yang berkualitas. Dalam studi ini, peneliti juga menyimpulkan bahwa algoritma Naïve Bayes Classifier mampu mengklasifikasikan kualitas jurnal, meskipun nilai akurasinya tidak terlalu optimal. 3. Menurut Muliono Y,(2018) Dari tiga percobaan yang telah dilakukan, Naïve Bayes menunjukkan hasil yang stabil, Naïve Bayes Classifier tidak pernah menjadi terburuk atau terbaik, menunjukkan kinerja yang stabil, sesuai untuk pengambil risiko rendah untuk menggunakan Naïve Bayes untuk pengklasifikasi dan besar data pembelajaran statistik untuk nave bayes, tanpa mengharapkan hasil terbaiknya, untuk k-NN itu sangat bagus untuk beberapa data pelatihan dan hampir menghasilkan hasil yang akurat untuk tiga waktu. Daftar Pustaka
1. Rezeki TI, Sagala RW. Semantics Analysis of Slang (SAOS) in
Social Media of Millennial Generation. KREDO J Ilm Bhs dan Sastra. 2019;3(1).
2. Rezeki TI, Sagala RW. Slang Words Used By Millennial
Generation in Instagram. J Serunai Bhs Ingg. 2019;11(2):74–81.
3. Handayani I, Ikrimach I. Accuracy Analysis of K-Nearest
Neighbor and Naïve Bayes Algorithm in the Diagnosis of Breast Cancer. J Infotel. 2020;12(4):151–9.
4. Wibawa AP, Kurniawan AC, Murti DMP, Adiperkasa RP, Putra
SM, Kurniawan SA, et al. Naïve Bayes Classifier for Journal Quartile Classification. Int J Recent Contrib from Eng Sci IT. 2019;7(2):91.
5. Muliono Y, Tanzil F. A Comparison of Text Classification
Methods k-NN, Naïve Bayes, and Support Vector Machine for News Classification. J Inform J Pengemb IT. 2018;3(2):157–60.
6. Handayani I. Application of K-Nearest Neighbor Algorithm on
Classification of Disk Hernia and Spondylolisthesis in Vertebral Column. Indones J Inf Syst. 2019;2(1):57.