Anda di halaman 1dari 6

KLASIFIKASI BAHASA SLANG INDONESIA MENGGUNAKAN

METODE NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA


MEDIA SOSIAL

PROPOSAL PENELITIAN

Dosen Pembimbing : Abdi Dharma, S.Kom., M.Kom.


Ketua Peneliti : Aditya Calderon Naibaho (183303030214)
Anggota Peneliti 1 : Alhoi Andrew Jefferson (183303030201)
Anggota Peneliti 2 : Lolo Mulatua Bancin (183303030209)

PROGRAM STUDI S1 - TEKNIK INFORMATIKA


FAKULTAS TEKNOLOGI DAN ILMU KOMPUTER
UNIVERSITAS PRIMA INDONESIA
MEDAN
2021
KLASIFIKASI BAHASA SLANG INDONESIA MENGGUNAKAN
METODE NAÏVE BAYES DAN K-NEAREST NEIGHBOR PADA
MEDIA SOSIAL

BAB I

PENDAHULUAN

1.1 Latar Belakang


Bahasa adalah salah satu hal penting dalam hidup manusia karena
manusia bias berkomunikasi satu sama lain dengan mudah melalui bahasa
(Sagala, 2019). Hebatnya, fitur makna bahasa tidak hanya terkait dengan
pemilihan kata, tetapi juga bagaimana cara menyampaikannya. Ketika
pembicara tidak dapat menyampaikan pesannya dengan menggunakan satu
bahasa, pembicara perlu ubah bahasa menjadi lebih dipahami. Saat ini,
bahasa gaul telah menjadi fenomena di era generasi milenial, bukan hanya
untuk mereka yang tinggal di kota tetapi juga untuk mereka yang tinggal di
desa pasti tahu bahasa gaul bahasa seolah-olah sudah menjadi tren di
kalangan milenial zaman. Sementara di sisi lain, orang tua dan orang dewasa
mengeluh tentang tata bahasa dan ucapan bahasa anak-anak mereka yang
sulit untuk dipahami. Apalagi media sosial adalah berkembang saat ini, yang
dimulai dari Short Message Service (SMS) ke Instagram, Facebook,
WhatsApp, Twitter, dan lain-lain[1].
Hornby (1974) menyatakan bahwa bahasa gaul adalah kata, frasa, arti
kata, yang biasa digunakan dalam percakapan di antara teman-teman atau
kolega, tetapi tidak cocok untuk tulisan yang bagus atau acara resmi. Slang
adalah bahasa (kata-kata, frase, dan penggunaan) dari register informal
bahwa anggota kelompok khusus seperti remaja, musisi, atau penjahat
mendukung untuk membangun identitas kelompok. Bahasa Slang biasanya
populer di kalangan generasi milenial[2].
Algoritma Naïve Bayes adalah metode klasifikasi berdasarkan
Teorema Bayes mengasumsikan independensi parameter satu sama lain.
Teorema Bayes menyediakan cara untuk menghitung probabilitas nilai
parameter menggunakan nilai yang lain parameter[3]. Probabilitas dari fitur
tertentu dalam data muncul sebagai anggota dalam urutan probabilitas dan
diperoleh dengan menghitung frekuensi setiap nilai fitur di kelas dari training
dataset. Training dataset adalah subset yang digunakan untuk melatih
algoritma klasifikasi. proses pelatihan menggunakan nilai yang diketahui
untuk memprediksi nilai yang tidak diketahui[4].
Algoritma K-Nearest Neighbor adalah metode klasifikasi yang
menggunakan semua training dataset yang membuat perhitungan proses
training menjadi lebih kompleks dan tidak dapat menunjukkan hasil yang
berbeda dari sampel yang berbeda[5]. Selain digunakan untuk klasifikasi,
algoritma K-NN juga digunakan untuk estimasi dan prediksi[6].

1.2 Rumusan Masalah


Berdasarkan latar belakang yang telah diuraikan diatas, peneliti ingin
menganalisa seberapa akurat algoritma Naive Bayes dan K-Nearest Neighbor
dalam mengklasifikasi Bahasa Slang Pada Sosial Media Facebook serta
melihat apakah algoritma Naive Bayes dan K-Nearest Neighbor lebih efisien
jika dibandingkan dengan penelitian sebelumnya yang menggunakan
algoritma berbeda?
1.3 Tujuan dan Manfaat
1.3.1 Tujuan

Penelitian ini bertujuan untuk melihat banyaknya penggunaan bahasa


Slang di Sosial Media Facebook dan bertujuan untuk melihat seberapa akurat
algoritma Naive Bayes dan K-Nearest Neighbor dalam penelitian ini.

1.3.2 Manfaat

1. Agar tidak mengganggu pemahaman bahasa bagi orang lain.

2. Sebagai pengetahuan bahwa ada bahasa slang yang berkonotasi negatif.

3. Penelitian ini diharapkan agar masyarakat tetap menggunakan bahasa


Indonesia yang baik dan benar.
1.4 Batasan Masalah

Batasan penelitian ini sebagai berikut :

1. Dalam penelitian ini menggunakan algoritma Naive Bayes dan K-Nearest


Neighbor.
2. Dataset yang di ambil berupa komentar dari postingan di Facebook,
Twitter dan Instagram.
3. Jumlah sampel dataset adalah sebanyak 10.000 sampel dengan 4 fitur.
4. Data di dapatkan dengan metode web scraping.
5. Proses data dilakukan menggunakan software Rapidminer Studio.
6. Persentase data akan digunakan sebagai 60% untuk data training, 20%
untuk data evaluation, dan 20% untuk data testing.
1.5 Keterbaruan
1. Menurut Handayani I. (2020) Hasil pengujian sistem menggunakan K-NN
metode klasifikasi mampu mengklasifikasikan 438 data dengan benar. Sebagai
perbandingan, Naïve Bayes benar mengklasifikasikan 428 data menggunakan k-
fold cross-validation uji dengan k = 10. Hal ini menunjukkan bahwa K-NN
metode klasifikasi memiliki akurasi yang lebih baik daripada metode Metode
klasifikasi Naïve Bayes pada data yang digunakan. Metode K-NN mendapatkan
akurasi yang lebih tinggi karena Algoritma Naïve Bayes adalah algoritma
parametrik yang mengasumsikan bahwa setiap atribut data adalah independen,
yang merupakan properti langka di dunia nyata.
2. Menurut Wibawa AP (2019) Berdasarkan hasil pembahasan dalam penelitian ini,
data diklasifikasikan ke dalam beberapa label yaitu Q1, Q2, Q3, Q4 dan NQ.
Variabel yang digunakan dalam penelitian ini adalah H in dex, SJR, Total Docs.
(2017), Total Docs. (3years), Total Refs, Total Cites (3years), Citable Docs.
(3years), Cites / Doc. (2years), and Ref. / Doc. Klasifikasi dari kualitas jurnal
dapat memudahkan masyarakat untuk memilih jurnal yang berkualitas. Dalam
studi ini, peneliti juga menyimpulkan bahwa algoritma Naïve Bayes Classifier
mampu mengklasifikasikan kualitas jurnal, meskipun nilai akurasinya tidak
terlalu optimal.
3. Menurut Muliono Y,(2018) Dari tiga percobaan yang telah dilakukan, Naïve
Bayes menunjukkan hasil yang stabil, Naïve Bayes Classifier tidak pernah
menjadi terburuk atau terbaik, menunjukkan kinerja yang stabil, sesuai untuk
pengambil risiko rendah untuk menggunakan Naïve Bayes untuk pengklasifikasi
dan besar data pembelajaran statistik untuk nave bayes, tanpa mengharapkan
hasil terbaiknya, untuk k-NN itu sangat bagus untuk beberapa data pelatihan dan
hampir menghasilkan hasil yang akurat untuk tiga waktu.
Daftar Pustaka

1. Rezeki TI, Sagala RW. Semantics Analysis of Slang (SAOS) in


Social Media of Millennial Generation. KREDO J Ilm Bhs dan
Sastra. 2019;3(1).

2. Rezeki TI, Sagala RW. Slang Words Used By Millennial


Generation in Instagram. J Serunai Bhs Ingg. 2019;11(2):74–81.

3. Handayani I, Ikrimach I. Accuracy Analysis of K-Nearest


Neighbor and Naïve Bayes Algorithm in the Diagnosis of Breast
Cancer. J Infotel. 2020;12(4):151–9.

4. Wibawa AP, Kurniawan AC, Murti DMP, Adiperkasa RP, Putra


SM, Kurniawan SA, et al. Naïve Bayes Classifier for Journal
Quartile Classification. Int J Recent Contrib from Eng Sci IT.
2019;7(2):91.

5. Muliono Y, Tanzil F. A Comparison of Text Classification


Methods k-NN, Naïve Bayes, and Support Vector Machine for
News Classification. J Inform J Pengemb IT. 2018;3(2):157–60.

6. Handayani I. Application of K-Nearest Neighbor Algorithm on


Classification of Disk Hernia and Spondylolisthesis in Vertebral
Column. Indones J Inf Syst. 2019;2(1):57.

Anda mungkin juga menyukai