Abstrak— Hate speech atau ujaran kebencian yang berbeda [1]. Pada sosial media, pengguna dapat
pada salah satu platform sosial media yaitu Twitter bertukar ataupun mendapatkan informasi secara bebas.
sudah tidak jarang ditemukan. Pada platform Perkembangan sosial media yang pesat dapat
Twitter, pengguna bebas mendapatkan, bertukar mempengaruhi sikap dan pola perilaku masyarakat.
informasi, serta mengungkapkan opini. Hal ini Semenjak kemunculan sosial media,
merupakan salah satu faktor utama seseorang penggunaan website mengalami penurunan. Hal ini
dapat terkena ujaran kebencian pada Twitter. terjadi dikarenakan fitur pada sosial media lebih
Korban yang terkena ujaran kebencian memiliki unggul daripada fitur website, salah satunya adalah
kemungkinan menderita gangguan kesehatan pertukaran informasi yang selektif dan objektif dengan
mental, dikarenakan sebagian besar korban ujaran fitur pengaturan yang dapat diatur oleh pengguna
kebencian diserang secara verbal atapun secara bebas. Oleh karena itu, pengguna sosial media
emosional. Minimnya penanggulangan deteksi dapat dengan bebas mengakses informasi pribadi
ujaran kebencian pada platform sosial media orang lain dan memanfaatkan informasi tersebut [2].
Twitter masih jarang ditemukan. Pada penelitian Dikarenakan kebebasan tersebut, peluang terjadinya
ini, dilakukan proses simulasi menggunakan cyber bullying meningkat.
website beserta dengan pengujian dan analisis Peningkatan terjadinya cyber bullying
terhadap pendeteksian ujaran kebencian. disebabkan oleh penyalahgunaan sosial media, salah
Pengujian dilakukan dengan cara pengguna akan satu contoh penyalahgunaan sosial media adalah
melakukan input kalimat pada website hate speech, ujaran kata kasar terhadap suatu kelompok ataupun
lalu website akan melakukan preprocessing dan individu. Sebuah individu atau kelompok yang
menganalisa kalimat tersebut menggunakan mengalami cyber bullying memiliki risiko gejala
Algoritma BERT untuk mengklasifikasikan gangguan kesehatan mental yang tinggi seperti
apakah kalimat tersebut termasuk hate speech atau depresi, kecemasan berlebihan, perubahan pola tidur
tidak. Dari hasil pengujian diperoleh bahwa dan pola makan, serta kehilangan minat untuk
pendeteksian hate speech pada akun pengguna beraktivitas [2]. Berdasarkan hal tersebut, pendeteksi
Twitter menggunakan Algoritma BERT ujaran kebencian pada platform sosial media
mendapatkan akurasi sebesar 78.69%, presisi merupakan hal yang penting guna mencegah dan
sebesar 78.90%, recall sebesar 78.69%, dan F1 meminimalisir terjadinya cyber bullying pada sosial
score sebesar 78.77% terhadap pengklasifikasian media.
golongan hate speech. Dengan demikian pengguna
akan lebih mudah mendeteksi hate speech pada II. KAJIAN TEORI
Twitter dengan menggunakan website hate speech.
A. Natural Language Processing
Keywords-- algoritma BERT, aplikasi web, hate Natural Language Processing adalah sebuah
speech, twitter. ilmu terapan kecerdasan buatan mengenai pengolahan
bahasa natural yang bertujuan untuk memproses atau
menerjemahkan kata-kata yang disampaikan oleh
manusia agar dapat dimengerti oleh komputer [3].
I. PENDAHULUAN Natural Language Processing diciptakan sekitar tahun
1950-an sebagai titik potong antara artificial
Pada zaman modern ini, teknologi merupakan intelligence dan ilmu linguistik [4]. Pengertian dari
hal yang tidak asing bagi suatu individu. Berbagai bahasa natural itu sendiri adalah bahasa umum yang
macam teknologi telah tercipta, salah satunya adalah digunakan oleh manusia untuk berkomunikasi [3].
teknologi informasi dimana pada teknologi informasi Bahasa ini tidak mudah untuk diaplikasikan pada
hadir sebuah istilah yang dinamakan dengan sosial komputer dikarenakan membutuhkan proses
media. Sosial media mempunyai arti sebagai media pemahaman yang lama untuk menerjemahkan bahasa
pertukaran informasi secara online dengan berbagai tersebut.
macam platform yang memiliki tujuan dan manfaat
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.10, No.1 Februari 2023 | Page 257
III. METODE
A. Arsitektur Aplikasi
Aplikasi pendeteksi ujaran kebencian bekerja
dengan mengklasifikasikan teks berbahasa Inggris
sebagai input dan sistem akan menghasilkan keluaran
sebagai label dan probabilitas akurasi terhadap
klasifikasi ujaran kebencian. Ilustrasi aplikasi
GAMBAR 3
ditunjukkan pada Gambar 2 di bawah ini. ALUR SISTEM
GAMBAR 2
ARSITEKTUR WEBSITE HATE SPEECH
mengirimkan output berupa akurasi dan pelabelan Proses ini dilakukan untuk menghilangkan angka,
kalimat. kalimat penyambung, dan simbol-simbol yang tidak
diperlukan. Contoh dari filtering dapat dilihat pada
3. Algoritma BERT
tabel 3.
TABEL 3
FILTERING
Input Output
that bitch has been mia that bitch has been mia for
for 3 days & no words days no words from her at
from her at all. all
c. Stemming
Proses ini dilakukan untuk mengembalikan arti
konteks pada kalimat kepada inti dari konteks aslinya.
Contoh dari stemming dapat dilihat pada tabel 4.
TABEL 4
STEMMING
TABEL 6 Q : queries
CONTOH TOKEN EMBEDDING
K : keys
d : embedding
I Love NLP
V : values
�㔸[�㔶Āÿ] �㔸�㔼 �㔸[ā�㔴ÿÿ] �㔸ĂĀ�㕃 �㔸[ÿ�㔸�㕃]
0.71 0.59 0.71
�㔾 Ā = [ ]
0.69 0.74 0.52
0.71 0.64 0.66
b. Sentence embedding �㕄�㔾 Ā = [0.42 0.38 0.38]
Sentence embedding akan menempatkan kelas 0.48 0.46 0.42
numerik untuk membedakan antara kalimat A dan 0.50 0.45 0.47
�㕄�㔾 Ā
kalimat B. Sehingga kalimat tersebut menjadi: = [ 0.3 0.27 0.27]
√�㕑 0.34 0.32 0.3
TABEL 7
CONTOH SENTENCE EMBEDDING �㕄�㔾 Ā 1 1
x �㕉 = [0.6 0.5]
√�㕑 0.7 0.6
I Love NLP
�㔸�㔴 �㔸�㔴 �㔸�㔴 �㔸�㔴 �㔸�㔴
Maka hasil akhir dari perhitungan atas adalah:
1 1
c. Transformer positional encoding [0.6 0.5]
Transformer positional encoding akan 0.7 0.6
Hasil tersebut merupakan nilai output dalam
menempatkan lokasi setiap kata pada sebuah kalimat.
bentuk probabilitas. Perhitungan ini akan kembali
Kalimat tersebut akan menjadi: berulang pada setiap head pada multi head.
TABEL 8
CONTOH TRANSFORMER POSITIONAL
IV. HASIL DAN PEMBAHASAN
REFERENSI
[2] R. Garett, L. R. Lord and S. D. Young, "Associations [6] Pandu Nayak, "Understanding searches better than ever
Between Social Media and Cyberbullying : A Review before," Google, 25 Oktober 2019. [Online]. Available:
of The Literature," vol. 2, 2016. https://blog.google/products/search/search-language-
[3] IBM Cloud Education, "IBM Cloud Learn Hub," understanding-bert/. [Accessed 30 November 2021].
Natural Language Processing (NLP), 2 Juli 2020. [7] B. Muller, "huggingface bert 101," BERT 101 STATE
[Online]. Available: OF THE ART NLP MODEL EXPLAINED, 2 Maret
https://www.ibm.com/cloud/learn/natural-language- 2022. [Online]. Available:
processing. [Accessed 20 Juli 2022]. https://huggingface.co/blog/bert-101. [Accessed 28
[4] P. M. Nadkarni, L. Ohno-Machado and W. W. Agustus 2022].
Chapman, "Natural Language Processing : an [8] D. Gunawan, C. A. Sembiring and M. A. Budiman,
introduction," pp. 544-551, 2011. "The Implementation of Cosine Similarity to Calculate
[5] SAS Institute Inc., "Neural Networks : What they are & Text Relevance between Two Documents," Journal of
why they matter," [Online]. Available: Physics : Conference Series, pp. 1-6, 2017.
https://www.sas.com/en_id/insights/analytics/neural-
networks.html. [Accessed 12 September 2022].