Anda di halaman 1dari 15

doi: 10.47002/metik.v7i2.

591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

Analisis Perbandingan Metode Decision Tree Dan K-Nearest Neighbor


Untuk Klasifikasi Cyberbullying Pada Sosial Media Twitter

Maradona1*, Kusrini2, Alva Hendi Muhammad3


1, 2
Teknik Informatika, Universitas Amikom Yogyakarta, Indonesia
3
PJJ Teknik Informatika, Universitas Amikom Yogyakarta, Indonesia

*
mrdn@students.amikom.ac.id

Abstract
This research focuses on analyzing the impact of social media on society, particularly addressing the issue
of cyberbullying on the Twitter platform. Based on statistics, the majority of internet users in Indonesia actively
utilize social networks, with Twitter being the most dominant platform used for communication and interaction.
Therefore, cyberbullying cases often occur on this social media platform. In this study, two classification methods,
namely Decision Tree and K-Nearest Neighbor (KNN), were employed to classify cyberbullying-related messages
on Twitter. The aim of this research is to compare the performance of these two methods and to identify early signs
of cyberbullying as relevant digital evidence for legal proceedings. The dataset used in this study consists of 650
comment records from the period 2019 to 2021, with predefined labels. The analysis results indicate that K-
Nearest Neighbor achieved the highest accuracy, reaching 75.99%, compared to Decision Tree with 65.00%.
Hence, K-Nearest Neighbor is considered a more effective method for cyberbullying analysis on the Twitter
platform. Additionally, the identification of early signs of cyberbullying in comment id 2 can serve as relevant
digital evidence for legal purposes. This research provides better insights into the effectiveness of classification in
addressing cyberbullying issues on the Twitter platform.

Keywords: cyberbullying, social media, twitter, decision tree, k-nearest neighbor

Abstrak
Penelitian ini berfokus pada analisis dampak media sosial pada masyarakat, dengan khususnya membahas
masalah cyberbullying di platform Twitter. Berdasarkan statistik, mayoritas pengguna internet di Indonesia aktif
menggunakan jejaring sosial, dan Twitter menjadi media sosial yang paling dominan digunakan untuk berinteraksi
dan berkomunikasi. Oleh karena itu, masalah cyberbullying sering terjadi di media sosial ini. Penelitian ini
menggunakan dua metode klasifikasi, yaitu Decision Tree dan K-Nearest Neighbor (KNN), untuk
mengklasifikasikan pesan-pesan terkait cyberbullying di Twitter. Tujuan penelitian ini adalah untuk
membandingkan kinerja kedua metode tersebut dan mengidentifikasi tindakan awal cyberbullying sebagai bukti
digital yang relevan untuk keperluan persidangan. Dataset yang digunakan mencakup 650 record komentar dari
tahun 2019 hingga 2021, dengan label yang sudah ditentukan. Hasil analisis menunjukkan bahwa K-Nearest
Neighbor memiliki akurasi tertinggi, mencapai 75,99%, dibandingkan dengan Decision Tree yang mencapai
65,00%. Oleh karena itu, K-Nearest Neighbor merupakan metode yang lebih efektif untuk analisis cyberbullying
pada platform Twitter. Selain itu, identifikasi tindakan awal cyberbullying pada komentar dengan id 2 dapat
menjadi bukti digital yang relevan untuk proses persidangan. Penelitian ini memberikan wawasan yang lebih baik
tentang efektivitas klasifikasi dalam mengatasi masalah cyberbullying di media sosial Twitter.

Kata kunci: cyberbullying, media sosial, twitter, decision tree, k-nearest neighbor

1. Latar Belakang [2]. Respon masyarakat terhadap kemajuan


Kemajuan teknologi yang cepat teknologi dan komunikasi tercermin dari
memberikan dampak positif pada masyarakat kemampuan mereka dalam mengakses
karena memudahkan berbagai aktivitas informasi yang tersebar melalui internet,
sehari-hari. Namun, dampak negatifnya juga terutama melalui media sosial [3]. Di
terlihat dengan meningkatnya kejahatan Indonesia, banyak orang menggunakan
melalui internet yang semakin beragam [1], perangkat mobile seperti smartphone atau
47
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

tablet untuk mengakses media sosial, dan beragamnya bahasa dan logat yang digunakan
aktivitas online di media sosial melalui dalam menyampaikan teks tersebut.
smartphone pun signifikan dalam seminggu Sebelumnya, penelitian lebih banyak
[4]. Namun, perkembangan ini juga berfokus pada satu bahasa dan melakukan
membawa risiko, terutama dengan adanya pengumpulan data secara manual. Namun,
cybercrime yang terjadi melalui media sosial dalam penelitian ini, pendekatan yang diambil
[5]. Dari data yang ada, mayoritas pengguna adalah dengan menggunakan dataset yang
internet aktif mengakses jejaring sosial, sudah ada dan telah menjalani pengujian
dengan Twitter menjadi platform media sosial dengan metode lain sebelumnya [11].
yang paling dominan dan sering digunakan Dalam melakukan investigasi
sebagai tempat komentar yang berpotensi cyberbullying, terdapat enam tahapan yang
menyebabkan kasus cyberbullying [6]. perlu dilakukan, yaitu membangun corpus,
Menurut hasil survei yang dilakukan oleh pra pemrosesan, identifikasi fitur
lembaga Antibullying Ditch The Label, menggunakan TF-IDF dan countvectorizer,
cyberbullying dapat diartikan sebagai pelatihan model dan pelabelan, klasifikasi
komentar negatif, pesan pribadi yang tidak cyberbullying, dan pembentukan corpus
baik, dan olok-olok dapat menyebabkan cyberbullying. Meskipun tahapan-tahapan ini
cyberbullying di media sosial. Cyberbullying merupakan langkah penting dalam proses
merupakan perilaku yang merendahkan, investigasi, namun belum memberikan solusi
menghina, mengancam, atau membahayakan lengkap dalam mengatasi permasalahan bukti
seseorang secara berulang melalui digital terkait cyberbullying. Selain tahapan
pemanfaatan teknologi, internet, dan media tersebut, terdapat tahapan lain yang juga
sosial [7]. Ternyata, dampak dari diperlukan, seperti pengumpulan data, pra-
cyberbullying lebih menyakitkan pemrosesan, pembersihan data, dan
dibandingkan dengan kekerasan fisik. Dalam klasifikasi data untuk membandingkan
kasus ini, terdapat berbagai jenis tindakan sentimen [12].
cyberbullying yang berbeda, seperti flaming Sudah banyak studi yang dilakukan
(mengirim pesan yang kasar), pelecehan, mengenai cyberbullying di Indonesia dari
cyber stalking (mengintai dan mengganggu berbagai perspektif, seperti sosiologi, ilmu
secara online), fitnah, pengecualian komunikasi, hukum, psikologi, dan
(mengasingkan seseorang secara online), informatika. Namun, penelitian dalam bidang
trolling (mengganggu dengan komentar teknologi informasi masih terbatas, terutama
provokatif), peniruan identitas, dan tipu yang berkaitan dengan cyberbullying di
muslihat [8]. platform media sosial. Oleh karena itu,
Pada Konferensi Internasional ke-3 tahun penelitian ini akan mengambil pendekatan
2018, cyberbullying dikategorikan menjadi yang berbeda dengan menganalisis
tiga jenis, yaitu ancaman, kutukan, dan cyberbullying di platform media sosial
seksual. Ancaman mengacu pada ancaman Twitter. Pendekatan ini akan menggunakan
fisik atau psikologis, sementara kutukan dataset yang sudah ada dan telah diuji dengan
mencakup pengucapan hal-hal jahat terhadap metode lain sebelumnya, sehingga
seseorang, dan jenis seksual mencakup diharapkan dapat memberikan kontribusi
pelecehan seksual secara online [9]. yang berarti dalam memahami dan mengatasi
Cyberbullying telah menjadi isu serius dalam masalah cyberbullying di media sosial
lingkungan online dan telah mempengaruhi tersebut.
banyak orang, terutama di kalangan anak Dalam kajian tentang cyberbullying,
muda. Oleh karena itu, peningkatan kesadaran beberapa pendekatan digunakan untuk
dan tindakan preventif menjadi hal yang analisis, seperti SVM, NBC, C45, K-Means,
penting untuk melindungi masyarakat dari dan algoritma genetika [13][14]. Setiap
dampak negatif yang diakibatkan oleh pendekatan ini memiliki kelebihan dan
cyberbullying [10]. Mendeteksi teks yang kelemahan yang tergantung pada kasus yang
mengandung kebencian atau perilaku bullying akan diatasi [15]. Dalam penelitian ini,
merupakan tantangan yang sulit karena memilih untuk menganalisis tindakan
48
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

cyberbullying di platform media sosial menyebabkan Penilaian yang tidak


Twitter dengan menggunakan metode sepenuhnya objektif pada proses manual
Decision Tree dan K-Nearest Neighbor labeling. Sebagai gantinya, penelitian ini
(KNN). menggunakan dataset yang sudah ada dari
Metode Decision Tree menggunakan penelitian sebelumnya telah menggunakan
struktur pohon keputusan untuk menentukan algoritma SVM dan klastering K-Means
variabel penting dalam klasifikasi data, sebagai sumber referensi [13]–[15].
sementara KNN mengklasifikasikan data Penelitian ini menggunakan data yang
berdasarkan mayoritas label pada tetangga bersumber dari
terdekat [16]. Kedua metode ini memiliki www.kaggle.com/datasets/markini/cyberbull
kelebihan dalam implementasi dan ying-twitter-bahasa-indonesia. Tabel 1
pemahaman yang mudah. Namun, perlu menampilkan informasi mengenai dataset
diperhatikan bahwa overfitting dapat terjadi yang terdiri dari lima atribut dan satu atribut
pada data yang kompleks, dan sensitivitas kelas yang relevan dengan penelitian ini.
terhadap skala dan dimensi data yang besar
Tabel 1. Atribut data untuk cyberbullying di Twitter
[17]. Penelitian ini bertujuan untuk
membandingkan kinerja kedua metode dalam No Atribut
mengklasifikasikan pesan terkait 1 Username Pelaku
2 Text komentar
cyberbullying di Twitter, dengan harapan 3 Label
dapat memberikan wawasan yang lebih baik 4 Waktu
tentang efektivitas klasifikasi dalam 5 Username korban
mengidentifikasi cyberbullying di platform
tersebut. Selain itu, tujuan dari penelitian ini 2.2. Preprocessing
juga mencakup identifikasi tindakan Proses preprocessing dalam penelitian
cyberbullying sebagai bukti digital yang ini dilakukan dengan tujuan untuk
relevan untuk keperluan persidangan. mengeliminasi noise pada data yang akan
diproses, sehingga dapat berkontribusi pada
2. Metode Penelitian hasil klasifikasi yang lebih akurat. Tahap ini
Penelitian ini, menggunakan data sangat penting agar proses pengelompokkan
komentar dari Twitter yang berisi elemen data dapat dilakukan dengan baik dan efisien.
positif dan negatif. Proses penelitian meliputi Menurut [18], tahapan preprocessing terdiri
tahapan pengumpulan data, pra-pemrosesan dari beberapa langkah, yaitu:
data, pemberian bobot kata, proses klasifikasi, 1. Case Folding: Ini adalah langkah untuk
dan akhirnya evaluasi. Langkah-langkah mengubah semua kalimat dalam bentuk
detail penelitian ini dapat dilihat pada Gambar huruf kecil, sehingga tidak ada perbedaan
1. dalam penulisan kata yang bisa
mempengaruhi proses klasifikasi [19]
2. Tokenizing: Langkah ini mengubah bentuk
kalimat menjadi beberapa kata dalam
kalimat dan menghilangkan tanda baca
dalam kalimat. Hal ini dilakukan untuk
mempersiapkan data menjadi unit-unit
yang lebih kecil dan relevan dalam proses
klasifikasi [20].
3. Stopword Removal: Proses ini melibatkan
penghilangan kata-kata esensial dalam
Gambar 1. Tahapan Penelitian sebuah kalimat yang biasanya tidak
memiliki makna khusus dan sering muncul
2.1. Pengumpulan Data dalam bahasa. Kata-kata ini terdaftar
Dalam penelitian ini menghindari dalam kamus stopword list dan dianggap
penggunaan teknik crawling untuk tidak relevan untuk proses klasifikasi [21].
mengumpulkan data karena dapat

49
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

4. Normalisasi: Tahap normalisasi dilakukan tersebut. Semakin sering istilah tersebut


untuk mengubah kata-kata tidak baku atau muncul, semakin tinggi bobot dokumen untuk
variasi kata menjadi bentuk kata baku, istilah atau kata tersebut, dan sebaliknya.
sehingga data lebih seragam dan konsisten Sedangkan Idf (Inverse Document
dalam proses klasifikasi [22]. Frequency) berfokus pada kemunculan suatu
5. Stemming: Proses stemming term pada seluruh koleksi teks dalam
menghilangkan afiks atau akhiran dari kata komentar. Pada Idf, term yang jarang muncul
sehingga hanya menyisakan kata dasar. dalam seluruh koleksi term dianggap lebih
Hal ini membantu dalam mengurangi berharga atau penting. Perhitungan Idf
dimensi data dan mempercepat proses menggunakan rumus [14].
klasifikasi [23].
𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑑𝑎𝑙𝑎𝑚 𝑘𝑜𝑙𝑒𝑘𝑠𝑖
Dalam proses analisis teks, lima langkah 𝐼𝑑𝑓 = log (
𝑗𝑢𝑚𝑙𝑎ℎ 𝑑𝑜𝑘𝑢𝑚𝑒𝑛 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑔𝑎𝑛𝑑𝑢𝑛𝑔 𝑖𝑠𝑡𝑖𝑙𝑎ℎ
) (1)
preprocessing berikut ini sering digunakan.
Namun, ada juga langkah lain yang dikenal Dengan menggunakan rumus Tf dan
sebagai lemmatization. Namun, dalam rumus Idf, dapat menghitung Tf-Idf yang
penelitian ini, digunakan metode stemming merupakan hasil perkalian nilai Term
sebagai alternatif. Hal ini dikarenakan dataset Frequency (Tf) dengan Inverse Document
yang digunakan berbentuk bahasa Indonesia, Frequency (Idf).
dan untuk melakukan stemming, digunakan
library bernama Sastrawi. Adapun 2.4. Decision Tree
lemmatization sulit diimplementasikan Metode Decision Tree (Pohon
karena kesulitan dalam menemukan library Keputusan) merupakan pendekatan yang
yang sesuai dengan bahasa Indonesia. Oleh simpel dan mudah diterapkan dalam analisis
karena itu, keputusan untuk menggunakan data. Salah satu keunggulan metode ini adalah
stemming sebagai metode preprocessing kemampuannya untuk mengklasifikasikan
dalam penelitian ini dianggap sebagai pilihan data berdasarkan label yang sudah ada,
yang tepat. sehingga mempermudah pengelompokkan ke
dalam kelas yang paling sesuai. Selain itu,
2.3. Pembobotan Kata Decision Tree mampu mengklasifikasikan
Output dari tahap preprocessing data dengan menggunakan data latih dan data
menghasilkan kumpulan term atau kata. uji, serta memberikan prediksi yang akurat
Langkah berikutnya adalah melakukan proses dengan mengidentifikasi variabel yang paling
term weighting, di mana setiap term atau kata berpengaruh dalam pembentukan struktur
diberikan bobot atau nilai untuk menunjukkan pohon keputusan. Pohon keputusan dihitung
pentingnya term tersebut dalam dokumen. menggunakan algoritma yang bergantung
Penghitungan bobot term dilakukan untuk pada pembagian data berdasarkan
setiap dokumen, sehingga dapat pengukuran kesalahan gini, entropi, atau
mengidentifikasi ketersediaan dan kemiripan peningkatan informasi. Dalam
term dalam dokumen tersebut [24]. Semakin perhitungannya, Decision Tree menggunakan
sering term muncul dalam koleksi dokumen, nilai entropi dan gain yang dihasilkan dari
semakin tinggi nilai atau bobot yang rumus (2) berikut untuk memilih variabel
diberikan kepada term tersebut. Setelah tahap yang optimal dalam membagi data menjadi
pemberian bobot selesai, langkah selanjutnya dua kelompok. Dengan demikian,
adalah melakukan proses klasifikasi pembentukan struktur pohon keputusan
menggunakan dua algoritma yang diusulkan. memungkinkan untuk melakukan prediksi
Dalam tahap term weighting, metode yang label atau kelas yang sesuai dengan data yang
digunakan untuk melakukan pembobotan belum diketahui sebelumnya [25].
adalah metode Tf-Idf.
Tf (Term Frequency) adalah metode 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑𝑛𝑖=1 − 𝑝𝑖 𝑥 𝑙𝑜𝑔2 𝑝𝑖
untuk menentukan bobot suatu dokumen |𝑆𝑖|
𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝑆 = ∑𝑛𝑖=1 𝑥 𝑆𝑖 (2)
dengan menghitung berapa kali istilah atau |𝑆|
kata tertentu muncul dalam dokumen
50
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

Dalam rumus (2) tersebut, S merupakan (TP), False Positive (FP), True Negative
nilai Entropy dari kumpulan data yang sedang (TN), dan False Negative (FN), yang sangat
dipertimbangkan. 𝑝𝑖 adalah jumlah data yang membantu dalam mengevaluasi hasil
memiliki nilai positif atau negatif pada atribut klasifikasi. Penelitian ini akan menggunakan
tertentu di dalam kumpulan data tersebut. 10 fold cross validation untuk membagi data
Gain (S,A) mengukur informasi yang dan menguji kinerja model atau algoritma.
diperoleh dari mengelompokkan output data Semakin tinggi nilai yang terdapat pada
berdasarkan atribut A. 𝑆𝑖 adalah subset dari confusion matrix, menunjukkan bahwa model
nilai Entropy yang memiliki nilai 𝑖, yang dihasilkan memiliki tingkat performa
sedangkan 𝑆 adalah subset dari nilai Entropy yang lebih baik dan akurasi yang tinggi dalam
secara keseluruhan. Rumus ini membantu proses klasifikasi. Evaluasi dilakukan
dalam pemilihan atribut yang optimal untuk berdasarkan tiga metrik penting, yaitu
pembagian data menjadi dua kelompok, Accuracy, Precision, dan Recall. Nilai-nilai
sehingga membentuk struktur pohon ini dapat dinyatakan dalam bentuk persentase
keputusan yang efisien dalam (1-100%) atau sistem rekomendasi akan
mengklasifikasikan data. dianggap baik jika nilai akurasi, presisi, dan
recallnya tinggi, dengan nilai-nilai berada
2.5. K-Nearest Neighbor dalam rentang bilangan 0 hingga 1.
Metode K-Nearest Neighbor (K-NN) Rumus (4) adalah persamaan untuk
merupakan pendekatan yang sederhana dan menghitung nilai akurasi, sementara rumus
mudah diimplementasikan dalam analisis (5) adalah persamaan untuk menghitung nilai
data. Seperti halnya Decision Tree, metode ini presisi, dan persamaan untuk nilai recall
juga memanfaatkan data yang sudah memiliki tersedia pada rumus (6) dari pengelompokan
label untuk memudahkan pengelompokkan sebagai berikut [15]:
data ke dalam kelas yang sesuai. Keunggulan
𝑇𝑃 + 𝑇𝑁
lain dari K-NN adalah kemampuannya dalam 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = x 100%
𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁 (4)
mengklasifikasikan data menggunakan data
latih dan data uji, serta memberikan hasil 𝑇𝑃 (5)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = x 100%
prediksi dengan tingkat akurasi yang tinggi 𝑇𝑃 + 𝐹𝑃
dengan cara memilih nilai k terdekat dengan 𝑇𝑃 (6)
𝑅𝑒𝑐𝑎𝑙𝑙 = x 100%
tepat. Dalam perhitungannya, K-NN 𝑇𝑃 + 𝐹𝑁
menggunakan jarak Euclidean berdasarkan
rumus (3) berikut [16]: Penjelasannya adalah sebagai berikut:
True Positive (TP) terjadi ketika prediksi
𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦2 )2 … + (𝑥𝑛 − 𝑦𝑛 )2 kategori dan kategori sistem pada komentar
yang sama cocok dan sesuai secara akurat.
𝑘
=∑ ( 𝑥1 − 𝑥2 )2 (3) True Negative (TN) terjadi ketika prediksi
𝑖=1 kategori dan kategori sistem pada komentar
yang sama tidak cocok dan akurat dalam
Dalam rumus (3), 𝑑(x, y) mewakili jarak mengidentifikasi ketidaksamaan. False
antara dua variabel x dan y dalam data, Positive (FP) terjadi ketika prediksi kategori
sedangkan x adalah variabel yang digunakan dan kategori sistem pada komentar yang sama
untuk melakukan klasifikasi, dan k salah dianggap cocok, padahal sebenarnya
merupakan jumlah tetangga terdekat yang tidak sesuai. Sedangkan False Negative (FN)
akan dipertimbangkan dalam proses terjadi ketika prediksi kategori dan kategori
klasifikasi. sistem pada komentar yang sama salah
2.6. Evaluasi dianggap tidak sesuai, padahal sebenarnya
Evaluasi merupakan tahap penting dalam seharusnya sesuai.
penelitian ini untuk menilai efektivitas dan 2.7. Simulasi Kasus
akurasi kinerja dari model yang telah dibuat. Pada Gambar 2, tersedia sebuah simulasi
Confusion matrix digunakan untuk kasus yang membandingkan metode Decision
menyajikan informasi tentang True Positive Tree dan K-Nearest Neighbor dalam
51
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

melakukan klasifikasi cyberbullying di media sebagai model untuk melakukan klasifikasi.


sosial Twitter. Dalam simulasi ini, Tahapan penelitian meliputi pengumpulan
diasumsikan bahwa korban telah melaporkan data, pra pemrosesan data, perhitungan
kasusnya kepada penyidik dan kemudian peluang kata per kategori, perhitungan tf-idf,
kasus tersebut ditindaklanjuti melalui eksperimen menggunakan model algoritma
investigasi siber. Decision Tree dan K-NN, serta evaluasi
menggunakan confusion matrix.

PUBLIK 3.1. Data Set


Dalam penelitian ini, dataset yang
digunakan berasal dari www.kaggle.com
karena dataset ini memiliki keterbaruan yang
cukup baik. Data ini dikumpulkan dari tahun
2019 hingga 2021 dan telah dilabeli. Dataset
VICTIM INVESTIGATOR JUSTICE
tersebut terdiri dari 650 data record dengan
Gambar 2. Simulasi Kasus 1827 term atau kata, dan setiap record sudah
memiliki label atau kategori. Terdapat 5
Pada simulasi kasus di Gambar 2, korban atribut dalam dataset, namun hanya atribut
mengalami cyberbullying melalui komentar nama twitter, komentar, dan label atau
di platform media sosial Twitter. Proses kategori yang relevan untuk kepentingan
investigasi cyber akan dimulai setelah korban penelitian ini. Tabel 2 berisi metadata dari
melaporkan kejadian tersebut kepada dataset yang digunakan dalam penelitian ini.
penyelidik. Tahap awal adalah
mengidentifikasi twit atau komentar yang Tabel 2. Metadata Komentar di Twitter
Nama
dianggap sebagai cyberbullying. Selanjutnya, No Comments
Twitter
penyelidik akan mengumpulkan bukti digital "Inimah bukan main alat musik
dari twit atau komentar tersebut, mencatat 1 @username 1 lagi. Olahraga jari dan kaki ini
mah"
informasi penting seperti nama akun "Muka anak nya ko tua banget
pengirim, tanggal dan waktu pengiriman, 2 @username 2 yaa.. GK ngegemesin GK ada
serta isi komentar secara lengkap. Semua lucu2nya"
"Kok anaknya kayak udah tua
bukti yang diperoleh akan disimpan dengan 3 @username 3
gitu ya mukanya kk tasya"
cermat, dan penyelidik akan menyusun 4 @username 4
"Makin jelek aja anaknya,
laporan investigasi yang rinci. Laporan ini padahal ibu ayahnya cakep2"
"Gemesnya isyan kayak tango,
akan menjadi bukti yang kuat yang dapat 5 @username 5
berlapis lapis ciaaaa"
digunakan di pengadilan untuk membuktikan 6 @username 6
"@ayu.kinantii isyan skrg
tindakan awal cyberbullying yang terjadi. berubah ya:( baju nya nakal"
"Manusia apa bidadari sih
Dalam proses persidangan, bukti digital yang 7 @username 7
herann deh cantik terus 😌♥️"
disiapkan oleh penyelidik akan digunakan "Hai kak Isyana aku ngefans
sebagai bukti tindakan awal yang mendukung banget sama kak Isyana.aku
8 @username 8
paling suka lagu kak Isyana itu
tuntutan terhadap pelaku cyberbullying. Hasil lagu tetap didalam jiwa"
dari investigasi ini juga dapat memberikan "yang aku suka dari dia adalah
keadilan bagi korban dan berkontribusi dalam 9 @username 9 selalu cukur jembut sebelum
manggung"
pencegahan kasus serupa di masa depan. @username "makan nasi padang aja begini
10
10 badannya"
3. Hasil Dan Analisis up to … …
Penelitian ini berfokus pada klasifikasi
@username "Kaka tidur yaa, udah pagi,
cyberbullying pada media sosial Twitter. 650
11 gaboleh capek2"
Dataset yang digunakan dalam penelitian ini
terdiri dari komentar-komentar acak yang
diambil dari beberapa akun Twitter populer 3.2. Preprocessing
pada tahun 2019 dan 2021. Dalam penelitian Pada penelitian ini, dilakukan
ini, dua algoritma yaitu Decision Tree dan K- perhitungan terhadap 650 record yang
Nearest Neighbor (K-NN) akan dibandingkan mengandung 1827 kata. Komentar yang
52
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

terkumpul kemudian menjalani tahap No Nama Twitter Comments


“kaka tidur yaa, udah
preprocessing untuk mempercepat dan 650 @username 11
pagi, gaboleh capek2”
mempermudah klasifikasi data. Sebelum 2) Tokenizing
dataset digunakan dalam model yang Hasil pada tahap tokenizing telah
diusulkan, proses preprocessing harus direpresentasikan dalam Tabel 4. Pada Tabel
dilakukan terlebih dahulu. Beberapa langkah tersebut, terdapat kolom yang memuat
dalam tahap preprocessing, yaitu: komentar yang diungkapkan pada akun
Twitter. Perbedaan yang terdapat antara Tabel
1) Casefolding
3 dan Tabel 4 adalah pada perubahan tanda
Hasil perubahan pada tahap casefolding
koma (",") yang digunakan sebagai pemisah
telah direpresentasikan dalam Tabel 3. Pada
kata dalam setiap kalimat. Hasil dari proses
Tabel tersebut, Kolom pertama berisi nomor,
tokenizing ini digunakan untuk membagi
kolom kedua berisi nama akun Twitter, dan
kalimat menjadi kata-kata yang telah ditulis
kolom ketiga berisi komentar yang
oleh terduga pelaku dalam suatu komentar di
diungkapkan dalam Twitter. Perbedaan antara
akun Twitter. Proses ini akan mempermudah
Tabel 2 dan Tabel 3 adalah pada perubahan
dalam penghilangan kata-kata yang tidak
huruf kapital di awal kata yang berubah
esensial yang terdapat dalam komentar
menjadi huruf kecil. Sebagai contoh, kata
tersebut.
"Kaka" berubah menjadi "kaka". Hasil dari
proses case folding ini digunakan untuk Tabel 4. Tokenizing
mengubah komentar menjadi bentuk kata No Nama Twitter Comments
yang kecil sehingga memudahkan dalam ‘inimah’, ‘bukan’,
‘main’, ‘alat’, ‘musik’,
penyusunan teks. 1 @username 1 ‘lagi’, ‘olahraga’, ‘jari’,
‘dan’, ‘kaki’, ‘ini’,
Tabel 3. Casefolding ‘mah’
No Nama Twitter Comments ‘muka’, ‘anak’, ‘nya’,
“inimah bukan main alat ‘ko’, ‘tua’, ‘banget’,
1 @username 1 music lagi. olahraga jari 2 @username 2 ‘yaa’, ‘gk’,
dan kaki ini mah” ‘ngegemesin’, ‘gk’,
“makan nasi padang aja ‘ada’, ‘lucunya’
2 @username 2
begini badannya” ‘kok’, ‘anaknya’,
“yang aku suka dari dia ‘kayak’, ‘udah’, ‘tua’,
3 @username 3
3 @username 3
adalah selalu cukur ‘gitu’, ‘ya’, ‘mukanya’,
jembut sebelum ‘kk’, ‘tasya’
manggung” ‘makin’, ‘jelek’, ‘aja’,
“hai kak isyana aku 4 @username 4 ‘anaknya’, ‘padahal’,
ngefans banget sama kak ‘ibu’, ‘ayahnya’, ‘cakep’
4 @username 4 isyana.aku paling suka ‘gemesnya’, ‘isyan’,
lagu kak isyana itu lagu ‘kayak’, ‘tango’,
tetap didalam jiwa” 5 @username 5
‘berlapis’, ‘lapis’,
“manusia apa bidadari sih ‘ciaaaa’
5 @username 5 herann deh cantik terus ‘kinantii’, ‘isyan’,
” 6 @username 6 ‘skrg’, ‘berubah’, ‘ya’,
“@ayu.kinantii isyan ‘baju’, ‘nya’, ‘nakal’
6 @username 6 skrg berubah ya baju ‘manusia’, ‘apa’,
nya nakal” ‘bidadari’, ‘sih’,
7 @username 7
“gemesnya isyan kayak ‘herann’, ‘deh’, ‘cantik’,
7 @username 7 tango, berlapis lapis ‘terus’
ciaaaa” ‘hai’, ‘kak’, ‘isyana’,
“makin jelek aja anaknya, ‘aku’, ‘ngefans’,
8 @username 8 padahal ibu ayahnya ‘banget’, ‘sama’, ‘kak’,
cakep2” 8 @username 8 ‘isyanaaku’, ‘paling’,
“kok anaknya kayak udah ‘suka’, ‘lagu’, ‘kak’,
9 @username 9 tua gitu ya mukanya kk ‘isyana’, ‘itu’, ‘lagu’,
tasya” ‘tetap’, ‘didalam’, ‘jiwa’
“muka anak nya ko tua ‘yang’, ‘aku’, ‘suka’,
banget yaa.. gk ‘dari’, ‘dia’, ‘adalah’,
10 @username 10 9 @username 9 ‘selalu’, ‘cukur’,
ngegemesin gk ada
lucu2nya” ‘jembut’, ‘sebelum’,
‘manggung’
up to … …

53
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

No Nama Twitter Comments No Nama Twitter Comments


‘makan’, ‘nasi’, ‘selalu’, ‘cukur’, ‘jembut’,
10 @username 10 ‘padang’, ‘aja’, ‘begini’, ‘sebelum’, ‘manggung’
‘badannya’ ‘makan’, ‘nasi’, ‘padang’,
10 @username 10
‘aja’, ‘begini’, ‘badannya’
up to … …
up to … …
‘kaka’, ‘tidur’, ‘yaa’,
650 @username 11 ‘udah’, ‘pagi’, ‘kaka’, ‘tidur’, ‘yaa’,
‘gaboleh’, ‘capek’ 650 @username 11 ‘udah’, ‘pagi’, ‘gaboleh’,
‘capek’
3) Stopword
Hasil perubahan yang dilakukan pada
tahap stopword telah direpresentasikan dalam 4) Normalisasi
Tabel 5. Perbedaan antara Tabel 4 dan Tabel Hasil perubahan yang dilakukan pada
5 adalah pada adanya kata-kata yang ditulis tahap normalisasi telah diperlihatkan dalam
miring dan tebal, seperti "aja", "yang", "aku", Tabel 6. Perbedaan antara Tabel 5 dan Tabel
"dari", "dia", "adalah", "selalu", "sebelum", 6 adalah pada perubahan dari kata-kata tidak
"sama", "paling", "itu", "tetap", "apa", "sih", baku menjadi kata-kata baku, seperti kata
"terus", "ya", "nya", dan seterusnya. Kata- "yaa" berubah menjadi "iya", "skrg" berubah
kata tersebut telah dihapus dari kalimat menjadi "sekarang", "kayak" berubah
komentar. Proses stopword ini bertujuan menjadi "seperti", "gk" berubah menjadi
untuk menghilangkan kata-kata yang "tidak", dan lain sebagainya. Kata-kata
dianggap tidak memberikan kontribusi tersebut telah diubah dalam kalimat komentar
signifikan dalam analisis dan klasifikasi data. dan diberikan tanda huruf miring. Proses
Dengan demikian, hanya kata-kata yang normalisasi ini bertujuan untuk menyamakan
dianggap penting dan relevan yang akan bentuk kata yang tidak baku menjadi bentuk
digunakan dalam tahap selanjutnya. kata baku yang sesuai dengan kamus atau
aturan tata bahasa yang berlaku. Dengan
Tabel 5. Stopword demikian, hasil normalisasi memudahkan
No Nama Twitter Comments
dalam klasifikasi dan analisis data karena
‘inimah’, ‘bukan’, ‘main’,
‘alat’, ‘musik’, ‘lagi’, menggunakan kata-kata yang sudah umum
1 @username 1
‘olahraga’, ‘jari’, ‘dan’, dan dikenal secara luas.
‘kaki’, 'ini', 'mah'
‘muka’, ‘anak’, ‘nya’, Tabel 6. Normalisasi
‘ko’, ‘tua’, ‘banget’, ‘yaa’, No Nama Twitter Comments
2 @username 2
‘gk’, ‘ngegemesin’, ‘gk’, 'inimah', 'main', 'alat',
‘ada’, ‘lucunya’ 1 @username 1 'musik', 'olahraga', 'jari',
‘kok’, ‘anaknya’, ‘kayak’, 'kaki', 'mah'
3 @username 3 ‘udah’, ‘tua’, ‘gitu’, ‘ya’, 'muka', 'anak', 'ko', 'tua',
‘mukanya’, ‘kk’, ‘tasya’ 'banget', 'iya', 'tidak',
‘makin’, ‘jelek’, ‘aja’, 2 @username 2
'ngegemesin', 'tidak',
4 @username 4 ‘anaknya’, ‘padahal’, 'lucunya'
‘ibu’, ‘ayahnya’, ‘cakep’ 'anaknya', 'seperti',
‘gemesnya’, ‘isyan’, 3 @username 3 'sudah', 'tua', 'gitu',
5 @username 5 ‘kayak’, ‘tango’, 'mukanya', 'kk', 'tasya'
‘berlapis’, ‘lapis’, ‘ciaaaa’ 'jelek', 'anaknya',
‘kinantii’, ‘isyan’, ‘skrg’, 4 @username 4
'ayahnya', 'cakep'
6 @username 6 ‘berubah’, ‘ya’, ‘baju’, 'gemesnya', 'isyan',
‘nya’, ‘nakal’ 5 @username 5 'seperti', 'tango', 'berlapis',
‘manusia’, ‘apa’, 'lapis', 'ciaaaa'
7 @username 7 ‘bidadari’, ‘sih’, ‘herann’, 'kinantii', 'isyan',
‘deh’, ‘cantik’, ‘terus’ 6 @username 6 'sekarang', 'berubah',
‘hai’, ‘kak’, ‘isyana’, 'baju', 'nakal'
‘aku’, ‘ngefans’, ‘banget’, 'manusia', 'bidadari',
‘sama’, ‘kak’, 7 @username 7
'herann', 'deh', 'cantik'
8 @username 8 ‘isyanaaku’, ‘paling’, 'hai', 'kak', 'isyana',
‘suka’, ‘lagu’, ‘kak’, 'ngefans', 'banget', 'kak',
‘isyana’, ‘itu’, ‘lagu’, 8 @username 8 'isyanaaku', 'suka', 'lagu',
‘tetap’, ‘didalam’, ‘jiwa’ 'kak', 'isyana', 'lagu',
‘yang’, ‘aku’, ‘suka’, 'didalam', 'jiwa'
9 @username 9
‘dari’, ‘dia’, ‘adalah’, 'suka', 'cukur', 'jembut',
9 @username 9
'manggung'

54
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

No Nama Twitter Comments No Nama Twitter Comments


'makan', 'nasi', 'padang', 'kaka', 'tidur', 'iya', 'sudah',
10 @username 10 650 @username 11
'badannya' 'pagi', 'gaboleh', 'capek'
up to … … Setelah melewati tahap preprocessing,
'kaka', 'tidur', 'iya', 'sudah', didapatkan total 1378 kata dalam dokumen.
650 @username 11
'pagi', 'gaboleh', 'capek' Tahap preprocessing telah berhasil
menghilangkan noise dan mengubah kata-
5) Stemming kata dalam dokumen menjadi bentuk yang
Tahap akhir dalam preprocessing adalah lebih standar dan konsisten. Sebagai hasilnya,
stemming, yang menggunakan library dokumen yang semula berisi lebih banyak
Sastrawi, seperti yang terlihat pada Tabel 7. kata dapat dikompres menjadi 1378 kata yang
Perbedaan antara Tabel 6 dan Tabel 7 adalah lebih terstruktur dan siap untuk dilakukan
pada kata-kata yang ditulis miring dan tebal, analisis lebih lanjut menggunakan metode
seperti kata "badanya", "didalam", "berubah", klasifikasi yang diusulkan. Dengan data yang
"gemesnya", "anaknya", "ayahnya", telah melewati tahap preprocessing, proses
"mukanya", "lucunya", dan lain sebagainya. klasifikasi dan evaluasi dapat dilakukan untuk
Kata-kata tersebut telah diubah dalam kalimat mengidentifikasi adanya cyberbullying dalam
komentar. Proses stemming bertujuan untuk komentar pada media sosial Twitter dengan
menghilangkan imbuhan dan membuang lebih efisien dan akurat.
akhiran kata sehingga diperoleh bentuk kata
dasar yang sesuai. Dengan demikian, hasil 3.3. Pembobotan Kata
stemming membuat semua kata yang Setelah melalui tahapan preprocessing
memiliki akar kata yang sama menjadi untuk 650 data, term diubah menjadi data
seragam dan memudahkan dalam proses vektor melalui perkalian Tf*Idf,
klasifikasi dan analisis data karena menghasilkan total 1378 term atau kata.
menggunakan bentuk kata dasar yang Daftar term tersebut dapat dilihat pada Tabel
konsisten. 8. Data vektor ini akan menjadi dasar untuk
proses selanjutnya dalam mengidentifikasi
Tabel 7. Stemming cyberbullying pada komentar di media sosial
No Nama Twitter Comments
Twitter.
'inimah', 'main', 'alat',
1 @username 1 'musik', 'olahraga', 'jari',
'kaki', 'mah'
Tabel 8. Term Dari Preprocessing
'muka', 'anak', 'ko', 'tua', No Term No Term
'banget', 'iya', 'tidak', 1 aesthetic 9 adam
2 @username 2
'ngegemesin', 'tidak',
'lucu' 2 asu 10 adab
'anak', 'seperti', 'sudah', 3 asmara 11 activity
3 @username 3 'tua', 'gitu', 'muka', 'kk',
'tasya' 4 ada 12 abal
'jelek', 'anak', 'ayah', 5 adik 13 abai
4 @username 4
'cakep'
'gemes', 'isyan', 'seperti', 6 alhamdulillh 14 amin
5 @username 5 'tango', 'berlapis', 'lapis', 7 adek … …
'ciaaaa'
8 adaptasi 1377 zaman
'kinantii', 'isyan',
6 @username 6 'sekarang', 'berubah',
'baju', 'nakal' Langkah berikutnya adalah melakukan
'manusia', 'bidadari',
7 @username 7
'herann', 'deh', 'cantik'
perkalian antara Term Frequency (Tf) dengan
'hai', 'kak', 'isyana', Inverse Document Frequency (Idf). Hasil dari
'ngefans', 'banget', 'kak', proses Tf dapat dilihat pada Tabel 9,
8 @username 8 'isyanaaku', 'suka', 'lagu',
'kak', 'isyana', 'lagu',
sedangkan hasil dari proses Tf-Idf dapat
'dalam', 'jiwa' dilihat pada Tabel 10. Proses ini bertujuan
9 @username 9
'suka', 'cukur', 'jembut', untuk memberikan bobot atau nilai yang
'manggung'
'makan', 'nasi', 'padang',
menggambarkan pentingnya setiap term atau
10 @username 10 kata terhadap dokumen dalam dataset yang
'badan'
up to … …. digunakan. Dengan demikian, akan
mempermudah dalam proses klasifikasi dan
55
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

identifikasi cyberbullying pada komentar di mengidentifikasi cyberbullying pada platform


media sosial Twitter. media sosial Twitter.
Tabel 9. Hasil Term Frequency 1) Decision Tree
No aesthetic asu asmara ada s/d zaman
Pada Gambar 3, hasil pengujian
1 0 0 0 0 … 0
menggunakan metode Decision Tree untuk
2 0 0 0 0 … 0
klasifikasi cyberbullying pada media sosial
3 0 0 0 0 … 0
Twitter dengan nilai threshold 0.1
4 0 0.442 0 0 … 0
menunjukkan akurasi sebesar 53.03%.
5 0 0.500 0 0 … 0
6 0 0 0 0 … 0
Meskipun tingkat ketepatan prediksi untuk
7 0 0.378 0 0 … 0
opini positif cukup baik dengan nilai 0.6667,
8 0 0.378 0 0 … 0 namun opini negatif hanya mencapai 0.3939.
9 0 0.258 0 0 … 0
true true Non- class
10 0 0 0 0 … 0 Bullying bullying precision
s/d … … … … … 0 pred. Bullying 13 11 54.17%
650 0 0 0 0 … 0
pred. Non-
20 22 52.38%
bullying
Tabel 10. Hasil Tf*Idf class recall 39.39% 66.67%
No aesthetic asu asmara ada s/d zaman
Gambar 3. Pengujian Model Decision Tree,
1 0 0 0 0 … 0
dengan nilai threshold 0.1
2 0 0 0 0 … 0
3 0 0 0 0 … 0 Selain itu, pada Gambar 4 tingkat
4 0 0.370 0 0 … 0 keberhasilan sistem dalam menemukan
5 0 0.305 0 0 … 0 kembali informasi juga bervariasi, yaitu
6 0 0 0 0 … 0 0.5238 untuk opini positif dan 0.5417 untuk
7 0 0.232 0 0 … 0
opini negatif. Visualisasi Kurva ROC
8 0 0.221 0 0 … 0
menunjukkan nilai AUC model klasifikasi
9 0 0.154 0 0 … 0
sebesar 0.554, yang menandakan performa
10 0 0 0 0 … 0
model yang kurang memuaskan dalam tugas
s/d … … … … … 0
klasifikasi cyberbullying. Evaluasi ini penting
650 0 0 0 0 … 0
untuk mengidentifikasi kelemahan model dan
menyusun langkah-langkah perbaikan untuk
3.4. Klasifikasi
meningkatkan efektivitas klasifikasi
Setelah menyelesaikan tahapan
cyberbullying di platform Twitter.
preprocessing dan mengubah teks menjadi
vektor data melalui perkalian Tf*Idf, langkah
selanjutnya adalah melakukan pengujian
terhadap dua model klasifikasi yang
diterapkan dalam analisis cyberbullying pada
penelitian ini. Pengujian dilakukan sebanyak
10 kali dengan menggunakan nilai threshold
berbeda, yaitu 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7,
0.8, 0.9, dan 1.0. Tujuan dari pengujian ini
adalah untuk mengidentifikasi performa
kedua model klasifikasi dalam
mengklasifikasikan komentar sebagai
cyberbullying atau bukan berdasarkan nilai Gambar 4. Kurva ROC Dengan Metode Decision
threshold yang berbeda. Dengan demikian, Tree
penelitian ini akan memberikan informasi
2) K-Nearest Neighbor
mengenai sensitivitas dan spesifisitas model
Pada Gambar 5, hasil pengujian
terhadap variasi threshold sehingga dapat
menggunakan metode K-Nearest Neighbor
memberikan wawasan yang lebih baik
untuk klasifikasi cyberbullying pada media
tentang efektivitas klasifikasi dalam
56
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

sosial Twitter dengan nilai threshold 0.1 efektivitas kedua metode dalam
menunjukkan akurasi sebesar 66.67%. mengklasifikasikan pesan terkait
Tingkat ketepatan prediksi untuk opini positif cyberbullying di platform Twitter.
adalah 0.6364, sementara untuk opini negatif
Tabel 11. Perbandingan Nilai Akurasi Model
adalah 0.6970. Klasifikasi
Model Threshold Akurasi Klasifikasi
true true Non- class
Bullying bullying precision 0.1 53.03% very poor
0.2 65.38% Poor
pred. Bullying 23 12 65.71%
0.3 70.41% Fair
pred. Non-
10 21 67.74% 0.4 66.15% Poor
bullying
Decision 0.5 68.31% Poor
class recall 69.70% 63.64%
Tree 0.6 65.90% Poor
Gambar 5. Pengujian Model K-Nearest Neighbor, 0.7 65.42% Poor
dengan nilai threshold 0.1
0.8 63.85% Poor
0.9 65.53% Poor
Selain itu, pada Gambar 6 tingkat
1.0 66.00% Poor
keberhasilan sistem dalam menemukan
Rata-rata 65,00% Poor
kembali informasi juga bervariasi, yaitu 0.1 66.67% Poor
0.6774 untuk opini positif dan 0.6571 untuk 0.2 81.54% Good
opini negatif. Namun, visualisasi Kurva ROC 0.3 77.04% Fair
menunjukkan nilai AUC model klasifikasi 0.4 74.62% Fair
dengan metode K-Nearest Neighbor sebesar K-Nearest 0.5 75.08% Fair
0.644, yang menandakan performa model Neighbor 0.6 77.44% Fair
0.7 77.53% Fair
yang masih perlu ditingkatkan dalam tugas 0.8 77.12% Fair
klasifikasi cyberbullying. Evaluasi ini penting 0.9 76.96% Fair
untuk mengidentifikasi potensi perbaikan 1.0 75.85% Fair
model dan meningkatkan efektivitas Rata-rata 75,99% Fair
klasifikasi cyberbullying di platform Twitter.
Tabel 12 berfungsi sebagai evaluasi
pengukuran untuk memastikan bahwa model
klasifikasi yang telah dibuat berkinerja
dengan baik. Tabel ini menunjukkan nilai
rata-rata dari precision dan recall untuk kedua
metode klasifikasi tersebut. Hasil evaluasi
pengukuran untuk metode Decision Tree
menunjukkan bahwa precision untuk kelas
bullying adalah 38%, sedangkan recall untuk
Gambar 6. Kurva ROC Dengan Metode K- kelas bullying adalah 83%. Sementara itu,
Nearest Neighbor pada metode K-Nearest Neighbor, precision
3.5. Evaluasi untuk kelas bullying adalah 75%, dan recall
Hasil pengujian menunjukkan variasi untuk kelas bullying adalah 74%. Hasil ini
akurasi pada tiap model klasifikasi tergantung menunjukkan bahwa metode K-Nearest
pada nilai threshold yang digunakan, dari Neighbor cenderung memberikan performa
rentang 0.1 hingga 1.0. Tabel 11 yang lebih baik dalam mengklasifikasikan
membandingkan hasil dari 10 kali pengujian kasus-kasus bullying dibandingkan dengan
dengan nilai akurasi pada metode Decision metode Decision Tree.
Tree dan metode K-Nearest Neighbor untuk Tabel 12. Evaluasi Pengukuran
setiap nilai threshold. Dari tabel tersebut, Precision Recall
Model Threshold
dapat diamati bahwa akurasi dari kedua + - + -
0.1 0.66 0.39 0.52 0.54
metode bervariasi, dan penggunaan nilai 0.2 0.78 0.52 0.62 0.70
threshold yang berbeda dapat mempengaruhi Decision
0.3 0.98 0.41 0.62 0.97
Tree
kinerja model klasifikasi. Evaluasi ini 0.4 0.94 0.37 0.60 0.87
memberikan wawasan tentang performa dan 0.5 0.92 0.44 0.62 0.85

57
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

Precision Recall Berdasarkan hasil penelitian, dapat


Model Threshold
+ - + -
0.6 0.95 0.36 0.60 0.88
disimpulkan bahwa penggunaan metode K-
0.7 0.96 0.34 0.59 0.89 Nearest Neighbor lebih unggul daripada
0.8 0.94 0.33 0.58 0.86 metode Decision Tree dalam menganalisis
0.9 0.96 0.34 0.59 0.90 cyberbullying di media sosial Twitter. Metode
1.0 0.96 0.35 0.59 0.91
Rata-rata 0.90 0.38 0.59 0.83
K-Nearest Neighbor mencapai rata-rata
0.1 0.63 0.69 0.67 0.65 akurasi sebesar 75,99% dan rata-rata akurasi
0.2 0.84 0.78 0.79 0.83 dari kurva ROC mencapai 81,51%. Hasil ini
0.3 0.71 0.82 0.80 0.74 menunjukkan bahwa pengklasifikasian
0.4 0.43 0.47 0.75 0.73
K-
0.5 0.72 0.77 0.76 0.73 menggunakan metode ini efektif. Selain itu,
Nearest
Neighbor
0.6 0.74 0.80 0.78 0.76 precision score untuk kelas non-bullying
0.7 0.74 0.81 0.79 0.75 menunjukkan tingkat klasifikasi yang tinggi
0.8 0.73 0.81 0.79 0.75
0.9 0.72 0.81 0.79 0.74
dengan nilai 69%, sedangkan precision score
1.0 0.71 0.80 0.78 0.73 untuk kelas bullying mencapai nilai 75%. Hal
Rata-rata 0,69 0,75 0,77 0,74 ini menandakan bahwa metode K-Nearest
Neighbor sangat dianjurkan dalam analisis
Hasil klasifikasi dari kurva ROC cyberbullying di media sosial Twitter. Selain
menunjukkan variasi persentase yang memiliki tingkat klasifikasi yang tinggi untuk
beragam. Dalam penelitian ini, terdapat kedua kelas, metode ini juga memiliki sifat
perbedaan rata-rata skor tertinggi antara sederhana namun memiliki performa yang
metode K-Nearest Neighbor dan metode kuat secara keseluruhan.
Decision Tree. Skor tertinggi rata-rata
diperoleh ketika menggunakan metode K-
Nearest Neighbor, yang menandakan bahwa
penggunaan metode ini lebih unggul
dibandingkan metode Decision Tree.
Informasi rinci tentang hasilnya dapat dilihat
pada Tabel 13.
Tabel 13. Perbandingan Kurva ROC Gambar 7. Contoh id diindikasikan sebagai komentar
Diagnosa bullying dan non-bullying.
Model Threshold AUC
ROC
0.1 55,40% Poor Hasil klasifikasi yang diperoleh
0.2 67,60% Poor ditunjukkan pada Gambar 6. Terdapat tiga
0.3 70,40% Fair kolom yang disajikan pada gambar tersebut.
0.4 66,20% Poor Dalam tabel, kolom pertama berisi ID, kolom
Decision 0.5 67,80% Poor kedua berisi hasil klasifikasi, dan kolom
Tree 0.6 66,10% Poor ketiga berisi teks atau komentar dari akun
0.7 65,50% Poor Twitter. Contohnya, data pada gambar
0.8 64,00% Poor menunjukkan adanya komentar yang masuk
0.9 65,60% Poor dalam kategori cyberbullying. Berdasarkan
1.0 66,10% Poor hasil penelitian, ditemukan bahwa komentar
Rata-rata 65,47% Poor
dengan ID 2 mengandung unsur
0.1 64,40% Poor
0.2 81,20% Good cyberbullying. Informasi ini memiliki
0.3 82,10% Good relevansi sebagai bukti digital yang dapat
0.4 82,50% Good digunakan dalam keperluan persidangan.
K-Nearest 0.5 81,00% Good
Neighbor 0.6 83,90% Good 4. Kesimpulan
0.7 86,50% Good Dalam penelitian ini, telah dilakukan
0.8 85,10% Good perbandingan dua metode klasifikasi dalam
0.9 84,50% Good
1.0 83,90% Good
analisis cyberbullying pada media sosial
Rata-rata 81,51% Good Twitter. Tahap pra-pemrosesan data
dilakukan secara seragam pada kedua metode
58
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

klasifikasi. Setelah tahap pra-pemrosesan, Http://Doi.Org/10.26594/Register.V8i2.29


data diproses menggunakan kedua metode 53.
klasifikasi untuk membandingkan performa [2] A. Wijayanto, I. Riadi, And Y. Prayudi,
keduanya dan menentukan metode yang “Taara Method For Processing On The
memiliki akurasi tertinggi. Hasil analisis Network Forensics In The Event Of An Arp
menunjukkan bahwa Decision Tree dan K- Spoofing Attack,” Jurnal Resti (Rekayasa
Nearest Neighbor menghasilkan perbedaan Sistem Dan Teknologi Informasi), Vol. 7,
dalam akurasi dan recall, terutama pada No. 2, Pp. 208–217, Mar. 2023, Doi:
sentimen non-bullying yang memiliki skor 10.29207/Resti.V7i2.4589.
kecil. Di antara kedua metode klasifikasi [3] I. Riadi And N. H. Siregar, “Mobile
tersebut, terlihat bahwa metode K-Nearest
Forensic Analysis Of Signal Messenger
Neighbor memberikan akurasi tertinggi,
Application On Android Using Digital
mencapai 75,99%, sementara Decision Tree
Forensic Research Workshop ( Dfrws )
mencapai 65,00%. Oleh karena itu, algoritma
K-Nearest Neighbor merupakan pilihan yang Framework,” Ingénierie Des Systèmes D ’
cocok untuk analisis cyberbullying dalam Information, Vol. 27, No. 6, Pp. 903–913,
konteks penelitian ini. Selain itu, dalam 2022, Doi:
mengidentifikasi tindakan awal Https://Doi.Org/10.18280/Isi.270606.
cyberbullying, contohnya pada komentar [4] Kementerian Komunikasi Dan Informatika,
dengan ID 2 mengandung unsur “Warganet Meningkat, Indonesia Perlu
cyberbullying. Informasi ini memiliki Tingkatkan Nilai Budaya Di Internet.”
relevansi sebagai bukti digital yang dapat Accessed: May 02, 2022. [Online].
digunakan dalam keperluan persidangan. Available:
Https://Aptika.Kominfo.Go.Id/2021/09/W
5. Saran arganet-Meningkat-Indonesia-Perlu-
Untuk penelitian berikutnya, Tingkatkan-Nilai-Budaya-Di-Internet/
direkomendasikan untuk memasukkan kamus [5] C. H. C. Noh And M. Y. Ibrahim, “Kajian
data tambahan guna menormalisasi kata-kata Penerokaan Buli Siber Dalam Kalangan
dalam komentar. Hal ini diperlukan karena Pelajar Umt,” Procedia Soc Behav Sci, Vol.
masih banyak kata-kata yang tidak standar
134, Pp. 323–329, 2014, Doi:
atau mengandung bahasa daerah yang dapat
Https://Doi.Org/10.1016/J.Sbspro.2014.04
mempengaruhi penilaian bobot setiap kata.
.255.
Selain itu, penelitian lebih lanjut dapat
menggunakan metode yang memungkinkan [6] Herman, I. Riadi, And I. A. Rafiq,
untuk menentukan nilai ambang yang “Forensic Mobile Analysis On Social
optimal, sehingga tidak perlu melakukan Media Using National Institute Standard Of
banyak percobaan dalam menentukan jumlah Technology Method,” Ingénierie Des
atribut terbaik yang akan menghasilkan Systèmes D ’ Information, Vol. 12, No. 6,
akurasi tertinggi. Tujuan dari langkah- Pp. 707–713, 2022, Doi:
langkah ini adalah untuk menyederhanakan Https://Doi.Org/10.18280/Ijsse.120606.
proses penelitian dan meningkatkan [7] I. Riadi, Sunardi, And P. Widiandana,
kualitasnya secara keseluruhan. “Cyberbullying Detection On Instant
Messaging Services Using Rocchio And
6. Daftar Pustaka Digital Forensics Research Workshop
Framework,” Journal Of Engineering
[1] A. Wijayanto, I. Riadi, Y. Prayudi, And T. Science And Technology, Vol. 17, No. 2,
Sudinugraha, “Network Forensics Against Pp. 1408–1421, 2022.
Address Resolution Protocol Spoofing [8] T. K. H. Chan, C. M. K. Cheung, And Z.
Attacks Using Trigger , Acquire , Analysis W. Y. Lee, “Cyberbullying On Social
, Report , Action Method,” Register: Jurnal Networking Sites: A Literature Review
Ilmiah Teknologi Sistem Informasi, Vol. 8, And Future Research Directions,”
No. July, Pp. 156–169, 2022, Doi:
59
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

Information And Management, Vol. 58, [14] A. Muhariya, I. Riadi, Y. Prayudi, And I.
No. 2, P. 103411, 2021, Doi: A. Saputro, “Utilizing K-Means Clustering
Https://Doi.Org/10.1016/J.Im.2020.10341 For The Detection Of Cyberbullying
1. Within Instagram Comments,” Ingénierie
[9] K. D. Gorro, M. J. G. Sabellano, K. Gorro, Des Systèmes D Information, Vol. 28, No.
C. Maderazo, And K. Capao, 4, Pp. 939–949, Aug. 2023, Doi:
“Classification Of Cyberbullying In 10.18280/Isi.280414.
Facebook Using Selenium And Svm,” 2018 [15] A. Muhariya, A. Riadi, And I. Prayudi,
3rd International Conference On Computer “Cyberbullying Analysis On Instagram
And Communication Systems (Icccs), Pp. Using K-Means Clustering,” Juita: Jurnal
183–186, 2018, Doi: Informatika, Vol. 10, No. 2, Pp. 261–271,
Https://Doi.Org/10.1109/Ccoms.2018.846 2022, Doi: 10.30595/Juita.V10i2.14490.
3326. [16] N. F. Hasan, “Deteksi Cyberbullying Pada
[10] L. Fazry And N. Cipta Apsari, “Pengaruh Facebook Menggunakan Algoritma K-
Media Sosial Terhadap Perilaku Nearest Neighbor,” Journal Of Smart
Cyberbullying Di Kalangan Remaja,” System, Vol. 1, No. 1, Pp. 35–44, 2021,
Jurnal Pengabdian Dan Penelitian Kepada Doi: 10.36728/Jss.V1i1.1605.
Masyarakat, Vol. 2, No. 1, Pp. 28–36, [17] A. Pamuji And H. S. Setiawan, “Prediksi
2021, Doi: Cyberbullying Sebagai Alat Konseling
Https://Doi.Org/10.24198/Jppm.V2i1.334 Cyber Dengan Data Mining
35. Classification,” Bit (Fakultas Teknologi
[11] A. Rahman, N. Zaman, A. T. Asyhari, S. M. Informasi Universitas Budi Luhur), Vol.
N. Sadat, P. Pillai, And R. Abdullah, “Ad 19, No. 1, Pp. 29–36, 2022.
Hoc Networks Spy-Bot : Machine [18] Rsa, “2016: Current State Of Cybercrime,”
Learning-Enabled Post Filtering For Social P. 7, 2016.
Network-Integrated Industrial Internet Of [19] S. Khairunnisa, A. Adiwijaya, And S. Al
Things,” Ad Hoc Networks, Vol. 121, No. Faraby, “Pengaruh Text Preprocessing
March, P. 102588, 2021, Doi: Terhadap Analisis Sentimen Komentar
Https://Doi.Org/10.1016/J.Adhoc.2021.10 Masyarakat Pada Media Sosial Twitter
2588. (Studi Kasus Pandemi Covid-19),” Jurnal
[12] F. Tapia And C. Aguinaga, “Detección De Media Informatika Budidarma, Vol. 5, No.
Patrones De Comportamiento A Través De 2, P. 406, Apr. 2021, Doi:
Redes Sociales Como Twitter , Utilizando 10.30865/Mib.V5i2.2835.
Técnicas De Minería De Datos Como [20] A. Fauzi, “Bulletin Of Data Science
Método Para Detectar El Acoso Penerapan Algoritma Text Mining Dan
Cibernético Detection Of Behavior Patterns Lexrank Dalam Meringkas Teks Secara
Through Social Networks Like Twitter , Otomatis,” Media Online), Vol. 1, No. 2,
Using Data Minin,” 2018 7th International Pp. 65–72, 2022, [Online]. Available:
Conference On Software Process Https://Ejurnal.Seminar-
Improvement (Cimps), Pp. 111–118, 2018, Id.Com/Index.Php/Bulletinds
Doi: 10.1109/Cimps.2018.8625625. [21] S. K. Sahu, S. Sarangi, And S. K. Jena, “A
[13] W. M. Baihaqi Et Al., “Kombinasi K- Detail Analysis On Intrusion Detection
Means Dan Support Vector Machine ( Svm Datasets,” Souvenir Of The 2014 Ieee
) Untuk K-Means And Support Vector International Advance Computing
Machine ( Svm ) Combination To Predict Conference, Iacc 2014, Pp. 1348–1353,
Sara Elements On Tweet,” Vol. 7, No. 3, 2014, Doi: 10.1109/Iadcc.2014.6779523.
Pp. 501–510, 2020, Doi: [22] R. Riyaddulloh And A. Romadhony,
10.25126/Jtiik.202072126. “Normalisasi Teks Bahasa Indonesia
Berbasis Kamus Slang Studi Kasus: Tweet

60
doi: 10.47002/metik.v7i2.591

METIK JURNAL VOLUME. 7 NOMOR.2 2023 ISSN-P 2442-9562 ISSN-E 2580-1503

Produk Gadget Pada Twitter,” Student Essay Assignment Using Sentence


Eproceedings Of Engineering, Vol. 8, No. Weight Features And Fuzzy C-Means,”
4, Pp. 4216–4228, 2021. International Journal Of Artificial
[23] A. Guterres, Gunawan, And J. Santoso, Intelligence Research, Vol. 5, No. 1, Jan.
“Stemming Bahasa Tetun Menggunakan 2021, Doi: 10.29099/Ijair.V5i1.187.
Pendekatan Rule Based,” Teknika, Vol. 8, [25] A. H. Nasrullah, “Implementasi Algoritma
No. 2, Pp. 142–147, Oct. 2019, Doi: Decision Tree Untuk Klasifikasi Produk
10.34148/Teknika.V8i2.224. Laris,” Jurnal Ilmiah Ilmu Komputer, Vol.
[24] I. M. Suwija Putra, Y. Adiwinata, D. P. 7, No. 2, 2021, [Online]. Available:
Singgih Putri, And N. P. Sutramiani, Http://Ejournal.Fikom-Unasman.Ac.Id
“Extractive Text Summarization Of

61

Anda mungkin juga menyukai