Analisis Perbandingan Metode Decision Tree Dan K-N
Analisis Perbandingan Metode Decision Tree Dan K-N
591
*
mrdn@students.amikom.ac.id
Abstract
This research focuses on analyzing the impact of social media on society, particularly addressing the issue
of cyberbullying on the Twitter platform. Based on statistics, the majority of internet users in Indonesia actively
utilize social networks, with Twitter being the most dominant platform used for communication and interaction.
Therefore, cyberbullying cases often occur on this social media platform. In this study, two classification methods,
namely Decision Tree and K-Nearest Neighbor (KNN), were employed to classify cyberbullying-related messages
on Twitter. The aim of this research is to compare the performance of these two methods and to identify early signs
of cyberbullying as relevant digital evidence for legal proceedings. The dataset used in this study consists of 650
comment records from the period 2019 to 2021, with predefined labels. The analysis results indicate that K-
Nearest Neighbor achieved the highest accuracy, reaching 75.99%, compared to Decision Tree with 65.00%.
Hence, K-Nearest Neighbor is considered a more effective method for cyberbullying analysis on the Twitter
platform. Additionally, the identification of early signs of cyberbullying in comment id 2 can serve as relevant
digital evidence for legal purposes. This research provides better insights into the effectiveness of classification in
addressing cyberbullying issues on the Twitter platform.
Abstrak
Penelitian ini berfokus pada analisis dampak media sosial pada masyarakat, dengan khususnya membahas
masalah cyberbullying di platform Twitter. Berdasarkan statistik, mayoritas pengguna internet di Indonesia aktif
menggunakan jejaring sosial, dan Twitter menjadi media sosial yang paling dominan digunakan untuk berinteraksi
dan berkomunikasi. Oleh karena itu, masalah cyberbullying sering terjadi di media sosial ini. Penelitian ini
menggunakan dua metode klasifikasi, yaitu Decision Tree dan K-Nearest Neighbor (KNN), untuk
mengklasifikasikan pesan-pesan terkait cyberbullying di Twitter. Tujuan penelitian ini adalah untuk
membandingkan kinerja kedua metode tersebut dan mengidentifikasi tindakan awal cyberbullying sebagai bukti
digital yang relevan untuk keperluan persidangan. Dataset yang digunakan mencakup 650 record komentar dari
tahun 2019 hingga 2021, dengan label yang sudah ditentukan. Hasil analisis menunjukkan bahwa K-Nearest
Neighbor memiliki akurasi tertinggi, mencapai 75,99%, dibandingkan dengan Decision Tree yang mencapai
65,00%. Oleh karena itu, K-Nearest Neighbor merupakan metode yang lebih efektif untuk analisis cyberbullying
pada platform Twitter. Selain itu, identifikasi tindakan awal cyberbullying pada komentar dengan id 2 dapat
menjadi bukti digital yang relevan untuk proses persidangan. Penelitian ini memberikan wawasan yang lebih baik
tentang efektivitas klasifikasi dalam mengatasi masalah cyberbullying di media sosial Twitter.
Kata kunci: cyberbullying, media sosial, twitter, decision tree, k-nearest neighbor
tablet untuk mengakses media sosial, dan beragamnya bahasa dan logat yang digunakan
aktivitas online di media sosial melalui dalam menyampaikan teks tersebut.
smartphone pun signifikan dalam seminggu Sebelumnya, penelitian lebih banyak
[4]. Namun, perkembangan ini juga berfokus pada satu bahasa dan melakukan
membawa risiko, terutama dengan adanya pengumpulan data secara manual. Namun,
cybercrime yang terjadi melalui media sosial dalam penelitian ini, pendekatan yang diambil
[5]. Dari data yang ada, mayoritas pengguna adalah dengan menggunakan dataset yang
internet aktif mengakses jejaring sosial, sudah ada dan telah menjalani pengujian
dengan Twitter menjadi platform media sosial dengan metode lain sebelumnya [11].
yang paling dominan dan sering digunakan Dalam melakukan investigasi
sebagai tempat komentar yang berpotensi cyberbullying, terdapat enam tahapan yang
menyebabkan kasus cyberbullying [6]. perlu dilakukan, yaitu membangun corpus,
Menurut hasil survei yang dilakukan oleh pra pemrosesan, identifikasi fitur
lembaga Antibullying Ditch The Label, menggunakan TF-IDF dan countvectorizer,
cyberbullying dapat diartikan sebagai pelatihan model dan pelabelan, klasifikasi
komentar negatif, pesan pribadi yang tidak cyberbullying, dan pembentukan corpus
baik, dan olok-olok dapat menyebabkan cyberbullying. Meskipun tahapan-tahapan ini
cyberbullying di media sosial. Cyberbullying merupakan langkah penting dalam proses
merupakan perilaku yang merendahkan, investigasi, namun belum memberikan solusi
menghina, mengancam, atau membahayakan lengkap dalam mengatasi permasalahan bukti
seseorang secara berulang melalui digital terkait cyberbullying. Selain tahapan
pemanfaatan teknologi, internet, dan media tersebut, terdapat tahapan lain yang juga
sosial [7]. Ternyata, dampak dari diperlukan, seperti pengumpulan data, pra-
cyberbullying lebih menyakitkan pemrosesan, pembersihan data, dan
dibandingkan dengan kekerasan fisik. Dalam klasifikasi data untuk membandingkan
kasus ini, terdapat berbagai jenis tindakan sentimen [12].
cyberbullying yang berbeda, seperti flaming Sudah banyak studi yang dilakukan
(mengirim pesan yang kasar), pelecehan, mengenai cyberbullying di Indonesia dari
cyber stalking (mengintai dan mengganggu berbagai perspektif, seperti sosiologi, ilmu
secara online), fitnah, pengecualian komunikasi, hukum, psikologi, dan
(mengasingkan seseorang secara online), informatika. Namun, penelitian dalam bidang
trolling (mengganggu dengan komentar teknologi informasi masih terbatas, terutama
provokatif), peniruan identitas, dan tipu yang berkaitan dengan cyberbullying di
muslihat [8]. platform media sosial. Oleh karena itu,
Pada Konferensi Internasional ke-3 tahun penelitian ini akan mengambil pendekatan
2018, cyberbullying dikategorikan menjadi yang berbeda dengan menganalisis
tiga jenis, yaitu ancaman, kutukan, dan cyberbullying di platform media sosial
seksual. Ancaman mengacu pada ancaman Twitter. Pendekatan ini akan menggunakan
fisik atau psikologis, sementara kutukan dataset yang sudah ada dan telah diuji dengan
mencakup pengucapan hal-hal jahat terhadap metode lain sebelumnya, sehingga
seseorang, dan jenis seksual mencakup diharapkan dapat memberikan kontribusi
pelecehan seksual secara online [9]. yang berarti dalam memahami dan mengatasi
Cyberbullying telah menjadi isu serius dalam masalah cyberbullying di media sosial
lingkungan online dan telah mempengaruhi tersebut.
banyak orang, terutama di kalangan anak Dalam kajian tentang cyberbullying,
muda. Oleh karena itu, peningkatan kesadaran beberapa pendekatan digunakan untuk
dan tindakan preventif menjadi hal yang analisis, seperti SVM, NBC, C45, K-Means,
penting untuk melindungi masyarakat dari dan algoritma genetika [13][14]. Setiap
dampak negatif yang diakibatkan oleh pendekatan ini memiliki kelebihan dan
cyberbullying [10]. Mendeteksi teks yang kelemahan yang tergantung pada kasus yang
mengandung kebencian atau perilaku bullying akan diatasi [15]. Dalam penelitian ini,
merupakan tantangan yang sulit karena memilih untuk menganalisis tindakan
48
doi: 10.47002/metik.v7i2.591
49
doi: 10.47002/metik.v7i2.591
Dalam rumus (2) tersebut, S merupakan (TP), False Positive (FP), True Negative
nilai Entropy dari kumpulan data yang sedang (TN), dan False Negative (FN), yang sangat
dipertimbangkan. 𝑝𝑖 adalah jumlah data yang membantu dalam mengevaluasi hasil
memiliki nilai positif atau negatif pada atribut klasifikasi. Penelitian ini akan menggunakan
tertentu di dalam kumpulan data tersebut. 10 fold cross validation untuk membagi data
Gain (S,A) mengukur informasi yang dan menguji kinerja model atau algoritma.
diperoleh dari mengelompokkan output data Semakin tinggi nilai yang terdapat pada
berdasarkan atribut A. 𝑆𝑖 adalah subset dari confusion matrix, menunjukkan bahwa model
nilai Entropy yang memiliki nilai 𝑖, yang dihasilkan memiliki tingkat performa
sedangkan 𝑆 adalah subset dari nilai Entropy yang lebih baik dan akurasi yang tinggi dalam
secara keseluruhan. Rumus ini membantu proses klasifikasi. Evaluasi dilakukan
dalam pemilihan atribut yang optimal untuk berdasarkan tiga metrik penting, yaitu
pembagian data menjadi dua kelompok, Accuracy, Precision, dan Recall. Nilai-nilai
sehingga membentuk struktur pohon ini dapat dinyatakan dalam bentuk persentase
keputusan yang efisien dalam (1-100%) atau sistem rekomendasi akan
mengklasifikasikan data. dianggap baik jika nilai akurasi, presisi, dan
recallnya tinggi, dengan nilai-nilai berada
2.5. K-Nearest Neighbor dalam rentang bilangan 0 hingga 1.
Metode K-Nearest Neighbor (K-NN) Rumus (4) adalah persamaan untuk
merupakan pendekatan yang sederhana dan menghitung nilai akurasi, sementara rumus
mudah diimplementasikan dalam analisis (5) adalah persamaan untuk menghitung nilai
data. Seperti halnya Decision Tree, metode ini presisi, dan persamaan untuk nilai recall
juga memanfaatkan data yang sudah memiliki tersedia pada rumus (6) dari pengelompokan
label untuk memudahkan pengelompokkan sebagai berikut [15]:
data ke dalam kelas yang sesuai. Keunggulan
𝑇𝑃 + 𝑇𝑁
lain dari K-NN adalah kemampuannya dalam 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = x 100%
𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁 (4)
mengklasifikasikan data menggunakan data
latih dan data uji, serta memberikan hasil 𝑇𝑃 (5)
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = x 100%
prediksi dengan tingkat akurasi yang tinggi 𝑇𝑃 + 𝐹𝑃
dengan cara memilih nilai k terdekat dengan 𝑇𝑃 (6)
𝑅𝑒𝑐𝑎𝑙𝑙 = x 100%
tepat. Dalam perhitungannya, K-NN 𝑇𝑃 + 𝐹𝑁
menggunakan jarak Euclidean berdasarkan
rumus (3) berikut [16]: Penjelasannya adalah sebagai berikut:
True Positive (TP) terjadi ketika prediksi
𝑑(𝑥, 𝑦) = √(𝑥1 − 𝑦2 )2 … + (𝑥𝑛 − 𝑦𝑛 )2 kategori dan kategori sistem pada komentar
yang sama cocok dan sesuai secara akurat.
𝑘
=∑ ( 𝑥1 − 𝑥2 )2 (3) True Negative (TN) terjadi ketika prediksi
𝑖=1 kategori dan kategori sistem pada komentar
yang sama tidak cocok dan akurat dalam
Dalam rumus (3), 𝑑(x, y) mewakili jarak mengidentifikasi ketidaksamaan. False
antara dua variabel x dan y dalam data, Positive (FP) terjadi ketika prediksi kategori
sedangkan x adalah variabel yang digunakan dan kategori sistem pada komentar yang sama
untuk melakukan klasifikasi, dan k salah dianggap cocok, padahal sebenarnya
merupakan jumlah tetangga terdekat yang tidak sesuai. Sedangkan False Negative (FN)
akan dipertimbangkan dalam proses terjadi ketika prediksi kategori dan kategori
klasifikasi. sistem pada komentar yang sama salah
2.6. Evaluasi dianggap tidak sesuai, padahal sebenarnya
Evaluasi merupakan tahap penting dalam seharusnya sesuai.
penelitian ini untuk menilai efektivitas dan 2.7. Simulasi Kasus
akurasi kinerja dari model yang telah dibuat. Pada Gambar 2, tersedia sebuah simulasi
Confusion matrix digunakan untuk kasus yang membandingkan metode Decision
menyajikan informasi tentang True Positive Tree dan K-Nearest Neighbor dalam
51
doi: 10.47002/metik.v7i2.591
53
doi: 10.47002/metik.v7i2.591
54
doi: 10.47002/metik.v7i2.591
sosial Twitter dengan nilai threshold 0.1 efektivitas kedua metode dalam
menunjukkan akurasi sebesar 66.67%. mengklasifikasikan pesan terkait
Tingkat ketepatan prediksi untuk opini positif cyberbullying di platform Twitter.
adalah 0.6364, sementara untuk opini negatif
Tabel 11. Perbandingan Nilai Akurasi Model
adalah 0.6970. Klasifikasi
Model Threshold Akurasi Klasifikasi
true true Non- class
Bullying bullying precision 0.1 53.03% very poor
0.2 65.38% Poor
pred. Bullying 23 12 65.71%
0.3 70.41% Fair
pred. Non-
10 21 67.74% 0.4 66.15% Poor
bullying
Decision 0.5 68.31% Poor
class recall 69.70% 63.64%
Tree 0.6 65.90% Poor
Gambar 5. Pengujian Model K-Nearest Neighbor, 0.7 65.42% Poor
dengan nilai threshold 0.1
0.8 63.85% Poor
0.9 65.53% Poor
Selain itu, pada Gambar 6 tingkat
1.0 66.00% Poor
keberhasilan sistem dalam menemukan
Rata-rata 65,00% Poor
kembali informasi juga bervariasi, yaitu 0.1 66.67% Poor
0.6774 untuk opini positif dan 0.6571 untuk 0.2 81.54% Good
opini negatif. Namun, visualisasi Kurva ROC 0.3 77.04% Fair
menunjukkan nilai AUC model klasifikasi 0.4 74.62% Fair
dengan metode K-Nearest Neighbor sebesar K-Nearest 0.5 75.08% Fair
0.644, yang menandakan performa model Neighbor 0.6 77.44% Fair
0.7 77.53% Fair
yang masih perlu ditingkatkan dalam tugas 0.8 77.12% Fair
klasifikasi cyberbullying. Evaluasi ini penting 0.9 76.96% Fair
untuk mengidentifikasi potensi perbaikan 1.0 75.85% Fair
model dan meningkatkan efektivitas Rata-rata 75,99% Fair
klasifikasi cyberbullying di platform Twitter.
Tabel 12 berfungsi sebagai evaluasi
pengukuran untuk memastikan bahwa model
klasifikasi yang telah dibuat berkinerja
dengan baik. Tabel ini menunjukkan nilai
rata-rata dari precision dan recall untuk kedua
metode klasifikasi tersebut. Hasil evaluasi
pengukuran untuk metode Decision Tree
menunjukkan bahwa precision untuk kelas
bullying adalah 38%, sedangkan recall untuk
Gambar 6. Kurva ROC Dengan Metode K- kelas bullying adalah 83%. Sementara itu,
Nearest Neighbor pada metode K-Nearest Neighbor, precision
3.5. Evaluasi untuk kelas bullying adalah 75%, dan recall
Hasil pengujian menunjukkan variasi untuk kelas bullying adalah 74%. Hasil ini
akurasi pada tiap model klasifikasi tergantung menunjukkan bahwa metode K-Nearest
pada nilai threshold yang digunakan, dari Neighbor cenderung memberikan performa
rentang 0.1 hingga 1.0. Tabel 11 yang lebih baik dalam mengklasifikasikan
membandingkan hasil dari 10 kali pengujian kasus-kasus bullying dibandingkan dengan
dengan nilai akurasi pada metode Decision metode Decision Tree.
Tree dan metode K-Nearest Neighbor untuk Tabel 12. Evaluasi Pengukuran
setiap nilai threshold. Dari tabel tersebut, Precision Recall
Model Threshold
dapat diamati bahwa akurasi dari kedua + - + -
0.1 0.66 0.39 0.52 0.54
metode bervariasi, dan penggunaan nilai 0.2 0.78 0.52 0.62 0.70
threshold yang berbeda dapat mempengaruhi Decision
0.3 0.98 0.41 0.62 0.97
Tree
kinerja model klasifikasi. Evaluasi ini 0.4 0.94 0.37 0.60 0.87
memberikan wawasan tentang performa dan 0.5 0.92 0.44 0.62 0.85
57
doi: 10.47002/metik.v7i2.591
Information And Management, Vol. 58, [14] A. Muhariya, I. Riadi, Y. Prayudi, And I.
No. 2, P. 103411, 2021, Doi: A. Saputro, “Utilizing K-Means Clustering
Https://Doi.Org/10.1016/J.Im.2020.10341 For The Detection Of Cyberbullying
1. Within Instagram Comments,” Ingénierie
[9] K. D. Gorro, M. J. G. Sabellano, K. Gorro, Des Systèmes D Information, Vol. 28, No.
C. Maderazo, And K. Capao, 4, Pp. 939–949, Aug. 2023, Doi:
“Classification Of Cyberbullying In 10.18280/Isi.280414.
Facebook Using Selenium And Svm,” 2018 [15] A. Muhariya, A. Riadi, And I. Prayudi,
3rd International Conference On Computer “Cyberbullying Analysis On Instagram
And Communication Systems (Icccs), Pp. Using K-Means Clustering,” Juita: Jurnal
183–186, 2018, Doi: Informatika, Vol. 10, No. 2, Pp. 261–271,
Https://Doi.Org/10.1109/Ccoms.2018.846 2022, Doi: 10.30595/Juita.V10i2.14490.
3326. [16] N. F. Hasan, “Deteksi Cyberbullying Pada
[10] L. Fazry And N. Cipta Apsari, “Pengaruh Facebook Menggunakan Algoritma K-
Media Sosial Terhadap Perilaku Nearest Neighbor,” Journal Of Smart
Cyberbullying Di Kalangan Remaja,” System, Vol. 1, No. 1, Pp. 35–44, 2021,
Jurnal Pengabdian Dan Penelitian Kepada Doi: 10.36728/Jss.V1i1.1605.
Masyarakat, Vol. 2, No. 1, Pp. 28–36, [17] A. Pamuji And H. S. Setiawan, “Prediksi
2021, Doi: Cyberbullying Sebagai Alat Konseling
Https://Doi.Org/10.24198/Jppm.V2i1.334 Cyber Dengan Data Mining
35. Classification,” Bit (Fakultas Teknologi
[11] A. Rahman, N. Zaman, A. T. Asyhari, S. M. Informasi Universitas Budi Luhur), Vol.
N. Sadat, P. Pillai, And R. Abdullah, “Ad 19, No. 1, Pp. 29–36, 2022.
Hoc Networks Spy-Bot : Machine [18] Rsa, “2016: Current State Of Cybercrime,”
Learning-Enabled Post Filtering For Social P. 7, 2016.
Network-Integrated Industrial Internet Of [19] S. Khairunnisa, A. Adiwijaya, And S. Al
Things,” Ad Hoc Networks, Vol. 121, No. Faraby, “Pengaruh Text Preprocessing
March, P. 102588, 2021, Doi: Terhadap Analisis Sentimen Komentar
Https://Doi.Org/10.1016/J.Adhoc.2021.10 Masyarakat Pada Media Sosial Twitter
2588. (Studi Kasus Pandemi Covid-19),” Jurnal
[12] F. Tapia And C. Aguinaga, “Detección De Media Informatika Budidarma, Vol. 5, No.
Patrones De Comportamiento A Través De 2, P. 406, Apr. 2021, Doi:
Redes Sociales Como Twitter , Utilizando 10.30865/Mib.V5i2.2835.
Técnicas De Minería De Datos Como [20] A. Fauzi, “Bulletin Of Data Science
Método Para Detectar El Acoso Penerapan Algoritma Text Mining Dan
Cibernético Detection Of Behavior Patterns Lexrank Dalam Meringkas Teks Secara
Through Social Networks Like Twitter , Otomatis,” Media Online), Vol. 1, No. 2,
Using Data Minin,” 2018 7th International Pp. 65–72, 2022, [Online]. Available:
Conference On Software Process Https://Ejurnal.Seminar-
Improvement (Cimps), Pp. 111–118, 2018, Id.Com/Index.Php/Bulletinds
Doi: 10.1109/Cimps.2018.8625625. [21] S. K. Sahu, S. Sarangi, And S. K. Jena, “A
[13] W. M. Baihaqi Et Al., “Kombinasi K- Detail Analysis On Intrusion Detection
Means Dan Support Vector Machine ( Svm Datasets,” Souvenir Of The 2014 Ieee
) Untuk K-Means And Support Vector International Advance Computing
Machine ( Svm ) Combination To Predict Conference, Iacc 2014, Pp. 1348–1353,
Sara Elements On Tweet,” Vol. 7, No. 3, 2014, Doi: 10.1109/Iadcc.2014.6779523.
Pp. 501–510, 2020, Doi: [22] R. Riyaddulloh And A. Romadhony,
10.25126/Jtiik.202072126. “Normalisasi Teks Bahasa Indonesia
Berbasis Kamus Slang Studi Kasus: Tweet
60
doi: 10.47002/metik.v7i2.591
61