1877 97916 1 PB

ANALISIS SENTIMEN TWITTER TERHADAP PERLINDUNGAN DATA PRIBADI
DENGAN PENDEKATAN MACHINE LEARNING
TWITTER SENTIMENT ANALYSIS OF PERSONAL DATA PROTECTION WITH

MACHINE LEARNING APPROACH
Joko Ade Nursiyono1, Qorinul Huda2
1BPS
PROVINSI JAWA TIMUR
2POLITEKNIKSTATISTIKA STIS
(joko.ade@bps.go.id, 211911012@stis.ac.id)
Abstrak – Seiring kemajuan teknologi dan informasi, aspek pertahanan dan kemanan utamanya
dalam perlindungan data pribadi menjadi sangat penting. Perlindungan data pribadi merupakan
hak asasi manusia yang wajib dilindungi oleh negara. Digitalisasi data merupakan tuntutan dan
tantangan dalam kemajuan informasi. Upaya dalam perlindungan data pribadi pada dasarnya
dilaksanakan melalui instrumen kepastian hukum berupa regulasi yang mengatur sebuah sistem
agar terwujud sistem yang kuat dalam melindungi cyber crime. Berbagai regulasi telah ada dalam
tatanan hukum di Indonesia. Meskipun demikian, masih terdapat kasus kebocoran data pribadi
masyarakat Indonesia. Tujuan penelitian ini adalah menggambarkan kondisi perlindungan data
pribadi di Indonesia dan menganalisis kasus kebocoran data yang dideteksi dalam tweet Twitter
pada periode 1 Juli 2021 hingga 29 September 2022. Penelitian dilakukan dengan teknik scrapping
tweet Twitter dan dilakukan pengklasifikasian respons netizen berdasarkan sentimen positif,
negatif, dan netral. Di setiap sentimen dianalisis dengan word cloud dengan menemukan topik apa
yang sering dibahas netizen terhadap perlindungan data pribadi. Selanjutnya evaluasi klasifikasi
dilanjutkan dengan melihat akurasi pada algoritma klasifikasi machine learning yaitu naive bayes dan
random forest. Hasil penelitian menyebutkan pada periode 1 Juli 2021 hingga 29 September 2022,
respons masyarakat terhadap perlindungan data pribadi masih negatif. Yang mengartikan bahwa
sistem perlindungan data di Indonesia masih belum efektif dengan terjadinya berbagai kasus
kebocoran data. Berdasarkan nilai akurasinya, algoritma naive bayes sangat baik dalam
mengkasifikasikan tweet berdasarkan sentimennya yaitu sebesar 99,84% dibandingkan algoritma
random forest.
Kata Kunci: tweet, twitter, cyber crime, naive bayes, random forest, machine learning
Abstract – As technology and information advance, the main defense and security aspects in the
protection of personal data become very important. The protection of personal data is a human right
that must be protected by the state. Data digitization is a demand and challenge in the advancement
of information. Efforts in protecting personal data are basically carried out through legal certainty
instruments in the form of regulations that regulate a system in order to realize a strong system in
protecting cybercrime. Various regulations already exist in the legal system in Indonesia. Nevertheless,
there are still cases of personal data leakage among Indonesians. The purpose of this study is to
describe the condition of personal data protection in Indonesia and analyze cases of data leaks
detected in Twitter tweets in the period from July 1, 2021, to September 29, 2022. The study was
conducted by using Twitter tweet-scrapping techniques and classifying netizen responses based on
positive, negative, and negative sentiments. neutral. Each sentiment is analyzed with word cloud by
finding what topics are often discussed by netizens on the protection of personal data. Furthermore,
the classification evaluation is continued by looking at the accuracy of the machine learning
classification algorithm, namely naive bayes and random forest. The results of the study stated that in
Analisis Sentimen Twitter Terhadap Perlindungan Data Pribadi dengan Pendekatan Machine
Learning| Joko Ade Nursiyono, Qorinul Huda | 1
the period from July 1, 2021, to September 29, 2022, the public's response to the protection of personal
data was still negative. This means that the data protection system in Indonesia is still not effective
with the occurrence of various cases of data leakage. Based on the accuracy value, the Naive Bayes
algorithm is very good at classifying tweets based on their sentiments, which is 99.84% compared to
the random forest algorithm.
Keywords: tweet, twitter, cyber crime, naive bayes, random forest, machine learning
Pendahuluan pribadi belum ditopang oleh sistem cyber

Seiring kemajuan teknologi dan yang baik. Menurut Sanjaya et al. (2022),
informasi, lingkup pertahanan dan perlindungan dan keamanan siber
keamanan suatu negara semakin meluas, merupakan upaya pertahanan siber di
salah satunya perlindungan dan Indonesia. Laporan National Cyber
keamanan data pribadi. Dalam Undang- Security Index (NCSI) menyebutkan skor
Undang Nomor 23 Tahun 2006 Tentang indeks keamanan siber Indonesia
Administrasi Kependudukan pasal 1 ayat menduduki peringkat 3 terendah di
22, data pribadi merupakan data antara negara-negara G20 (Annur ,2022).
perorangan yang disimpan, dirawat, dan Dampak kasus lemahnya kesadaran
dijaga kebenarannya dan dilindungi oleh masyarakat terhadap data pribadi serta
negara. lemahnya keamanan cyber di Indonesia
Digitalisasi data untuk menghadapi terlihat pada beberapa kasus kebocoran
tantangan kemajuan teknologi dan data pribadi sejak 2020. Data riset dari
informasi terus dilakukan. Untuk itu, sejak CNNIndonesia (2021) menyebutkan
Juni 2020, pemerintah mulai menerapkan sebanyak 91 juta data pengguna dan 7
kebijakan digitalisasi data pribadi (Pane, juta mercant Tokopedia bocor dan dijual
Siregar, and Sirait, 2021), misalnya melalui di Empire Market; sebanyak 1,2 juta data
KTP elektronik hingga sistem pengguna Bhineka.com bocor, dan dijual
PeduliLindungi selama Pandemi COVID- di darkweb; data 2,3 juta pemilih 2014
19. Walau demikian, aspek perlindungan Komisi Pemilihan Umum (KPU) juga
dan keamanan data pribadi masih bocor; terakhir data peserta BPJS
menjadi persoalan. Kesehatan sebanyak 100.002 juga bocor.
Selain dikarenakan rendahnya Belum ditambah dengan bocornya
kesadaran masyarakat (Delpiero et al., jutaan data E-KTP dan aplikasi
2021), keamanan dan perlindungan data PeduliLindungi. Bahkan, pihak yang
2 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

menjadi domain pertahanan cyber: Badan penelitian ini dilakukan dengan tujuan
Siber dan Sandi Negara (BSSN) (Perpres, menganalisis sentiment netizen terhadap
2021) tidak luput dari upaya pembocoran data pribadi di Twitter menggunakan
data pribadi yang dilakukan oleh akun Nave Bayes Classifier dan Random Forest.
twitter bernama Bjorka.
Metode Penelitian
Kasus kebocoran data pribadi ini
Penelitian ini merupakan penelitian
menuai respon beragam di masyarakat,
kuantitatif dengan pendekatan algoritma
terutama masyarakat di dunia maya
Machine Learning (ML). Data yang
(netizen). Salah satu media yang
digunakan dalam penelitian ini berupa
merekam respon tersebut adalah Twitter.
cuitan (tweet) hasil scraping pengguna
Dari twitter inilah, respons masyarakat
twitter aktif sebanyak 85.683 tweet
terhadap sebuah topik menimbulkan
selama periode 01 Juli 2021 hingga 29
sentimen. Sentimen inilah yang menarik
September 2022. Teknik scraping banyak
untuk selanjutnya dianalisis. Penelitian
dilakukan dengan cara mengambil
menggunakan analisis sentimen telah
sebagian obyek twitter (Nursiyono, 2021).
banyak dilakukan.
Untuk mendapatkan tweet twitter
Sebagaimana penelitian yang telah
dilakukan dalam beberapa langkah
dilakukan oleh Sholehurrohman and
berikut:
Ilman (2022) mengenai kasus kebocoran
1. Mengaktifkan library rtweet dan
data pengguna Facebook. Melalui
dplyr;
pendekatan Naive Bayes Classifier
2. Membuat kresidensial orisinalitas
diperoleh akurasi analisis sentimen
developer twitter untuk
sebesar 83,06 persen. Riset sejenis juga
memperoleh API developer twitter;
dilakukan oleh Aldean, Paradise, and
3. Melakukan scraping twitter
Nugraha (2022) mengenai sentimen
menggunakan API dengan Bahasa
vaksinasi COVID-19 di Twitter
tweet yang diperlukan adalah
menggunakan metode Random Forest
Bahasa Indonesia, lang = “id”.
dengan akurasi 79,00 persen.
Namun, penelitian tersebut hanya Dari sejumlah data tweet tersebut,
menggunakan satu algoritma saja dan kemudian dibersihkan dan dimodelkan
belum diterapkan pada kasus sentimen menggunakan perangkat R Studio versi
keamanan data pribadi. Untuk itu, 4.0.2. Proses pembersihan (pre-
processing) dilakukan dengan tahapan yaitu Naïve Bayes Classifier dan Random
berikut: Forest.
1. Mengaktifkan library textclean,
Naive Bayes Classifier (NBC)
katadasaR, tokenizers, tm,
Menurut Rosalina, Purbasari, and
wordcloud2, ggplot2, plyr, dan
Mandyarta (2022), Naive Bayes Classifier
stringr;
merupakan algoritma pengklasifikasian
2. Melakukan pembersihan teks,
berbasis probabilistik untuk melakukan
membuang karakter yang tidak
prediksi peluang kejadian masa depan
diperlukan, seperti “#”, “:”, “/”,
berdasarkan informasi peluang di masa
“\n\r\t”, “?”,”;
lampau.
3. Menghapus mention dan hastags
Algoritma ini bekerja dengan
(#);
menentukan peluang sebuah karakter
4. Menghapus kata hubung,
yang masuk kelas tertentu (sentimen)
misalnya di, ke, dari, oleh, pada,
atau posterior kemudian dikalikan dengan
tentang, bahwa, dan lainnya;
kemunculan teks dalam setiap tweet
5. Melakukan stemming untuk
pada kelas tertentu (sentimen) atau
mengembalikan kata-kata
likelihood. Bentuk matematis algoritma
berimbuhan ke kata dasarnya;
ini dituliskan berikut:
6. Vektorisasi tweet dan menghapus
𝑃(𝑋|𝐻) × 𝑃(𝐻)
kata yang tidak bermakna, 𝑃(𝐻|𝑋) =
𝑃(𝑋)
termasuk kata kunci “data Keterangan:
pribadi”; 𝑋 : data yang belum terklasifikasi
7. Menghapus duplikasi tweet. Pada sentimennya
tahapan ini, dari 85.683 tweets 𝐻 : hipotesis bahwa 𝑋 masuk dalam
diperoleh tweet unik (terbebas klasifikasi sentimen tertentu (positif,
dari duplikasi) sebanyak 65.241; netral, negatif)
8. Vektorisasi tweet menjadi untuk 𝑃(𝐻|𝑋): peluang hipotesis 𝐻 berdasarkan
melakukan labelisasi setiap tweet. kondisi 𝑋
Setelah labelling selesai, selanjutnya 𝑃(𝑋|𝐻) : peluang 𝑋 berdasarkan
dilakukan analisis ketepatan sentimen hipotesis 𝐻
dengan pendekatan dua algoritma ML, 𝑃(𝐻) : peluang hipotesis 𝐻

Random Forest missing data. Algoritma Random Forest
Random Forest merupakan salah dalam penelitian ini diterapkan dengan
satu algoritma Machine Learning (ML) langkah berikut:
baik untuk klasifisikasi maupun regresi 1. Menentukan jumlah tree sebanyak
dengan piranti agregasi pohon keputusan k dari sebanyak fitur m, dengan k <
yang terdiri atas internal node, root node, m;
dan leaf node (Siburian dan Mulyana, 2. Menentukan jumlah k-fold
2018) yang dikenalkan oleh Leo Breiman sebanyak 10 untuk pengacakan
dan Adele Cutler. Random forest dan randomisasi;
merupakan algoritma yang 3. Pada setiap tree yang terbentuk,
menggunakan pemisahan biner rekursif dilakukan pengambilan subset
untuk mecapai node akhir dalam struktur prediktor (p) dengan m < p;
pohon berdasarkan pohon klasifikasi dan 4. Langkah selanjutnya dilakukan
regresi (Religia, Nugroho, and perulangan kembali sebanyak k
Hadikristanto ,2021). Random forest tree;
merupakan algoritma gabungan decision 5. Prediksi klasifisikasi fit diperoleh
tree dengan cara pengelompokkan “weak dari agregasi vote terbanyak dari
learners” bersama-sama untuk seluruh tree yang terbentuk.
membentuk “strong learners” melalui
Akurasi Model
teknik gabungan (ensemble techniques).
Akurasi model merupakan ukuran
Penggunaan algoritma ini selain
performa algoritma yang digunakan
memberikan akurasi yang bagus dan
dalam penelitian. Akurasi model ini
dimanfaatkan jika data pelatihan
merupakan dasar pengambilan
berdimensi besar (Primajaya dan Sari
keputusan algoritma terbaik dalam
2018). Breiman memperkenalkan
analisis. Dalam algoritma klasifikasi
algoritma random forest dengan
machine learning, digunakan confusion
kelebihanya yang mampu menghasilkan
matrix sebagai salah satu metode untuk
error relatif rendah, performa baik dalam
mengukur kinerja (performance of a
klasifikasi, mampu mengatasi data
classification model or classifier). Pada
training berdimensi besar secara efisien,
intinya, confusion matrix mengandung
serta metode yang efektif untuk
informasi yang membandingkan hasil
mengestimasi dataset yang mengandung
klasifikasi yang dilakukan oleh sistem
dengan hasil klasifikasi yang seharusnya. Metode Latent Dirichlect Allocation (LDA)
Tabel 1. Konfigurasi Confusion Matrix Latent Dirichlet Allocation atau LDA
Sebenarnya
Prediksi adalah algoritma untuk mendeteksi topik
Positif Negatif
Positif TP FN melalui pemodelan probabilistik dalam
Negatif FP TN
sekumpulan data. Metode ini digunakan
Keterangan:
dalam menemukan topik yang
TP : Positif sebenarnya
terkandung pada tweet twest twitter.
TN : Negatif sebenarnya Tujuan dari penerapan metode LDA
FP : Positif tidak sebenarnya untuk mengetahui topik apa yang ramai

diperbincangkan internet citizen (netizen)
FN : Negatif tidak sebenarnya
terkait keamanan data pribadi. Hal ini
Secara matematis, ukuran akurasi
dilatar belakangi oleh seringnya
model dituliskan berikut:
masyarakat mengekspresikan segala
𝑇𝑃 + 𝑇𝑁
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = kondisi pada media sosial.
𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
Model klasifikasi mengharapkan Bentuk analisis melalui word cloud
nilai akurasi yang tinggi. Kategori akurasi yang merupakan sekumpulan kata-kata
model dapat diklasifikasikan sebagai dalam sebuah teks yang menggambarkan
berikut : frekuensi penggunaanya.
Tabel 2. Kategori keakuratan model Apabila frekuensi penggunaan kata

Nilai Akurasi Kategori tertentu besar atau dominan, maka
90% - 100% Sangat baik
80% - 90% Baik ukuran kata tersebut dalam word cloud
70% - 80% Cukup juga besar. Semakin besar ukuran sebuah
60% - 70% Kurang
kata artinya semakin sering digunakan
50% - 60% Gagal
Sumber: Hasil olah peneliti,2022 dalam ekspresi di media sosial.
Selain ukuran akurasi, terdapat pula Dalam penelitian ini, metode
ukuran presisi, recall, dan specivity. Dirichlet Allocation yang digunakan
Namun, akurasi merupakan ukuran yang sebatas dalam menggambarkan kata apa
paling banyak digunakan untuk pengujian yang sering muncul dalam tweet twitter.
model pada berbagai algorima klasifikasi Frekuensi dari kata yang sering dibahas
pada machine learning (Purnama , 2019). direpresentasikan dalam word cloud

berdasarkan sentimen netizen. Dari

ukuran kata dalam word cloud di ambil 20 bahan akses data informasi web namun
kata teratas yang sering dipakai netizen dengan sejumlah batasan tertentu. Data
dalam menanggapi topik terkait mentah hasil mining tweet dari Twitter
perlindungan data pribadi. Kata yang dilakukan penyaringan untuk membatasi
sering muncul tersebut dianalisis untuk hanya opini yang berasal dari akun
menggambarkan kondisi keamanan data masyarakat. Setelah itu, dilakukan
pribadi baik dengan respons positif pelabelan klasifikasi jenis sentimen dari
maupun negatif. tweet yang masuk. Klasifikasi terdiri dari
sentimen positif, sentimen negatif, dan
Hasil dan Pembahasan
sentimen netral. Dimana hasil klasifikasi
Eksplorasi Data
ini akan diuji dengan metode klasifikasi
Indonesia telah memiliki beberapa
Naive Bayes dan Random Forest untuk
instrumen dan regulasi dalam upaya
mengetahui presentasi kebenaran dan
perlindungan data pribadi. Meskipun
evaluasi performanya. Hasil klasifikasi
demikian, masih ada beberapa kasus
dari sistem sentimen merupakan
terkait kemanan data yang dapat dinalisis
representasi dari kecenderungan emosi
melalui sentimen tweets twitter. Analisis
responden di media sosial Twitter.
ini berbentuk teks yang dapat
menggambarkan opini, emosi, dan sikap Positif
Netral 21%
masyarakat (Medhat, Hassan, and 30%
Korashy ,2014). Analisis sentimen dapat

Negatif
menggambarkan permasalahan terkait 49%
kemanan data yang sering terjadi di
Gambar 1. Persentase sentimen twitter
masyarakat.
terhadap keamanan data
Setelah dilakukan penambangan Sumber: peneliti, 2022
(mining) data dengan teknik web

Gambar 1 menunjukkan respons
scrapping pada media sosial Twitter,
sentimen masyarakat di Twitter terhadap
diperoleh tweets sebanyak 65241 untuk
masalah keamanan data pribadi yang
kata kunci “data pribadi” antara tanggal 1
beragam. Pada gambar tersebut terlihat
Juli 2021 sampai 29 September 2022.
bahwa masyarakat lebih banyak
Tpitter menyediakan fasilitas Application
memberikan respons bersentimen
Programming Interface (API) sebagai
negatif yaitu sebesar 49,0% (20.880
tweet), sementara itu masyarakat yang (accidental loss). Kejahatan yang timbul
merespon dengan sentimen positif dapat menggunakannya sebagai jual beli
sebesar 21,2% (13.813 tweet). Hal tersebut data informasi pribadi. Data informasi
menandakan bahwa masyarakat lebih pribadi dapat digunakan oleh pihak yang
banyak memberikan respon negatif tidak bertanggungjawab untuk registrasi
terkait keamanan data pribadi. Sentimen ke database lain, misalnya pinjaman
negatif ditenggarai oleh maraknya kasus online. Oleh karenanya regulasi dan
kebocoran data yang pada dasarnya sistem yang terintegrasi perlu dibangun
karena lemahnya kesadaran masyarakat untuk mengatasi ketidaksesuaian data
dan keamanan cyber di Indonesia. dalam rangka mendeteksi
Jika mengacu pada riset Data Breach penyalahgunaan data pribadi.
Investigations Report (DBIR) dalam Annur Setiap waktu, masyarakat
(2022) menyebutkan bahwa sepanjang melakukan transaksi dan registrasi di
tahun 2021 terdapat 5.212 kasus berbagai platform digital yang terus
kebocoran data di seluruh dunia. memperbesar database. Kondisi demikian
Kebocoran data tersebut mengacu pada yang berpotensi dalam masalah
peristiwa gangguan keamanan yang keamanan data. Atribut pribadi seperti
menyebabkan terungkapnya data-data nama, tanggal lahir, nomor telepon,
tertentu dan bersifat rahasia. alamat email dan lainnya menjadi atribut
Sektor industri yang mengalami yang sering menjadi sasaran dalam
insiden kebocoran tertinggi sepanjang serangan cyber. Serangan cyber tidak
tahun 2021 yaitu sektor keuangan (690 hanya menyerang dalam lingkup mikro,
kasus), sektor professional (681 kasus), namun multiregion bahkan multi instansi.
sektor kesehatan (571 kasus), sektor Tentu hal ini memunculkan permasalahan
administrasi publik (537 kasus), dan dalam bidang hukum.
sektor informasi (378 kasus). Jika mengacu pada Pidato
Sistem keamanan data pribadi Kenegaraan Presiden tahun 2019 terkait
dalam pengaksesan dunia maya sering bidang pertahanan dan kemanan.
menjadi isu dalam peretasan. Peretasan Presiden menginstruksikan tanggap dan
akun di media sosial baik individu maupun siap dalam menghadapi perang siber
sektor publik diakibatkan oleh serangan yang mana didalamnya termasuk
luar maupun dalam dan lemahnya sistem penyalahgunaan data. Karena data

adalah jenis kekayaan baru bangsa, oleh November 2021, Kepala Bidang
karenanya kedaulatan data harus Pengaduan Advokasi dan Informasi
diwujudkan atas data pribadi yang harus Perizinan menghadiri peluncuran
dilindungi dan regulasi harus (launching) Kaltim-CSIRT oleh Badan Siber
dipersiapkan. Meskipun demikian, masih dan Sandi Negara (BSSN) untuk
terdapat kasus kebocoran data pribadi di menghadapi insiden keamanan ciber
periode tersebut. (Admin DPMPTSP Kaltim, 2021).
Sentimen positif juga diduga oleh
seringnya klarifikasi isu hoaks oleh
Kementerian Komunikasi dan Informatika
(KOMINFO). Klarifikasi ini terhadap isu
hoaks pesan berantai di media sosial yang
dengan mudahnya tersebar di
Gambar 2. Sentimen keamanan data
masyarakat. Isu hoaks berantai intinya
Sumber: peneliti, 2022
memuat dua hal, yaitu politik dan
Gambar 2 menunjukkan rata-rata
keuntungan pribadi (penipuan). Hoaks
sentimen masyarakat terhadap masalah
politik ditujukan untuk menyerang
keamanan data pada periode 1 Juli 2021
instansi tertentu, misalnya pada tanggal
hingga 29 September 2019 dan
16 November 2021 terdapat berita hoaks
didominasi oleh respon sentimen negatif.
“Istri CEO Pfizer meninggal dunia akibat
Sentimen yang bertahan di angka negatif
komplikasi vaksin COVID-19” (Daffiandra,
ini dikarenakan kasus kebocoran data
2021). Sedangkan hoaks keuntungan
pada periode tersebut. Dalam periode
pribadi ditujukan untuk melakukan
tersebut, rata-rata sentimen positif hanya
penipuan terhadap masyarakat untuk
terjadi 4 kali, yaitu tanggal 16 Nopember
memperkaya diri sendiri. Misalnya pada
2021, 5 Februari 2022, 17 April 2022, dan 22
tanggal 16 November 2021 terdapat berita
September 2022. Sentimen positif
hoaks “HUT ke -64 BCA dan pembagian
mengacu pada respons positif terkait
hadiah Rp5 Juta” (Daffiandra ,2021) .
masalah keamanan data. Sentimen positif
Sentimen netral memiliki porsi 32%
terjadi karena ada upaya pemerintah
(30548 tweets) yang memiliki arti bahwa
untuk melindungi dan mengupayakan
tweets masyarakat tidak hanya
keamanan siber. Misalnya pada 16
mengandung respons positif dan negatif,
namun respons tersebut lebih ke
harapan, pengetahuan, definisi, atau
pendapat secara umum. Masyarakat
dengan respons netral memandang
masalah keamanan data sebagai sesuatu
yang wajar karena dinamisnya
perkembangan teknologi.
Gambar 3. Word cloud sentimen negatif
Latent Dirichlet Allocation Sumber: peneliti, 2022
Dari sebanyak 65.241 tweets
dikelompokkan menjadi 3 jenis sentimen
sebagaimana di gambar 1 dan dianalisis
topik atau kata apa yang sering muncul.
Sentimen negatif dapat menggambarkan
respons masyarakat terkait kemanan
data. Jika mengacu pada kata atau topik Gambar 4. 20 kata teratas penyusun
pada tweets dengan kata kunci data sentimen negatif Twitter
pribadi sebagaimana pada gambar 3 pada
Berdasarkan gambar 3 dan gambar
periode 1 Juli 2021 sampai 29 September
4, topik yang sering dibahas masyarakat
2022 yang menunjukkan respons negatif,
di media sosial twitter adalah kasus
masyarakat dominan membahas
bocornya data. Topik tersebut
mengenai perlindungan dan kebocoran
digambarkan dengan banyaknya kata
data. Kebocoran dan perlindungan data
“bocor”,”lindung”,”informasi”,” nomor”
menjadi kata atau topik dominan yang
, “aman”, dan ”masyarakat”. Masyarakat
dibahas. Mengingat dalam pasal 28G UUD
merespons negatif kasus bocornya data
Negara RI tahun 1945 yang menjelaskan
sebagai bentuk ekspresi kekecewaan
setiap orang berhak atas perlindungan
terhadap upaya perlindungan data di
diri pribadi, keluarga, kehormatan,
Indonesia. Selain itu kasus bocornya data
martabat dan harta benda. Pemerintah
di Indonesia dikarenakan oleh lemahnya
wajib menjaga kebenaran dan melindungi
kesadaran masyarakat dan lemahnya
kerahasiaan terhadap data pribadi.
keamanan cyber (CNNIndonesia, 2021).

Masyarakat memberikan respons negatif informasi, manajemen isi (content
pada kasus penipuan yang management), telecommunication and
mengatasnamakan pihak bank perihal networking, dan pengembangan
pencurian data nasabah. Masyarakat keamanan transaksi online.
menkhawatirkan data nasabah yang Pembicaraan bersentimen negatif
bocor untuk upaya penggelapan rekening masyarakat di media sosial twitter perihal
nasabah, jual beli data pribadi, dan keamanan data pribadi mengaitkan
penipuan yang menggunakan data dengan isu regulasi yaitu Rancangan
pribadi. Tentu kasus kebocoran data Undang–Undang Perlindungan Data
pribadi memberikan dampak merugikan Pribadi (RUU PDP). Pembicaraan ini
yang signifikan bagi masyarakat. digambarkan melalui kata “pdp”,”uu”,
Munculnya ancaman berupa “pemerintah” dan ”ruu”. Masyarakat
pencurian data mestinya mendorong memberikan respons negatif sebagai
kesadaran untuk meningkatkan bentuk lambatnya pengesahan RUU ini.
perlindungan data. Bentuk perlindungan RUU PDP ditujukan untuk menjamin hak
tersebut sebagai upaya dalam warga negara atas perlindungan diri
pertahanan negara. Dalam Undang- pribadi dan menumbuhkan kesadaran
Undang Nomor 3 Tahun 2022 tentang masyarakat serta menjamin pengakuan
Pertahanan Negara semesta yang dan penghormatan atas pentingnya
bersifat tidak hanya fisik semata, namun perlindungan data pribadi
juga menjacup kategori non fisik (MENKOMINFO ,2022). Regulasi RUU PDP
utamanya dalam internet, media sosial, ini sangat penting mengingat pengguna
digital, dan dunia maya. Terkait internet dan munculnya perusahaan
perlindungan data pribadi menjadi bidang teknologi (tech startups) yang
strategi nasional untuk upaya pesat di Indonesia. Dengan disahkan RUU
perlindungan. ini, masyarakat berharap agar data
Menurut Ardiyanti (2014), terdapat pribadi nasabah dapat dijaga dan
empat pondasi untuk membangun dilindungi dari kebocoran. Hal ini terlhat
pertahanan cyber di Indonesia, meliputi dari kata “rahasia”, “aman”, “akun”,
pengembangan software (sistem dan “bank”, “bri”.
aplikasi) dan hardware, pengembangan
saranan dan prasaranan teknologi
nomor panggilan fake caller yang
menyerupai nomor resmi Halo BCA
1500888 dan WhatsApp BCA
08111500998. Namun, melalui kanal
resminya BCA dan KOMINFO langsung
mengonfirmasi bahwa ciri-ciri nomor
penipu menngunakan embel-embel +62,
021, dan lainnya. Konfirmasi juga
Gambar 5. Word cloud sentimen positif
Sumber: peneliti, 2022 dilanjutkan agar para nasabah menjaga
informasi data pribadi seperti nomor
ATM, PIN, OTP, Respon KeyBCA, dan
lainnya. Cepatnya konfirmasi di kanal
resmi BCA ini membuat respons positif
masyarakat di kanal twitter. Masyarakat
dapat meminimalisir upaya penipuan
pencurian data dengan konfirmasi cepat
layanan nasabah dan upaya pemblokiran
Gambar 6. 20 kata teratas penyususn
sentimen positif Twitter nomor penipu.
Keyakinan masyarakat dalam upaya
Pembicaraan masyarakat di media perlindungan data di Indonesia juga
sosial Twitter perihal keamanan data memberikan respons positif di kanal
pribadi juga memberikan respon positif. Twitter. Upaya perlindungan data
Berdasarkan gambar 5 dan gambar 6 Indonesia dicerminkan dengan adanya
topik yang mendominasi dalam sentimen RUU PDP. Hal itu digambarkan melalui
positif terkait perlindungan data BCA dan kata “pdp”, “uu”, “informasi”, dan
regulasi perlindungan data pribadi. Pada “indonesia”. Masyarakat memberikan
periode tersebut, terdapat penipuan pendapat dan harapan agar RUU ini dapat
berupa pesan berantai yang pada intinya memberikan landasan hukum bagi
meminta data nasabah. Hal itu Indonesia untuk menjaga kedaulatan,
digambarkan dalam kata “bca”, perlindungan, dan kemanan data baik
“nomor”, “1500888”, dan dari segi penggunaan dalam negeri dan
“08111500998”. Penipu menggunakan serangan luar negeri.

Klasifikasi Naïve Bayes dan Random Berdasarkan tabel 3, performa
Forest model naive bayes cukup seimbang untuk
Pengelompokan opini masyarakat ketiga model. Berdasarkan tabel diatas,
berupa tweet twitter dalam klasifikasi model dapat memprediksi dengan tepat
sentimen positif, sentimen negatif, dan sebanyak 3.428 dari 3.438 tweet dengan
sentimen netral dapat dievaluasi melalui sentimen positif (99,7%), 5287 dari 5307
akurasi dalam model machine learning. tweet dengan sentimen netral (99,6%),
Algoritma classification machine learning dan 7595 dari 7596 tweet dengan
yang digunakan adalah random forest dan sentimen negatif (99,9%).
naive bayes. Akurasi menggambarkan Model diatas memiliki tingkat
seberapa tepat dari tweet masyarakat di akurasi 99,84% yang tergolong sangat
kanal twitter yang diklasifikasikan secara baik dengan interval kepercayaan 95%
tepat berdasarkan sentimennya. antara 99,7% hingga 99,9%. Sehingga
Dalam penelitian ini dari 65.241 dapat disimpulkan bahwa model naive
tweet, sebanyak 75% digunakan sebagai bayes mampu mengklasifikasikan secara
data training dan 25% sebagai data testing. sangat baik tweet Twitter ke dalam tiga
Data training sebagai dasar pembuatan kelompok sentimen.
model random forest dan naive bayes. Dan Sedangkan pada tabel 4
data testing sebagai evaluasi model untuk menunjukkan hasil confussion matrix dari
mengukur tingkat akurasi melalui model random forest. Performa model
confusion matrix. random forest juga cukup seimbang
Tabel 3. Confusion matrix naïve bayes untuk ketiga model. Berdasarkan tabel
Aktual
Prediction diatas, model dapat memprediksi dengan
Negatif Netral Positif
Negatif 7595 0 1 tepat sebanyak 3.425 dari 3.445 tweet
Netral 15 5287 0
Positif 10 0 3428 dengan sentimen positif (99,41%), 5267
Sumber: diolah dari Twitter, 2022
dari 5286 tweet dengan sentimen netral
(99,6%), dan 7614 dari 7614 tweet dengan
Tabel 4. Confusion matrix random forest
Aktual sentimen negatif (100%).
Prediction
Negatif Netral Positif Model diatas memiliki tingkat
Negatif 7614 0 0
Netral 15 5267 4 akurasi 99,82% yang tergolong sangat
Positif 0 20 3425
baik dengan interval kepercayaan 95%
Sumber: diolah dari Twitter, 2022
antara 99,7% hingga 99,8%. Sehingga
dapat disimpulkan bahwa model random Pembatasan penelitian ini terletak
forest mampu mengklasifikasikan secara pada bagaimana respon masyarakat
baik tweet twitter kedalam tiga kelompok maya terhadap topik keamanan data
sentimen. pribadi yang dikaitkan dengan sejumlah
fenomena kebocoran data yang terjadi di
Kesimpulan, Rekomendasi, dan
Indonesia selama 1 Juli 2021 hingga 29
Pembatasan
September 2022. Oleh karena adanya
Respon masyarakat terkait kasus
keterbatasan dalam beberapa aspek
perlindungan data pribadi dilihat dari
penelitian ini seperti banyaknya package
sentimen di twitter. Rata-rata sentimen
R yang digunakan dalam pemodelan
dalam periode 1 Juli 2021 hingga 29
machine learning, penelitian selanjutnya
September menunjukkan rata-rata
disarankan menggunakan algoritma Deep
sentimen negatif. Hal ini menandakan
Learning. Sebab, pemanfaatan algoritma
masih seringnya kasus kebocoran data
Deep Learning diduga mampu
pribadi di Indonesia. Sentimen negatif
meningkatkan akurasi pemodelan.
terjadi oleh kasus bocornya data pribadi
dan lemahnya pertahanan cyber di
Daftar Pustaka
Indonesia. Sentimen positif terjadi karena Admin DPMPTSP Kaltim. 2021. “Tanggap
seringnya instansi mengkonfirmasi berita Hadapi Insiden Keamanan Siber,
Kabid Pengaduan Advokasi Dan
hoax dan melakukan upaya perbaikan Informasi Perizinan Hadiri
regulasi. Hasil klasifikasi sentimen dari Launching Kaltim-CSIRT Oleh Badan
Sandi Siber Negara.” Retrieved
tweet twitter tersebut sangat baik, (https://dpmptsp.kaltimprov.go.id/i
dikarenakan dalam metode naïve bayes ndex.php/single-berita/104).
Aldean, M. Y., P. Paradise, and N. A. S.
dan random forest memberikan akurasi
Nugraha. 2022. “Analisis Sentimen
sebesar 99,84% dan 99,82%. Masyarakat Terhadap Vaksinasi
Covid-19 Di Twitter Menggunakan
Hasil penelitian ini memberikan
Metode Random Forest Classifier
saran kepada pemerintah, instansi, dan (Studi Kasus: Vaksin Sinovac).”
INISTA: Journal of Informatics,
lembaga untuk bersinergi melindungi
Information System, Software
data pribadi masyarakat, tidak cukup Engineering and Applications
4(2):64–72.
menjadi wilayah tugas BSSN saja. Selain
https://doi.org/10.20895/inista.v4i2.
itu masyarakat perlu memiliki kesadaran 575
terhadap keamanan data pribadi.

Annur, Cindy Mutia. 2022. “Kebocoran Review 9(1).
Data Sering Terjadi Di 10 Sektor http://jurnal.fh.unpad.ac.id/index.p
Industri Ini.” Katadata. Retrieved hp/plr/article/view/509
(https://databoks.katadata.co.id/da KOMINFO. 2016. “Indonesia Sudah Miliki
tapublish/2022/09/06/kebocoran- Aturan Soal Perlindungan Data
data-sering-terjadi-di-10-sektor- Pribadi.” Retrieved
industri-ini ). (https://www.kominfo.go.id/conte
Ardiyanti, H. 2014. “Cyber-Security Dan nt/detail/8621/indonesia-sudah-
Tantangan Pengembangannya Di miliki-aturan-soal-perlindungan-
Indonesia.” Jurnal Politica V(1):95– data-pribadi/0/sorotan_media).
110. doi: 10.22212/jp.v5i1.336
Medhat, W., A. Hassan, and H. Korashy.
Arifah, DIsta Amalia. 2011. “Kasus 2014. “Sentiment Analysis
Cybercrime Di Indonesia.” Jurnal Algorithms and Applications : A
Bisnis Dan Ekonomi 18(2). Survey.” Ain Shams Engineering
https://www.unisbank.ac.id/ojs/ind Journal 5(4):1093–1113. doi:
ex.php/fe3/article/view/2099/767 http://doi.org/10.1016/j.asej.2014.04.
011.
Aswandi, Ririn. 2020. “Perlindungan Data
Dan Informasi Pribadi Melalui MENKOMINFO. 2022. “Perlindungan Data
Indonesian Data Protection System Pribadi.” Retrieved
(IDPS).” Lembaga Penalaran Dan (https://jdih.kominfo.go.id/infografi
Penulisan Karya Ilmiah Fakultas s/view/19).
Hukum Universitas Hasanuddin 3(3). Pane, A. A., F. A. Siregar, and A. S. Sirait.
https://doi.org/10.20956/jl.v3i2.1432 2021. “Efektivitas Pelaksanaan
1 Silayda E-KTP.” El-Thawalib
CNNIndonesia. 2021. “Rentetan 2(4):216–25.
Kebocoran Data Di Indonesia Sejak https://doi.org/10.24952/el-
2020.” CNN Indonesia. Retrieved thawalib.v2i4.4231
(https://www.cnnindonesia.com/te Perpres. 2021. Peraturan Presiden
knologi/20210523132216-188- Republik Indonesia Nomor 28 Tahun
645888/infografis-rentetan- 2021 Tentang Badan Siber Dan Sandi
kebocoran-data-di-indonesia-sejak- Negara (BSSN).
2020). https://peraturan.bpk.go.id/Home/
Daffiandra. 2021. “Klarifikasi Isu Hoaks 16 Details/165493/perpres-no-28-
November 2021.” Beritamagelang. tahun-2021
Retrieved Primajaya, A., and B. N. Sari. 2018.
(http://www.beritamagelang.id/ho “Random Forest Algorithm for
ax/klarifikasi-isu-hoaks-16- Prediction of Precipitation.”
november-2021 ). Indonesian Journal of Artificial
Delpiero, M., F. A. Reynaldi, I. U. Ningdiah, Intelligence and Data Mining 1(1):27.
and N. Muthmainnah. 2021. doi:
“Analisis Yuridis Kebijakan Privasi https://doi.org/10.24014/ijaidm.v1i1.
Dan Pertanggungjawaban Online 4903.
Marketplace Dalam Perlindungan Purnama, Bedy. 2019. Pengantar Machine
Data Pribadi Pengguna Pada Kasus Learning. Bandung: Informatika.
Kebocoran Data.” Padjadjaran Law
Religia, Yoga, Agung Nugroho, and
Wahyu Hadikristanto. 2021.
“Klasifikasi Analisis Perbandingan
Algoritma Optimasi Pada Random
Forest Untuk Klasifikasi Data Bank
Marketing.” Jurnal RESTI (Rekayasa
Sistem Dan Teknologi Informasi)
5(1):187–192. doi:
https://doi.org/10.29207/resti.v5i1.2
813.
Rosalina, S. D., I. Y. Purbasari, and E. P.
Mandyarta. 2022. “IMPLEMENTASI
NAÏVE BAYES CLASSIFIER UNTUK
MENDIAGNOSIS PENYAKIT
INTELLECTUAL DISABILITY.” Jurnal
Informatika Dan Sistem Informasi
3(2):115–24.
https://doi.org/10.33005/jifosi.v3i2.4
89
Sanjaya, Bram Ronald, D. Efrianti, M. Ali,
T. Prasetyo, M. Mukhtadi, K. Y.
Widyasari, and Z. Khumairoh. 2022.
“Pengembangan Cyber Security
Dalam Menghadapi Cyber Warfare
Di Indonesia.” Journal of Advanced
Research in Defense and Security
Studies 1(1):19–34.
https://ejournal.hakhara-
institute.org/index.php/JARDS/artic
le/view/3
Sholehurrohman, R., and I. S. Ilman. 2022.
“Analisis Sentimen Tweet Kasus
Kebocoran Data Penggunaan
Facebook Oleh Cambrigde
Analytica.” Jurnal Pepadun 3(1):140–
47.
https://doi.org/10.23960/pepadun.v
3i1.108
Siburian, V. W., and I. E. Mulyana. 2018.
“Prediksi Harga Ponsel
Menggunakan Metode Random
Forest.” Pros. Annu. Res. Semin
4(1):144–147.
https://seminar.ilkom.unsri.ac.id/in
dex.php/ars/article/view/1992

1877 97916 1 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1877 97916 1 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS SENTIMEN TWITTER TERHADAP PERLINDUNGAN DATA PRIBADI

DENGAN PENDEKATAN MACHINE LEARNING

TWITTER SENTIMENT ANALYSIS OF PERSONAL DATA PROTECTION WITH

Joko Ade Nursiyono1, Qorinul Huda2

Pendahuluan pribadi belum ditopang oleh sistem cyber

2 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

menggunakan satu algoritma saja dan kemudian dibersihkan dan dimodelkan

belum diterapkan pada kasus sentimen menggunakan perangkat R Studio versi

keamanan data pribadi. Untuk itu, 4.0.2. Proses pembersihan (pre-

Setelah labelling selesai, selanjutnya 𝑃(𝑋|𝐻) : peluang 𝑋 berdasarkan

dilakukan analisis ketepatan sentimen hipotesis 𝐻

dengan pendekatan dua algoritma ML, 𝑃(𝐻) : peluang hipotesis 𝐻

4 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

FP : Positif tidak sebenarnya untuk mengetahui topik apa yang ramai

Model klasifikasi mengharapkan Bentuk analisis melalui word cloud

model dapat diklasifikasikan sebagai dalam sebuah teks yang menggambarkan

berikut : frekuensi penggunaanya.

Tabel 2. Kategori keakuratan model Apabila frekuensi penggunaan kata

Selain ukuran akurasi, terdapat pula Dalam penelitian ini, metode

ukuran presisi, recall, dan specivity. Dirichlet Allocation yang digunakan

pada machine learning (Purnama , 2019). direpresentasikan dalam word cloud

6 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

Korashy ,2014). Analisis sentimen dapat

(mining) data dengan teknik web

8 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

10 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

12 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

14 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

16 | Jurnal Pertahanan & Bela Negara | Volume 13 Nomor 1 Tahun 2023

Anda mungkin juga menyukai