BAB 2 Putri Sanggabuana

BAB II
LANDASAN TEORI
2.1 Perundungan Siber
2.1.1 Definisi Perundungan Siber
Perundungan siber adalah istilah yang dikenalkan di dalam tulisan ini
sebagai terjemahan ke dalam bahasa Indonesia dari cyber bullying (Ramdhani,
2016). Burgess-Proctor, Hinduja, dan Patchin (2009) mendefinisikan cyber
bullying sebagai perbuatan merugikan yang dilakukan dengan sengaja melalui
komputer, telepon genggam, dan perangkat elektronik lainnya. Serupa halnya
dengan perundungan (berbagai tulisan menyebutnya dengan traditional bullying),
perundungan siber dapat berisi ancaman dan menyudutkan, dilakukan secara
berulang, dengan maksud membuat target merasa tidak nyaman (Berne, et al.,
2013) (Wong-Lo & Bullock, 2014). Perbedaan yang menonjol antara keduanya
adalah ketiadaan perbedaan posisi atau kekuatan (Hoff & Mitchell, 2009) antara
pelaku dan target karena perundungan siber dapat dilakukan dengan mudah
bahkan dari ruangan yang sangat pribadi. Perbuatan ini dilakukan dengan
mengirimkan pesan mengancam atau mempermalukan seseorang melalui pesan
teks, surel, menulis komentar menghina seseorang di website atau media sosial,
mengancam atau mengintimidasi seseorang melalui berbagai bentuk daring atau
dalam jaringan (Rastati, 2016).
Pada kehidupan sehari-hari, seringkali perundungan disamakan dengan
hate speech (ucapan kebencian). Pada kenyataannya, kedua hal ini merupakan dua
7
8
hal yang berbeda. Perundungan merupakan suatu aksi atau serangkaian aksi
negatif yang seringkali agresif dan manipulative, dilakukan oleh satu atau lebih
orang terhadap orang lain atau beberapa orang selama kurun waktu tertentu,
bermuatan kekerasan, dan melibatkan ketidakseimbangan kekuatan. Pelaku
biasanya mencuri-curi kesempatan dalam melakukan aksinya, dan bermaksud
membuat orang lain merasa tidak nyaman/terganggu, sedangkan korban biasanya
juga menyadari bahwa aksi ini akan berulang menimpanya. Sedangkan ucapan
kebencian adalah tindakan komunikasi yang dilakukan oleh suatu individu atau
kelompok dalam bentuk provokasi, hasutan, ataupun hinaan kepada individu atau
kelompok yang lain dalam hal berbagai aspek seperti ras,warna kulit, etnis,
gender, cacat, orientasi seksual, agama, dan lain-lain. Dalam arti hukum, ucapan
kebencian adalah perkataan, perilaku, tulisan, ataupun pertunjukan yang dilarang
karena dapat memicu terjadinya tindakan kekerasan dan bersikap prasangka dari
pihak pelaku. Soal perundungan dalam bentuk penghinaan yang dilakukan di
media sosial/internet dapat mengacu ke Undang-Undang Nomor 11 Tahun 2008
tentang Informasi dan Transaksi Elektronik (―UU ITE‖) yang berbunyi: ―Setiap
orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan
dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen
Elektronik yang memiliki muatan penghinaan dan/atau pencemaran nama baik‖.
Sedangkan untuk ucapan kebencian diatur dalam KUHP, perbuatan pidana
tersebut bisa dijerat dengan pasal Provokasi dan Hasutan.
Dampak perundungan siber lebih berat daripada perundungan yang terjadi
di lingkungan. Hal tersebut disebabkan karena media sosial dapat diakses dengan
mudah oleh seluruh pengguna internet di dunia tanpa mengenal ruang dan waktu,
9
orang dapat berkomentar selama 24 jam karena jaringan internet seolah tidak
pernah beristirahat; pesan berbentuk foto, video ataupun tulisan tidak dapat
dengan mudah terhapus, bahkan berkemungkinan para pemakai media sosial lain
juga telah menyimpan pesan tersebut (Hinduja & Patchin, 2008). (Juvonen &
Gross, 2008) juga menjelaskan para remaja enggan memberitahu orang tua
mereka mengenai insiden-insiden online yang terjadi pada mereka disebabkan
mereka tidak mau orang tua membatasi kegiatan online mereka.
2.1.2 Konsep Perundungan Siber
Dalam perundungan siber terdapat 3 elemen, yaitu pelaku, korban, dan
saksi. Berdasarkan hasil penelitian yang dilakukan oleh Muhammad Alam Akbar
dan Prahastiwi Utari (Akbar & Utari, 2015) bahwa;
1. Remaja yang berperan sebagai pelaku memiliki karakteristik agresif dan
intimidatif.
2. Remaja yang berperan sebagai korban memiliki karakteristik pasif dan
defensif.
- Perundungan siber kerap kali terjadi tanpa disadari oleh kedua
belah pihak.
- Jenis-jenis perundungan siber yang dilakukan pelaku, yaitu pelaku
kerap memanggil nama korban dengan panggilan atau sebutan
negatif, pelaku mengirimkan atau menyebarkan foto pribadi korban
sehingga menjadi bahan lelucon oleh teman Facebook korban,
pelaku mengancam keselamatan korban melalui pesan

10
perundungan siber -nya, serta pelaku juga memberikan opini-opini
yang merendahkan korban.
- Pelaku memproduksi pesan dengan cara ekspresif (pelaku
menuliskan pesan perundungan siber dengan menggunakan huruf
capital, simbol (emoticon) serta gambar pendukung), cara
konvensional (terdapat seseorang yang menuliskan pesan dengan
tatanan tata krama yang sesuai dengan norma sosial), dan cara
retoris (terdapat seseorang yang berusaha melerai dan tidak ikut
campur dalam kasus perundungan siber yang terjadi).
Beberapa model perundungan siber yang sering diterima seseorang
menurut (Willard, 2007) dalam (Daneback, Cerna, Sevcikova, & Machackova,
2013) antara lain: flaming (menerima pesan kasar dan vulgar), harassment
(menerima pesan yang ofensif), serta denigration (menerima atau melihat
pernyataan yang tidak benar terhadap dirinya).
2.2 Corpus
Corpus adalah kumpulan teks yang memiliki kesamaan subjek atau tema
(Wicaksono, Irawan, & Rukmi, 2014). Menurut (Abusalah, Tait, & Oakes, 2005),
corpus adalah repositori dari kumpulan materi bahasa alami, seperti teks, paragraf,
dan kalimat dari satu atau banyak bahasa. Corpus pada penelitian ini akan
berisikan teks, sepenggalan kata/frase, kalimat, dan paragraf yang mengadung
perudungan berbahasa Indonesia yang berkontekskan pada pesta demokrasi dan
pemerintahan yang banyak digunakan oleh pengguna media sosial di Indonesia.

11
2.3 Text Mining dan Data Mining
2.3.1 Text Mining
Text mining adalah salah satu teknik yang dapat digunakan untuk
melakukan klasifikasi, dimana text mining merupakan variasi dari data mining
yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang
berjumlah besar (Feldman, 2007). Text mining, mengacu pada proses mengambil
informasi berkualitas tinggi dari teks. Dikarenakan kebanyakan informasi
(perkiraan umum mengatakan lebih dari 80%) saat ini disimpan sebagai teks, text
mining diyakini memiliki potensi nilai komersial tinggi (Saraswati, 2013).
Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan
kecenderungan melalui sarana seperti pembelajaran pola statistik.
Text mining biasanya melibatkan proses penataan teks input (biasanya
parsing, bersama dengan penambahan beberapa fitur linguistik turunan dan
penghilangan beberapa diantaranya, dan penyisipan subsequent ke dalam
database), menentukan pola dalam data terstruktur, dan akhirnya mengevaluasi
dan menginterpretasi output. 'Berkualitas tinggi' di bidang text mining biasanya
mengacu ke beberapa kombinasi relevansi, kebaruan, dan interestingness. Proses
text mining yang khas meliputi kategorisasi teks, text clustering, ekstraksi
konsep/entitas, produksi taksonomi granular, sentiment analysis, penyimpulan
dokumen, dan pemodelan relasi entitas (yaitu, pembelajaran hubungan antara
entitas bernama) (Saraswati, 2013).

12
2.3.2 Data Mining
Penambangan data (data mining) adalah serangkaian proses untuk
menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini
tersembunyi dibalik data atau tidak diketahui secara manual (Han, 2006). Data
mining adalah suatu teknik menggali informasi berharga yang terpendam atau
tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga
ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Data
mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari
sejumlah besar material dasar, dimana data mining memiliki akar yang panjang
dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine
learning, statistik dan database (Witten, Frank, & Hall, 2011). Masalah-masalah
yang sesuai untuk diselesaikan dengan teknik data mining dapat dirincikan
dengan (Herera, 2010):
1. Memerlukan keputusan yang bersifat knowledge based.
2. Mempunyai lingkungan yang berubah.
3. Metode yang ada sekarang bersifat sub-optimal.
4. Tersedia data yang bisa diakses, cukup dan relevan.
5. Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.
2.4 Klasifikasi dan K-Fold Cross Validation
2.4.1 Klasifikasi
13
Klasifikasi adalah teknik text mining yang digunakan untuk
mengelompokan sejumlah teks kedalam kelas yang memiliki persamaan sifat atau
pola. Klasifikasi juga dapat diartikan sebagai sebuah proses penemuan model atau
fungsi yang menggambarkan dan membedakan kelas data atau konsep yang
bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label
kelasnya tidak diketahui (Tan, Steinbach, & Kumar, 2006). Untuk melakukan
proses klasifikasi umumnya dimulai dengan memberikan sejumlah data sebagai
acuan, biasa disebut data training. Dari data training yang ada kemudian dapat
dibentuk suatu model untuk klasifikasi data atau class label. Dari model tersebut
kemudian dijadikan acuan untuk mengklasifikasikan berbagai data yang belum
diketahui kelasnya. Hasil klasifikasi ini digunakan untuk mengetahui akurasi dari
model (Tan, Steinbach, & Kumar, 2006).
Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu (Darujati, 2012):
a) Fase Information Retrieval (IR) untuk mendapatkan data numerik dari
dokumen teks. Langkah pertama yang dilakukan pada fase ini adalah
feature extraction. Pendekatan yang umum digunakan adalah distribusi
frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali
suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen
atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal
dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor
menjadi lebih kecil. Beberapa pendakatan fitur reduction dapat diterapkan
seperti menghapus stop-words, stemming, statistical filtering. Teknik lebih
lanjut seperti Singular Value Decomposition (SVD) dan genetic algoritm
akan menghasilkan vektor berdimensi lebih rendah.

14
b) Fase klasifikasi utama ketika suatu algoritma memroses data numerik
tersebut untuk memutuskan ke kategori mana teks ditempatkan. Terdapat
beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika
dan machine learning yang dapat diterapkan pada fase ini, di antaranya
adalah Naive Bayesian, Rocchio, Decision Tree, K-Nearest Neighbor,
Neural Network, dan Support Vector Machines. Teknik-teknik tersebut
berbeda dalam mekanisme pembelajaran dan representasi model yang
dipelajari.
Menurut Sebastiani, 2002 proses klasifikasi teks melibatkan banyak teknik IR
mulai dari preprocessing, pengukuran kemiripan selama operasional klasifikasi
sampai dengan evaluasi kinerja algoritma.
Gambar 2.1 Diagram Proses Klasifikasi Teks (Darujati, 2012)
2.4.2 K-Fold Cross Validation
Dalam k-fold cross-validation, data pengujian dipisah secara acak ke dalam
k himpunan bagian yang mutually exclusive atau ―fold (lipatan)‖, D1, D2,..., Dk ,
15
yang masing – masing kurang lebih berukuran sama. Pelatihan dan pengujian
dilakukan sebanyak k kali. Pada iterasi ke-i, partisi digunakan sebagai data tes,
dan partisi sisanya digunakan bersama untuk melatih model. Dalam iterasi
pertama, yaitu himpunan bagian D2, ..., Dk secara bersama bertindak sebagai data
pelatihan untuk memperoleh model pertama, yang diuji pada D1; iterasi kedua
dilatih pada himpunan bagian D1, D3, ..., Dk dan diuji pada D2; dan seterusnya
seperti dicontohkan pada Gambar 2.1. Dalam penelitian ini digunakan 10-fold (K-
10) cross validation. Gambar 2.2: Ilustrasi cross validation K-3:
Gambar 2. 2 Ilustrasi Cross Validation K-3 (Darujati, 2012)
2.5 Algoritma Supervised Learning
2.5.1 Support Vector Machine (SVM)
SVM merupakan metode pembelajaran yang tergolong baru, diperkenalkan
oleh Vapnik, Boser dan Guyon pada tahun 1992. Dewasa ini SVM telah berhasil
diaplikasikan dalam problema dunia nyata (real-world problems), dan secara
umum memberikan solusi yang lebih baik dibandingkan metode konvensional.
Konsep dasar SVM dapat dijelaskan sebagai usaha mencari hyperplane terbaik
yang berfungsi sebagai pemisah 2 kelas pada input space (Joachims, 1998).
16
Secara sederhana, SVM mampu menyelesaikan permasalahan klasifikasi 2 kelas.
Pembuatan model berdasarkan masukan dari data latih dari masing-masing kelas
dilakukan oleh SVM. Model inilah yang kemudian dapat dipakai untuk
mengelompokkan data baru. Usaha untuk mencari lokasi hyperplane merupakan
inti dari proses pembelajaran pada SVM. Gambar 2.3 mengilustrasikan bidang
pemisah terbaik ialah bidang pemisah yang menghasilkan nilai margin terbesar.
Nilai margin merupakan jarak antara bidang pemisah dengan elemen terluar dari
kedua kelas.
Gambar 2.3 SVM Berusaha Menemukan Bidang Pemisah Terbaik (Manning, 2008)
Menurut (Manning, 2008), fungsi pemisah yang dicari adalah fungsi linear
sebagai berikut:
⃑ ⃑⃑⃑ ⃑ ….. (1)
dengan ⃑⃑⃑ adalah bobot yang merepresentasikan posisi hyperplane pada bidang
normal, ⃑ adalah vektor data masukan, dan adalah bias yang merepresentasikan
posisi bidang relatif terhadap pusat koordinat. Teknik ini berusaha menemukan
fungsi pemisah (hyperplane) terbaik di antara fungsi yang tidak terbatas

17
jumlahnya untuk memisahkan 2 macam obyek. Mencari hyperplane terbaik
ekuivalen dengan memaksimalkan margin antara 2 kelas yang dapat diperoleh
dari formula | ⃑⃑⃑|. Hal ini sama dengan meminimalkan fungsi ⃑⃑⃑ ⃑⃑⃑ dengan
memerhatikan pembatas ⃑⃑⃑ ⃑ , dengan ⃑ merupakan vektor data,
merupakan label kelas, serta ⃑⃑⃑, b adalah parameter-parameter yang dicari
nilainya. Selanjutnya, masalah klasifikasi diformulasikan ke dalam Quadratic
Programming (QP) problem yang dapat diselesaikan dengan lagrange multiplier
sehingga fungsi klasifikasinya menjadi seperti pada Persamaan 2.
⃑⃑⃑⃑⃑⃑⃑ (∑ ⃑⃑⃑⃑ ⃑ ) ….. (2)
dengan adalah lagrange multiplier yang berkorespondensi dengan ⃑⃑⃑⃑ (Manning,
2008).
Dengan fungsi kernel, data akan ditransformasikan ke ruang vektor
berdimensi lebih tinggi. Usaha mencari bidang pemisah antara kedua kelas pada
ruang vektor baru adalah langkah selanjutnya. Pada Gambar 2.4 diilustrasikan
modifikasi SVM dengan kernel.
Gambar 2.4 Penerapan Kernel pada SVM dalam Transformasi ke Dimensi Lebih Tinggi (Gijsberts, 2007)
18
Ada beberapa bentuk fungsi kernel, yang paling umum digunakan di
antaranya linear, polinomial, Radial Basis Function (RBF), dan sigmoid. Menurut
(Hsu, Chang, & Lin, 2003) fungsi kernel yang direkomendasikan untuk diuji
pertama kali ialah fungsi kernel RBF karena memiliki performa yang sama
dengan SVM linear pada parameter tertentu, memiliki perilaku seperti fungsi
kernel sigmoid dengan parameter tentu dan rentang nilainya kecil [0,1]. Penelitian
ini menggunakan kernel RBF. Menurut (Manning, 2008), fungsi kernel untuk
RBF ditunjukkan pada Persamaan 3.
(⃑⃑⃑⃑ ⃑⃑⃑⃑) |⃑⃑⃑⃑ ⃑⃑⃑⃑| ….. (3)
dengan ⃑ adalah vektor data latih dan ⃑ adalah vektor data uji. Setelah
menerapkan fungsi kernel, fungsi keputusannya (decision surface) ditulis dalam:
⃑ (∑ (⃑⃑⃑⃑ ⃑⃑⃑⃑) ) ….. (4)
(Chang & Lin, 2011) telah memperkenalkan LIBSVM sebagai library untuk
SVM. LIBSVM dewasa ini menjadi salah satu perangkat lunak SVM yang paling
banyak digunakan dan mendukung penggunaan support vector classification.
LIBSVM tersedia pada http//www.csie.ntu.edu.tw/~cjlin/libsvm. Penggunaan
LIBSVM meliputi pemodelan SVM terhadap data latih dan pengujian data uji
terhadap model SVM. Penggunaan kernel dalam support vector classification juga
telah dikembangkan, serta mendukung penerapan kernel RBF pada SVM. Dengan
19
demikian, LIBSVM dapat diterapkan pada penelitian ini untuk melakukan
klasifikasi SVM 2 kelas dengan kernel RBF.
2.5.2 HyperPipes
HyperPipes adalah algoritma yang hanya ada pada aplikasi WEKA.
Algoritma ini meruapakan salah satu kelompok algoritma supervised learning.
HyperPipes adalah algoritma klasifikasi yang sangat sederhana. Algoritma ini
memiliki 2 kelebihan yaitu sangat cepat dalam operasi nya dan dapat menangani
data yang memiliki banyak atribut. Algoritma HyperPipes tidak dapat menangani
data yang berkelas numerik (Waikato, 2010). Ini menjadi masalah ketika terdapat
proses yang bersifat diskrit. Inilah yang menjadi ide dasar untuk menciptakan
sebuah pipe untuk setiap kelas dataset. Selama pelatihan, pipe untuk setiap
kelasnya terus melacak nilai atribut yang ditemui pada data training tetapi tidak
menghitung jumlahnya. Kemudian ketika menguji, pipe ini dapat digunakan untuk
mengklasifikasikan nilai dari data testing.
Keindahan HyperPipes adalah kesederhanaan. Algoritma ini beroperasi
sebagai berikut:
- Pelatihan (Training)
Pipe dibangun untuk setiap kelas di pelatihan dan setiap pipe ditandai
dengan kelas yang dimiliki. Kemudian untuk setiap pipe yang dibangun,
dataset dilatih satu per satu. Untuk setiap nilai pada corpus, jika nilai nya
diketahui dan tidak ada sebelumnya pada dataset maka nilai atribut
20
ditambahkan pada pipe. Kelas numerik ditangani dengan mempertahankan
berbagai nilai-nilai untuk atribut. Jika nilainya diluar kisaran pipe maka
kisaran pipe diperbaharui sehingga nilai ini ada di dalamnya (sebagai
minimum atau maksimum baru). Selama nilai nya diskrit, algoritma ini
tidak digunakan.
- Uji Coba (Testing)
Setiap corpus pada dataset dibandingkan dengan pipa sebelumnya untuk
setiap kelas. Untuk menentukan pipa mana yang paling sesuai, terdapat
sebuah counter yang bertambah setiap terdapat kesesuaian yang terjadi
antara corpus dan pipe. Corpus dikelompokan pada kelas yang paling
banyak memiliki kesesuaian. Ketika terdapat banyak pipe, corpus
dikelompokan pada kelas dari last pipe yang memiliki banyak kesesuaian.
Sebagai contoh, jika terdapat pipe 1, pipe 2, pipe 3, dan pipe 4 dan jumlah
kesesuaian dari setiap pipe: 7,0,7 dan 4, maka corpus akan dikelompokan
pada pipe 3.
2.5.3 Tree-based J.48
Decision Tree J.48 merupakan implementasi dari algoritma C4.5 yang
memproduksi Decision Tree. Ini merupakan standar algoritma yang digunakan
dalam machine learning. Decision Tree merupakan salah satu algoritma
klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang
secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari
dataset yang belum diklasifikasikan (pre-classified dataset) . Setiap data dari item
21
berdasarkan dari nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping
dari sekelompok set dari atribut dari kelas tertentu. Decision Tree
mengklasifikasikan data yang diberikan menggunakan nilai dari atribut (Ian &
Eibe, 2005).
J.48 merupakan implementasi C4.5 di WEKA. C4.5 merupakan
pengembangan dari ID3. Beberapa perbedaannya antara lain :
1. Mampu menangani atribut dengan tipe diskrit atau kontinu.
2. Mampu menangani atribut yang kosong (missing value)
3. Bisa memangkas cabang.
ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah Decision
Tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan,
dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon.
ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Idenya, adalah
membuat pohon dengan percabangan awal adalah atribut yang paling signifikan,
dapat dilihat pada Gambar 2.5. Maksudnya signifikan adalah yang paling bisa
mempartisi antara iya dan tidak.
Gambar 2. 5 Ilustrasi IDE (Ian & Eibe, 2005)

22
Bisa dilihat, bahwa atribut ―patron‖ membagi 3, dimana hasil pembagiannya
cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau
merah saja. Memang, untuk cabang ―full‖ tidak satu warna (hijau saja atau merah
saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type. Untuk
menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang
pohon, digunakanlah teori informasi.
Decision Tree J.48 merupakan implementasi algoritma C4.5 (berbasis
Java) pada Weka (Waikato, 2013). Algoritma C4.5 digunakan untuk pemisah
obyek (Mohamed, Salleh, & Omar, November, 2012). Tree atau pohon keputusan
banyak dikenal sebagai bagian dari Graph, yang termasuk dalam irisan bidang
ilmu otomata dan teori bahasa serta matematika diskrit. Tree sendiri merupakan
graf tak-berarah yang terhubung, serta tidak mengandung sirkuit (Munir, 2010).
Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai
berikut (Kusrini, 2009):
1. Pilih atribut sebagai akar
2. Buat cabang untuk tiap-tiap nilai
3. Bagi kasus dalam cabang
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan persamaan sebagai
berikut:
∑ ….. (5)
23
Keterangan:
S = himpunan kasus
A = atribut
n = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S Rumus dasar dari entropy tersebut adalah sebagai
berikut:
∑ ….. (6)
Keterangan:
S = himpunan kasus
A = fitur
n = jumlah partisi S
pi = proporsi dari Si terhadap S
2.6 Aplikasi Text Mining dan Machine Learning
2.6.1 RStudio
R adalah aplikasi open source untuk statistik. R programming banyak
digunakan untuk data scientists, statisticians, formal scientists, physical scientists,
social scientists, dan lainnya yang butuh statistical analysis, data visualization,
dan predictive modeling (Danneman & Heimann, 2014). R Studio adalah salah
satu aplikasi data analysis yang direkomendasikan karena R bersifat extensible
dan excellent combination of freedom, flexibility, and power (Danneman &

24
Heimann, 2014). Sebagai tambahan, R terus mengembangkan kemampuannya
dalam menangani big data. R banyak digunakan dalam Distributed Storage and
List (DSL), HadoopInteractiVE (hive), Text Mining Distributed Corpus Plug-In
(tm.plug.dc), Hadoop Steaming (HadoopSteaming), and Amazon Web Services
(AWS.tools) (Danneman & Heimann, 2014). Disamping itu, R juga memiliki
visualization feature untuk analyzing data dan presenting results.
2.6.2 RapidMiner
RapidMiner adalah salah satu aplikasi yang digunakan untuk data mining
(Burget, Karasek, Smekal, Uher, & Dostal, 2010). RapidMiner merupakan sebuah
environment untuk machine learning, data mining, dan text predictive analytic.
RapidMiner banyak digunakan untuk text mining dari proses analisis teks, extract
pattern dari dataset dan dikombinasi dengan metode statistic, artificial
intelligence, dan database.
2.6.3 WEKA
WEKA adalah aplikasi open source yang membantu peneliti dalam
menggunakan teknik-teknik pada machine learning (Hall, Frank, Holmes, &
Pfahringer, 2009). Aplikasi ini menyediakan algoritma untuk regresi, klasifikasi,
dan kluster. Terdapat sebuah workbench yang merupakan graphical user interface
yang dapat digunakan untuk akses fungsi yang disediakan, seperti loading data
dari beberapa sumber (file CSV dan LibSVMs format), url serta databases).
25
Disamping itu, workbench juga menyediakan learning alogorithm, algoritma
klasifikasi (supervised dan unsupervised), dan regresi dengan cross validation K-
Fold untuk prediksi. Aplikasi ini dapat digunakan untuk simulasi dan evaluasi
suatu algoritma. WEKA tidak hanya menyediakan toolbox tetapi juga
menyediakan framework untuk peneliti dalam membentuk algoritma baru.
2.7 Performance Metric
Performance metric merupakan parameter yang digunakan untuk meng-
evaluasi model dan feature space. Performance metric terdiri dari akurasi, recall,
precision, dan F-measure. Model dikatakan baik jika memiliki nilai akurasi >
60%. Nilai akurasi merupakan nilai ukur performance dari model dalam
mengklasifikasi dataset. Model dikatakan baik jika sebuah data yang bernilai
positif diprediksi positif oleh model. Begitu juga untuk data yang bernilai negatif,
model yang baik memprediksi nilai data tersebut negatif. Confusion matrix
merupakan sebuah tabel yang menggambarkan kelas dari sebuah data dan prediksi
yang dilakukan oleh model, dapat dilihat pada Tabel 2.1. Jika data berkelas Yes
lalu diprediksi berkelas No oleh model maka nilai confusion matrix –nya false
negative (FN).
Tabel 2. 1 Model Confusion Matrix (Han, 2006)
Predicted Class
Actual Class = Yes Class = No
Class Class = Yes True Positive False Negative
(TP) (FN)
Class = No False Positive True Negative
(FP) (TN)
26
Confusion matrix adalah suatu metode yang digunakan untuk melakukan
perhitungan akurasi pada konsep data mining (Mayadewi & Rosely, 2015).
Evaluasi dengan confusion matrix menghasilkan nilai akurasi, precision dan
recall. Dalam confusion matrix, true positive (dengan benar memperkirakan nilai
positif) dan true negative (dengan benar memperkirakan nilai negatif) merupakan
pengamatan yang benar. Dalam penelitian ini, kami ingin meminimalkan false
positive dan false negative.
2.7.1 Akurasi
Akurasi didefinisikan sebagai tingkat kedekatan antara nilai prediksi
dengan nilai aktual. Akurasi dalam klasifikasi adalah persentase ketepatan record
data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil
klasifikasi (Han, 2006).
..... (7)
2.7.2 Precision
Precision adalah tingkat ketepatan antara informasi yang diminta oleh
pengguna dengan jawaban yang diberikan oleh sistem. Menurut Kurniawan
(2010), precision adalah perbandingan jumlah dokumen relevan yang terambil
sesuai dengan query yang diberikan dengan total kumpulan dokumen yang
relevan dengan query.
….. (4)
27
2.7.3 Recall
Recall adalah tingkat keberhasilan sistem dalam menemukan kembali
sebuah informasi. Recall dapat juga diartikan sebagai proporsi kasus positif yang
sebenarnya yang diprediksi positif secara benar (Powers, 2011).
….. (5)
2.7.4 F-Measure
F1 (F-Measure) merupakan salah satu perhitungan evalusasi dalam
informasi temu kembali yang mengkombinasikan recall dan precission. Nilai
recall dan precission pada suatu keadaan dapat memiliki bobot yang berbeda.
Ukuran yang menampilkan timbal balik antara recall dan precission adalah F-
Measure yang merupakan bobot harmonic mean, recall dan precission. Berikut
rumus F-Measure:
..... (6)
2.8 Penelitian Sebelumnya
2.8.1 Penelitian Karthik Dinakar (2011)
Pada penelitian ini, proses klasifikasi-nya menggunakan Bag of Word
(BoW) supervised learning algorithm. Dimana corpus (kumpulan konten yang

28
mengandung arti perudungan) berasal dari komen di situs www.youtube.com.
Algoritma yang digunakan pada penelitian ini:
1. Proses pelatihan 50%, validasi 30%, dan test data 20%
2. Data Processing: kalimat atau sepenggal kata dalam bahasa inggris
dengan feature space (corpus) akan dilatih dengan Binary Classifier
dalam 3 label; seksualitas, ras, dan budaya. Lalu corpus akan dilatih
dengan multi-class classifier, Gambar 2.6. Training ini akan dilakukan
pada 50 kasus dan akan divalidasi secara berulang untuk menghindari
the common pitfall of over fitting.
PROFANITY
CYBER
SUBTLETY
BULLYING
NEGATIVITY
RACE/ PHYSICAL
SEXUALITY INTELLIGENCE
CULTURE ATTRIBUTES
Gambar 2.6 Kelas yang Digunakan untuk Melatih Corpus (Dinakar, Reichart, & Lieberman, Modeling the
detection of Textual Cyberbullying, 2011)
3. Feture Space Design yang digunakan sebagai berikut;
a. The General Features
Terdiri dari Term Frequency, Inverse-Document Frequency (TF-
IDF) weighted unigrams, Ortony lexicon yang menyediakan kata
negatif, sekelompok profane words, dan sekelompok stereotypical
words yang sering muncul pada setiap label.

29
b. TF-IDF
TF-IDF adalah ukuran pentingnya sebuah kata yang ada pada
dokumen terhadap kumpulan dokumen tersebut dengan
mempetimbangkan jumlah kemunculan kata tersebut pada setiap
dokumen dan corpus.
c. Part-of-speech tags ( PRP_VBP, VBPRP, dan JJDT)
Part-of-speech tags untuk biagram ditambakan untuk mendektsi
biagram pairs positif yang sering muncul dalam pelatihan data
yang positif.
d. Label Specific Features
Ditambahkan label spesifik untuk unigram dan biagram dalam
mengamati pelatahian data. Label spesifikini dilengkapi dengan
seberapa sering digunakan dalam forms of verbal abuse dan
stereotypical utterances.
Hasil yang diperoleh dari Bag of Words (BoW) supervised learning algorithm
(Akurasi, F1, Kappa), Tabel 2.2.

30
Tabel 2.2 Nilai Akurasi dari Setiap Algoritma yang Digunakan (Dinakar, Reichart, & Lieberman, Modeling
the detection of Textual Cyberbullying, 2011)
Naive Bayes Rule-based JRip Tree-based J.48 SMO (SVM)

A F K A F K A F K A F K
Binary Classifier
Sexuality 66% 0.67 0.65 80% 0.76 0.59 63% 0.57 0.57 67% 0.77 0.79
Race 66% 0.52 0.78 68% 0.55 0.78 63% 0.48 0.65 67% 0.63 0.71
Intelligence 72% 0.46 0.46 70% 0.51 0.51 70% 0.51 0.56 72% 0.58 0.77
Multi-class classifier
Mixture 63% 0.57 0.44 63% 0.60 0.50 61% 0.58 0.45 56% 0.63 0.65
Keterangan:
A : Accuracy
F : F1
K : Kappa
Mixture : A merge set of instance from the three cluster of sexuality, race,
and intellgence
2.8.2 Penelitian Nedya Farisia (2016)
Nedya farisia melakukan penelitian mengenai deteksi cyber bullying yang
terjadi pada media sosial. Corpus yang digunakan berasal dari crawling twitterR
dengan pencarian kata berdasarkan tabel kata cyber bullying yang dikemuka
dalam penelitian (Margono, Yi, & Raikundalia, January, 2014).

31
Tabel 2.3 Kata Perundungan di Media Sosial Menurut Penelitian Margono (Margono, Yi, & Raikundalia,
January, 2014)
Topik Binatang Intelektual Kaum Difabel Perilaku
(Cacat)
Kata Bangsat Goblok Buta Setan
Perundungan Anjing Idiot Budek Iblis
Babi Geblek Jelek Keparat
Monyet Gila Gembel
Kunyuk Tolol Brengsek
Sarap Sompret
Udik Bajingan
Kampungan Bejad
Metode yang digunakan dalam melakukan pendeteksian perundungan siber seperti
Gambar 2.7.
Gambar 2.7 Metode yang Digunakan untuk Deteksi Cyber Bullying (Farisia, 2016)
Pada tahap establish corpus, crawling twitter dilakukan dengan program
Rstudio dengan twitteR API dan fungsi laply. Data yang diperoleh adalah 1063
32
data training (November 2015), 650 data training (Mei 2016), 1300 data debat
capres, dan 117 data Cina. Data yang diperoleh akan dibersihkan lalu diberi label
oleh responden melalui kuisioner dalam bentuk email ke mahasiswa Universitas
Indonesia (UI). Label yang akan diberikan pada data, ada 3 kelas: positif, netral
(ragu-ragu), dan negatif.
Tabel 2.4 Jumlah Data Training Sebelum dan Sesudah Dibersihkan
Jenis Data Sebelum Pembersihan Sesudah Pembersihan
Data Training 1063 538
Data Testing 650 338
Data Debat Capres 1300 109
Data Cina 117 117
Data yang bersentimen positif akan dibuang. Data lainnya akan dibersihkan
dengan langkah preprocessing yang terdapat pada Gambar 2.7. Proses detailnya
dapat di lihat di Tabel 2.5.
Tabel 2.5 Praproses Teks yang Dilakukan pada Proses Deteksi Cyber Bullying
No Praproses Teks Sebelum Sesudah
1 Sentiment filter, penilaian sentimen Tweet bersentimen positif terhapus
akan diberikan sesuai keberadaan
kalimat positif dan negatif yang
terdapat pada tweet. Kalimat positif
dan negatif sesuai dengan kamus
sentiwordnet yang terdapat pada
aplikasi R yang sudah diterjemahkan

33
ke dalam bahasa Indonesia.
(+) : kata positif > kata negatif
(netral) : kata positif = kata negatif,
tidak ada dikamus
(-) : kata positif < kata negatif
Pemberian nilai sentimen dilakukan
oleh aplikasi WEKA
2 Transform case (mengubah huruf RT@Viccent22: rt@viccent22: kalian
kapital menjadi huruf kecil) Kalian cocok, sesama cocok, sesama cocok
cocok brengsek, brengsek, cocok.
cocok.
3 Remove noise (menghapus html rt@viccent22: kalian viccent22 kalian cocok
encode, retweet dan username, serta cocok, sesama cocok sesama cocok
tautan) brengsek, cocok. brengsek cocok
4 Remove duplicate (setelah proses Duplikasi terhapus
remove noise akan muncul baris yang
sama, maka dari itu harus dihapus
dengan excell)
5 Snowball stemmer viccent22 cocok sama viccent22 cocok sama
brengsek cocok brengsek
viccent22 cocok sama
cocok sama brengsek
brengsek cocok
6 N-Gram tokenizing viccent22 cocok sama viccent22
brengsek viccent22_cocok
viccent22 cocok sama cocok cocok
cocok sama brengsek cocok_sama sama
brengsek cocok sama_brengsek

34
brengsek brengsek
7 Create TDM, data dibuka pada Jumlah term dihitung dan dibentuk matriks
WEKA dan dbuatkan TDM agar
dapat mengalami proses klasifikasi
Setelah proses preprocessing maka data akan di- training. Data training ‗bukan
cyber bullying‘ lebih banyak 37% (198 baris) daripada data ‗cyber bullying‘. Hasil
evaluasi klasifikasi pada data training adalah SVM tidak dapat banyak belajar dari
pelatihan ini, model yang dihasilakn buruk, dapat dilihat pada Tabel 2.6. Hal ini
dikarenakan hanya satu data diantara kelas 0 dan 1. Akibatnya terdapat 2 kondisi
extrim: semua ‗cyber bullying‘ atau semua ‗bukan cyber bullying‘.
Tabel 2.6 Tingkat Akurasi dari Setiap Metode Klasifikasi terhadap Data Training dan Testing
Klasifikasi Tingkat Akurasi
Training Testing
Tree J.48 78.253 57.1
HyperPipes 97.955 63.91
SVM 63.197 63.02
Setelah proses training maka dilakukan proses validasi silang, nilai validasi silang
diantara 2-10. Validasi silang dilakukan agar tidak terjadi overfitting pada model
karena sudah melalui proses optimasi. Berikut nilai validasi yang optimal untuk
setiap klasifikasi: J.48 (k=9), Hyperpipes (k=7), dan SVM (k=8). Proses validasi
silang dilanjutkan dengan proses testing. Data training ‗cyber bullying‘ hanya
39% dari total data. Berikut tabel nilai akurasi dari proses training.
35
Proses training dengan data sumber lain (data debat capres dan cina), data
‗cyber bullying‘ hanya 16% dari total data.
Tabel 2.7 Tingkat Akurasi dari Setiap Metode Klasifikasi terhadap Data Source yang Lain
Klasifikasi Tingkat Akurasi Keterangan
J.48 86.24 Semua bukan cyber bullying
HyperPipes 49.54 Nilai recall positif > recall negatif
SVM 13.76 Semua cyber bullying
Ketika kata cina dimasukan ke dalam training (data training cyber bullying 38%,
lebih kecil dari bukan cyber bullying dan nilai k yang digunakan 9) maka hasil
yang diperoleh, dapat dilihat pada Tabel 2.7.
Tabel 2.8 Hasil dari Setiap Metode Klasifikasi setelah Kata Cina Dimasukan ke dalam Proses Training
Klasifikasi Keterangan
Tree J.48 Generalisasi yang lebih besar, bagus untuk digunakan
percakapan diluar term yang telah ditentukan
HyperPipes Hanya bagus untuk kata kunci yang sama dengan data training
SVM
Dari penelitian terlihat bahwa penggunaan klasifikasi HyperPipes dan SVM tidak
memiliki hasil yang baik. Hal ini dikarenakan faktor data yang digunakan tidak
baik. Data yang digunakan pada data training memiliki karakter sedikit
berkelompok dan jarang sehingga mempengaruhi performa dar kedua algoritma
tersebut. Karakter dari algoritma HyperPipes dan SVM, keduanya bertumpu pada
36
frekuensi kemunculan dan jarak antara data. Hal ini berbeda dampaknya terhadap
penggunaan algoritma J.48, algoritma ini menganggap data yang berkelompok
merupakan suatu penemuan node yang baru sehingga memperbaiki kinerja
algoritma Tree J.48.
Tabel 2.9 Tabel Karakter dari Setiap Data yang Digunakan pada Proses Klasifikasi
Data Kondisi Data
Data Training Seimbang dan kontinyu
Data Testing Sedikit berkelompok
Data Lain Jarang
Dari penelitian ini diperoleh kesimpulan bahwa
1. Deteksi cyber bullying dapat dilakukan berdasarkan topik tertentu dengan
menggunakan text mining.
2. Keseimbangan, konvergensi, dan kejarangan data uji dapat berpengaruh
buruk terhadap performa algoritma.
3. Nilai akurasi Tree J.48 86.24%, HyperPipes baik hanya pada data training
yang berasal dari sumber yang sama dengan data training. Penambahan
kata baru yang sesuai dengan data uji baru dapat menaikkan akurasi 36%.
SVM belum mampu mempelajari karena luas area dibawah kurva ROC
yang bernilai 0.5.
4. Jumlah dataset yang sedikit lebih menguntungkan sehingga label bukan
cyber bullying sebaiknya dikurangi karena hasilnya mempengaruhi recall
laber cyber bullying.

37
Saran dari penelitian ini bahwa
1. Tanda baca dan emoticon diikutsertakan.
2. Teknik over sampling dan over sizing.
2.8.3 Penelitian Prof. Nikita Desai dan Anandkumar D. Dave
(2016)
Pada penelitan ini proses klasifiaksinya menggunakan supervised algorithm,
Support Vector Machine (SVM). Dimana corpus nya berasal dari Libsvm dalam
bentuk kalimat, sepenggal kata, atau ekspresi khusus dalam Hindi, baik yang
berkonten kata maupun ekspresi umum (hastag, emoticons, antonim, sinonim, dan
tanda baca) yang dapat diartikan sebagai sarkasme (―markers”) maupun kalimat
atau sepenggal kata positif tetapi mengandung konten sarkasme (―without
markers‖) (Desai N. a., 2016). Rancangan algoritma (proposed algorithm) yang
digunakan sebagai berikut;
 Langkah 1: Get Direct Opinion Sentences
//Data Pre-processing
 Langkah 2: Hapus UserName, Hyperlink, tabs, dan lainnya dari kalimat
tersebut.
 Langkah 3: Replace multiple occurrences of same or opposite type of
emoticons with a single appropriate emoticon.
 Langkah 4: Jika kalimat mengandung marker - #tag kataksh atau
emoticons , lanjut ke langkah 5 atau langkah 10
// Feature Extraction for statements containing sarcasm markers

38
 Langkah 5: cari TFIDF dengan metode berikut:
Tandai sebuah dokumen ―D‖, kata ―w‖, dan individual document d є D,
kami menghitung
(| | ) ….. (7)
dimana equals the number of times ―w― appears in ―d‖, |D| adalah
ukuran dari corpus, dan equals the number of documents in which
“w” appears in “D”.
 Langkah 6: Lookup the positive (+ve) score and negative(-ve) score of
each word in sentence from HindiSentiWordNet. Jumlahkan nilai dari
semua kata untuk memberikan nilai terhadap kalimat. Berikan nilai
polaritas dari setiap kalimat yang dimasukan = +ve, jika total nilai +ve dari
semua kata lebih besar dari –ve, atau sebaliknya.
 Langkah 7: Jika kalimat mengandung #Kataksh, set ― #Kataksh = true ― .
 Langkah 8: If emoticon present, find the intensity(I) of the emoticon and
set “Emoticon=I”. Contoh: Jika ada emoticon
maka intensity = “mild positive” , “ positive” , “extremely positive”
respectively.
 Langkah 9: Classify sentences as per rules given in tabel 2.9 and return
appropriate class.
39
Tabel 2.10 Classes of Sarcastic Sentences yang Digunakan oleh (Desai N. a., 2016)
Features Class Label
Statement Emoticons #Kataksh
Polarity
Positive Not Used True Extreme Sarcastic (+ve)
Negative Not Used True Extreme Sarcastic (-ve)
Negative Mild Positive False Mild Sarcastic (+ve)
Positive Mild Negative False Mild Sarcastic (-ve)
Negative Extreme False Extreme Sarcastic (+ve)
Positve
Positive Extreme False Extreme Negative (-ve)
Negative
Positive Positive False Non-Sarcastic
Negative Negative False Non-Sarcastic
//Step for statements having no sarcasm markers
 Langkah 10: if sentence has at least one of the following feature cue words
OR odd combination of words OR pair of word and its antonym. Return
“sarcastic” else “non-sarcastic”.
Hasil yang diperoleh dari penelitian ini:
a. Terhadap 404 kalimat ber- #tag (kata yang mengandung arti
sarkasme) dengan; classifier setting: SVM, kernel: linear, dan
target classes: dua (sarcastic [akurasi: 78.84%] , non-sarcastic
[akuarasi: 67.05%])
40
b. Terhadap 1410 kalimat ber- markers dengan; classifier setting:
LibSVM, kernel: - C-SVM, Type: RBF, C=0.5, gamma = 0.009,
target clasess: lima (extreme positive, extreme negative, mild
positive, mild negative sarcastic, non sarcastic), tingkat akurasi
dapat dilihat pada Tabel 2.11.
Tabel 2.11 Tingkat Akurasi Percobaan terhadap 1410 Kalimat Ber-markers
No. Features Accuracy %

1 Unigram (TFIDF) 50.03%
2 Unigram (TFIDF) + POS Score + Neg Score 50.40%
3 Unigram (TFIDF) + POS Score + Neg Score + #tag 59.55%
4 Unigram (TFIDF) + POS Score + Neg Score + #tag + 66.65%
Emoticons
5 Unigram (TFIDF) + POS Score + Neg Score + #tag + Emoticon 83.74%
+Polarity
c. Terhadap 250 kalimat without markers dengan; model setting:
LibSVM dengan fitur khusus seperti Tabel 2.12, kernel: C-SVM,
Type: RBF, C=0.5, gamma=0.009, target classes: dua (sarcastic,
non-sarcastic), dan accuracy achieved: 60%.

41
Tabel 2.12 Fitur yang Digunakan pada 250 Kalimat Tanpa Markers (Desai N. a., 2016)

BAB 2 Putri Sanggabuana

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

BAB 2 Putri Sanggabuana

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB II

2.1 Perundungan Siber

2.1.1 Definisi Perundungan Siber

Perundungan siber adalah istilah yang dikenalkan di dalam tulisan ini

sebagai terjemahan ke dalam bahasa Indonesia dari cyber bullying (Ramdhani,

2016). Burgess-Proctor, Hinduja, dan Patchin (2009) mendefinisikan cyber

bullying sebagai perbuatan merugikan yang dilakukan dengan sengaja melalui

komputer, telepon genggam, dan perangkat elektronik lainnya. Serupa halnya

dengan perundungan (berbagai tulisan menyebutnya dengan traditional bullying),

perundungan siber dapat berisi ancaman dan menyudutkan, dilakukan secara

mengirimkan pesan mengancam atau mempermalukan seseorang melalui pesan

mengancam atau mengintimidasi seseorang melalui berbagai bentuk daring atau

dalam jaringan (Rastati, 2016).

Pada kehidupan sehari-hari, seringkali perundungan disamakan dengan

bermuatan kekerasan, dan melibatkan ketidakseimbangan kekuatan. Pelaku

biasanya mencuri-curi kesempatan dalam melakukan aksinya, dan bermaksud

membuat orang lain merasa tidak nyaman/terganggu, sedangkan korban biasanya

kebencian adalah perkataan, perilaku, tulisan, ataupun pertunjukan yang dilarang

pihak pelaku. Soal perundungan dalam bentuk penghinaan yang dilakukan di

media sosial/internet dapat mengacu ke Undang-Undang Nomor 11 Tahun 2008

orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan

dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen

Elektronik yang memiliki muatan penghinaan dan/atau pencemaran nama baik‖.

Sedangkan untuk ucapan kebencian diatur dalam KUHP, perbuatan pidana

tersebut bisa dijerat dengan pasal Provokasi dan Hasutan.

Dampak perundungan siber lebih berat daripada perundungan yang terjadi

mereka mengenai insiden-insiden online yang terjadi pada mereka disebabkan

mereka tidak mau orang tua membatasi kegiatan online mereka.

2.1.2 Konsep Perundungan Siber

Dalam perundungan siber terdapat 3 elemen, yaitu pelaku, korban, dan

dan Prahastiwi Utari (Akbar & Utari, 2015) bahwa;

1. Remaja yang berperan sebagai pelaku memiliki karakteristik agresif dan

2. Remaja yang berperan sebagai korban memiliki karakteristik pasif dan

- Perundungan siber kerap kali terjadi tanpa disadari oleh kedua

- Jenis-jenis perundungan siber yang dilakukan pelaku, yaitu pelaku

kerap memanggil nama korban dengan panggilan atau sebutan

negatif, pelaku mengirimkan atau menyebarkan foto pribadi korban

sehingga menjadi bahan lelucon oleh teman Facebook korban,

pelaku mengancam keselamatan korban melalui pesan

perundungan siber -nya, serta pelaku juga memberikan opini-opini

yang merendahkan korban.

- Pelaku memproduksi pesan dengan cara ekspresif (pelaku

menuliskan pesan perundungan siber dengan menggunakan huruf

capital, simbol (emoticon) serta gambar pendukung), cara

konvensional (terdapat seseorang yang menuliskan pesan dengan

retoris (terdapat seseorang yang berusaha melerai dan tidak ikut

campur dalam kasus perundungan siber yang terjadi).

Beberapa model perundungan siber yang sering diterima seseorang

menurut (Willard, 2007) dalam (Daneback, Cerna, Sevcikova, & Machackova,

(menerima pesan yang ofensif), serta denigration (menerima atau melihat

pernyataan yang tidak benar terhadap dirinya).

berisikan teks, sepenggalan kata/frase, kalimat, dan paragraf yang mengadung

perudungan berbahasa Indonesia yang berkontekskan pada pesta demokrasi dan

pemerintahan yang banyak digunakan oleh pengguna media sosial di Indonesia.

2.3 Text Mining dan Data Mining

2.3.1 Text Mining

informasi berkualitas tinggi dari teks. Dikarenakan kebanyakan informasi

mining diyakini memiliki potensi nilai komersial tinggi (Saraswati, 2013).

Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan

kecenderungan melalui sarana seperti pembelajaran pola statistik.

Text mining biasanya melibatkan proses penataan teks input (biasanya

parsing, bersama dengan penambahan beberapa fitur linguistik turunan dan

penghilangan beberapa diantaranya, dan penyisipan subsequent ke dalam

database), menentukan pola dalam data terstruktur, dan akhirnya mengevaluasi