Anda di halaman 1dari 36

BAB II

LANDASAN TEORI

2.1 Perundungan Siber

2.1.1 Definisi Perundungan Siber

Perundungan siber adalah istilah yang dikenalkan di dalam tulisan ini

sebagai terjemahan ke dalam bahasa Indonesia dari cyber bullying (Ramdhani,

2016). Burgess-Proctor, Hinduja, dan Patchin (2009) mendefinisikan cyber

bullying sebagai perbuatan merugikan yang dilakukan dengan sengaja melalui

komputer, telepon genggam, dan perangkat elektronik lainnya. Serupa halnya

dengan perundungan (berbagai tulisan menyebutnya dengan traditional bullying),

perundungan siber dapat berisi ancaman dan menyudutkan, dilakukan secara

berulang, dengan maksud membuat target merasa tidak nyaman (Berne, et al.,

2013) (Wong-Lo & Bullock, 2014). Perbedaan yang menonjol antara keduanya

adalah ketiadaan perbedaan posisi atau kekuatan (Hoff & Mitchell, 2009) antara

pelaku dan target karena perundungan siber dapat dilakukan dengan mudah

bahkan dari ruangan yang sangat pribadi. Perbuatan ini dilakukan dengan

mengirimkan pesan mengancam atau mempermalukan seseorang melalui pesan

teks, surel, menulis komentar menghina seseorang di website atau media sosial,

mengancam atau mengintimidasi seseorang melalui berbagai bentuk daring atau

dalam jaringan (Rastati, 2016).

Pada kehidupan sehari-hari, seringkali perundungan disamakan dengan

hate speech (ucapan kebencian). Pada kenyataannya, kedua hal ini merupakan dua

7
8

hal yang berbeda. Perundungan merupakan suatu aksi atau serangkaian aksi

negatif yang seringkali agresif dan manipulative, dilakukan oleh satu atau lebih

orang terhadap orang lain atau beberapa orang selama kurun waktu tertentu,

bermuatan kekerasan, dan melibatkan ketidakseimbangan kekuatan. Pelaku

biasanya mencuri-curi kesempatan dalam melakukan aksinya, dan bermaksud

membuat orang lain merasa tidak nyaman/terganggu, sedangkan korban biasanya

juga menyadari bahwa aksi ini akan berulang menimpanya. Sedangkan ucapan

kebencian adalah tindakan komunikasi yang dilakukan oleh suatu individu atau

kelompok dalam bentuk provokasi, hasutan, ataupun hinaan kepada individu atau

kelompok yang lain dalam hal berbagai aspek seperti ras,warna kulit, etnis,

gender, cacat, orientasi seksual, agama, dan lain-lain. Dalam arti hukum, ucapan

kebencian adalah perkataan, perilaku, tulisan, ataupun pertunjukan yang dilarang

karena dapat memicu terjadinya tindakan kekerasan dan bersikap prasangka dari

pihak pelaku. Soal perundungan dalam bentuk penghinaan yang dilakukan di

media sosial/internet dapat mengacu ke Undang-Undang Nomor 11 Tahun 2008

tentang Informasi dan Transaksi Elektronik (―UU ITE‖) yang berbunyi: ―Setiap

orang dengan sengaja dan tanpa hak mendistribusikan dan/atau mentransmisikan

dan/atau membuat dapat diaksesnya Informasi Elektronik dan/atau Dokumen

Elektronik yang memiliki muatan penghinaan dan/atau pencemaran nama baik‖.

Sedangkan untuk ucapan kebencian diatur dalam KUHP, perbuatan pidana

tersebut bisa dijerat dengan pasal Provokasi dan Hasutan.

Dampak perundungan siber lebih berat daripada perundungan yang terjadi

di lingkungan. Hal tersebut disebabkan karena media sosial dapat diakses dengan

mudah oleh seluruh pengguna internet di dunia tanpa mengenal ruang dan waktu,
9

orang dapat berkomentar selama 24 jam karena jaringan internet seolah tidak

pernah beristirahat; pesan berbentuk foto, video ataupun tulisan tidak dapat

dengan mudah terhapus, bahkan berkemungkinan para pemakai media sosial lain

juga telah menyimpan pesan tersebut (Hinduja & Patchin, 2008). (Juvonen &

Gross, 2008) juga menjelaskan para remaja enggan memberitahu orang tua

mereka mengenai insiden-insiden online yang terjadi pada mereka disebabkan

mereka tidak mau orang tua membatasi kegiatan online mereka.

2.1.2 Konsep Perundungan Siber

Dalam perundungan siber terdapat 3 elemen, yaitu pelaku, korban, dan

saksi. Berdasarkan hasil penelitian yang dilakukan oleh Muhammad Alam Akbar

dan Prahastiwi Utari (Akbar & Utari, 2015) bahwa;

1. Remaja yang berperan sebagai pelaku memiliki karakteristik agresif dan

intimidatif.

2. Remaja yang berperan sebagai korban memiliki karakteristik pasif dan

defensif.

- Perundungan siber kerap kali terjadi tanpa disadari oleh kedua

belah pihak.

- Jenis-jenis perundungan siber yang dilakukan pelaku, yaitu pelaku

kerap memanggil nama korban dengan panggilan atau sebutan

negatif, pelaku mengirimkan atau menyebarkan foto pribadi korban

sehingga menjadi bahan lelucon oleh teman Facebook korban,

pelaku mengancam keselamatan korban melalui pesan


10

perundungan siber -nya, serta pelaku juga memberikan opini-opini

yang merendahkan korban.

- Pelaku memproduksi pesan dengan cara ekspresif (pelaku

menuliskan pesan perundungan siber dengan menggunakan huruf

capital, simbol (emoticon) serta gambar pendukung), cara

konvensional (terdapat seseorang yang menuliskan pesan dengan

tatanan tata krama yang sesuai dengan norma sosial), dan cara

retoris (terdapat seseorang yang berusaha melerai dan tidak ikut

campur dalam kasus perundungan siber yang terjadi).

Beberapa model perundungan siber yang sering diterima seseorang

menurut (Willard, 2007) dalam (Daneback, Cerna, Sevcikova, & Machackova,

2013) antara lain: flaming (menerima pesan kasar dan vulgar), harassment

(menerima pesan yang ofensif), serta denigration (menerima atau melihat

pernyataan yang tidak benar terhadap dirinya).

2.2 Corpus

Corpus adalah kumpulan teks yang memiliki kesamaan subjek atau tema

(Wicaksono, Irawan, & Rukmi, 2014). Menurut (Abusalah, Tait, & Oakes, 2005),

corpus adalah repositori dari kumpulan materi bahasa alami, seperti teks, paragraf,

dan kalimat dari satu atau banyak bahasa. Corpus pada penelitian ini akan

berisikan teks, sepenggalan kata/frase, kalimat, dan paragraf yang mengadung

perudungan berbahasa Indonesia yang berkontekskan pada pesta demokrasi dan

pemerintahan yang banyak digunakan oleh pengguna media sosial di Indonesia.


11

2.3 Text Mining dan Data Mining

2.3.1 Text Mining

Text mining adalah salah satu teknik yang dapat digunakan untuk

melakukan klasifikasi, dimana text mining merupakan variasi dari data mining

yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang

berjumlah besar (Feldman, 2007). Text mining, mengacu pada proses mengambil

informasi berkualitas tinggi dari teks. Dikarenakan kebanyakan informasi

(perkiraan umum mengatakan lebih dari 80%) saat ini disimpan sebagai teks, text

mining diyakini memiliki potensi nilai komersial tinggi (Saraswati, 2013).

Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan

kecenderungan melalui sarana seperti pembelajaran pola statistik.

Text mining biasanya melibatkan proses penataan teks input (biasanya

parsing, bersama dengan penambahan beberapa fitur linguistik turunan dan

penghilangan beberapa diantaranya, dan penyisipan subsequent ke dalam

database), menentukan pola dalam data terstruktur, dan akhirnya mengevaluasi

dan menginterpretasi output. 'Berkualitas tinggi' di bidang text mining biasanya

mengacu ke beberapa kombinasi relevansi, kebaruan, dan interestingness. Proses

text mining yang khas meliputi kategorisasi teks, text clustering, ekstraksi

konsep/entitas, produksi taksonomi granular, sentiment analysis, penyimpulan

dokumen, dan pemodelan relasi entitas (yaitu, pembelajaran hubungan antara

entitas bernama) (Saraswati, 2013).


12

2.3.2 Data Mining

Penambangan data (data mining) adalah serangkaian proses untuk

menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini

tersembunyi dibalik data atau tidak diketahui secara manual (Han, 2006). Data

mining adalah suatu teknik menggali informasi berharga yang terpendam atau

tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga

ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Data

mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari

sejumlah besar material dasar, dimana data mining memiliki akar yang panjang

dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine

learning, statistik dan database (Witten, Frank, & Hall, 2011). Masalah-masalah

yang sesuai untuk diselesaikan dengan teknik data mining dapat dirincikan

dengan (Herera, 2010):

1. Memerlukan keputusan yang bersifat knowledge based.

2. Mempunyai lingkungan yang berubah.

3. Metode yang ada sekarang bersifat sub-optimal.

4. Tersedia data yang bisa diakses, cukup dan relevan.

5. Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat.

2.4 Klasifikasi dan K-Fold Cross Validation

2.4.1 Klasifikasi
13

Klasifikasi adalah teknik text mining yang digunakan untuk

mengelompokan sejumlah teks kedalam kelas yang memiliki persamaan sifat atau

pola. Klasifikasi juga dapat diartikan sebagai sebuah proses penemuan model atau

fungsi yang menggambarkan dan membedakan kelas data atau konsep yang

bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label

kelasnya tidak diketahui (Tan, Steinbach, & Kumar, 2006). Untuk melakukan

proses klasifikasi umumnya dimulai dengan memberikan sejumlah data sebagai

acuan, biasa disebut data training. Dari data training yang ada kemudian dapat

dibentuk suatu model untuk klasifikasi data atau class label. Dari model tersebut

kemudian dijadikan acuan untuk mengklasifikasikan berbagai data yang belum

diketahui kelasnya. Hasil klasifikasi ini digunakan untuk mengetahui akurasi dari

model (Tan, Steinbach, & Kumar, 2006).

Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu (Darujati, 2012):

a) Fase Information Retrieval (IR) untuk mendapatkan data numerik dari

dokumen teks. Langkah pertama yang dilakukan pada fase ini adalah

feature extraction. Pendekatan yang umum digunakan adalah distribusi

frekuensi kata. Nilai numerik yang diperoleh dapat berupa berapa kali

suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen

atau 0 jika tidak ada (biner), atau jumlah kemunculan kata pada awal

dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor

menjadi lebih kecil. Beberapa pendakatan fitur reduction dapat diterapkan

seperti menghapus stop-words, stemming, statistical filtering. Teknik lebih

lanjut seperti Singular Value Decomposition (SVD) dan genetic algoritm

akan menghasilkan vektor berdimensi lebih rendah.


14

b) Fase klasifikasi utama ketika suatu algoritma memroses data numerik

tersebut untuk memutuskan ke kategori mana teks ditempatkan. Terdapat

beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika

dan machine learning yang dapat diterapkan pada fase ini, di antaranya

adalah Naive Bayesian, Rocchio, Decision Tree, K-Nearest Neighbor,

Neural Network, dan Support Vector Machines. Teknik-teknik tersebut

berbeda dalam mekanisme pembelajaran dan representasi model yang

dipelajari.

Menurut Sebastiani, 2002 proses klasifikasi teks melibatkan banyak teknik IR

mulai dari preprocessing, pengukuran kemiripan selama operasional klasifikasi

sampai dengan evaluasi kinerja algoritma.

Gambar 2.1 Diagram Proses Klasifikasi Teks (Darujati, 2012)

2.4.2 K-Fold Cross Validation

Dalam k-fold cross-validation, data pengujian dipisah secara acak ke dalam

k himpunan bagian yang mutually exclusive atau ―fold (lipatan)‖, D1, D2,..., Dk ,
15

yang masing – masing kurang lebih berukuran sama. Pelatihan dan pengujian

dilakukan sebanyak k kali. Pada iterasi ke-i, partisi digunakan sebagai data tes,

dan partisi sisanya digunakan bersama untuk melatih model. Dalam iterasi

pertama, yaitu himpunan bagian D2, ..., Dk secara bersama bertindak sebagai data

pelatihan untuk memperoleh model pertama, yang diuji pada D1; iterasi kedua

dilatih pada himpunan bagian D1, D3, ..., Dk dan diuji pada D2; dan seterusnya

seperti dicontohkan pada Gambar 2.1. Dalam penelitian ini digunakan 10-fold (K-

10) cross validation. Gambar 2.2: Ilustrasi cross validation K-3:

Gambar 2. 2 Ilustrasi Cross Validation K-3 (Darujati, 2012)

2.5 Algoritma Supervised Learning

2.5.1 Support Vector Machine (SVM)

SVM merupakan metode pembelajaran yang tergolong baru, diperkenalkan

oleh Vapnik, Boser dan Guyon pada tahun 1992. Dewasa ini SVM telah berhasil

diaplikasikan dalam problema dunia nyata (real-world problems), dan secara

umum memberikan solusi yang lebih baik dibandingkan metode konvensional.

Konsep dasar SVM dapat dijelaskan sebagai usaha mencari hyperplane terbaik

yang berfungsi sebagai pemisah 2 kelas pada input space (Joachims, 1998).
16

Secara sederhana, SVM mampu menyelesaikan permasalahan klasifikasi 2 kelas.

Pembuatan model berdasarkan masukan dari data latih dari masing-masing kelas

dilakukan oleh SVM. Model inilah yang kemudian dapat dipakai untuk

mengelompokkan data baru. Usaha untuk mencari lokasi hyperplane merupakan

inti dari proses pembelajaran pada SVM. Gambar 2.3 mengilustrasikan bidang

pemisah terbaik ialah bidang pemisah yang menghasilkan nilai margin terbesar.

Nilai margin merupakan jarak antara bidang pemisah dengan elemen terluar dari

kedua kelas.

Gambar 2.3 SVM Berusaha Menemukan Bidang Pemisah Terbaik (Manning, 2008)

Menurut (Manning, 2008), fungsi pemisah yang dicari adalah fungsi linear

sebagai berikut:

⃑ ⃑⃑⃑ ⃑ ….. (1)

dengan ⃑⃑⃑ adalah bobot yang merepresentasikan posisi hyperplane pada bidang

normal, ⃑ adalah vektor data masukan, dan adalah bias yang merepresentasikan

posisi bidang relatif terhadap pusat koordinat. Teknik ini berusaha menemukan

fungsi pemisah (hyperplane) terbaik di antara fungsi yang tidak terbatas


17

jumlahnya untuk memisahkan 2 macam obyek. Mencari hyperplane terbaik

ekuivalen dengan memaksimalkan margin antara 2 kelas yang dapat diperoleh

dari formula | ⃑⃑⃑|. Hal ini sama dengan meminimalkan fungsi ⃑⃑⃑ ⃑⃑⃑ dengan

memerhatikan pembatas ⃑⃑⃑ ⃑ , dengan ⃑ merupakan vektor data,

merupakan label kelas, serta ⃑⃑⃑, b adalah parameter-parameter yang dicari

nilainya. Selanjutnya, masalah klasifikasi diformulasikan ke dalam Quadratic

Programming (QP) problem yang dapat diselesaikan dengan lagrange multiplier

sehingga fungsi klasifikasinya menjadi seperti pada Persamaan 2.

⃑⃑⃑⃑⃑⃑⃑ (∑ ⃑⃑⃑⃑ ⃑ ) ….. (2)

dengan adalah lagrange multiplier yang berkorespondensi dengan ⃑⃑⃑⃑ (Manning,

2008).

Dengan fungsi kernel, data akan ditransformasikan ke ruang vektor

berdimensi lebih tinggi. Usaha mencari bidang pemisah antara kedua kelas pada

ruang vektor baru adalah langkah selanjutnya. Pada Gambar 2.4 diilustrasikan

modifikasi SVM dengan kernel.

Gambar 2.4 Penerapan Kernel pada SVM dalam Transformasi ke Dimensi Lebih Tinggi (Gijsberts, 2007)
18

Ada beberapa bentuk fungsi kernel, yang paling umum digunakan di

antaranya linear, polinomial, Radial Basis Function (RBF), dan sigmoid. Menurut

(Hsu, Chang, & Lin, 2003) fungsi kernel yang direkomendasikan untuk diuji

pertama kali ialah fungsi kernel RBF karena memiliki performa yang sama

dengan SVM linear pada parameter tertentu, memiliki perilaku seperti fungsi

kernel sigmoid dengan parameter tentu dan rentang nilainya kecil [0,1]. Penelitian

ini menggunakan kernel RBF. Menurut (Manning, 2008), fungsi kernel untuk

RBF ditunjukkan pada Persamaan 3.

(⃑⃑⃑⃑ ⃑⃑⃑⃑) |⃑⃑⃑⃑ ⃑⃑⃑⃑| ….. (3)

dengan ⃑ adalah vektor data latih dan ⃑ adalah vektor data uji. Setelah

menerapkan fungsi kernel, fungsi keputusannya (decision surface) ditulis dalam:

⃑ (∑ (⃑⃑⃑⃑ ⃑⃑⃑⃑) ) ….. (4)

(Chang & Lin, 2011) telah memperkenalkan LIBSVM sebagai library untuk

SVM. LIBSVM dewasa ini menjadi salah satu perangkat lunak SVM yang paling

banyak digunakan dan mendukung penggunaan support vector classification.

LIBSVM tersedia pada http//www.csie.ntu.edu.tw/~cjlin/libsvm. Penggunaan

LIBSVM meliputi pemodelan SVM terhadap data latih dan pengujian data uji

terhadap model SVM. Penggunaan kernel dalam support vector classification juga

telah dikembangkan, serta mendukung penerapan kernel RBF pada SVM. Dengan
19

demikian, LIBSVM dapat diterapkan pada penelitian ini untuk melakukan

klasifikasi SVM 2 kelas dengan kernel RBF.

2.5.2 HyperPipes

HyperPipes adalah algoritma yang hanya ada pada aplikasi WEKA.

Algoritma ini meruapakan salah satu kelompok algoritma supervised learning.

HyperPipes adalah algoritma klasifikasi yang sangat sederhana. Algoritma ini

memiliki 2 kelebihan yaitu sangat cepat dalam operasi nya dan dapat menangani

data yang memiliki banyak atribut. Algoritma HyperPipes tidak dapat menangani

data yang berkelas numerik (Waikato, 2010). Ini menjadi masalah ketika terdapat

proses yang bersifat diskrit. Inilah yang menjadi ide dasar untuk menciptakan

sebuah pipe untuk setiap kelas dataset. Selama pelatihan, pipe untuk setiap

kelasnya terus melacak nilai atribut yang ditemui pada data training tetapi tidak

menghitung jumlahnya. Kemudian ketika menguji, pipe ini dapat digunakan untuk

mengklasifikasikan nilai dari data testing.

Keindahan HyperPipes adalah kesederhanaan. Algoritma ini beroperasi

sebagai berikut:

- Pelatihan (Training)

Pipe dibangun untuk setiap kelas di pelatihan dan setiap pipe ditandai

dengan kelas yang dimiliki. Kemudian untuk setiap pipe yang dibangun,

dataset dilatih satu per satu. Untuk setiap nilai pada corpus, jika nilai nya

diketahui dan tidak ada sebelumnya pada dataset maka nilai atribut
20

ditambahkan pada pipe. Kelas numerik ditangani dengan mempertahankan

berbagai nilai-nilai untuk atribut. Jika nilainya diluar kisaran pipe maka

kisaran pipe diperbaharui sehingga nilai ini ada di dalamnya (sebagai

minimum atau maksimum baru). Selama nilai nya diskrit, algoritma ini

tidak digunakan.

- Uji Coba (Testing)

Setiap corpus pada dataset dibandingkan dengan pipa sebelumnya untuk

setiap kelas. Untuk menentukan pipa mana yang paling sesuai, terdapat

sebuah counter yang bertambah setiap terdapat kesesuaian yang terjadi

antara corpus dan pipe. Corpus dikelompokan pada kelas yang paling

banyak memiliki kesesuaian. Ketika terdapat banyak pipe, corpus

dikelompokan pada kelas dari last pipe yang memiliki banyak kesesuaian.

Sebagai contoh, jika terdapat pipe 1, pipe 2, pipe 3, dan pipe 4 dan jumlah

kesesuaian dari setiap pipe: 7,0,7 dan 4, maka corpus akan dikelompokan

pada pipe 3.

2.5.3 Tree-based J.48

Decision Tree J.48 merupakan implementasi dari algoritma C4.5 yang

memproduksi Decision Tree. Ini merupakan standar algoritma yang digunakan

dalam machine learning. Decision Tree merupakan salah satu algoritma

klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang

secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari

dataset yang belum diklasifikasikan (pre-classified dataset) . Setiap data dari item
21

berdasarkan dari nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping

dari sekelompok set dari atribut dari kelas tertentu. Decision Tree

mengklasifikasikan data yang diberikan menggunakan nilai dari atribut (Ian &

Eibe, 2005).

J.48 merupakan implementasi C4.5 di WEKA. C4.5 merupakan

pengembangan dari ID3. Beberapa perbedaannya antara lain :

1. Mampu menangani atribut dengan tipe diskrit atau kontinu.

2. Mampu menangani atribut yang kosong (missing value)

3. Bisa memangkas cabang.

ID3 merupakan algoritma yang dipergunakan untuk membangun sebuah Decision

Tree atau pohon keputusan. Algoritma ini ditemukan oleh J. Ross Quinlan,

dengan memanfaatkan Teori Informasi atau Information Theory milik Shanon.

ID3 sendiri merupakan singkatan dari Iterative Dichotomiser 3. Idenya, adalah

membuat pohon dengan percabangan awal adalah atribut yang paling signifikan,

dapat dilihat pada Gambar 2.5. Maksudnya signifikan adalah yang paling bisa

mempartisi antara iya dan tidak.

Gambar 2. 5 Ilustrasi IDE (Ian & Eibe, 2005)


22

Bisa dilihat, bahwa atribut ―patron‖ membagi 3, dimana hasil pembagiannya

cukup ideal. Maksudnya ideal adalah setiap cabang terdiri dari hijau saja atau

merah saja. Memang, untuk cabang ―full‖ tidak satu warna (hijau saja atau merah

saja). Tapi, pemilihan atribut patron jelas lebih baik daripada atribut type. Untuk

menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat cabang

pohon, digunakanlah teori informasi.

Decision Tree J.48 merupakan implementasi algoritma C4.5 (berbasis

Java) pada Weka (Waikato, 2013). Algoritma C4.5 digunakan untuk pemisah

obyek (Mohamed, Salleh, & Omar, November, 2012). Tree atau pohon keputusan

banyak dikenal sebagai bagian dari Graph, yang termasuk dalam irisan bidang

ilmu otomata dan teori bahasa serta matematika diskrit. Tree sendiri merupakan

graf tak-berarah yang terhubung, serta tidak mengandung sirkuit (Munir, 2010).

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai

berikut (Kusrini, 2009):

1. Pilih atribut sebagai akar

2. Buat cabang untuk tiap-tiap nilai

3. Bagi kasus dalam cabang

4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang

memiliki kelas yang sama.

Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari

atribut-atribut yang ada. Untuk menghitung gain digunakan persamaan sebagai

berikut:

∑ ….. (5)
23

Keterangan:

S = himpunan kasus

A = atribut

n = jumlah partisi atribut A

|Si| = jumlah kasus pada partisi ke-i

|S| = jumlah kasus dalam S Rumus dasar dari entropy tersebut adalah sebagai

berikut:

∑ ….. (6)

Keterangan:

S = himpunan kasus

A = fitur

n = jumlah partisi S

pi = proporsi dari Si terhadap S

2.6 Aplikasi Text Mining dan Machine Learning

2.6.1 RStudio

R adalah aplikasi open source untuk statistik. R programming banyak

digunakan untuk data scientists, statisticians, formal scientists, physical scientists,

social scientists, dan lainnya yang butuh statistical analysis, data visualization,

dan predictive modeling (Danneman & Heimann, 2014). R Studio adalah salah

satu aplikasi data analysis yang direkomendasikan karena R bersifat extensible

dan excellent combination of freedom, flexibility, and power (Danneman &


24

Heimann, 2014). Sebagai tambahan, R terus mengembangkan kemampuannya

dalam menangani big data. R banyak digunakan dalam Distributed Storage and

List (DSL), HadoopInteractiVE (hive), Text Mining Distributed Corpus Plug-In

(tm.plug.dc), Hadoop Steaming (HadoopSteaming), and Amazon Web Services

(AWS.tools) (Danneman & Heimann, 2014). Disamping itu, R juga memiliki

visualization feature untuk analyzing data dan presenting results.

2.6.2 RapidMiner

RapidMiner adalah salah satu aplikasi yang digunakan untuk data mining

(Burget, Karasek, Smekal, Uher, & Dostal, 2010). RapidMiner merupakan sebuah

environment untuk machine learning, data mining, dan text predictive analytic.

RapidMiner banyak digunakan untuk text mining dari proses analisis teks, extract

pattern dari dataset dan dikombinasi dengan metode statistic, artificial

intelligence, dan database.

2.6.3 WEKA

WEKA adalah aplikasi open source yang membantu peneliti dalam

menggunakan teknik-teknik pada machine learning (Hall, Frank, Holmes, &

Pfahringer, 2009). Aplikasi ini menyediakan algoritma untuk regresi, klasifikasi,

dan kluster. Terdapat sebuah workbench yang merupakan graphical user interface

yang dapat digunakan untuk akses fungsi yang disediakan, seperti loading data

dari beberapa sumber (file CSV dan LibSVMs format), url serta databases).
25

Disamping itu, workbench juga menyediakan learning alogorithm, algoritma

klasifikasi (supervised dan unsupervised), dan regresi dengan cross validation K-

Fold untuk prediksi. Aplikasi ini dapat digunakan untuk simulasi dan evaluasi

suatu algoritma. WEKA tidak hanya menyediakan toolbox tetapi juga

menyediakan framework untuk peneliti dalam membentuk algoritma baru.

2.7 Performance Metric

Performance metric merupakan parameter yang digunakan untuk meng-

evaluasi model dan feature space. Performance metric terdiri dari akurasi, recall,

precision, dan F-measure. Model dikatakan baik jika memiliki nilai akurasi >

60%. Nilai akurasi merupakan nilai ukur performance dari model dalam

mengklasifikasi dataset. Model dikatakan baik jika sebuah data yang bernilai

positif diprediksi positif oleh model. Begitu juga untuk data yang bernilai negatif,

model yang baik memprediksi nilai data tersebut negatif. Confusion matrix

merupakan sebuah tabel yang menggambarkan kelas dari sebuah data dan prediksi

yang dilakukan oleh model, dapat dilihat pada Tabel 2.1. Jika data berkelas Yes

lalu diprediksi berkelas No oleh model maka nilai confusion matrix –nya false

negative (FN).

Tabel 2. 1 Model Confusion Matrix (Han, 2006)

Predicted Class
Actual Class = Yes Class = No
Class Class = Yes True Positive False Negative
(TP) (FN)
Class = No False Positive True Negative
(FP) (TN)
26

Confusion matrix adalah suatu metode yang digunakan untuk melakukan

perhitungan akurasi pada konsep data mining (Mayadewi & Rosely, 2015).

Evaluasi dengan confusion matrix menghasilkan nilai akurasi, precision dan

recall. Dalam confusion matrix, true positive (dengan benar memperkirakan nilai

positif) dan true negative (dengan benar memperkirakan nilai negatif) merupakan

pengamatan yang benar. Dalam penelitian ini, kami ingin meminimalkan false

positive dan false negative.

2.7.1 Akurasi

Akurasi didefinisikan sebagai tingkat kedekatan antara nilai prediksi

dengan nilai aktual. Akurasi dalam klasifikasi adalah persentase ketepatan record

data yang diklasifikasikan secara benar setelah dilakukan pengujian pada hasil

klasifikasi (Han, 2006).

..... (7)

2.7.2 Precision

Precision adalah tingkat ketepatan antara informasi yang diminta oleh

pengguna dengan jawaban yang diberikan oleh sistem. Menurut Kurniawan

(2010), precision adalah perbandingan jumlah dokumen relevan yang terambil

sesuai dengan query yang diberikan dengan total kumpulan dokumen yang

relevan dengan query.

….. (4)
27

2.7.3 Recall

Recall adalah tingkat keberhasilan sistem dalam menemukan kembali

sebuah informasi. Recall dapat juga diartikan sebagai proporsi kasus positif yang

sebenarnya yang diprediksi positif secara benar (Powers, 2011).

….. (5)

2.7.4 F-Measure

F1 (F-Measure) merupakan salah satu perhitungan evalusasi dalam

informasi temu kembali yang mengkombinasikan recall dan precission. Nilai

recall dan precission pada suatu keadaan dapat memiliki bobot yang berbeda.

Ukuran yang menampilkan timbal balik antara recall dan precission adalah F-

Measure yang merupakan bobot harmonic mean, recall dan precission. Berikut

rumus F-Measure:

..... (6)

2.8 Penelitian Sebelumnya

2.8.1 Penelitian Karthik Dinakar (2011)

Pada penelitian ini, proses klasifikasi-nya menggunakan Bag of Word

(BoW) supervised learning algorithm. Dimana corpus (kumpulan konten yang


28

mengandung arti perudungan) berasal dari komen di situs www.youtube.com.

Algoritma yang digunakan pada penelitian ini:

1. Proses pelatihan 50%, validasi 30%, dan test data 20%

2. Data Processing: kalimat atau sepenggal kata dalam bahasa inggris

dengan feature space (corpus) akan dilatih dengan Binary Classifier

dalam 3 label; seksualitas, ras, dan budaya. Lalu corpus akan dilatih

dengan multi-class classifier, Gambar 2.6. Training ini akan dilakukan

pada 50 kasus dan akan divalidasi secara berulang untuk menghindari

the common pitfall of over fitting.

PROFANITY
CYBER
SUBTLETY
BULLYING

NEGATIVITY

RACE/ PHYSICAL
SEXUALITY INTELLIGENCE
CULTURE ATTRIBUTES

Gambar 2.6 Kelas yang Digunakan untuk Melatih Corpus (Dinakar, Reichart, & Lieberman, Modeling the
detection of Textual Cyberbullying, 2011)

3. Feture Space Design yang digunakan sebagai berikut;

a. The General Features

Terdiri dari Term Frequency, Inverse-Document Frequency (TF-

IDF) weighted unigrams, Ortony lexicon yang menyediakan kata

negatif, sekelompok profane words, dan sekelompok stereotypical

words yang sering muncul pada setiap label.


29

b. TF-IDF

TF-IDF adalah ukuran pentingnya sebuah kata yang ada pada

dokumen terhadap kumpulan dokumen tersebut dengan

mempetimbangkan jumlah kemunculan kata tersebut pada setiap

dokumen dan corpus.

c. Part-of-speech tags ( PRP_VBP, VBPRP, dan JJDT)

Part-of-speech tags untuk biagram ditambakan untuk mendektsi

biagram pairs positif yang sering muncul dalam pelatihan data

yang positif.

d. Label Specific Features

Ditambahkan label spesifik untuk unigram dan biagram dalam

mengamati pelatahian data. Label spesifikini dilengkapi dengan

seberapa sering digunakan dalam forms of verbal abuse dan

stereotypical utterances.

Hasil yang diperoleh dari Bag of Words (BoW) supervised learning algorithm

(Akurasi, F1, Kappa), Tabel 2.2.


30

Tabel 2.2 Nilai Akurasi dari Setiap Algoritma yang Digunakan (Dinakar, Reichart, & Lieberman, Modeling
the detection of Textual Cyberbullying, 2011)

Naive Bayes Rule-based JRip Tree-based J.48 SMO (SVM)


A F K A F K A F K A F K
Binary Classifier
Sexuality 66% 0.67 0.65 80% 0.76 0.59 63% 0.57 0.57 67% 0.77 0.79

Race 66% 0.52 0.78 68% 0.55 0.78 63% 0.48 0.65 67% 0.63 0.71

Intelligence 72% 0.46 0.46 70% 0.51 0.51 70% 0.51 0.56 72% 0.58 0.77

Multi-class classifier
Mixture 63% 0.57 0.44 63% 0.60 0.50 61% 0.58 0.45 56% 0.63 0.65

Keterangan:

A : Accuracy

F : F1

K : Kappa

Mixture : A merge set of instance from the three cluster of sexuality, race,

and intellgence

2.8.2 Penelitian Nedya Farisia (2016)

Nedya farisia melakukan penelitian mengenai deteksi cyber bullying yang

terjadi pada media sosial. Corpus yang digunakan berasal dari crawling twitterR

dengan pencarian kata berdasarkan tabel kata cyber bullying yang dikemuka

dalam penelitian (Margono, Yi, & Raikundalia, January, 2014).


31

Tabel 2.3 Kata Perundungan di Media Sosial Menurut Penelitian Margono (Margono, Yi, & Raikundalia,
January, 2014)

Topik Binatang Intelektual Kaum Difabel Perilaku

(Cacat)

Kata Bangsat Goblok Buta Setan

Perundungan Anjing Idiot Budek Iblis

Babi Geblek Jelek Keparat

Monyet Gila Gembel

Kunyuk Tolol Brengsek

Sarap Sompret

Udik Bajingan

Kampungan Bejad

Metode yang digunakan dalam melakukan pendeteksian perundungan siber seperti

Gambar 2.7.

Gambar 2.7 Metode yang Digunakan untuk Deteksi Cyber Bullying (Farisia, 2016)

Pada tahap establish corpus, crawling twitter dilakukan dengan program

Rstudio dengan twitteR API dan fungsi laply. Data yang diperoleh adalah 1063
32

data training (November 2015), 650 data training (Mei 2016), 1300 data debat

capres, dan 117 data Cina. Data yang diperoleh akan dibersihkan lalu diberi label

oleh responden melalui kuisioner dalam bentuk email ke mahasiswa Universitas

Indonesia (UI). Label yang akan diberikan pada data, ada 3 kelas: positif, netral

(ragu-ragu), dan negatif.

Tabel 2.4 Jumlah Data Training Sebelum dan Sesudah Dibersihkan

Jenis Data Sebelum Pembersihan Sesudah Pembersihan

Data Training 1063 538

Data Testing 650 338

Data Debat Capres 1300 109

Data Cina 117 117

Data yang bersentimen positif akan dibuang. Data lainnya akan dibersihkan

dengan langkah preprocessing yang terdapat pada Gambar 2.7. Proses detailnya

dapat di lihat di Tabel 2.5.

Tabel 2.5 Praproses Teks yang Dilakukan pada Proses Deteksi Cyber Bullying

No Praproses Teks Sebelum Sesudah

1 Sentiment filter, penilaian sentimen Tweet bersentimen positif terhapus

akan diberikan sesuai keberadaan

kalimat positif dan negatif yang

terdapat pada tweet. Kalimat positif

dan negatif sesuai dengan kamus

sentiwordnet yang terdapat pada

aplikasi R yang sudah diterjemahkan


33

ke dalam bahasa Indonesia.

(+) : kata positif > kata negatif

(netral) : kata positif = kata negatif,

tidak ada dikamus

(-) : kata positif < kata negatif

Pemberian nilai sentimen dilakukan

oleh aplikasi WEKA

2 Transform case (mengubah huruf RT@Viccent22: rt@viccent22: kalian

kapital menjadi huruf kecil) Kalian cocok, sesama cocok, sesama cocok

cocok brengsek, brengsek, cocok.

cocok.

3 Remove noise (menghapus html rt@viccent22: kalian viccent22 kalian cocok

encode, retweet dan username, serta cocok, sesama cocok sesama cocok

tautan) brengsek, cocok. brengsek cocok

4 Remove duplicate (setelah proses Duplikasi terhapus

remove noise akan muncul baris yang

sama, maka dari itu harus dihapus

dengan excell)

5 Snowball stemmer viccent22 cocok sama viccent22 cocok sama

brengsek cocok brengsek

viccent22 cocok sama

cocok sama brengsek

brengsek cocok

6 N-Gram tokenizing viccent22 cocok sama viccent22

brengsek viccent22_cocok

viccent22 cocok sama cocok cocok

cocok sama brengsek cocok_sama sama

brengsek cocok sama_brengsek


34

brengsek brengsek

7 Create TDM, data dibuka pada Jumlah term dihitung dan dibentuk matriks

WEKA dan dbuatkan TDM agar

dapat mengalami proses klasifikasi

Setelah proses preprocessing maka data akan di- training. Data training ‗bukan

cyber bullying‘ lebih banyak 37% (198 baris) daripada data ‗cyber bullying‘. Hasil

evaluasi klasifikasi pada data training adalah SVM tidak dapat banyak belajar dari

pelatihan ini, model yang dihasilakn buruk, dapat dilihat pada Tabel 2.6. Hal ini

dikarenakan hanya satu data diantara kelas 0 dan 1. Akibatnya terdapat 2 kondisi

extrim: semua ‗cyber bullying‘ atau semua ‗bukan cyber bullying‘.

Tabel 2.6 Tingkat Akurasi dari Setiap Metode Klasifikasi terhadap Data Training dan Testing

Klasifikasi Tingkat Akurasi

Training Testing

Tree J.48 78.253 57.1

HyperPipes 97.955 63.91

SVM 63.197 63.02

Setelah proses training maka dilakukan proses validasi silang, nilai validasi silang

diantara 2-10. Validasi silang dilakukan agar tidak terjadi overfitting pada model

karena sudah melalui proses optimasi. Berikut nilai validasi yang optimal untuk

setiap klasifikasi: J.48 (k=9), Hyperpipes (k=7), dan SVM (k=8). Proses validasi

silang dilanjutkan dengan proses testing. Data training ‗cyber bullying‘ hanya

39% dari total data. Berikut tabel nilai akurasi dari proses training.
35

Proses training dengan data sumber lain (data debat capres dan cina), data

‗cyber bullying‘ hanya 16% dari total data.

Tabel 2.7 Tingkat Akurasi dari Setiap Metode Klasifikasi terhadap Data Source yang Lain

Klasifikasi Tingkat Akurasi Keterangan

J.48 86.24 Semua bukan cyber bullying

HyperPipes 49.54 Nilai recall positif > recall negatif

SVM 13.76 Semua cyber bullying

Ketika kata cina dimasukan ke dalam training (data training cyber bullying 38%,

lebih kecil dari bukan cyber bullying dan nilai k yang digunakan 9) maka hasil

yang diperoleh, dapat dilihat pada Tabel 2.7.

Tabel 2.8 Hasil dari Setiap Metode Klasifikasi setelah Kata Cina Dimasukan ke dalam Proses Training

Klasifikasi Keterangan

Tree J.48 Generalisasi yang lebih besar, bagus untuk digunakan

percakapan diluar term yang telah ditentukan

HyperPipes Hanya bagus untuk kata kunci yang sama dengan data training

SVM

Dari penelitian terlihat bahwa penggunaan klasifikasi HyperPipes dan SVM tidak

memiliki hasil yang baik. Hal ini dikarenakan faktor data yang digunakan tidak

baik. Data yang digunakan pada data training memiliki karakter sedikit

berkelompok dan jarang sehingga mempengaruhi performa dar kedua algoritma

tersebut. Karakter dari algoritma HyperPipes dan SVM, keduanya bertumpu pada
36

frekuensi kemunculan dan jarak antara data. Hal ini berbeda dampaknya terhadap

penggunaan algoritma J.48, algoritma ini menganggap data yang berkelompok

merupakan suatu penemuan node yang baru sehingga memperbaiki kinerja

algoritma Tree J.48.

Tabel 2.9 Tabel Karakter dari Setiap Data yang Digunakan pada Proses Klasifikasi

Data Kondisi Data

Data Training Seimbang dan kontinyu

Data Testing Sedikit berkelompok

Data Lain Jarang

Dari penelitian ini diperoleh kesimpulan bahwa

1. Deteksi cyber bullying dapat dilakukan berdasarkan topik tertentu dengan

menggunakan text mining.

2. Keseimbangan, konvergensi, dan kejarangan data uji dapat berpengaruh

buruk terhadap performa algoritma.

3. Nilai akurasi Tree J.48 86.24%, HyperPipes baik hanya pada data training

yang berasal dari sumber yang sama dengan data training. Penambahan

kata baru yang sesuai dengan data uji baru dapat menaikkan akurasi 36%.

SVM belum mampu mempelajari karena luas area dibawah kurva ROC

yang bernilai 0.5.

4. Jumlah dataset yang sedikit lebih menguntungkan sehingga label bukan

cyber bullying sebaiknya dikurangi karena hasilnya mempengaruhi recall

laber cyber bullying.


37

Saran dari penelitian ini bahwa

1. Tanda baca dan emoticon diikutsertakan.

2. Teknik over sampling dan over sizing.

2.8.3 Penelitian Prof. Nikita Desai dan Anandkumar D. Dave

(2016)

Pada penelitan ini proses klasifiaksinya menggunakan supervised algorithm,

Support Vector Machine (SVM). Dimana corpus nya berasal dari Libsvm dalam

bentuk kalimat, sepenggal kata, atau ekspresi khusus dalam Hindi, baik yang

berkonten kata maupun ekspresi umum (hastag, emoticons, antonim, sinonim, dan

tanda baca) yang dapat diartikan sebagai sarkasme (―markers”) maupun kalimat

atau sepenggal kata positif tetapi mengandung konten sarkasme (―without

markers‖) (Desai N. a., 2016). Rancangan algoritma (proposed algorithm) yang

digunakan sebagai berikut;

 Langkah 1: Get Direct Opinion Sentences

//Data Pre-processing

 Langkah 2: Hapus UserName, Hyperlink, tabs, dan lainnya dari kalimat

tersebut.

 Langkah 3: Replace multiple occurrences of same or opposite type of

emoticons with a single appropriate emoticon.

 Langkah 4: Jika kalimat mengandung marker - #tag kataksh atau

emoticons , lanjut ke langkah 5 atau langkah 10

// Feature Extraction for statements containing sarcasm markers


38

 Langkah 5: cari TFIDF dengan metode berikut:

Tandai sebuah dokumen ―D‖, kata ―w‖, dan individual document d є D,

kami menghitung

(| | ) ….. (7)

dimana equals the number of times ―w― appears in ―d‖, |D| adalah

ukuran dari corpus, dan equals the number of documents in which

“w” appears in “D”.

 Langkah 6: Lookup the positive (+ve) score and negative(-ve) score of

each word in sentence from HindiSentiWordNet. Jumlahkan nilai dari

semua kata untuk memberikan nilai terhadap kalimat. Berikan nilai

polaritas dari setiap kalimat yang dimasukan = +ve, jika total nilai +ve dari

semua kata lebih besar dari –ve, atau sebaliknya.

 Langkah 7: Jika kalimat mengandung #Kataksh, set ― #Kataksh = true ― .

 Langkah 8: If emoticon present, find the intensity(I) of the emoticon and

set “Emoticon=I”. Contoh: Jika ada emoticon

maka intensity = “mild positive” , “ positive” , “extremely positive”

respectively.

 Langkah 9: Classify sentences as per rules given in tabel 2.9 and return

appropriate class.
39

Tabel 2.10 Classes of Sarcastic Sentences yang Digunakan oleh (Desai N. a., 2016)

Features Class Label

Statement Emoticons #Kataksh

Polarity

Positive Not Used True Extreme Sarcastic (+ve)

Negative Not Used True Extreme Sarcastic (-ve)

Negative Mild Positive False Mild Sarcastic (+ve)

Positive Mild Negative False Mild Sarcastic (-ve)

Negative Extreme False Extreme Sarcastic (+ve)

Positve

Positive Extreme False Extreme Negative (-ve)

Negative

Positive Positive False Non-Sarcastic

Negative Negative False Non-Sarcastic

//Step for statements having no sarcasm markers

 Langkah 10: if sentence has at least one of the following feature cue words

OR odd combination of words OR pair of word and its antonym. Return

“sarcastic” else “non-sarcastic”.

Hasil yang diperoleh dari penelitian ini:

a. Terhadap 404 kalimat ber- #tag (kata yang mengandung arti

sarkasme) dengan; classifier setting: SVM, kernel: linear, dan

target classes: dua (sarcastic [akurasi: 78.84%] , non-sarcastic

[akuarasi: 67.05%])
40

b. Terhadap 1410 kalimat ber- markers dengan; classifier setting:

LibSVM, kernel: - C-SVM, Type: RBF, C=0.5, gamma = 0.009,

target clasess: lima (extreme positive, extreme negative, mild

positive, mild negative sarcastic, non sarcastic), tingkat akurasi

dapat dilihat pada Tabel 2.11.

Tabel 2.11 Tingkat Akurasi Percobaan terhadap 1410 Kalimat Ber-markers

No. Features Accuracy %


1 Unigram (TFIDF) 50.03%

2 Unigram (TFIDF) + POS Score + Neg Score 50.40%

3 Unigram (TFIDF) + POS Score + Neg Score + #tag 59.55%

4 Unigram (TFIDF) + POS Score + Neg Score + #tag + 66.65%

Emoticons

5 Unigram (TFIDF) + POS Score + Neg Score + #tag + Emoticon 83.74%

+Polarity

c. Terhadap 250 kalimat without markers dengan; model setting:

LibSVM dengan fitur khusus seperti Tabel 2.12, kernel: C-SVM,

Type: RBF, C=0.5, gamma=0.009, target classes: dua (sarcastic,

non-sarcastic), dan accuracy achieved: 60%.


41

Tabel 2.12 Fitur yang Digunakan pada 250 Kalimat Tanpa Markers (Desai N. a., 2016)

Anda mungkin juga menyukai