Anda di halaman 1dari 18

BAB II

LANDASAN TEORI

2.1 SARKASME

Menurut Kamus Besar Bahasa Indonesia ( KBBI ). Sarkasme adalah satu

satu jenis majas. Tujuan dari sarkasme dimaksudkan untuk menyindir,

menyinggung seseorang atau sesuatu. Sarkasme dapat berupa penghinaan yang

mengekspresikan rasa kesal dan marah dengan menggunakan kata-kata kasar.

Majas ini dapat melukai perasaan seseorang. Dalam Bahasa Indonesia, arti

Sarkasme berbeda dari kepercayaan banyak orang bahwa sarkasme berarti

penyindiran yang menggunakan kata terbalik terbalik dari maksudnya, seperti ironi.

2.2 DETEKSI SARKASME

Menurut Edwin Lunando dan Ayu Purwarianti, Deteksi sarkasme menjadi

salah satu masalah berat dalam analisis sentiment, yang dimana didalam sosial

media Indonesia, kebanyakan netizen memberikan pendapat dan kritikan dalam

bentuk sarkas, ada beberapa cara yang digunakan untuk dapat mendeteksi

sarkasme. Pertama dengan memilah menjadi kalimat positif dan negatif setelah itu,

mengambil kalimat positif yang berhasil difilter untuk dapat dibedakan mana yang

sarkas mana yang tidak. Penggunaan Teknik yang khusus dalam mendapatkan

beberapa sarcasm, seperti dalam beberapa topik makanan, kesehatan dan gaya

hidup. Dari sekitar 100 tweet yang diambil, hanya 2 tweet yang dideteksi sebagai

sarkas. Hal ini membuat penulis menjadi lebih mencari topik lain dalam

mendapatkan sampel yang dapat digunakan untuk menjadi bahan training untuk

6
7

data mining. Metode yang digunakan ada Naïve Bayes, Maximum Entropy dan

Support Vector Machine. Dari proses yang telah mereka pakai dan mereka

gunakan meningkatkan akurasi 6%.

2.3 BERITA

Menurut dari Romadecade.org, berita adalah sebuah laporan tentang

peristiwa terbaru dan penting yang harus disampaikan kepada masyarakat secara

cepat. Dalam penyajian sebuah berita dapat menggunakan media seperti surat

kabar, televisi, radio dan media online. Berita juga mempunyai arti lain yaitu

sebuah informasi berdasarkan fakta mengenai kejadian yang sedang berlangsung.

Selain itu berita juga dapat dikatakan sebagai sebuah laporan keterangan dari

sebuah peristiwa. Berita merupakan sebuah fakta yang harus segera disampaikan

kepada masyarakat. Akan tetapi semua fakta tersebut harus disampaikan kepada

masyarakat, fakta-fakta tersebut harus dipilih terlebih dahulu, sehingga nantinya

fakta tersebut pantas untuk disampaikan kepada masyarakat.

Jenis – jenis berita :

1. Straight News

Jenis berita ini merupakan berita langsung, isi beritanya ditulis secara

singkat, lugas dan apa adanya. Berita yang berjenis straight news dapat

ditemui pada halaman pertama surat kabar. Jenis berita Straight News

terbagi menjadi 2 yaitu : Hard News dan Soft News. Hard News adalah

berita yang isinya memiliki nilai lebih, beritanya berkualitas dan terbaru.
8

2. Depth News

Jenis berita ini mempunyai isi yang bersifat mendalam, Dept News

biasanya terdapat ulasan – ulasan yang mendalam terhadap suatu

peristiwa. Jenis berita ini memiliki isi yang lebih menonjolkan tentang

“ mengapa peristiwa itu terjadi “ dan juga “ bagaimana peristiwa itu

terjadi “. Tujuan adri berita jenis ini adalah untuk mengangkat suatu

kejadian secara lebih mendalam.

3. Investigation News

Berita yang cara pembuatannya berdasarkan penyelidikan atau penelitian

yang dilakukan dari berbagai sumber. Dalam menulis Investigation News

biasanya jurnalis mempunyai tujuan tertentu seperti untuk membongkar

tindak kriminal yang sangat merugikan masyarakat, membongkar sebuah

jaringan penjualan illegal dan masih banyak lagi.

4. Interpretative News

Berita jenis ini adalah berita pengembangan dari Straight News.

Interpretative News adalah berita langsung dimana didalamnya

ditambahkan beberapa informasi seperti pendapat seseorang atau sebuah

penelitian yang dilakukan oleh penulis.


9

5. Opinion News

Berita jenis ini yang berisi opini tentang suatu kejadian yang sedang

terjadi. Biasanya isi dari jenis berita ini adalah pendapat dari para

pengamat atau para ahli dari masalah, isu atau dari kejadian yang sedang

terjadi. Selain itu pendapat juga dapat diperoleh dari masyarakat, pelajar

ataupun mahasiswa.

2.4 DATA MINING

Data Mining sering juga di sebut Knowledge Discovery in Database, proses

pengambilan pola pada data yang akan diproses lalu output tersebut berupa

informasi yang sangat penting dan juga merupakan suatu alat yang

memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah

yang besar.

Menurut Fajar Astuti Hermawati (2013 : 3), “Data mining adalah proses

yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine

learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara

otomatis”.

Menurut Lailil Muflikhah dan Dian Eka Ratnawati (2018 : 4), “Data mining

juga dikenal dengan nama Knowledge Discovery in Database (KDD). Analisis

dengan menggunakan peranti otomatis atau semi otomatis dari sejumlah besar

data yang bertujuan untuk menemukan pola yang memiliki arti”.

Menurut Amril Mutoi dan Adam Puspabhuana (2014 : 49),

“Sebuah analisa dari observasi data dalam jumlah besar untuk menemukan
hubungan yang tidak diketahui sebelumnya dan metode baru untuk
10

meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data.
Data-data yang ada, tidak dapat langsung diolah dengan memakai sistem
data mining”.

Dapat disimpulkan bahwa data mining adalah suatu data untuk dianalisis

dengan menggunakan semi otomatis dari sejumlah besar untuk bertujuan

menemukan pola yang menarik yang sebelumnya tidak diketahui dan agar mudah

di pahami.

2.1.1 Tahapan Proses dalam Data Mining

Data Mining memiliki beberapa bagian dalam tahapan proses, berikut

penjelasan menurut para ahli :

Menurut Yuli Mardi (2014 : 213),

“Istilah Knowledge Discovery in Database (KDD) dan data mining sering


kali digunakan secara bergantian untuk menjelaskan proses penggalian
informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua
istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama
lain dan dalah satu tahapan dalam keseluruhan proses KDD adalah data
mining”.

Proses KDD secara garis besar dapat dijelaskan sebagai berikut :

1) Data Selection

Pemilihan data dari sekumpulan data operasional perlu dilakukan sebelum

tahap penggalian informasi dan Knowledge Discovery in Database (KDD)

dimulai. Data hasil seleksi yang akan digunakan dalam suatu berkas

terpisah dari basis data opersional.

2) Pre-processing atau Cleaning

Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses

Cleaning pada data yang menjadi fokus Knowledge Discovery in Database


11

(KDD). Proses cleaning mencakup antara lain membuang duplikasi data,

memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data

seperti kesalahan cetak. Juga dilakukan proses enrichment, yaitu proses

“memperkaya” data yang sudah ada dengan data atau informasi lain yang

relevan dan diperlukan untuk Knowledge Discovery in Database, seperti

data atau informasi eksternal lainnya yang diperlukkan.

3) Transformation

Coding adalah transformasi pada data yang telah dipilih, sehingga data

tersebut sesuai untuk proses data mining. Proses coding dalam Knowledge

Discovery in Database merupakan proses kreaktif dan sangat tergantung

pada jenis atau pola informasi yang akan dicari dalam basis data.

4) Data Mining

Data Mining adalah proses mencari pola atau informasi dalam terpilih

dengan menggunakan teknik atau metode tertentu. Teknik-teknik, metode-

metode, atau algoritma dalam data mining sanagt bervariasi. Pemilihan

metode atau algoritma yang tepat sangat bergantung pada tujuan dan

proses KDD secara keseluruhan.

5) Interpretation (Evaluation)

Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan

dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan.

Tahap ini merupakan bagian dari proses KDD yang disebut interpretation.
12

Tahap ini mencakup pemeriksaan apakah pola atau informasi yang

ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

Gambar 2.1 Proses KDD (Hermawati, 2015)

Menurut Hermawati dalam jurnal (Nurdin, Dewi Astika, 2015) tahapan

proses dalam penggunaan data mining yang merupakan proses Knowledge

Discovery in Database (KDD) dapat diuraikan sebagai berikut :

1) Memahami domain aplikasi untuk mengetahui dan mengali pengetahuan

awal serta apa sasaran pengguna.

2) Membuat target data-set yang meliputi pemilihan data dan fokus pada sub-

set data.

3) Pembersihan, transformasi dan meliputi eliminasi derau, outliers, missing

value, serta pemilihan fitur dan reduksi dimensi.

4) Penggunaan algoritma data mining yang terdiri dari asosiasi, sekuensial,

klasifikasi, klasterisasi, dan lain-lain.


13

5) Interpretasi, evaluasi, dan visualisasi pola untuk melihat apakah ada

sesuatu yang baru dan menarik yang dapat dilakukan iterasi jika

diperlukan.

2.1.2 Pengelompokkan Data Mining

Data mining dikelompokkan jadi beberapa bagian, berikut penjelasan

menurut para ahli :

Menurut Yuli Mardi (2014, 215), “Data mining dibagi menjdi beberapa

kelompok berdasrkan tugas yang dapat dilakukan”.

1) Deskripsi

Terkadang penelitian dan analis secara sederhana ingin mencoba mencari

cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam

data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat

menemukan keterangan atau fakta bahwa siapa yang tidak cukup

profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi

dari pola dan kecenderungan sering memberikan kemungkinan penjelasan

untuk suatu pola atau kecenderungan.

2) Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali variable target estimasi

lebih ke arah numerik daripada ke arah kategori. Model dibangun

menggunakan record lengkap yang menyediakan nilai dari variable target

dibuat berdasarkan nilai variable prediksi. Sebagai contoh yaitu estimasi

nilai indeks prestasi kumulatif mahasiswa program pasca sarjana dengan


14

melihat nilai indeks prestasi mahasiswa tersebut pada saat mengikuti

program sarjana.

3) Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa

dalam prediksi nilai dari hasil akan ada dimasa mendatang. Contoh

prediksi dalam bisnis dan penelitian adalah prediksi harga beras dalam tiga

bulan yang akan datang dan prediksi tingkat penganguran lima tahun akan

datang.

Beberapa metode dan teknik yang digunakan dalam klasifikasi dan

estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.

4) Klasifikasi

Dalam klasifikasi terdapat target variable kategori. Sebagai contoh,

penggolongan pendapatan dapat dipisahkan dalam tiga kategori yaitu

pendapatan tinggi, pendapatan sedang dan pendapatan rendah.

5) Pengklusteran

Pengklusteran merupakan penggelompokkan record, pengamatan, atau

memperhatikan dan membentuk kelas objek-objek yang memiliki

kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu

dengan yang lainnya dan memiliki ketidak miripan dengan record-record

dalam kluster lain.


15

Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya variable

target dalam pengklusteran. Pengklusteran tidak mencoba untuk

melakukan klasifikasi, mengestimasi, atau memprediksi nilai dari variabel

target. Akan tetapi algoritma pengklusteran mencoba untuk melakukan

pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang

memiliki kemiripan, yang mana kemiripan record dalam satu kelompok

akan bernilai maksimal, sedangkan kemiripan record dalam kelompok lain

akan bernilai minimal. Contoh pengklusteran dalam bisnis dan penelitian

adalah mendapatkan kelompok-kelompok konsumen untuk target

pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana

pemasaran yang besar.

6) Asosiasi

Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul

dalam satu waktu. Dalam dunia bisnis lebih umun disebut analisis

keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah

menemukan barang dalam supermarket yang dibeli secara bersamaan dan

barang yang tidak pernah dibeli secara bersamaan .

2.5 ALGORITMA

Kata algoritma diserap dari Bahasa Inggris algorithm. Kata algorithm sendiri

sebenarnya bukan dari kata asli Bahasa Inggris, melainkan berasal dari kata

algorism yang berarti “proses menghitung dengan angka Arab”.


16

Algoritma digunakan untuk perhitungan, penalaran otomatis, serta mengolah

data pada komputer dengan menggunakan software. Dalam algoritma terdapat

rangkaian terbatas dari beberapa intruksi untuk menghitung suatu fungsi yang jika

dieksekusi dan diproses akan menghasilkan output, lalu berhenti pada kondisi akhir

yang sudah di tentukan.

Menurut Rinaldi Munir (2011 : 4),

“Prosedur komputasi yang terdefinisi dengan baik yang menggunakan


beberapa nilai sebagai masukkan dan menghasilkan beberapa nilai yang
disebut keluaran. Jadi, algoritma adalah deretan langkah komputasi yang
mentrasformasikan masukkan menjadi keluaran”.

2.6 NAÏVE BAYES

Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan

statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Naïve Bayes

memprediksi peluang di masa depan berdasarkan pengalaman di masa

sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari Naïve

Bayes Classifier ini adalah asumsi yang sangat kuat ( naif ) akan independensi

dari masing-masing kondisi / kejadian.

Menurut Han dan Kamber (2011, p351) Proses dari The Naïve Bayesian

classifier, atau Simple Bayesian Classifier, sebagai berikut: 1. Variable D menjadi

pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple

diwakili oleh vektor atribut ndimensi, X = (x1, x2, ..., xn), ini menggambarkan

pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2, ..., An. 2.

Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan

memprediksi X yang masuk kelompok memiliki probabilitas posterior tertinggi,


17

kondisi-disebutkan pada X. Artinya, classifier naive bayesian memprediksi bahwa

X tuple milik kelas Ci jika dan hanya jika :

( | ) ( | )

Gambar 2.2 Rumus Classifier Naïve Bayes (1)

Jadi memaksimalkan P ( Ci | X ). Ci kelas yang P (Ci | X) dimaksimalkan

disebut hipotesis posteriori maksimal. Dengan teorema Bayes :

( | ) ( )
( | )
( )

Gambar 2.3 Rumus Classifier Naïve Bayes (2)

Keterangan :

P(Ci|X) = Probabilitas hipotesis Ci jika diberikan fakta atau record X (Posterior

probability)

P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar

(likelihood)

P(Ci) = Prior probability dari X (Prior Probability)

P(X) = Jumlah probability tuple yang muncul.

1. Ketika P(X) adalah konstan untuk semua kelas, hanya P (X | Ci) P(CI)

butuh dimaksimalkan. Jika probabilitas kelas sebelumnya tidak diketahui,

maka umumnya diasumsikan ke dalam kelas yang sama, yaitu, P (C1) = P

(C2) = . . . = P (Cm), maka dari itu akan memaksimalkan P (X|Ci). Jika

tidak, maka akan memaksimalkan P (X | Ci) P (Ci). Perhatikan bahwa


18

probabilitas sebelum kelas dapat diperkirakan oleh P (Ci) = | Ci, D | / | D |,

dimana | Ci, D| adalah jumlah tuple pelatihan kelas Ci di D.

2. Mengingat dataset mempunyai banyak atribut, maka akan sangat sulit

dalam mengkomputasi untuk menghitung P(X|Ci). Agar dapat mengurangi

perhitungan dalam mengevaluasi P(X|Ci), asumsi naïve independensi

kelas bersyarat dibuat. Dianggap bahwa nilai-nilai dari atribut adalah

kondisional independent satu sama lain, diberikan kelas label dari tuple

( yaitu bahwa tidak ada hubungan ketergantungan diantara atribut ) dengan

demikian :

( | ) ∐ ( | )

= ( | ) ( | ) ( | )

Gambar 2.4 : Rumus Classifier Naïve Bayes (3)

Maka dapat dengan mudah memperkirakan probabilitas P(X1 | Ci), P (x2 |

Ci), . . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa disini xk mengacu pada nilai

atribut AK untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut

kategorikal atau continuous-valued. Misalnya, untuk menghitung P(X | Ci)

mempertimbangkan hal-hal berikut :

a. Jika Ak adalah kategorikal, maka P (Xk | Ci) adlaah jumlah tuple kelas

Ci di D memiliki nilai Xk untuk atribut Ak, dibagi dengan | Ci D|,

jumlah tuple kelas CI di D.


19

b. Jika Ak continuous-valued, maka perlu melakukan sedikit lebih banyak

pekerjaan, tapi perhitugannya cukup sederhana. Sebuah atribut

continuous-valued biasanya diasumsikan memiliki distribusi Gaussian

dengan rata-rata  dan standar deviasi . Didefinisikan oleh :

( )
(  )

Gambar 2.5 : Rumus Classifier Naïve Bayes (4)

Sehingga :

( | ) ( )

Gambar 2.6 : Rumus Classifier Naïve Bayes (5)

Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean (rata-rata)

dan standar masing-masing nilai atribut k untuk tuplei pelatihan kelas Ci,

setelah itu gunakan kedua kuantitas dalam persamaan, Bersama-sama

dengan xk, untuk memperkirakan P(xk | Ci).

3. Untuk memprediksikan label kelas x, P(X|Ci)P(Ci) dievaluasi untuk setiap

kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,

jika

( | ) ( ) ( | ) ( )

Gambar 2.7 : Rumus Classifier Naïve Bayes (6)

Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X|Ci)

P(Ci) adalah maksimal.

Pengklasifikasi Bayesian memiliki tingkat kesalahan minimal

dibandingkan dengan klasifikasi lainnya. Namun, dalam prakteknya hal


20

ini tidak selalu terjadi, karena ketidak akuratan asumsi yang dibuat

untuk penggunaannya, seperti kondisi kelas independent, dan kurangnya

data probabilitas yang tersedia. Pengklasifikasi Bayesian juga berguna

dalam memberikan pembenaran teoritis untuk pengklasifikasi lain yang

tidak secara eksplisit menggunakan teorema Bayes.

2.7 GOOGLE COLAB

Menurut Imam Digmi, Google Colaboratory atau disebut juga Colab adalah

tools baru yang dikeluarkan oleh Google Internal Research yang dibuat untuk

membantu para Researcher dalam mengolah data untuk keperluan belajar

maupun bereksperimen pada pengolahan data khususnya bidang Machine

Learning, tools ini secara penggunaan mirip seperti Jupyter Notebook dan dibuat

diatas envirounment Jupyter yang tidak memerlukan pengaturan atau setup

terlebih dahulu sebelum digunakan dan berjalan sepenuhnya pada Cloud dengan

memanfaatkan media penyimpanan Google Drive.

Dilansir situs Geeksforgeeks.org, Google Colab bisa disebut sebuat

alat yang membantu penelitian apabila tidak memiliki computer yang mumpuni

untuk melakukan machine learning. Sehingga dapat menggunakan sumber daya

yang ada di google colab untuk digunakan dalam penelitiannya.

2.8 PYTHON
21

Menurut Wikipedia, Python adalah bahasa pemrograman interpretatif

multiguna dengan filosofi perancangan yang berfokus pada tingkat keterbacaan

kode. Python diklaim sebagai bahasa yang menggabungkan kapabilitas,

kemampuan, dengan sintaksis kode yang sangat jelas, dan dilengkapi dengan

fungsionalitas pustaka standar yang besar serta komprehensif. Python juga

didukung oleh komunitas yang besar.

Python mendukung multi paradigma pemrograman, utamanya; namun tidak

dibatasi; pada pemrograman berorientasi objek, pemrograman imperatif, dan

pemrograman fungsional. Salah satu fitur yang tersedia pada python adalah sebagai

bahasa pemrograman dinamis yang dilengkapi dengan manajemen memori

otomatis. Seperti halnya pada bahasa pemrograman dinamis lainnya, python

umumnya digunakan sebagai bahasa skrip meski pada praktiknya penggunaan

bahasa ini lebih luas mencakup konteks pemanfaatan yang umumnya tidak

dilakukan dengan menggunakan bahasa skrip. Python dapat digunakan untuk

berbagai keperluan pengembangan perangkat lunak dan dapat berjalan di berbagai

platform sistem operasi.

Dilansir dari Purwadika Startup School, Python merupakan bahasa pemrograman

yang populer dan banyak digunakan oleh Data Analysts, Data Scientists dan para

Software Engineers untuk menjalankan proses pembangunan sebuah aplikasi dan

untuk menggali lebih dalam machine learning. Perusahaan seperti google, spaceX

dan Instagram membutuhkannya untuk membersihkan data, membangun prediksi,

model untuk AI, web app, dan masih banyak lagi. Contoh beberapa hal yang

dibangun dari Python :


22

- Artificial Intelligence

- Aplikasi Web

- Special Effect pada Hollywood

2.9 PENELITIAN SEJENIS

Dalam penelitian jurnal Yessi Yunitasari, Aina Musdholifah, Anny Kartika

yang berjudul “Sarcasm Detection For Sentiment Analysis in Indonesian Tweets”

pada tahun 2019, penulis melakukan penelitian pada media sosial Twitter yang

merupakan salah satu media sosial terbanyak yang digunakan di Indonesia.

Dengan menggunakan metode Random Forest agar dapat mengetahuin tingkat

sentiment yang dipengaruhi oleh Tweet sarkasme dalam Bahasa Indonesia.

Dalam penelitian Jurnal Christian Sri Kusuma Aditya, Dkk yang berjudul

“Deteksi Bot Spammer pada Twitter berbasis Sentiment Analysis dan Time

Interval Entropy” pada tahun 2016, penulis melakukan penelitian dengan

menggunakan metode Metode Time Inverval Entropy yang dibantu oleh

Knowledge-based dan Machine Learning-based untuk mendapatkan atau

mengetahui tweet mana yang diberikan oleh bot, tweet konten negatif atau konten

positif. Untuk membantu penelitian dalam mendeteksi bot spammer.

Dalam penelitian jurnal Irwansyah Saputra dan Didi Rosiyadi yang berjudul

“Perbandingan Kinerja Algoritma K_Nearest Neighbor, Naïve Bayes Classifier

dan Support Vector dalam Klasifikasi Tingkat Laku Bully pada Aplikasi Whatsapp”
23

pada tahun 2019. Penulis melakukan penelitian pada aplikasi Whatsapp yang

dimana diaplikasi tersebut munculnya tindakan Cyberbullying yang dilakukan oleh

para penggunanya. Oleh karena itu pengklarifikasian teks obrolan Whatsapp

kepada dua kelas, yaitu Bully tidak bully. Algoritma klasifikasi yang digunakan

yaitu k-NN, NBC ( Naïve Bayes Classifier ) dan SVM ( Support Vector Machine ).

Hasil menunjukkan bahwa algoritma SVM lebih baik dalam menyelesaikan kasus

ini dengan akurasi sebesari 81,58%.

Dalam penelitian jurnal Edwin Lunando dan Ayu Purwarianti dalam judul

“Indonesian Social Media Sentiment Analysis with Sarcasm Detection” pada tahun

2013, penulis menggunakan beberapa metode seperti Naïve Bayes, Maximum

Entropy dan Support Vector Machine. Lalu dengan menggunakan

Unigram,Negativity dan Interjection. Pada saat pengolahan data yang dibantu oleh

SentiWordNet membantu ketiga algoritma tersebut meningkat menjadi 6% dari

prediksi sebelumnya.

Dari beberapa penelitian diatas dapat disimpulkan bahwa rata-rata penelitian

menggunakan metode Naïve Bayes dan Support Vector Machine. Dikarenakan

dengan menggunakan metode tersebut, tingkat akurasi yang terbilang cukup tinggi.

Support Vector Machine merupakan tingkat akurasi yang lebih tinggi

dibandingkan oleh Naïve bayes. Walaupun dengan tingkat ukuran data yang

berbeda – beda. Namun proses yang dapat meningkatkan tingkat akurasi dapat

digunakan pada saat preprocessing data sehingga meningkatkan tingkat akurasi

data. Namun untuk penggunaannya apabila dengan data yang sedikit disarankan

menggunakan Naïve Bayes.

Anda mungkin juga menyukai