LANDASAN TEORI
2.1 SARKASME
Majas ini dapat melukai perasaan seseorang. Dalam Bahasa Indonesia, arti
penyindiran yang menggunakan kata terbalik terbalik dari maksudnya, seperti ironi.
salah satu masalah berat dalam analisis sentiment, yang dimana didalam sosial
bentuk sarkas, ada beberapa cara yang digunakan untuk dapat mendeteksi
sarkasme. Pertama dengan memilah menjadi kalimat positif dan negatif setelah itu,
mengambil kalimat positif yang berhasil difilter untuk dapat dibedakan mana yang
sarkas mana yang tidak. Penggunaan Teknik yang khusus dalam mendapatkan
beberapa sarcasm, seperti dalam beberapa topik makanan, kesehatan dan gaya
hidup. Dari sekitar 100 tweet yang diambil, hanya 2 tweet yang dideteksi sebagai
sarkas. Hal ini membuat penulis menjadi lebih mencari topik lain dalam
mendapatkan sampel yang dapat digunakan untuk menjadi bahan training untuk
6
7
data mining. Metode yang digunakan ada Naïve Bayes, Maximum Entropy dan
Support Vector Machine. Dari proses yang telah mereka pakai dan mereka
2.3 BERITA
peristiwa terbaru dan penting yang harus disampaikan kepada masyarakat secara
cepat. Dalam penyajian sebuah berita dapat menggunakan media seperti surat
kabar, televisi, radio dan media online. Berita juga mempunyai arti lain yaitu
Selain itu berita juga dapat dikatakan sebagai sebuah laporan keterangan dari
sebuah peristiwa. Berita merupakan sebuah fakta yang harus segera disampaikan
kepada masyarakat. Akan tetapi semua fakta tersebut harus disampaikan kepada
1. Straight News
Jenis berita ini merupakan berita langsung, isi beritanya ditulis secara
singkat, lugas dan apa adanya. Berita yang berjenis straight news dapat
ditemui pada halaman pertama surat kabar. Jenis berita Straight News
terbagi menjadi 2 yaitu : Hard News dan Soft News. Hard News adalah
berita yang isinya memiliki nilai lebih, beritanya berkualitas dan terbaru.
8
2. Depth News
Jenis berita ini mempunyai isi yang bersifat mendalam, Dept News
peristiwa. Jenis berita ini memiliki isi yang lebih menonjolkan tentang
terjadi “. Tujuan adri berita jenis ini adalah untuk mengangkat suatu
3. Investigation News
4. Interpretative News
5. Opinion News
Berita jenis ini yang berisi opini tentang suatu kejadian yang sedang
terjadi. Biasanya isi dari jenis berita ini adalah pendapat dari para
pengamat atau para ahli dari masalah, isu atau dari kejadian yang sedang
terjadi. Selain itu pendapat juga dapat diperoleh dari masyarakat, pelajar
ataupun mahasiswa.
pengambilan pola pada data yang akan diproses lalu output tersebut berupa
informasi yang sangat penting dan juga merupakan suatu alat yang
memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah
yang besar.
Menurut Fajar Astuti Hermawati (2013 : 3), “Data mining adalah proses
otomatis”.
Menurut Lailil Muflikhah dan Dian Eka Ratnawati (2018 : 4), “Data mining
dengan menggunakan peranti otomatis atau semi otomatis dari sejumlah besar
“Sebuah analisa dari observasi data dalam jumlah besar untuk menemukan
hubungan yang tidak diketahui sebelumnya dan metode baru untuk
10
meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data.
Data-data yang ada, tidak dapat langsung diolah dengan memakai sistem
data mining”.
Dapat disimpulkan bahwa data mining adalah suatu data untuk dianalisis
menemukan pola yang menarik yang sebelumnya tidak diketahui dan agar mudah
di pahami.
1) Data Selection
dimulai. Data hasil seleksi yang akan digunakan dalam suatu berkas
“memperkaya” data yang sudah ada dengan data atau informasi lain yang
3) Transformation
Coding adalah transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses data mining. Proses coding dalam Knowledge
pada jenis atau pola informasi yang akan dicari dalam basis data.
4) Data Mining
Data Mining adalah proses mencari pola atau informasi dalam terpilih
metode atau algoritma yang tepat sangat bergantung pada tujuan dan
5) Interpretation (Evaluation)
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan
Tahap ini merupakan bagian dari proses KDD yang disebut interpretation.
12
2) Membuat target data-set yang meliputi pemilihan data dan fokus pada sub-
set data.
sesuatu yang baru dan menarik yang dapat dilakukan iterasi jika
diperlukan.
Menurut Yuli Mardi (2014, 215), “Data mining dibagi menjdi beberapa
1) Deskripsi
2) Estimasi
program sarjana.
3) Prediksi
dalam prediksi nilai dari hasil akan ada dimasa mendatang. Contoh
prediksi dalam bisnis dan penelitian adalah prediksi harga beras dalam tiga
bulan yang akan datang dan prediksi tingkat penganguran lima tahun akan
datang.
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4) Klasifikasi
5) Pengklusteran
pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana
6) Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umun disebut analisis
2.5 ALGORITMA
Kata algoritma diserap dari Bahasa Inggris algorithm. Kata algorithm sendiri
sebenarnya bukan dari kata asli Bahasa Inggris, melainkan berasal dari kata
rangkaian terbatas dari beberapa intruksi untuk menghitung suatu fungsi yang jika
dieksekusi dan diproses akan menghasilkan output, lalu berhenti pada kondisi akhir
statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes. Naïve Bayes
sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari Naïve
Bayes Classifier ini adalah asumsi yang sangat kuat ( naif ) akan independensi
Menurut Han dan Kamber (2011, p351) Proses dari The Naïve Bayesian
pelatihan set tuple dan label yang terkait dengan kelas. Seperti biasa, setiap tuple
diwakili oleh vektor atribut ndimensi, X = (x1, x2, ..., xn), ini menggambarkan
pengukuran n dibuat pada tuple dari atribut n, masing-masing, A1, A2, ..., An. 2.
Misalkan ada kelas m, C1, C2, ..., Cm. Diberi sebuah tuple, X, classifier akan
( | ) ( | )
( | ) ( )
( | )
( )
Keterangan :
probability)
P(X|Ci) = mencari nilai parameter yang memberi kemungkinan yang paling besar
(likelihood)
1. Ketika P(X) adalah konstan untuk semua kelas, hanya P (X | Ci) P(CI)
kondisional independent satu sama lain, diberikan kelas label dari tuple
demikian :
( | ) ∐ ( | )
= ( | ) ( | ) ( | )
Ci), . . . , P (xn | Ci) dari pelatihan tuple. Ingat bahwa disini xk mengacu pada nilai
atribut AK untuk tuple X. Untuk setiap atribut, dilihat dari apakah atribut tersebut
a. Jika Ak adalah kategorikal, maka P (Xk | Ci) adlaah jumlah tuple kelas
( )
( )
√
Sehingga :
( | ) ( )
Setelah itu hitung Ci dan Ci, yang merupakan deviasi mean (rata-rata)
dan standar masing-masing nilai atribut k untuk tuplei pelatihan kelas Ci,
kelas Ci. Classifier memprediksi kelas label dari tuple x adalah kelas Ci,
jika
( | ) ( ) ( | ) ( )
Dengan kata lain, label kelas diprediksi adalah Ci yang mana P (X|Ci)
ini tidak selalu terjadi, karena ketidak akuratan asumsi yang dibuat
Menurut Imam Digmi, Google Colaboratory atau disebut juga Colab adalah
tools baru yang dikeluarkan oleh Google Internal Research yang dibuat untuk
Learning, tools ini secara penggunaan mirip seperti Jupyter Notebook dan dibuat
terlebih dahulu sebelum digunakan dan berjalan sepenuhnya pada Cloud dengan
alat yang membantu penelitian apabila tidak memiliki computer yang mumpuni
2.8 PYTHON
21
kemampuan, dengan sintaksis kode yang sangat jelas, dan dilengkapi dengan
pemrograman fungsional. Salah satu fitur yang tersedia pada python adalah sebagai
bahasa ini lebih luas mencakup konteks pemanfaatan yang umumnya tidak
yang populer dan banyak digunakan oleh Data Analysts, Data Scientists dan para
untuk menggali lebih dalam machine learning. Perusahaan seperti google, spaceX
model untuk AI, web app, dan masih banyak lagi. Contoh beberapa hal yang
- Artificial Intelligence
- Aplikasi Web
pada tahun 2019, penulis melakukan penelitian pada media sosial Twitter yang
Dalam penelitian Jurnal Christian Sri Kusuma Aditya, Dkk yang berjudul
“Deteksi Bot Spammer pada Twitter berbasis Sentiment Analysis dan Time
mengetahui tweet mana yang diberikan oleh bot, tweet konten negatif atau konten
Dalam penelitian jurnal Irwansyah Saputra dan Didi Rosiyadi yang berjudul
dan Support Vector dalam Klasifikasi Tingkat Laku Bully pada Aplikasi Whatsapp”
23
pada tahun 2019. Penulis melakukan penelitian pada aplikasi Whatsapp yang
kepada dua kelas, yaitu Bully tidak bully. Algoritma klasifikasi yang digunakan
yaitu k-NN, NBC ( Naïve Bayes Classifier ) dan SVM ( Support Vector Machine ).
Hasil menunjukkan bahwa algoritma SVM lebih baik dalam menyelesaikan kasus
Dalam penelitian jurnal Edwin Lunando dan Ayu Purwarianti dalam judul
“Indonesian Social Media Sentiment Analysis with Sarcasm Detection” pada tahun
Unigram,Negativity dan Interjection. Pada saat pengolahan data yang dibantu oleh
prediksi sebelumnya.
dengan menggunakan metode tersebut, tingkat akurasi yang terbilang cukup tinggi.
dibandingkan oleh Naïve bayes. Walaupun dengan tingkat ukuran data yang
berbeda – beda. Namun proses yang dapat meningkatkan tingkat akurasi dapat
data. Namun untuk penggunaannya apabila dengan data yang sedikit disarankan