Anda di halaman 1dari 45

ANALISIS EMOSI PADA TEKS BERITA BERBAHASA INDONESIA

MENGGUNAKAN SUPPORT VECTOR MACHINE


DAN CONFIDENT LEARNING

SKRIPSI

Nada Nur Kamilia

11180940000084

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UIN SYARIF HIDAYATULLAH JAKARTA

2023
PERSEMBAHAN

Skripsi ini dipersembahkan untuk diri sendiri juga untuk kedua orang tua
beserta kakak-kakak saya yang telah memberikan doa sepenuh hati serta
dukungan yang begitu luar biasa sampai sekarang.

Skripsi ini juga dipersembahkan untuk yang terkasih, teman-teman.

MOTTO

“be the moon


and inspire people
even when you’re far from full”

ii
ABSTRAK

Nada Nur Kamilia, Analisis Emosi Pada Teks Berita Berbahasa Indonesia
Menggunakan Support Vector Machine Dan Confident Learning. Di bawah
bimbingan Dr. Taufik Edy Sutanto, M.Sc.Tech.,Ph.D dan Ary Santoso,
M.Si.
Media online sebagai salah satu wadah untuk melakukan komunikasi berbentuk
teks, masih sangat susah untuk mengetahui kondisi emosi yang ingin
disampaikan karena interaksi dilakukan secara tidak langsung, yang mana tidak
ada nada dan intonasi dalam media teks. Sehingga, perlu adanya mengolah dan
menganalisa data berita online dengan cara dikelompokkan atau diklasifikasi
berdasarkan emosi dalam setiap kalimat berita online. Confident Learning yang
berfokus pada kualitas label dengan menunjukkan joint probability sebagai
rekomendasi untuk mencapai hasil paling optimal. Dalam penelitian ini
menggunakan data website yang diambil dari website berita online kota Palu,
Sulawesi Tengah. Hasil penelitian ini menunjukkan bahwa akurasi sebelum
menggunakan CL dengan metode klasifikasi SVM sebesar 54%. Setelah CL
dilakukan, nilai akurasi SVM sebesar 77%. Sehingga, tingkat akurasi SVM
meningkat sebanyak 23% setelah CL dilakukan.
Kata Kunci : Confident Learning, Emosi, Berita Online

iii
ABSTRACT

Nada Nur Kamilia, Analysis of Emotions on News Text in Bahasa Using


Support Vector Machine and Confident Learning. Under the guidance of Dr.
Taufik Edy Sutanto, M.Sc.Tech.,Ph.D and Ary Santoso, M.Si.
Online media as one of containers for textual communication, it is still very
difficult to know the emotional that wants to be conveyed because the
interaction indirectly, where there is no tone and intonation in text media. So, it
is necessary to process and analyze online news data by classifying based on
emotions in each online news sentence. Confident Learning (CL) which focuses
on the equality of labels by showing joint probability as a recommendation to
achieve the most optimal results. In this study using website data that taken on
the online news website of Palu, Central Sulawesi. The results of this study
indicate that the accuracy before using the CL with the SVM classification
method of 54%. After CL is done, the SVM accuracy increased by 77%. Thus,
the level of SVM accuracy increased by 23% after CL was done.
Keyword : Confident Learning, Emotion, News Text Online

iv
KATA PENGANTAR

Assalamu’alaikum Wr. Wb

Alhamdulillah, puji dan syukur peneliti panjatkan kepada Allah SWT karena
berkat rahmat dan hidayah-Nya penulis dapat menyelesaikan penelitian ini. Shalawat
serta salam peneliti curahkan kepada junjungan nabi besar Nabi Muhammad SAW
beserta keluarganya, para sahabat dan para pengikutnya.

Peneliti menyelesaikan penelitian ini untuk memperoleh gelar sarjana


Matematika. Dalam penyusunan, peneliti tidak luput dari kesulitan dan hambatan.
Namun, terdapat pihak – pihak yang memberikan doa, bantuan, motivasi dan selalu
menyemangati sehingga penelitian ini dapat terselesaikan. Oleh karena itu peneliti
mengucapkan terima kasih kepada:

1. Bapak Husni Teja Sukmana, S.T., M.Sc, Ph.D, selaku Dekan Fakultas Sains dan
Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
2. Bapak Dr. Taufik Edy Sutanto, M.Sc.Tech, selaku Ketua Program Studi
Matematika Fakultas Sainsdan Teknologi UIN Syarif Hidayatullah Jakarta dan Ibu
Dr. Gustina Elfiyanti, M.Si, selaku Sekretaris program studi Matematika Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta.
3. Bapak Dr. Taufik Edy Sutanto, M.Sc.Tech selaku pembimbing I dan Bapak Ary
Santoso, M.Si selaku pembimbing II atas ilmu dan arahannya selama penyusunan
skripsi ini hingga akhirnya dapat terselesaikan.
4. Bapak Muhaza Liebenlito, M.Si selaku penguji I dan Ibu Dr. Gustina Elfiyanti,
M.Si selaku penguji II, terima kasih atas kritik dan sarannya kepada penulis, serta
bersedia meluangkan waktunya untuk menguji seminar hasil dan sidang skripsi.
5. Ummi, Abi, Mas Iqbal, Mbak Zulfa, Kak Iqbal dan Nuryn yang tiada hentinya
memberikan doa, motivasi dan dukungan hingga penulis mampu menyelesaikan
skripsi ini.

v
6. Teman – teman RPI (Religious & Political Intelligences) yaitu Bima, Shinta, Malina,
Dewi, Aul, Renaldy, dan Zakia yang selalu menjadi tempat untuk berkeluh kesah juga
memberikan semangat kepada penulis saat menemui kesulitan.
7. Teman SD ku yaitu Wardah yang selalu memberikan semangat serta dukungan untuk
penulis dalam menyelesaikan skripsi.
8. Teman – teman Matematika 2018 UIN Syarif Hidayatullah Jakarta yang tidak dapat
disebutkan satu – persatu.
9. Seluruh pihak yang secara langsung maupun tidak langsung telah membantu,
mendukung, serta mendoakan penulis dalam penyelesaian skripsi ini. Meski tidak
tertulis namun tidak mengurangi rasa cinta dan terima kasih dari penulis.

Penulis menyadari bahwa masih banyak kesalahan dan kekurangan dalam penyusunan
skripsi ini. Maka dari itu penulis mengharapkan kritik dan saran yang membangun supaya
menjadi bahan perbaikan bagi peneliti selanjutnya. Penulis juga berharap penelitian ini
bermanfaat bagi siapapun yang membacanya.
Wassalamu’alaikum Wr. Wb.

Jakarta, 2 Juni 2023

Penulis

vi
DAFTAR ISI

PERSEMBAHAN ......................................................................................................................... ii
MOTTO ......................................................................................................................................... ii
ABSTRAK .................................................................................................................................... iii
ABSTRACT ................................................................................................................................... iv
KATA PENGANTAR ................................................................................................................... v
DAFTAR ISI................................................................................................................................. vi
BAB I ............................................................................................................................................. 1
PENDAHULUAN ........................................................................................................................ 1
1.1 Latar Belakang .............................................................................................................. 1
1.2 Rumusan Masalah ........................................................................................................ 4
1.3 Batasan Masalah ........................................................................................................... 4
1.4 Tujuan Penelitian .......................................................................................................... 4
1.5 Manfaat Penelitian ........................................................................................................ 4
BAB II ........................................................................................................................................... 5
LANDASAN TEORI.................................................................................................................... 5
2.1 Website Berita Online ................................................................................................... 5
2.2 Prepocessing................................................................................................................... 5
BAB III.......................................................................................................................................... 7
METODOLOGI PENELITIAN ................................................................................................. 7
3.1 Sumber Data .................................................................................................................. 7
3.2 Support Vector Machine ................................................................................................ 7
3.3 Lexicon-Based Emotion Detection ............................................................................. 10
3.4 Confident Learning ...................................................................................................... 11
3.5 Alur Penelitian ............................................................................................................. 14
BAB IV ........................................................................................................................................ 15
HASIL DAN PEMBAHASAN .................................................................................................. 15
4.1 Prepocessing Data ........................................................................................................ 15
4.2 Tokenisasi ..................................................................................................................... 15
4.3 Lexicon-Based Emotion Detection .............................................................................. 16
4.4 Pemodelan Optimal SVM dan Lexicon ..................................................................... 20
4.5 Pemodelan CL dengan menggunakan CleanLab ..................................................... 22
4.6 Evaluasi Optimal SVM + CL + Combined Class ..................................................... 23

vii
BAB V ......................................................................................................................................... 25
KESIMPULAN DAN SARAN .................................................................................................. 25
5.1 Kesimpulan .................................................................................................................. 25
5.2 Saran ............................................................................................................................. 25
DAFTAR PUSTAKA ................................................................................................................. 26
LAMPIRAN................................................................................................................................ 27

viii
DAFTAR TABEL

Tabel 4.1 cleaned_text pada Hasil Prepocessing ......................................................................... 15


Tabel 4.2 Tokenisasi .................................................................................................................... 15
Tabel 4.3 Hasil Deteksi Emosi terhadap Lexicon ........................................................................ 16
Tabel 4.4 Penambahan Kolom “RealEmosi” ............................................................................... 17
Tabel 4.5 Hasil Deteksi Emosi secara Manual ............................................................................. 18
Tabel 4.6 Hasil Optimal SVM...................................................................................................... 21
Tabel 4.7 Contoh Kalimat Terlabel Emosi Marah ....................................................................... 21
Tabel 4.8 Hasil Pemodelan CL via Cleanlab ............................................................................... 22
Tabel 4.9 Pelabelan Noise via Cleanlab ....................................................................................... 23
Tabel 4.10 Hasil Optimal SVM + CL + Combined Class............................................................ 24

ix
DAFTAR GAMBAR

Gambar 1.1 Roda Emosi Plutchik ................................................................................................. 3


Gambar 3.1 Contoh Hyperplane Dua Dimensi ............................................................................. 8
Gambar 3.2 Pemodelan SVM ........................................................................................................ 9
Gambar 3.3 Contoh Proses dari CL............................................................................................. 12
Gambar 3.4 Contoh Perhitungan CL ........................................................................................... 13
Gambar 3.5 Diagram Alur Penelitian .......................................................................................... 14
Gambar 4.1 Emosi terhadap Lexicon .......................................................................................... 17
Gambar 4.2 Emosi Terlabel Manual ........................................................................................... 19

x
BAB I
PENDAHULUAN

1.1 Latar Belakang

Komunikasi teks adalah salah satu yang digunakan untuk


menyampaikan informasi dan juga berisi informasi tentang sikap dan keadaan
emosional seseorang. Emosi bersifat umum sangat penting di dalam semua
aspek kehidupan, dimana emosi merupakan salah satu faktor yang akan
mempengaruhi keputusan hubungan manusia dengan lingkungan sosial
dengan membentuk perilaku keseharian seseorang dalam berkomunikasi.
Dalam pandangan Islam, emosi merupakan anugerah pemberian dari Allah
SWT., yang diberikan untuk semua manusia sebagai kesempurnaan atas
makhluk ciptaan-Nya (Sumarno, 2017). Karenanya Al-Qur’an sejak dini,
bahkan lebih dini daripada ilmu kedokteran dan ilmu jiwa modern, telah
memberi perhatian dalam mengarahkan manusia untuk menguasai dan
mengendalikan emosi-emosi mereka, karena pengendalian ini banyak
manfaatnya bagi kesehatan (Najati, 2000).
Teknologi perangkat yang digunakan untuk berkomunikasi sangat
berkembang cepat, mulai dari telepon menggunakan jaringan internet, text
messaging dan video call yang kesemuanya dilakukan secara langsung antar
pengguna. Dalam Al-Qur’an terdapat beberapa ayat yang mengisyaratkan
bahwa Islam mendorong pengembangan ilmu pengetahuan dan juga teknologi.
Allah SWT berfirman :

‫ﺴ ِﻂ ۖ َﻭﺃ َ ْﻧ َﺰ ْﻟﻨَﺎ ﺍ ْﻟ َﺤﺪِﻳ َﺪ ﻓِﻴ ِﻪ‬


ْ ‫ﺎﺱ ِﺑﺎ ْﻟ ِﻘ‬
ُ ‫ﻴﺰﺍﻥَ ِﻟ َﻴﻘُﻮ َﻡ ﺍﻟﻨﱠ‬ َ َ ‫ﺕ َﻭﺃَ ْﻧ َﺰ ْﻟﻨَﺎ َﻣ َﻌ ُﻬ ُﻢ ﺍ ْﻟ ِﻜﺘ‬
َ ‫ﺎﺏ َﻭﺍ ْﻟ ِﻤ‬ ِ ‫ﺳﻠَﻨَﺎ ِﺑﺎ ْﻟ َﺒ ِﻴّﻨَﺎ‬ َ ‫ﻟَﻘَ ْﺪ ﺃ َ ْﺭ‬
ُ ‫ﺳ ْﻠﻨَﺎ ُﺭ‬
ٌ ‫ﻱ ﻋ َِﺰ‬
‫ﻳﺰ‬ ‫ﺐ ۚ ِﺇﻥﱠ ﱠ َ ﻗَ ِﻮ ﱞ‬
ِ ‫ﺳﻠَﻪُ ِﺑﺎ ْﻟﻐَ ْﻴ‬ ُ ‫ﺎﺱ َﻭ ِﻟ َﻴ ْﻌﻠَ َﻢ ﱠ ُ َﻣ ْﻦ َﻳ ْﻨ‬
ُ ‫ﺼ ُﺮ ُﻩ َﻭ ُﺭ‬ ِ ‫ﺷﺪِﻳ ٌﺪ َﻭ َﻣﻨَﺎ ِﻓ ُﻊ ِﻟﻠﻨﱠ‬ َ ‫ﺱ‬ ٌ ْ ‫َﺑﺄ‬
Artinya :
“Sesungguhnya Kami telah mengutus rasul-rasul Kami dengan membawa
bukti-bukti yang nyata dan telah Kami turunkan Bersama mereka Al Kitab dan
neraca (keadilan) supaya manusia dapat melaksanakan keadilan. Dan kami

1
ciptakan besi yang padanya terdapat kekuatan yang hebat dan bberbagai
manfaat bagi manusia, (supaya mereka mempergunakan besi itu) dan supaya
Allah mengetahui siapa yang menolong (agama)Nya dan rasul-rasul-Nya
padahal Allah tidak dilihatnya. Sesungguhnya Allah Maha Kuat lagi Maha
Perkasa.” (Q.S. Al-Hadid: 25).
Saat ini, komunikasi secara tidak langsung juga dapat dilakukan
seperti surat kabar dalam bentuk digital yaitu berita online. Arus informasi
tidak lagi dikuasai oleh televisi, radio, koran, dan majalah. Masyarakat
Indonesia kini mulai beralih dari konsumsi berita dalam bentuk surat kabar ke-
koran digital atau situs berita online. Seiring dengan meningkatnya kemudahan
akses internet, informasi berkembang dan menyebar dengan sangat cepat.
Kemajuan di bidang teknologi informasi dan telekomunikasi berdampak pada
munculnya berbagai portal berita online.
Media online sebagai salah satu wadah untuk melakukan
komunikasi teks, masih sangat susah untuk mengetahui kondisi emosi yang
ingin disampaikan karena interaksi di media dilakukan secara tidak langsung,
yang mana tidak ada nada dan intonasi dalam media teks. Sehingga, perlu
melakukan pengolahan dan analisis data berita online dengan cara
mengelompokkan atau klasifikasi berdasarkan emosi dalam setiap kalimat
berita online. Oleh karena itu kategori yang digunakan untuk pengelompokan
emosi dari teks berita online adalah kategori bahagia, sedih, marah, takut,
terkejut, muak, antisipatif, dan percaya. Delapan kategori tersebut merupakan
emosi dasar Plutchik yang masing-masing dapat dibagi menjadi tiga bagian
berdasarkan intensitas emosinya yang terlihat pada Gambar 1.1.

2
Gambar 1.1 Roda Emosi Plutchik
Adapun penelitian tentang emosi dan sentiment yang telah
dilakukan sebelumnya yaitu deteksi emosi terhadap isi blog yang diperoleh
dari lexicon emosi dan mampu meningkatkan nilai Accuracy nya [1], analisis
pengaruh frasa pada deteksi emosi dari teks menggunakan Vector Space Model
[2], dan analisis emosi media sosial twitter pada masa pemerintahan presiden
Susilo Bambang Yudhoyono dan Joko Widodo [3]. Serta acuan dalam
penelitian ini adalah mengestimasi ketidakpastian dalam sekumpulan label
data dengan Confident Learning (CL) menggunakan Cleanlab (data-centric
AI) dalam jurnal Cutris G. Nothcutt, dkk yang berjudul “Confident Learning :
Estimating Uncertainty in Dataset Labels”.
Berdasarkan uraian tersebut, maka penelitian yang dilakukan kali ini
menggunakan Support Vector Machine (SVM), Lexicon, dan Confident
Learning (CL) yang nantinya akan dikombinasikan sehingga memperoleh
hasil yang optimal.

3
1.2 Rumusan Masalah
Rumusan masalah berdasarkan latar belakang tersebut meliputi :
1. Seberapa optimal analisis emosi dengan menggunakan metode Lexicon
dalam teks berita berbahasa Indonesia?
2. Seberapa optimal analisis emosi dengan menggunakan metode SVM
dan CL dalam teks berita berbahasa Indonesia?

1.3 Batasan Masalah

Batasan masalah yang ditentukan untuk menghindari perluasan


pembahasan dalam penelitian ini adalah sebagai berikut :
1. Data diambil dari website berita online Palu Pos mengenai ideologi,
politik, ekonomi, sosial dan budaya, pertahanan, dan keamanan di
Indonesia.
2. Data yang diolah berupa data teks.
3. Metode yang digunakan untuk melakukan analisis emosi pada teks
berita berbahasa Indonesia adalah Lexicon, SVM, dan CL.

1.4 Tujuan Penelitian

Tujuan penelitian ini adalah :


1. Mengetahui seberapa optimal analisis emosi dengan menggunakan
metode Lexicon dalam teks berita berbahasa Indonesia.
2. Mengetahui seberapa optimal analisis emosi dengan menggunakan
metode SVM dan CL dalam teks berita berbahasa Indonesia.

1.5 Manfaat Penelitian

Melalui penelitian ini diharapkan dapat memudahkan dan menjadi


acuan untuk penelitian atau pengembangan dalam menganalisis emosi
berbentuk teks atau kalimat.

4
BAB II
LANDASAN TEORI

2.1 Website Berita Online

Website berita online merupakan salah satu media penting untuk


memperluas penyampaian informasi melalui dunia maya. Banyak masyarakat
dipermudah mencari berita-berita terbaru dengan memanfaatkan website berita
online. Arus informasi tidak lagi dikuasai oleh televisi, radio, koran, dan
majalah. Masyarakat Indonesia kini mulai beralih dari konsumsi berita dalam
bentuk surat kabar ke koran digital atau situs berita online. Seiring dengan
meningkatnya kemudahan akses internet, informasi berkembang dan
menyebar dengan sangat cepat. Kemajuan di bidang teknologi informasi dan
telekomunikasi berdampak pada munculnya berbagai portal berita online.

2.2 Prepocessing

Data berita online dari website Palu Pos, umumnya menggunakan


kata yang tidak berstruktur seperti simbol, angka, dan singkatan sehingga perlu
dilakukan prepocessing. Berikut adalah prepocessing yang dilakukan pada
data untuk penelitian ini:

1) Tokenisasi
Pada proses tokenisasi ini, tokenizer melakukan tugasnya untuk
membagi sebuah kalimat menjadi beberapa bagian seperti kata-kata,
frasa atau elemen bermakna yang lainnya [4]. Dalam penelitian ini,
dilakukan tokenisasi kalimat yang mana dari suatu paragraf dibagi
menjadi beberapa kalimat berdasarkan tanda titik (.).
2) Lower Case
Pada proses lower case, dilakukan untuk mengubah semua
huruf besar atau huruf kapital yang ada di dalam teks menjadi huruf
kecil. Misalnya terdapat kata “Sulawesi Tengah” diubah menjadi
“sulawesi tengah”.

5
3) Slang Words
Slang Words merupakan kata dan atau kata yang tidak formal,
bahasa gaul yang biasanya tidak sepenuhnya dipahami oleh orang-
orang di luar kelompok sosial tertentu, dan juga singkatan dari suatu
kata.
4) Menghapus URL
Proses penghapusan URL ini dilakukan untuk
membersihkan data dengan upaya memudahkan untuk mengolah dan
menganalisa data di tahap selanjutnya.

6
BAB III
METODOLOGI PENELITIAN

Pada bab ini akan dibahas mengenai metodologi yang digunakan pada
penelitian ini yang mencakup sumber data dan alur tahapan pengerjaan
penelitian.

3.1 Sumber Data

Data yang digunakan pada penelitian ini merupakan data sekunder


berupa data website yang diambil pada website berita kota Palu, Sulawesi
Tengah. Kemudian data yang sudah diambil dengan lengkap tersebut disimpan
dalam bentuk halaman web atau Hyper Text Markup Language (HTML). Data
dalam bentuk HTML kemudian diekstraksi menggunakan teknik Scrapping
agar dapat dianalisa lebih lanjut dan dapat dijadikan sebuah informasi sebagai
bahan penelitian. Data hasil Scrapping disimpan dalam bentuk Comma
Separated Values (CSV).
Data yang telah diambil kemudian akan melalui tahap prepocessing
untuk membersihkan kata yang mengandung noise (singkatan bentuk tidak
beraturan) dan karakter yang sulit terbaca oleh komputer agar mudah diolah.
Pada penelitian ini menggunakan proses prepocessing seperti Tokenization
melakukan isolasi atau pemecahan kata atau kalimat dari karakter asli,
melakukan penghapusan pada simbol kecuali “.” (titik) dan “,” (koma),
penjabaran singkatan memperbaiki kesalahan tipografi (typo), huruf yang tidak
beraturan, serta menghapus Uniform Resource Locator (URL).

3.2 Support Vector Machine

Metode klasifikasi yang digunakan pada penelitian ini adalah SVM.


Konsep dasar dari metode yang diperkenalkan oleh Vladimir Vapnik, Boser
dan Guyon pada tahun 1992 ini adalah mentransformasi data ke ruang yang
berdimensi lebih tinggi dan menemukan hyperplane terbaik [5]. Hyperplane
adalah bidang datar penentu yang memisahkan dua buah kelas di dimensi n.

7
Untuk menemukan hyperplane terbaik adalah dengan cara mengukur margin
hyperplane tersebut. Margin adalah jarak antara hyperplane dengan pattern
terdekat dari masing-masing kelas. Pattern yang paling dekat dengan
hyperplane disebut support vector [6].
Misalkan data latih dinyatakan sebagai (𝒙𝒊, 𝑦𝑖) dimana 𝑖 = 1,2, … ,
𝑛. 𝒙𝒊 = [𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑗] adalah vektor baris dari fitur ke- 𝑖 di ruang dimensi
ke- 𝑗 dan 𝑦𝑖 adalah label dari 𝒙𝒊 yang didefinisikan sebagai 𝑦𝑖 ∈ {+1, −1}.
Diasumsikan kedua kelas -1 dan +1 dapat dipisah secara linear oleh
hyperplane. Pada gambar 3.1 hyperplane ditunjukkan dengan garis lurus
berwarna merah. Data yang berada di atas hyperplane adalah kelas +1 dan data
yang berada di bawah hyperplane adalah kelas -1.

Gambar 3.1 Contoh Hyperplane Dua Dimensi.

Persamaan hyperplane didefinisikan sebagai berikut :


𝑓 𝑥 𝒘∙𝒙 𝑏, 3.1
dengan :
𝒘 parameter bobot,
𝒙 vektor input,
𝑏 bias.
Vektor 𝒘 memiliki arah tegak lurus dengan hyperplane. Jika nilai 𝑏
berubah maka hyperplane akan berubah juga. Hyperplane terbaik adalah
hyperplane yang terletak di tengah-tengah antara dua set obyek dari dua kelas.

8
Untuk itu, perlu menemukan hyperplane terbaik dengan mendapatkan nilai
margin terbesar. Margin terbesar dapat ditemukan dengan memaksimalkan
nilai jarak antara hyperplane dan titik terdekatnya. Pattern yang termasuk kelas
-1 adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 𝑏 1 dan pattern
yang termasuk kelas +1 adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊
𝑏 1.

Gambar 3.2 Pemodelan SVM


Misalkan 𝑿𝟎 adalah titik pada hyperplane 𝒘 ∙ 𝒙 𝑏 1. Untuk
mencari jarak dari hyperplane 𝒘 ∙ 𝒙 𝑏 1 ke 𝒘 ∙ 𝒙 𝑏 1 kita cukup
menghitung jarak dari titik 𝑿𝟎 ke titik 𝑿𝟏 dengan 𝑿𝟏 adalah proyeksi ortogonal
dari 𝑿𝟎 pada hyperplane 𝒘 ∙ 𝒙 𝑏 1. Karena 𝒘 adalah vektor normal dari
hyperplane 𝒘 ∙ 𝒙 𝑏 0, maka
𝒘
𝑿𝟏 𝑿𝟎 𝑟
‖𝒘‖

9
Karena 𝑿𝟏 titik di hyperplane 𝒘 ∙ 𝒙 𝑏 1, maka
𝒘 ∙ 𝑿𝟏 𝑏 1
𝒘∙𝒘
𝒘 ∙ 𝑿𝟎 𝑟 𝑏 1
‖𝒘‖
‖𝒘‖
𝒘 ∙ 𝑿𝟎 𝑟 𝑏 1
‖𝒘‖
𝒘 ∙ 𝑿𝟎 𝑏 𝑟‖𝒘‖ 1… 1
Karena 𝑿𝟎 di hyperplane 𝒘 ∙ 𝒙 𝑏 1 maka 𝒘 ∙ 𝑿𝟎 𝑏 1, akibatnya
(1) dapat ditulis
1 𝑟‖𝒘‖ 1
2
𝒓
‖𝒘‖
Setiap kelas harus ditambahkan batasan pada data dari masing-
masing kelas agar tidak masuk ke dalam margin, batasannya sebagai berikut :
𝒘 ∙ 𝒙𝒊 𝑏 1, jika 𝑦 1,
𝒘 ∙ 𝒙𝒊 𝑏 1, jika 𝑦 1,
atau dapat ditulis sebagai berikut :
𝑦 𝒘 ∙ 𝒙𝒊 𝑏 1 0, ∀1 𝑖 𝑛, 𝑖 ∈ 𝑁.
Memaksimalkan nilai margin ekuivalen dengan meminimumkan
‖𝒘‖ . Maka pencarian hyperplane terbaik dengan nilai margin terbesar dapat
dirumuskan masalah optimasi pemrograman kuadratik sebagai berikut :
max margin min ‖𝒘‖ ,

dengan kendala :
𝑦 𝒘 ∙ 𝒙𝒊 𝑏 1 0, ∀1 𝑖 𝑛, 𝑖 ∈ 𝑁.

3.3 Lexicon-Based Emotion Detection


Di dalam tahap ini dilakukan proses pemberian label secara otomatis
berdasarkan kemunculan kata yang mengandung delapan kategori emosi, yaitu
bahagia, antisipatif, takut, sedih, marah, percaya, muak, dan terkejut. Apabila
kata yang tidak terkandung delapan kategori emosi dalam satu kalimat, maka
data tidak akan terlabeli emosi. Apabila terdapat kata yang mengandung

10
delapan kategori emosi, maka data akan dilabeli sesuai dengan lexicon emosi
yang telah ditentukan. Lexicon emosi dikumpulkan dengan mencari sinonim
kata dari masing-masing delapan kategori emosi Plutchik. Setelah lexicon
emosi terkumpul dilanjutkan dengan mendeteksi emosi pada kalimat dengan
bantuan bahasa pemrograman python. Lexicon emosi dapat dilihat pada
Lampiran I.

3.4 Confident Learning


Confident Learning (CL) adalah pendekatan alternatif yang
berfokus pada kualitas label dengan mengkarakterisasi dan mengidentifikasi
kesalahan label dalam kumpulan data, berdasarkan prinsip memangkas noisy
data, menghitung dengan batas awal probabilistik untuk memperkirakan noise,
dan contoh peringkat untuk melatih dengan confidence. CL dapat menemukan
kesalahan label, dan menunjukkan kinerja CL melampaui tujuh pendekatan
kompetitif untuk learning dengan noisy label pada suatu dataset.
Confident Learning (CL) memperkirakan joint distribusi antara
label yang diamati (noisy) dan label laten (benar). CL membutuhkan dua input:
(1) hasil prediksi 𝑷 , dan (2) vector noisy label 𝑦 . Dua input tersebut
dihubungkan melalui indeks k untuk semua 𝒙 ∈ 𝑿. Tak satupun label yang
benar 𝑦 ∗ tersedia, kecuali ketika 𝑦 𝑦 ∗ [8].

11
Gambar 3.3 Contoh Proses dari CL

Dari gambar di atas, kita melihat bahwa CL membutuhkan dua


input, yaitu :
 Probabilitas prediksi di luar sampel (ukuran matriks : # contoh dari
kelas #).
 Noisy labels (panjang vektor : jumlah contoh).
Untuk tujuan weak supervision, CL punya unsur tiga langkah :
1. Estimasi joint distribusi (𝑄 , ∗) dari label noise yang diberikan dan
label laten (tidak diketahui) yang labelnya tidak rusak untuk
membentuk kondisi kelas label noise bersyarat.
2. Temukan dan pangkas contoh noise dengan label yang bermasalah.
3. Train with errors dihilangkan, pembobotan ulang contoh dengan
estimasi laten sebelumnya.

12
Gambar 3.4 Kiri : Contoh Perhitungan Confident. Ini Adalah Estimasi joint
yang Tidak Dinormalisasi. Kanan : Contoh joint distribusi dari label noisy
dan laten untuk dataset dengan tiga kelas.

Pada Gambar 3.3 CL menghitung ada 100 gambar yang berlabel


anjing dengan probabilitas yang tinggi untuk menjadi kelas anjing,
ditunjukkan oleh matriks 𝐶 di sebelah kiri gambar di atas. Lalu, CL juga
menghitung ada 56 gambar berlabel rubah dengan probabilitas yang tinggi
untuk menjadi kelas anjing dan 32 gambar berlabel sapi dengan probabilitas
tinggi untuk menjadi kelas anjing.
Secara matematis, proses perhitungan ini mengambil bentuk berikut
𝐶 , ∗ 𝑖 𝑗 ≔ 𝑋 , ∗ dimana

𝑋 , ∗ ≔ 𝑥∈𝑋 : 𝑝̂ 𝑦 𝑗; 𝑥, 𝜃 𝑡, : ; , 𝑝̂ 𝑦 𝑘; 𝑥, 𝜃

Gagasan utama dari proses perhitungan di atas adalah bahwa ketika


probabilitas yang diprediksi dari sebuah contoh lebih besar daripada treshold
per kelas, maka perhitungan confident menghitung contoh seperti yang
sebenarnya untuk menjadi kelas treshold tersebut. Sedangkan treshold untuk
setiap kelas merupakan rata-rata probabilitas yang diprediksi dari contoh kelas
itu [9].

13
3.5 Alur Penelitian

Mulai

Data
Hasil Scrapping

Lower Slang URL


Tokenization Words
Case Removal

Lexicon-Based SVM CL Combined


Model Class

Evaluasi

Gambar 3.5 Diagram Alur Penelitian

14
BAB IV
HASIL DAN PEMBAHASAN

4.1 Prepocessing Data

Prepocessing dilakukan dengan menggunakan data yang diambil dari


berita online melalui website berita Palu Pos dengan format csv. Data yang
diambil merupakan data teks tidak terstruktur, sehingga ada beberapa tahapan
yang dilakukan seperti tokenisasi, lower case, slangwords, serta URL removal.
Sehingga terdapat 1.350 data berbentuk paragraf.

Tabel 4.1 Kolom cleaned_txt pada Hasil Prepocessing


cleaned_txt
adnan arsal tebar damai dari tentena untuk indonesia. ketua majelis sinode
gereja kristen sulawesi tengah gkst padat. djadaramo tasiabe menyatakan
tokoh utama dalam buku berjudul muhammad adnan arsal panglima damai
poso adalah sosok yang tepat untuk disematkan sebagai panglima damai…

4.2 Tokenisasi

Tokenisasi adalah proses untuk membagi teks yang berasal dari


kalimat atau paragraf menjadi beberapa bagian tertentu. Dalam tahapan ini
peneliti menggunakan tokenisasi kalimat yang mana teks paragraf pada tabel
4.1 menjadi sekumpulan kalimat berdasarkan tanda baca titik (.) untuk tahap
analisa teks selanjutnya.
Tabel 4.2 Tokenisasi
adnan arsal tebar damai dari tentena untuk indonesia
ketua majelis sinode gereja kristen sulawesi tengah gkst padat
djadaramo tasiabe menyatakan tokoh utama dalam buku berjudul
muhammad adnan arsal panglima damai poso adalah sosok yang tepat untuk
disematkan sebagai panglima damai
oepanglima damai poso tepat disematkan kepada haji adnan arsal ujar padat
djadaramo rabu

15
Pada Tabel 4.2 merupakan hasil tokenisasi dari Tabel 4.1 yang
sebelumnya masih dalam berbentuk paragraf. Sehingga, dari 1.350 data
berbentuk paragraf setelah dilakukannya tokenisasi menjadi sebanyak 7.319
data yang berbentuk kalimat.

4.3 Lexicon-Based Emotion Detection


Sebelum deteksi emosi dilakukan pada kalimat, perlu
mengumpulkan lexicon emosi dengan mencari sinonim kata dari masing-
masing delapan kategori emosi Plutchik. Setelah lexicon emosi terkumpul
dilanjutkan dengan mendeteksi emosi pada kalimat dengan bantuan bahasa
pemrograman python. Variabel yang digunakan untuk mendeteksi emosi
adalah variabel teks kalimat berita. Hasil deteksi yang telah dilakukan
selanjutnya akan ditambahkan menjadi variabel baru yaitu variabel
berdasarkan delapan emosi Plutchik yang berisi banyaknya kata emosi pada
setiap teks. Hasil dari deteksi emosi terhadap lexicon dapat dilihat pada Tabel
4.3.
Tabel 4.3 Hasil Deteksi Emosi terhadap Lexicon
docNo Kalimat Emosi
0 adnan arsal tebar damai dari tentena Bahagia
untuk indonesia.
0 djadaramo memberi apresiasi kepada Bahagia
haji adnan arsal yang telah bersedia
dibukukan kisahnya sebagai…
0 …poso adalah sosok yang tepat untuk Bahagia
disematkan sebagai panglima damai.
0 …bedah buku panglima damai poso Bahagia
banua mpogombo tentena kelurahan
sangele kecamatan…
0 kita tidak mengungkit duka lama tapi Sedih
sebagai pembelajaran masa yang akan
datang tandas bogiek.

16
Berikut grafik dari hasil data deteksi emosi dengan menggunakan Lexicon.

Gambar 4.1 Emosi terhadap Lexicon


Dari hasil lexicon emosi yang ditunjukkan pada Tabel 4.3 nantinya
terdeteksi dua emosi dalam satu kalimat. Kemudian, dapat dilihat dari grafik
pada Gambar 4.1 bahwasanya dari delapan emosi Plutchik terdapat emosi
tertinggi yang terdeteksi oleh lexicon yaitu emosi “sedih” dengan kisaran
diatas 2500 data. Namun, terdapat juga lima emosi yang terdeteksi oleh lexicon
dengan dibawah kisaran 500 data, yaitu “takut”, “terkejut”, “antisipatif”,
“muak”, dan “marah”.
Setelah emosi terdeteksi, selanjutnya kolom “RealEMosi”
ditambahkan sebagai variabel baru untuk pelabelan emosi secara manual.
Tabel 4.4 Penambahan Kolom “RealEmosi”
docNo Kalimat Emosi RealEmosi
0 adnan arsal tebar damai dari Bahagia
tentena untuk indonesia.
0 djadaramo memberi apresiasi Bahagia
kepada haji adnan arsal yang telah
bersedia dibukukan kisahnya
sebagai…

17
0 …panglima damai poso adalah Bahagia
sosok yang tepat untuk
disematkan sebagai panglima
damai.
0 …bedah buku panglima damai Bahagia
poso banua mpogombo tentena
kelurahan sangele kecamatan…
0 kita tidak mengungkit duka lama Sedih
tapi sebagai pembelajaran masa
yang akan datang tandas bogiek.

Setelah variabel “RealEMosi” ditambahkan, selanjutnya pelabelan


secara manual. Pelabelan secara manual ditentukan berdasarkan sudut pandang
atau perspektif dari penulis. Diperiksa terlebih dahulu apakah pelabelan emosi
dari lexicon tepat atau kurang tepat. Jikalau tepat, maka penulis akan melabeli
data berbentuk kalimat dengan emosi yang sama dengan variabel “Emosi”.
Sebaliknya, jika menurut penulis emosi yang dilabeli oleh lexicon kurang
tepat, maka pada variabel “RealEmosi” diisi dengan emosi yang lebih tepat
dan sesuai dengan kalimatnya. Jikalau terdapat dua emosi dalam satu kalimat,
maka hanya dilabeli dengan satu emosi saja. Sehingga, terdapat 1.260 data
yang telah terlabel manual.
Tabel 4.5 Hasil Deteksi Emosi secara Manual
docNo Kalimat Emosi RealEmosi
0 adnan arsal tebar damai dari Bahagia Bahagia
tentena untuk indonesia.
0 djadaramo memberi apresiasi Bahagia Bahagia
kepada haji adnan arsal yang telah
bersedia dibukukan kisahnya
sebagai…

18
0 …panglima damai poso adalah Bahagia
sosok yang tepat untuk
disematkan sebagai panglima
damai.
0 …bedah buku panglima damai Bahagia
poso banua mpogombo tentena
kelurahan sangele kecamatan…
0 kita tidak mengungkit duka lama Sedih Antisipatif
tapi sebagai pembelajaran masa
yang akan datang tandas bogiek.

Berikut grafik dari hasil deteksi emosi yang telah dilabeli secara
manual.

Gambar 4.2 Emosi Terlabel Manual

19
Pada Tabel 4.5 terdapat variabel “Emosi” yang merupakan
pelabelan emosi terhadap lexicon dan juga variabel “RealEmosi” yang
merupakan pelabelan secara manual. Di baris ketiga pada kalimat “…panglima
damai poso adalah sosok yang tepat untuk disematkan sebagai panglima
damai.” dalam variabel “RealEmosi” penulis tidak melabelinya. Karena
menurut penulis kalimat tersebut hanya sebuah pernyataan yang tidak
mengandung emosi.
Lalu, untuk baris kelima pada kalimat “kita tidak mengungkit duka
lama tapi sebagai pembelajaran masa yang akan datang tandas bogiek.”
menurut lexicon kalimat tersebut mengandung emosi sedih sedangkan penulis
melabelinya dengan emosi antisipatif. Menurut penulis, pada kalimat tersebut
lebih cocok ke dalam kategori emosi antisipatif karena kalimat tersebut
bermaksud untuk mengingatkan bahwasanya kesedihan saat ini bisa dijadikan
sebagai pengingat dan pembelajaran supaya di masa yang akan datang tidak
terulang kembali.
Lalu, dapat dilihat pada Gambar 4.2 merupakan grafik dari hasil
deteksi emosi pada data berbentuk kalimat yang dilabeli secara manual. Dari
grafik diatas, terlihat bahwa untuk emosi “antisipatif” paling banyak dideteksi
secara manual. Dan juga terdapat tiga emosi, yaitu “marah”, “muak”, dan
“terkejut” dengan deteksi emosi terendah kurang dari 50 data.

4.4 Pemodelan Optimal SVM


Setelah pelabelan manual terhadap emosi dilakukan, tahap
selanjutnya yaitu optimasi deteksi emosi dengan menggunakan klasifikasi
SVM. Terdapat 881 data sampel yang di ambil dalam optimasi dengan
menggunakan SVM. Sehingga didapatkan hasil pada Tabel 4.6.

20
Tabel 4.6 Hasil Optimal SVM
Precision Recall F1-Score Support
0 0.64 0.69 0.66 124
1 0.58 0.54 0.56 78
2 0.00 0.00 0.00 19
3 0.50 0.14 0.22 7
4 0.31 0.40 0.35 57
5 0.57 0.61 0.59 70
6 0.53 0.47 0.50 19
7 1.00 0.50 0.67 4
Accuracy 0.54 378

Dari Tabel 4.6 dapat dilihat untuk kolom paling kiri terdapat indeks
0 sampai dengan 7. Artinya, terdapat 8 kategori emosi. Untuk angka 0
didefinisikan sebagai emosi “antisipatif”, angka 1 didefinisikan sebagai emosi
“bahagia”, angka 2 didefinisikan sebagai emosi “marah”, angka 3 didefinisikan
sebagai emosi “muak”, angka 4 didefinisikan sebagai emosi “percaya”, angka
5 didefinisikan sebagai emosi “sedih”, angka 6 didefinisikan sebagai emosi
“takut”, dan angka 7 didefinisikan sebagai emosi “terkejut”.
Kemudian dapat dilihat pada indeks 2 untuk hasil Precision, Recall,
dan F1-Score bernilai 0. Lalu, penulis menelusuri lebih lanjut pada data yang
terlabel indeks 2. Setelah ditelusuri dan dicermati, terdapat beberapa kalimat
yang cukup sulit dan tricky untuk menentukan emosi pada kalimatnya. Berikut
beberapa kalimat yang dimaksud.
Tabel 4.7 Kalimat Terlabel Emosi “Marah”
kalimat
polres tolitoli melukis wajah polri yang humanis paradigma polisi kejam
kompromi pelit senyum dan beberapa celoteh miring terkikis habis oleh
polesan wajah baru korps bhayangkara kekinian.

21
Kalimat yang terdapat pada Tabel 4.7 jika dibaca lebih seksama dan
dipahami kalimat di atas tidak mengandung emosi marah melainkan sedang
menunjukkan emosi bahagia. Karena, menurut penulis yang ingin disampaikan
pada kalimat di atas adalah polri yang dulunya mempunyai paradigma negatif
di daerah tersebut sekarang memiliki polesan wajah baru yang artinya
bermakna positif terhadap polres tolitoli.
Selanjutnya, terdapat kolom precision pada Tabel 4.6 yang
menjelaskan berapa persenkah tiap kategori emosi yang benar dari keseluruhan
data yang diprediksi masuk ke kategori emosi tersebut. Lalu, untuk kolom
recall memaparkan berapa persenkah data yang diprediksi dari emosi tersebut
dibandingkan data emosi keseluruhan yang sebenarnya. Kemudian lanjut ke
kolom F1-Score, yang artinya perbandingan rata-rata presisi dan recall yang
dibobotkan. Dan untuk kolom terakhir, yaitu kolom Support yang
menunjukkan jumlah data sampel dari masing-masing kategori emosi.
Kita ambil contoh pada baris pertama yang merupakan kategori
emosi “antisipatif”. Terdapat 124 sampel data yang terlabeli emosi antisipatif.
Lalu, dari 124 data sampel didapatkan bahwa memiliki precision sebesar 64%,
recall sebesar 69% dengan F1-Score sebesar 66%. Sehingga, dari hasil optimal
SVM yang didapat memiliki jumlah akurasi sebesar 54%.

4.5 Pemodelan CL dengan menggunakan CleanLab


Setelah mendapatkan hasil optimasi terhadap SVM, selanjutnya
mencari seberapa besar optimasi analisis deteksi emosi jika CL dilakukan
terhadap data. Sehingga, hasil optimasi analisis deteksi emosi setelah CL via
Cleanlab dilakukan dapat dilihat pada Tabel 4.7.
Tabel 4.8 Hasil Pemodelan CL via Cleanlab
Precision Recall F1-Score Support
0 0.78 0.89 0.83 140
1 0.61 0.79 0.69 71
2 1.00 0.10 0.18 10
3 1.00 0.25 0.40 4

22
4 0.72 0.35 0.47 52
5 0.69 0.86 0.76 71
6 0.56 0.19 0.29 26
7 1.00 0.50 0.67 4
Accuracy 0.71 378
Dari Tabel 4.8 dapat dilihat nilai akurasi dari klasifikasi SVM
meningkat sebanyak 17% setelah dilakukannya CL pada data. Nilai akurasi
didapatkan sebesar 71%.

4.6 Evaluasi Optimal SVM + CL + Combined Class


Setelah hasil dari pemodelan CL didapatkan, kita melakukan
confident_joint secara internal untuk kuantifikasi label noise. Sehingga, kita
dapat melihat dari 8 kategori emosi manakah yang probabilitasnya besar
sehingga bisa dikombinasikan atau digabungkan dari beberapa kategori
menjadi satu kategori emosi saja.
Tabel 4.9 Pelabelan Noise via Cleanlab
Class Class Num
Class Class Joint
Index Index Overlapping
Name A Name B Probability
A B Examples
0 Bahagia Percaya 1 4 51 0.057
1 Sedih Takut 5 6 19 0.021
2 Antisipatif Bahagia 0 1 17 0.019
3 Percaya Sedih 4 5 17 0.019
4 Bahagia Marah 1 2 16 0.018
Dari Tabel 4.9 didapatkan ada 5 dari 27 probabilitas, didapatkan dari
8 kategori emosi yang dikombinasikan. Jika nilai joint_probability semakin
besar dan mendekati 1, maka semakin besar pula probabilitas kategori satu
dengan kategori lain tersebut dapat digabung menjadi satu kategori.
Untuk kategori emosi “bahagia” dengan emosi “percaya” memiliki
nilai joint probability sebesar 0.057. Artinya, kedua kategori tersebut dapat kita
gabung menjadi satu kategori. Begitu pun dengan kategori emosi “sedih”
dengan emosi “takut” memiliki nilai joint probability sebesar 0.021. Sehingga,
untuk kategori “percaya” kita gabungkan ke dalam kategori “bahagia”. Dan

23
untuk kategori emosi “takut” digabungkan ke dalam kategori “sedih”.
Setelah dikombinasikan kategori emosi “percaya” dengan emosi
“bahagia” dan kategori emosi “takut” dikombinasikan dengan emosi “sedih”,
maka terdapat 6 kategori emosi yang optimal dari 8 kategori emosi
sebelumnya.
Tabel 4.10 Hasil Optimal SVM + CL + Combined Class
Precision Recall F1-Score Support
0 0.81 0.86 0.83 140
1 0.79 0.71 0.75 123
2 0.50 0.10 0.17 10
3 1.00 0.25 0.40 4
4 0.71 0.84 0.77 97
5 1.00 0.50 0.67 4
Accuracy 0.77 378

Pada Tabel 4.10 merupakan hasil optimal dari pemodelan SVM dan
CL dengan kombinasi kategori emosi. Terdapat enam kategori emosi yang
paling optimal setelah dilakukan kombinasi kategori emosi. Untuk indeks 0
mendefinisikan emosi “antisipatif”, indeks 1 mendefinisikan emosi “bahagia
dan percaya”, indeks 2 mendefinisikan emosi “marah”, indeks 3
mendefinisikan emosi “muak”, indeks 4 mendefinisikan emosi “sedih dan
takut”, dan indeks 5 mendefinisikan emosi “terkejut”. Sehingga, nilai akurasi
yang didapatkan dari pemodelan SVM dan CL dengan kategori emosi yang
telah dikombinasikan meningkat, yaitu sebesar 77%.

24
BAB V

KESIMPULAN DAN SARAN

Pada bab ini menjelaskan beberapa hasil analisis yang telah dilakukan sesuai
dengan penjelasan dan analisis pada bab sebelumnya yang akan dirangkum dalam
bentuk kesimpulan penelitian serta saran untuk penelitian selanjutnya.

5.1 Kesimpulan
Dari hasil penelitian yang telah dilakukan, penulis dapat menyimpulkan :
1. Hasil dari analisis emosi pada teks berita berbahasa Indonesia dengan
menggunakan Lexicon yaitu terdapat emosi “sedih” dengan kisaran
diatas 2500 data. Namun, terdapat juga lima emosi yang terdeteksi oleh
lexicon dengan dibawah kisaran 500 data, yaitu “takut”, “terkejut”,
“antisipatif”, “muak”, dan “marah”.
2. Hasil optimal dari analisis emosi dengan menggunakan metode SVM
dan Lexicon dalam teks berita berbahasa Indonesia sebesar 54%. Lalu,
setelah CL via Cleanlab dilakukan, hasil akurasi dengan klasifikasi
SVM meningkat sebesar 71%. Untuk jumlah penggunaan kategori
emosi yang paling optimal didapat sebanyak 6 kategori emosi dari 8
kategori emosi sebelumnya dengan nilai akurasi sebesar 77%.

5.2 Saran
Berdasarkan penelitian yang dilakukan, penulis memahami bahwa masih
adanya kekurangan dalam penelitian ini, yaitu terdapat data imbalanced, yang
mana recall hanya bagus pada kategori emosi yang mayoritas, sedangkan pada
kategori emosi yang minoritas nilai recall-nya kecil. Artinya, ada
permasalahan imbalanced data. Sehingga, penulis memberikan saran kepada
peneliti selanjutnya dapat ditangani lebih lanjut dari permasalahan tersebut.

25
DAFTAR PUSTAKA

[1] S. Aman, and S. Szpakowicz, “Identifying Expressions of Emotion in Text,”


DBLP, Sep. 2007, doi: 10.1007/978-3-540-74628-7_27.
[2] R. Sitorus, H.S. Dachlan, and W. Wijono, “Analisis Pengaruh Frasa Pada
Deteksi Emosi Dari Teks Menggunakan Vector Space Model,” jeeccis, vol. 11,
no.1, pp. 41-47, Jan. 2018.
[3] Gushinta N.H. 2023. Analisis Emosi Media Sosial Twitter Pada Masa
Pemerintahan Presiden Susilo Bambang Yudhoyono dan Joko Widodo.
Skripsi. Jakarta: Universitas Islam Negeri Syarif Hidayatullah.
[4] S.N. Kane, A. Mishra, and A. K. Dutta, “Preface: International Conference on
Recent Trends in Physics (ICRTP 2016),” J. Phys. Conf. Ser., vol. 755, no.1,
pp. 0-6, 2016, doi: 10.1088/1742-6596/755/1/011001.
[5] W. A. B. and H. D. Nugroho A S, “Kuliah Umum Ilmu Komputer.” [Online].
Available: http://ilmukomputer.com
[6] T. S. Furey, N. Cristianini, N. Duffy, D. W. Bednarski, M. Schummer, and D.
Haussler, “Support vector machine classification and validation of cancer
tissue samples using microarray expression data,” Bioinformatics, vol. 16, no.
10, pp. 906-914, 2000, doi: 10.1093/bioinformatics/16.10.906.
[7] https://taudata.blogspot.com/2020/04/slcm-02.html
[8] N. G. Curtis, Jiang Lu, and C. L. Isaac, “Confident Learning: Estimating
Uncertainty in Dataset Labels”.
[9] https://l7.curtisnorthcutt.com/confident-learning

26
LAMPIRAN

Lampiran I : Tabel Lexicon Emosi


membuahkan hasil, terkendali, tenteram, kenikmatan, menikmati,
penikmat, sukacita, suka cita, berbunga bunga, menyenangkan,
Bahagia aman, lega, damai, sejahtera, tenang, kenyamanan, terima kasih,
dapat terwujud, bersemangat, merasa bahagia, alhamdulillah,
mempermudah
memastikan, mempertimbangkan, tergoda, menarik, terikat,
tergiring, antisipatif, teliti, hati hati, bersungguh sungguh, berjaga
Antisipatif jaga, meyakini, berharap, diharapkan, waspada, bertujuan,
mengantisipasi, diupayakan, berhati hati, agar terhindar,
mewaspadai, jangan, tujuan, mengingatkan
khawatir, menduga, curiga, kecurigaan, takut, cemas, kepanikan,
intimidasi, meneror, menggaduhkan, merusuhkan, mengacau,
kepanikan, bergidik, khawatir, merinding, histeria, menakut nakuti,
Takut
menggertak, mengganggu, mengancam, penakut, bingung, gelisah,
mencemaskan, membingungkan, meresahkan, keresahan,
dikhawatirkan, terbebani, ancaman
duka cita, kesedihan, termenung, susah hati, sakit hati, mati matian,
berkabung, kemalangan, memprihatinkan, menghela nafas,
Sedih
berpikir, melamun, ngelamun, bingung, self reflection, tertegun,
menerpa, cedera, minimnya, ketidakmampuan, ironi
tegaskan, tegasnya, jengkel, marah, mengamuk, dongkol,
menggila, naik darah, membabi buta, menuntut, protes, usir,
Marah
semena mena, tandasnya, melawan, somasi, harusnya, seharusnya,
setengah setengah
introspeksi diri, menerima, takjub, terpesona, terpukau,
mengagumi, meyakini, mengagumkan, menarik, memikat,
Percaya
penggemar, pengagum, pemuja, beriktikad, beriman,
berkeyakinan, mengakui, kepercayaan, ajudan, religi, memercayai,

27
mendelegasikan, mengandalkan, mempertanggungkan, berpasrah,
memasrahkan, merelakan, ikhlas, menyerahkan, berserah,
dukungan, menerima, menyetujui, tanggungjawab, tanggung
jawab, khusnudzon, terbukti, harus mengakui, membuktikan
mengikis kepercayaan, mencederai, mengganggu, terganggu,
Muak terusik, muak, dendam, dengki, emosi, sirik, cemburu, memusuhi,
jenuh, lelah, membosankan, berserakan, imbasnya, kegaduhan
tercengang, tersendat, terpana, terheran heran, tersentak, tiba tiba,
Terkejut
mendadak, tertegun, terpental, penggerebekan, terganggu

Lampiran II : Code Lexicon Based Emotion Detection

Lampiran II : Code Reshape Hasil Lexicon untuk SVM

28
Lampiran III : Code Plot Real Emosi dari Pelabelan Manual

Lampiran IV : Code Pemodelan Optimal SVM

29
Lampiran V : Code Evaluasi Optimal SVM

30
Lampiran VI : Code Pemodelan CL via Cleanlab

31
Lampiran VII : Code Evaluasi Optimal SVM + CL + Kategori Dikombinasi

32
33

Anda mungkin juga menyukai