SKRIPSI
11180940000084
2023
PERSEMBAHAN
Skripsi ini dipersembahkan untuk diri sendiri juga untuk kedua orang tua
beserta kakak-kakak saya yang telah memberikan doa sepenuh hati serta
dukungan yang begitu luar biasa sampai sekarang.
MOTTO
ii
ABSTRAK
Nada Nur Kamilia, Analisis Emosi Pada Teks Berita Berbahasa Indonesia
Menggunakan Support Vector Machine Dan Confident Learning. Di bawah
bimbingan Dr. Taufik Edy Sutanto, M.Sc.Tech.,Ph.D dan Ary Santoso,
M.Si.
Media online sebagai salah satu wadah untuk melakukan komunikasi berbentuk
teks, masih sangat susah untuk mengetahui kondisi emosi yang ingin
disampaikan karena interaksi dilakukan secara tidak langsung, yang mana tidak
ada nada dan intonasi dalam media teks. Sehingga, perlu adanya mengolah dan
menganalisa data berita online dengan cara dikelompokkan atau diklasifikasi
berdasarkan emosi dalam setiap kalimat berita online. Confident Learning yang
berfokus pada kualitas label dengan menunjukkan joint probability sebagai
rekomendasi untuk mencapai hasil paling optimal. Dalam penelitian ini
menggunakan data website yang diambil dari website berita online kota Palu,
Sulawesi Tengah. Hasil penelitian ini menunjukkan bahwa akurasi sebelum
menggunakan CL dengan metode klasifikasi SVM sebesar 54%. Setelah CL
dilakukan, nilai akurasi SVM sebesar 77%. Sehingga, tingkat akurasi SVM
meningkat sebanyak 23% setelah CL dilakukan.
Kata Kunci : Confident Learning, Emosi, Berita Online
iii
ABSTRACT
iv
KATA PENGANTAR
Assalamu’alaikum Wr. Wb
Alhamdulillah, puji dan syukur peneliti panjatkan kepada Allah SWT karena
berkat rahmat dan hidayah-Nya penulis dapat menyelesaikan penelitian ini. Shalawat
serta salam peneliti curahkan kepada junjungan nabi besar Nabi Muhammad SAW
beserta keluarganya, para sahabat dan para pengikutnya.
1. Bapak Husni Teja Sukmana, S.T., M.Sc, Ph.D, selaku Dekan Fakultas Sains dan
Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
2. Bapak Dr. Taufik Edy Sutanto, M.Sc.Tech, selaku Ketua Program Studi
Matematika Fakultas Sainsdan Teknologi UIN Syarif Hidayatullah Jakarta dan Ibu
Dr. Gustina Elfiyanti, M.Si, selaku Sekretaris program studi Matematika Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta.
3. Bapak Dr. Taufik Edy Sutanto, M.Sc.Tech selaku pembimbing I dan Bapak Ary
Santoso, M.Si selaku pembimbing II atas ilmu dan arahannya selama penyusunan
skripsi ini hingga akhirnya dapat terselesaikan.
4. Bapak Muhaza Liebenlito, M.Si selaku penguji I dan Ibu Dr. Gustina Elfiyanti,
M.Si selaku penguji II, terima kasih atas kritik dan sarannya kepada penulis, serta
bersedia meluangkan waktunya untuk menguji seminar hasil dan sidang skripsi.
5. Ummi, Abi, Mas Iqbal, Mbak Zulfa, Kak Iqbal dan Nuryn yang tiada hentinya
memberikan doa, motivasi dan dukungan hingga penulis mampu menyelesaikan
skripsi ini.
v
6. Teman – teman RPI (Religious & Political Intelligences) yaitu Bima, Shinta, Malina,
Dewi, Aul, Renaldy, dan Zakia yang selalu menjadi tempat untuk berkeluh kesah juga
memberikan semangat kepada penulis saat menemui kesulitan.
7. Teman SD ku yaitu Wardah yang selalu memberikan semangat serta dukungan untuk
penulis dalam menyelesaikan skripsi.
8. Teman – teman Matematika 2018 UIN Syarif Hidayatullah Jakarta yang tidak dapat
disebutkan satu – persatu.
9. Seluruh pihak yang secara langsung maupun tidak langsung telah membantu,
mendukung, serta mendoakan penulis dalam penyelesaian skripsi ini. Meski tidak
tertulis namun tidak mengurangi rasa cinta dan terima kasih dari penulis.
Penulis menyadari bahwa masih banyak kesalahan dan kekurangan dalam penyusunan
skripsi ini. Maka dari itu penulis mengharapkan kritik dan saran yang membangun supaya
menjadi bahan perbaikan bagi peneliti selanjutnya. Penulis juga berharap penelitian ini
bermanfaat bagi siapapun yang membacanya.
Wassalamu’alaikum Wr. Wb.
Penulis
vi
DAFTAR ISI
PERSEMBAHAN ......................................................................................................................... ii
MOTTO ......................................................................................................................................... ii
ABSTRAK .................................................................................................................................... iii
ABSTRACT ................................................................................................................................... iv
KATA PENGANTAR ................................................................................................................... v
DAFTAR ISI................................................................................................................................. vi
BAB I ............................................................................................................................................. 1
PENDAHULUAN ........................................................................................................................ 1
1.1 Latar Belakang .............................................................................................................. 1
1.2 Rumusan Masalah ........................................................................................................ 4
1.3 Batasan Masalah ........................................................................................................... 4
1.4 Tujuan Penelitian .......................................................................................................... 4
1.5 Manfaat Penelitian ........................................................................................................ 4
BAB II ........................................................................................................................................... 5
LANDASAN TEORI.................................................................................................................... 5
2.1 Website Berita Online ................................................................................................... 5
2.2 Prepocessing................................................................................................................... 5
BAB III.......................................................................................................................................... 7
METODOLOGI PENELITIAN ................................................................................................. 7
3.1 Sumber Data .................................................................................................................. 7
3.2 Support Vector Machine ................................................................................................ 7
3.3 Lexicon-Based Emotion Detection ............................................................................. 10
3.4 Confident Learning ...................................................................................................... 11
3.5 Alur Penelitian ............................................................................................................. 14
BAB IV ........................................................................................................................................ 15
HASIL DAN PEMBAHASAN .................................................................................................. 15
4.1 Prepocessing Data ........................................................................................................ 15
4.2 Tokenisasi ..................................................................................................................... 15
4.3 Lexicon-Based Emotion Detection .............................................................................. 16
4.4 Pemodelan Optimal SVM dan Lexicon ..................................................................... 20
4.5 Pemodelan CL dengan menggunakan CleanLab ..................................................... 22
4.6 Evaluasi Optimal SVM + CL + Combined Class ..................................................... 23
vii
BAB V ......................................................................................................................................... 25
KESIMPULAN DAN SARAN .................................................................................................. 25
5.1 Kesimpulan .................................................................................................................. 25
5.2 Saran ............................................................................................................................. 25
DAFTAR PUSTAKA ................................................................................................................. 26
LAMPIRAN................................................................................................................................ 27
viii
DAFTAR TABEL
ix
DAFTAR GAMBAR
x
BAB I
PENDAHULUAN
1
ciptakan besi yang padanya terdapat kekuatan yang hebat dan bberbagai
manfaat bagi manusia, (supaya mereka mempergunakan besi itu) dan supaya
Allah mengetahui siapa yang menolong (agama)Nya dan rasul-rasul-Nya
padahal Allah tidak dilihatnya. Sesungguhnya Allah Maha Kuat lagi Maha
Perkasa.” (Q.S. Al-Hadid: 25).
Saat ini, komunikasi secara tidak langsung juga dapat dilakukan
seperti surat kabar dalam bentuk digital yaitu berita online. Arus informasi
tidak lagi dikuasai oleh televisi, radio, koran, dan majalah. Masyarakat
Indonesia kini mulai beralih dari konsumsi berita dalam bentuk surat kabar ke-
koran digital atau situs berita online. Seiring dengan meningkatnya kemudahan
akses internet, informasi berkembang dan menyebar dengan sangat cepat.
Kemajuan di bidang teknologi informasi dan telekomunikasi berdampak pada
munculnya berbagai portal berita online.
Media online sebagai salah satu wadah untuk melakukan
komunikasi teks, masih sangat susah untuk mengetahui kondisi emosi yang
ingin disampaikan karena interaksi di media dilakukan secara tidak langsung,
yang mana tidak ada nada dan intonasi dalam media teks. Sehingga, perlu
melakukan pengolahan dan analisis data berita online dengan cara
mengelompokkan atau klasifikasi berdasarkan emosi dalam setiap kalimat
berita online. Oleh karena itu kategori yang digunakan untuk pengelompokan
emosi dari teks berita online adalah kategori bahagia, sedih, marah, takut,
terkejut, muak, antisipatif, dan percaya. Delapan kategori tersebut merupakan
emosi dasar Plutchik yang masing-masing dapat dibagi menjadi tiga bagian
berdasarkan intensitas emosinya yang terlihat pada Gambar 1.1.
2
Gambar 1.1 Roda Emosi Plutchik
Adapun penelitian tentang emosi dan sentiment yang telah
dilakukan sebelumnya yaitu deteksi emosi terhadap isi blog yang diperoleh
dari lexicon emosi dan mampu meningkatkan nilai Accuracy nya [1], analisis
pengaruh frasa pada deteksi emosi dari teks menggunakan Vector Space Model
[2], dan analisis emosi media sosial twitter pada masa pemerintahan presiden
Susilo Bambang Yudhoyono dan Joko Widodo [3]. Serta acuan dalam
penelitian ini adalah mengestimasi ketidakpastian dalam sekumpulan label
data dengan Confident Learning (CL) menggunakan Cleanlab (data-centric
AI) dalam jurnal Cutris G. Nothcutt, dkk yang berjudul “Confident Learning :
Estimating Uncertainty in Dataset Labels”.
Berdasarkan uraian tersebut, maka penelitian yang dilakukan kali ini
menggunakan Support Vector Machine (SVM), Lexicon, dan Confident
Learning (CL) yang nantinya akan dikombinasikan sehingga memperoleh
hasil yang optimal.
3
1.2 Rumusan Masalah
Rumusan masalah berdasarkan latar belakang tersebut meliputi :
1. Seberapa optimal analisis emosi dengan menggunakan metode Lexicon
dalam teks berita berbahasa Indonesia?
2. Seberapa optimal analisis emosi dengan menggunakan metode SVM
dan CL dalam teks berita berbahasa Indonesia?
4
BAB II
LANDASAN TEORI
2.2 Prepocessing
1) Tokenisasi
Pada proses tokenisasi ini, tokenizer melakukan tugasnya untuk
membagi sebuah kalimat menjadi beberapa bagian seperti kata-kata,
frasa atau elemen bermakna yang lainnya [4]. Dalam penelitian ini,
dilakukan tokenisasi kalimat yang mana dari suatu paragraf dibagi
menjadi beberapa kalimat berdasarkan tanda titik (.).
2) Lower Case
Pada proses lower case, dilakukan untuk mengubah semua
huruf besar atau huruf kapital yang ada di dalam teks menjadi huruf
kecil. Misalnya terdapat kata “Sulawesi Tengah” diubah menjadi
“sulawesi tengah”.
5
3) Slang Words
Slang Words merupakan kata dan atau kata yang tidak formal,
bahasa gaul yang biasanya tidak sepenuhnya dipahami oleh orang-
orang di luar kelompok sosial tertentu, dan juga singkatan dari suatu
kata.
4) Menghapus URL
Proses penghapusan URL ini dilakukan untuk
membersihkan data dengan upaya memudahkan untuk mengolah dan
menganalisa data di tahap selanjutnya.
6
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan dibahas mengenai metodologi yang digunakan pada
penelitian ini yang mencakup sumber data dan alur tahapan pengerjaan
penelitian.
7
Untuk menemukan hyperplane terbaik adalah dengan cara mengukur margin
hyperplane tersebut. Margin adalah jarak antara hyperplane dengan pattern
terdekat dari masing-masing kelas. Pattern yang paling dekat dengan
hyperplane disebut support vector [6].
Misalkan data latih dinyatakan sebagai (𝒙𝒊, 𝑦𝑖) dimana 𝑖 = 1,2, … ,
𝑛. 𝒙𝒊 = [𝑥𝑖1, 𝑥𝑖2, … , 𝑥𝑖𝑗] adalah vektor baris dari fitur ke- 𝑖 di ruang dimensi
ke- 𝑗 dan 𝑦𝑖 adalah label dari 𝒙𝒊 yang didefinisikan sebagai 𝑦𝑖 ∈ {+1, −1}.
Diasumsikan kedua kelas -1 dan +1 dapat dipisah secara linear oleh
hyperplane. Pada gambar 3.1 hyperplane ditunjukkan dengan garis lurus
berwarna merah. Data yang berada di atas hyperplane adalah kelas +1 dan data
yang berada di bawah hyperplane adalah kelas -1.
8
Untuk itu, perlu menemukan hyperplane terbaik dengan mendapatkan nilai
margin terbesar. Margin terbesar dapat ditemukan dengan memaksimalkan
nilai jarak antara hyperplane dan titik terdekatnya. Pattern yang termasuk kelas
-1 adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊 𝑏 1 dan pattern
yang termasuk kelas +1 adalah pattern yang memenuhi persamaan 𝒘 ∙ 𝒙𝒊
𝑏 1.
9
Karena 𝑿𝟏 titik di hyperplane 𝒘 ∙ 𝒙 𝑏 1, maka
𝒘 ∙ 𝑿𝟏 𝑏 1
𝒘∙𝒘
𝒘 ∙ 𝑿𝟎 𝑟 𝑏 1
‖𝒘‖
‖𝒘‖
𝒘 ∙ 𝑿𝟎 𝑟 𝑏 1
‖𝒘‖
𝒘 ∙ 𝑿𝟎 𝑏 𝑟‖𝒘‖ 1… 1
Karena 𝑿𝟎 di hyperplane 𝒘 ∙ 𝒙 𝑏 1 maka 𝒘 ∙ 𝑿𝟎 𝑏 1, akibatnya
(1) dapat ditulis
1 𝑟‖𝒘‖ 1
2
𝒓
‖𝒘‖
Setiap kelas harus ditambahkan batasan pada data dari masing-
masing kelas agar tidak masuk ke dalam margin, batasannya sebagai berikut :
𝒘 ∙ 𝒙𝒊 𝑏 1, jika 𝑦 1,
𝒘 ∙ 𝒙𝒊 𝑏 1, jika 𝑦 1,
atau dapat ditulis sebagai berikut :
𝑦 𝒘 ∙ 𝒙𝒊 𝑏 1 0, ∀1 𝑖 𝑛, 𝑖 ∈ 𝑁.
Memaksimalkan nilai margin ekuivalen dengan meminimumkan
‖𝒘‖ . Maka pencarian hyperplane terbaik dengan nilai margin terbesar dapat
dirumuskan masalah optimasi pemrograman kuadratik sebagai berikut :
max margin min ‖𝒘‖ ,
dengan kendala :
𝑦 𝒘 ∙ 𝒙𝒊 𝑏 1 0, ∀1 𝑖 𝑛, 𝑖 ∈ 𝑁.
10
delapan kategori emosi, maka data akan dilabeli sesuai dengan lexicon emosi
yang telah ditentukan. Lexicon emosi dikumpulkan dengan mencari sinonim
kata dari masing-masing delapan kategori emosi Plutchik. Setelah lexicon
emosi terkumpul dilanjutkan dengan mendeteksi emosi pada kalimat dengan
bantuan bahasa pemrograman python. Lexicon emosi dapat dilihat pada
Lampiran I.
11
Gambar 3.3 Contoh Proses dari CL
12
Gambar 3.4 Kiri : Contoh Perhitungan Confident. Ini Adalah Estimasi joint
yang Tidak Dinormalisasi. Kanan : Contoh joint distribusi dari label noisy
dan laten untuk dataset dengan tiga kelas.
𝑋 , ∗ ≔ 𝑥∈𝑋 : 𝑝̂ 𝑦 𝑗; 𝑥, 𝜃 𝑡, : ; , 𝑝̂ 𝑦 𝑘; 𝑥, 𝜃
13
3.5 Alur Penelitian
Mulai
Data
Hasil Scrapping
Evaluasi
14
BAB IV
HASIL DAN PEMBAHASAN
4.2 Tokenisasi
15
Pada Tabel 4.2 merupakan hasil tokenisasi dari Tabel 4.1 yang
sebelumnya masih dalam berbentuk paragraf. Sehingga, dari 1.350 data
berbentuk paragraf setelah dilakukannya tokenisasi menjadi sebanyak 7.319
data yang berbentuk kalimat.
16
Berikut grafik dari hasil data deteksi emosi dengan menggunakan Lexicon.
17
0 …panglima damai poso adalah Bahagia
sosok yang tepat untuk
disematkan sebagai panglima
damai.
0 …bedah buku panglima damai Bahagia
poso banua mpogombo tentena
kelurahan sangele kecamatan…
0 kita tidak mengungkit duka lama Sedih
tapi sebagai pembelajaran masa
yang akan datang tandas bogiek.
18
0 …panglima damai poso adalah Bahagia
sosok yang tepat untuk
disematkan sebagai panglima
damai.
0 …bedah buku panglima damai Bahagia
poso banua mpogombo tentena
kelurahan sangele kecamatan…
0 kita tidak mengungkit duka lama Sedih Antisipatif
tapi sebagai pembelajaran masa
yang akan datang tandas bogiek.
Berikut grafik dari hasil deteksi emosi yang telah dilabeli secara
manual.
19
Pada Tabel 4.5 terdapat variabel “Emosi” yang merupakan
pelabelan emosi terhadap lexicon dan juga variabel “RealEmosi” yang
merupakan pelabelan secara manual. Di baris ketiga pada kalimat “…panglima
damai poso adalah sosok yang tepat untuk disematkan sebagai panglima
damai.” dalam variabel “RealEmosi” penulis tidak melabelinya. Karena
menurut penulis kalimat tersebut hanya sebuah pernyataan yang tidak
mengandung emosi.
Lalu, untuk baris kelima pada kalimat “kita tidak mengungkit duka
lama tapi sebagai pembelajaran masa yang akan datang tandas bogiek.”
menurut lexicon kalimat tersebut mengandung emosi sedih sedangkan penulis
melabelinya dengan emosi antisipatif. Menurut penulis, pada kalimat tersebut
lebih cocok ke dalam kategori emosi antisipatif karena kalimat tersebut
bermaksud untuk mengingatkan bahwasanya kesedihan saat ini bisa dijadikan
sebagai pengingat dan pembelajaran supaya di masa yang akan datang tidak
terulang kembali.
Lalu, dapat dilihat pada Gambar 4.2 merupakan grafik dari hasil
deteksi emosi pada data berbentuk kalimat yang dilabeli secara manual. Dari
grafik diatas, terlihat bahwa untuk emosi “antisipatif” paling banyak dideteksi
secara manual. Dan juga terdapat tiga emosi, yaitu “marah”, “muak”, dan
“terkejut” dengan deteksi emosi terendah kurang dari 50 data.
20
Tabel 4.6 Hasil Optimal SVM
Precision Recall F1-Score Support
0 0.64 0.69 0.66 124
1 0.58 0.54 0.56 78
2 0.00 0.00 0.00 19
3 0.50 0.14 0.22 7
4 0.31 0.40 0.35 57
5 0.57 0.61 0.59 70
6 0.53 0.47 0.50 19
7 1.00 0.50 0.67 4
Accuracy 0.54 378
Dari Tabel 4.6 dapat dilihat untuk kolom paling kiri terdapat indeks
0 sampai dengan 7. Artinya, terdapat 8 kategori emosi. Untuk angka 0
didefinisikan sebagai emosi “antisipatif”, angka 1 didefinisikan sebagai emosi
“bahagia”, angka 2 didefinisikan sebagai emosi “marah”, angka 3 didefinisikan
sebagai emosi “muak”, angka 4 didefinisikan sebagai emosi “percaya”, angka
5 didefinisikan sebagai emosi “sedih”, angka 6 didefinisikan sebagai emosi
“takut”, dan angka 7 didefinisikan sebagai emosi “terkejut”.
Kemudian dapat dilihat pada indeks 2 untuk hasil Precision, Recall,
dan F1-Score bernilai 0. Lalu, penulis menelusuri lebih lanjut pada data yang
terlabel indeks 2. Setelah ditelusuri dan dicermati, terdapat beberapa kalimat
yang cukup sulit dan tricky untuk menentukan emosi pada kalimatnya. Berikut
beberapa kalimat yang dimaksud.
Tabel 4.7 Kalimat Terlabel Emosi “Marah”
kalimat
polres tolitoli melukis wajah polri yang humanis paradigma polisi kejam
kompromi pelit senyum dan beberapa celoteh miring terkikis habis oleh
polesan wajah baru korps bhayangkara kekinian.
21
Kalimat yang terdapat pada Tabel 4.7 jika dibaca lebih seksama dan
dipahami kalimat di atas tidak mengandung emosi marah melainkan sedang
menunjukkan emosi bahagia. Karena, menurut penulis yang ingin disampaikan
pada kalimat di atas adalah polri yang dulunya mempunyai paradigma negatif
di daerah tersebut sekarang memiliki polesan wajah baru yang artinya
bermakna positif terhadap polres tolitoli.
Selanjutnya, terdapat kolom precision pada Tabel 4.6 yang
menjelaskan berapa persenkah tiap kategori emosi yang benar dari keseluruhan
data yang diprediksi masuk ke kategori emosi tersebut. Lalu, untuk kolom
recall memaparkan berapa persenkah data yang diprediksi dari emosi tersebut
dibandingkan data emosi keseluruhan yang sebenarnya. Kemudian lanjut ke
kolom F1-Score, yang artinya perbandingan rata-rata presisi dan recall yang
dibobotkan. Dan untuk kolom terakhir, yaitu kolom Support yang
menunjukkan jumlah data sampel dari masing-masing kategori emosi.
Kita ambil contoh pada baris pertama yang merupakan kategori
emosi “antisipatif”. Terdapat 124 sampel data yang terlabeli emosi antisipatif.
Lalu, dari 124 data sampel didapatkan bahwa memiliki precision sebesar 64%,
recall sebesar 69% dengan F1-Score sebesar 66%. Sehingga, dari hasil optimal
SVM yang didapat memiliki jumlah akurasi sebesar 54%.
22
4 0.72 0.35 0.47 52
5 0.69 0.86 0.76 71
6 0.56 0.19 0.29 26
7 1.00 0.50 0.67 4
Accuracy 0.71 378
Dari Tabel 4.8 dapat dilihat nilai akurasi dari klasifikasi SVM
meningkat sebanyak 17% setelah dilakukannya CL pada data. Nilai akurasi
didapatkan sebesar 71%.
23
untuk kategori emosi “takut” digabungkan ke dalam kategori “sedih”.
Setelah dikombinasikan kategori emosi “percaya” dengan emosi
“bahagia” dan kategori emosi “takut” dikombinasikan dengan emosi “sedih”,
maka terdapat 6 kategori emosi yang optimal dari 8 kategori emosi
sebelumnya.
Tabel 4.10 Hasil Optimal SVM + CL + Combined Class
Precision Recall F1-Score Support
0 0.81 0.86 0.83 140
1 0.79 0.71 0.75 123
2 0.50 0.10 0.17 10
3 1.00 0.25 0.40 4
4 0.71 0.84 0.77 97
5 1.00 0.50 0.67 4
Accuracy 0.77 378
Pada Tabel 4.10 merupakan hasil optimal dari pemodelan SVM dan
CL dengan kombinasi kategori emosi. Terdapat enam kategori emosi yang
paling optimal setelah dilakukan kombinasi kategori emosi. Untuk indeks 0
mendefinisikan emosi “antisipatif”, indeks 1 mendefinisikan emosi “bahagia
dan percaya”, indeks 2 mendefinisikan emosi “marah”, indeks 3
mendefinisikan emosi “muak”, indeks 4 mendefinisikan emosi “sedih dan
takut”, dan indeks 5 mendefinisikan emosi “terkejut”. Sehingga, nilai akurasi
yang didapatkan dari pemodelan SVM dan CL dengan kategori emosi yang
telah dikombinasikan meningkat, yaitu sebesar 77%.
24
BAB V
Pada bab ini menjelaskan beberapa hasil analisis yang telah dilakukan sesuai
dengan penjelasan dan analisis pada bab sebelumnya yang akan dirangkum dalam
bentuk kesimpulan penelitian serta saran untuk penelitian selanjutnya.
5.1 Kesimpulan
Dari hasil penelitian yang telah dilakukan, penulis dapat menyimpulkan :
1. Hasil dari analisis emosi pada teks berita berbahasa Indonesia dengan
menggunakan Lexicon yaitu terdapat emosi “sedih” dengan kisaran
diatas 2500 data. Namun, terdapat juga lima emosi yang terdeteksi oleh
lexicon dengan dibawah kisaran 500 data, yaitu “takut”, “terkejut”,
“antisipatif”, “muak”, dan “marah”.
2. Hasil optimal dari analisis emosi dengan menggunakan metode SVM
dan Lexicon dalam teks berita berbahasa Indonesia sebesar 54%. Lalu,
setelah CL via Cleanlab dilakukan, hasil akurasi dengan klasifikasi
SVM meningkat sebesar 71%. Untuk jumlah penggunaan kategori
emosi yang paling optimal didapat sebanyak 6 kategori emosi dari 8
kategori emosi sebelumnya dengan nilai akurasi sebesar 77%.
5.2 Saran
Berdasarkan penelitian yang dilakukan, penulis memahami bahwa masih
adanya kekurangan dalam penelitian ini, yaitu terdapat data imbalanced, yang
mana recall hanya bagus pada kategori emosi yang mayoritas, sedangkan pada
kategori emosi yang minoritas nilai recall-nya kecil. Artinya, ada
permasalahan imbalanced data. Sehingga, penulis memberikan saran kepada
peneliti selanjutnya dapat ditangani lebih lanjut dari permasalahan tersebut.
25
DAFTAR PUSTAKA
26
LAMPIRAN
27
mendelegasikan, mengandalkan, mempertanggungkan, berpasrah,
memasrahkan, merelakan, ikhlas, menyerahkan, berserah,
dukungan, menerima, menyetujui, tanggungjawab, tanggung
jawab, khusnudzon, terbukti, harus mengakui, membuktikan
mengikis kepercayaan, mencederai, mengganggu, terganggu,
Muak terusik, muak, dendam, dengki, emosi, sirik, cemburu, memusuhi,
jenuh, lelah, membosankan, berserakan, imbasnya, kegaduhan
tercengang, tersendat, terpana, terheran heran, tersentak, tiba tiba,
Terkejut
mendadak, tertegun, terpental, penggerebekan, terganggu
28
Lampiran III : Code Plot Real Emosi dari Pelabelan Manual
29
Lampiran V : Code Evaluasi Optimal SVM
30
Lampiran VI : Code Pemodelan CL via Cleanlab
31
Lampiran VII : Code Evaluasi Optimal SVM + CL + Kategori Dikombinasi
32
33