Proposal Fix Afwa
Proposal Fix Afwa
1303174050
Afwatul Mumthazah RA
Title of TA in English
NIM : 1303174050
Afwatul Mumthazah RA
Proposal ini diajukan sebagai usulan pembuatan tugas akhir pada
Program Studi Sarjana Teknologi Informasi
Fakultas Informatika Universitas Telkom
Calon Pembimbing
1. PENDAHULUAN
Pada media sosial twitter tidak jarang pengguna melampikaskan emosinya dalam
sebuah tweet, pelampiasan emosi dalam sebuah kata-kata dilakukan untuk
melampiaskan rasa marah, kesedihan, kesepian, ketakutan, ataupun rasa sakit
(Schwartz, et al., 2013). Pelampiasan emosi tersebut merupakan salah satu ciri seseorang
sedang dalam tekanan depresi [2]. Kesehatan mental atau kesehatan jiwa merupakan aspek
penting dalam mewujudkan kesehatan secara menyeluruh. Kesehatan mental juga penting
diperhatikan selayaknya kesehatan fisik [3]. Menurut data dari Word Health Organization
(WHO) terdapat 35 juta orang yang mengalami depresi, 60 juta orang yang terkena bipolar
dan 21 juta terkena skizofrenia, serta 47,5 juta terkena dimensia [4]. Rice PL (1992)
menyebutkan bahwa depresi adalah gangguan mood, kondisi emosional berkepanjangan
yang mewarnai seluruh proses mental (berpikir, berperasaan dan berperilaku)
seseorang [5]. Pada umumnya mood yang secara dominan muncul adalah perasaan tidak
berdaya dan kehilangan harapan, dari perasaan-perasaan negatif tersebutlah bisa timbul
pikiran-pikiran yang bisa membahayakan bunuh diri salah satu dampaknya [6].
Karena para pengguna media sosial sering memberikan informasi tentang dirinya dan
keluh-kesah yang dialaminya di internet dan media sosial yang dimilikinya salah satunya
yaitu twitter. Oleh sebab itu media sosial twitter mejadi pilihan yang tepat untuk
menganalisis dan klasifikasi tingkat depresi yang dialami seseorang. Hal itu dikarenakan
tweet yang berada dimedia sosial twitter ini mewakili secara umum aspek kejiwaan yang
sedang dialami oleh penulis tweet atau status media sosial.
1.3. Tujuan
Tujuan penelitian ini adalah untuk menganalisis kinerja metode Naïve Bayes
Classifier dalam mengklasifikasi tingkat depresi seseorang berdasarkan tweet pada media
sosial twitter dengan menghasilkan nilai akurasi yang baik.
Pada tahap ini akan dilakukan pengumpulan dan pemahaman informasi dengan
melakukan studi literatur dari jurnal ataupun artikel yang sesuai dengan topik yang
diangkat yaitu klasifikasi tingkat depresi , klasifikasi disini menggunakan Naïve Bayes
Classifier, serta teori-teori lain yang menunjang pada penelitian ini.
b. Pengumpulan Data
Pada tahap ini akan melakukan pengumpulan data dengan melakukan crawling pada
media sosial twitter berbahasa Indonesia.
c. Perancangan Sistem
Pada tahap ini akan melakukan perancangan sistem dengan menggunakan metode Naife
Bayes Classifier.
d. Implementasi Sistem
Pada tahap ini, data hasil crawling pada media sosial twitter akan diolah pada sistem yang
sudah dirancang sebelumnya dengan menggunakan Naïve Bayes Classifier.
e. Analisis Hasil
Pada tahap ini akan dianalisis apakah metode Naive Bayes Classifier memengaruhi hasil
akurasi klasifikasi tingkat depresi dari media sosial twitter.
Pada tahap selanjutnya adalah menyusun laporan tugas akhir sesuai dengan hasil yang
sudah dilakukan pada proses-proses sebelumnya.
Kegiatan Bulan
Studi Literatur 1 2 3 4 5 6
Pengumpulan data
Perancangan Sistem
Implementasi Sistem
Analisis Hasil
2. KAJIAN PUSTAKA
2.2. Depresi
Menurut Gerald C. Davison (2004) menyebutkan bahwa depresi merupakan
kondisi emosional yang biasanya ditandai dengan kesedihan yang amat sangat dalam,
perasaan tidak berarti dan bersalah (menarik diri, tidak dapat tidur, kehilangan
selera, minat dalam aktivitas sehari-hari) [11]. Depresi bisa dikatakan juga sebagai
gangguan kejiwaan yang mempengaruhi fungsi fisik, psikologis dan sosial seseorang.
Depresi dapat dilihat dengan beberapa kondisi yang ditunjukkan oleh orang tersebut sebagai
sebuah kemerosotan perasaan, aktifitas dan sebagainya,keadaan tersebut timbul tanpa alasan
yang jelas baik pada tubuh maupun pada pikiran seseorang. Keadaan melankolia (kesedihan)
tersebut dimungkinkan sebagai reaksi terhadap suatu kejadian yang menjadi penyebabnya.
Rasa sedih tersebut dapat menimbulkan gangguan fungsi fisik dan mental, seperti
kemampuan kerja, nafsu makan dan kemampuan berfikir meskipun sederhana (Shreeve,
1992) [12]. Harrington (2003) membedakan antara kesedihan dan depresi. Perasaan sedih
adalah bagian pengalaman yang normal, sedangkan konsep depresi berbeda dengan
kesedihan atau ketidakgembiraan. Ketidakgembiraan adalah komponen yang umum pada
suasana perasaan depresif yang berkaitan dengan depresi. Suasana depresi pada depresi lebih
dipresentasikan oleh gambaran seperti kekosongan emosi atau suatu perasaan datar atau
tumpul. Perasaan ini bervarasi dalam tingkat keparahan dan menunjukkan variasi harian
misalnya: memburuk pada suatu waktu pada hari itu atau pada waktu yang lain. Gejala lain
yang berkaitan dengan suasana perasaan depresi adalah gejala anhedonia yaitu suatu
ketidakmampuan untuk mendapatkan kenikmatan dari suatu yang sebelumnya telah [12].
2.3. Twitter
Twitter adalah sebuah situs jejaring sosial yang sedang berkembang pesat saat ini
karena pengguna dapat berinteraksi dengan pengguna lainnya dari komputer ataupun
perangkat mobile mereka dari manapun dan kapanpun. Setelah diluncurkan pada Juli 2006,
jumlah pengguna Twitter meningkat sangat pesat. Pada September 2010, diperkirakan
jumlah pengguna Twitter yang terdaftar sekitar 160 juta pengguna (Chiang, 2011). Pengguna
Twitter sendiri bisa terdiri dari berbagai macam kalangan yang para penggunanya ini dapat
berinteraksi dengan teman, keluarga hingga rekan kerja. Twitter sebagai sebuah situs
jejaring sosial memberikan akses kepada penggunanya untuk mengirimkan sebuah pesan
singkat yang terdiri dari maksimal 140 karakter (disebut tweet). Tweet sendiri bisa terdiri
dari pesan teks dan foto. Melalui tweet inilah pengguna Twitter dapat berinteraksi lebih
dekat dengan pengguna Twitter lainnya dengan mengirimkan tentang apa yang sedang
mereka pikirkan, apa yang sedang dilakukan, tentang kejadian yang baru saja terjadi, tentang
berita terkini serta hal lainnya [13].
P ( x|h ) p (h)
p(h∨x)= (1)
p ( x)
Dimana :
x = Data dengan kelas yang belum diketahui
h = Hipotesa data X merupakan suatu kelas spesifik
p(h|x) = Probabilitas hipotesis H berdasarkan kondisi X (posterior probability)
P(h) = Probabilitas hipotesis H (prior probability) [15]
2.5. TF-IDF
TF-IDF (Term Frequency Inverse Document Frequency) merupakan metode yang
digunakan untuk menentukan nilai frekuensi sebuah kata di dalam sebuah dokumen atau
artikel dan juga frekuensi di dalam banyak dokumen. Perhitungan ini menentukan seberapa
relevan sebuah kata di dalam sebuah dokumen (Evan, 2014). TFIDF adalah sebuah algoritma
yang umumnya digunakan untuk pengolahan data besar (Kamath, 2014). TF-
IDF ini juga terkenal efisien, mudah dan memiliki hasil yang akurat [17]. TF-IDF pada
dasarnya merupakan hasil dari perhitungan antara TF (Term Frequency) dan IDF (Inverse
Document Frequency). Banyak cara untuk menentukan nilai yang tepat dari kedua statistik
yang ada. Dalam kasus term frequency tf (t, d), cara yang paling sederhana adalah dengan
menggunakan raw frequency di dalam dokumen, yaitu berapa kali term t muncul di dokumen
d. Jika menyatakan raw frequency t sebagai f (t,d), maka skema tf yang sederhana adalah tf
(t, d) = f (t,d). Nilai idf sebuah term (kata) dapat dihitung menggunakan persamaan sebagai
berikut:
D
IDF=log 10( ) (2)
dfi
D adalah jumlah dokumen yang berisi term (t) dan dfi adalah jumlah kemunculan (frekuensi)
kata terhadap D. Adapun algoritma yang digunakan untuk menghitung bobot (W)
masingmasing dokumen terhadap kata kunci (query), yaitu :
Wdt=tfdt∗Idft (3)
Dimana:
d = dokumen ke–d
t = kata ke–t dari kata kunci
W = bobot dokumen ke–d terhadap kata ke–t
tf = term frekuensi/frekuensi kata
Wdt= bobot dokumen ked terhadap kata ke-t
tfdt = banyaknya kata yang dicari pada sebuah dokumen
Idft = Inversed Document Frequency (log (N/df) ) N = total dokumen
df = banyak dokumen yang mengandung kata yang dicari.
Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan
(sorting) dimana semakin besar nilai W, semakin besar tingkat kesamaan (similarity)
dokumen tersebut terhadap kata yang dicari, demikian pula sebaliknya [17].
2.6. Confusion Matrix
Confusion Matrix adalah sebuah metode yang biasa digunakan untuk perhitungan
akurasi. Sistem classifier yang dibangun untuk mengetahui tingkat akurasi dengan
menggunakan parameter performansi. Parameter performansi yang digunakan yaitu
diantaranya nilai akurasi, precision, dan recall. [17]. Rumus Confusion Matrix adalah
sebagai berikut :
Keterangan:
TP (True Positive) = Jumlah prediksi yang benar dari data yang relevant.
FP (False Positive) = Jumlah prediksi yang salah dari data yang tidak relevant.
FN (False Negative) = Jumlah prediksi yang salah dari data yang tidak relevant.
TN (True Negative) = Jumlah prediksi yang benar dari data yang relevant.
Sehingga, rumusnya adalah sebagai berikut:
1. Precision
Precision adalah tingkat ketepatan antara informasi yang diminta oleh pengguna
dengan jawaban yang diberikan oleh sistem. Bila di data mining precision adalah jumlah
dokumen yang dengan benar diklasifikasikan dalam sebuah kelas dibagi jumlah total
dokumen dalam kelas tersebut. Dengan persamaan [18]
tp
Precision=( ) (4)
tp+fp
2. Recall
tp
Recall=( ) (5)
tp+ fn
3. Accuracy
Accuracy didefinisikan sebagai tingkat kedekatan antara nilai prediksi dengan nilai
aslinya. Akurasidigunakan untuk mengevaluasi banyaknya label prediksi yang sesuai dengan
label aktual. Semakin besar nilaiakurasinya, maka performansi klasifikasi semakin baik.
Berikut persamaannya [18]
tp+tn
Accuracy=( ) (6)
tp+ fp+tn+ fn
BAB 3
3. PERANCANGAN SISTEM
3.2.2. Pelabelan
Pada proses ini dilakukan pemberian label kelas menjadi lima kelas depresi.
3.3. Preprocessing
Tahap pre-processing atau praproses data merupakan proses untuk mempersiapkan
data mentah sebelum dilakukan proses lain. Pada umumnya, praproses data dilakukan
dengan cara mengeliminasi data yang tidak sesuai atau mengubah data menjadi bentuk yang
lebih mudah diproses oleh sistem. Praproses sangat penting dalam melakukan analisis
sentimen, terutama untuk media sosial yang sebagian besar berisi kata-kata atau kalimat
yang tidak formal dan tidak terstruktur serta memiliki noise yang besar. Tahap
Preprocessing yang dilakukan terhadap data tweet adalah sebagai berikut :
Sebelum Setelah
Terkadang aku menangis ketika ada teman yang terkadang aku menangis ketika ada teman
menceritakan kebahagiaan suasana keluarganya
yang menceritakan kebahagiaan suasana
ungkin aku iri
keluarganya mungkin aku iri
3.3.2. Tokenisasi
Pada tahap ini dilakukan tokenisasi yaitu tahap pemotongan string input berdasarkan
tiap kata yang menyusunnya Tokenisasi secara garis besar memecah sekumpulan karakter
dalam suatu teks ke dalam satuan kata, bagaimana membedakan karakter-karakter tertentu
yang dapat diperlakukan sebagai pemisah kata atau bukan.
Sebelum Setelah
Terkadang aku menangis ketika ada teman yang Terkadang | aku | menangis | ketika |ada |
menceritakan kebahagiaan suasana keluarganya
teman | yang | menceritakan | kebahagiaan |
mungkin aku iri
suasana | keluarganya | mungkin | aku | iri |
3.3.3. Fitering
Pada tahap ini dilakukan filtering dengan penghapusan stop-words atau tahap
mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist
(membuang kata kurang penting) atau wordlist (menyimpan kata penting). Stoplist/stopword
adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words
Sebelum Setelah
Terkadang aku menangis ketika ada teman yang Aku menangis ketika teman menceritakan
menceritakan kebahagiaan suasana keluarganya
kebahagiaan keluarganya aku iri
mungkin aku iri
3.3.4. Stemming
Pada tahap stemming yaitu mengubah term kembali menjadi bentuk kata dasar. Atau
Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari
suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata
dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena
mendapatkan imbuhan yang berbeda
Sebelum Setelah
Terkadang aku menangis ketika ada teman yang Kadang aku nangis ketika ada teman yang
menceritakan kebahagiaan suasana keluarganya
cerita Bahagia suasana keluarga mungkin aku
mungkin aku iri
iri
3.4. Pembobotan
Pada tahap ini data yang tadi telah di preprocessing akan melakukan pembobotan
kata dengan menggunakan metode TF-IDF.
[1] Z. F. Nurhadi, Model Komunikasi Sosial Remaja Melalui Media Twitter, vol. 3, pp. 1-11, 2017.
[2] I. A. A. S. Mohammad Imron Maulana, Klasifikasi Tingkat Stres Berdasarkan Tweet pada Akun Twitter
menggunakan Metode Improved k-Nearest Neighbor dan Seleksi Fitur Chi-square, Vols. 3, No 07, pp. 1-
8, 2019.
[3] M. M. R. Dumilah Ayuningtyas, Analisis Situasi Kesehatan Mental Pada Masyarakat Di IndonesiaDan
Strategi Penanggulangannya, vol. 9 No 1, pp. 1-10, 2018.
[4] N. W. Kurniawan, Prediksi Tingkat Depresi Berdasarkan Status Pada Media Sodial Menggunkan
Metode Support Vctore Mechine danCertainty Factor, pp. 1-9, 2018.
[5] A. Dirgayunita, Depresi: Ciri, Penyebab dan Penangannya, vol. 1 No 1, pp. 1-14, 2016.
[6] D. H. S. A. C. I. K. Meilanny Budiarti Santoso, Bunuh Diri Dan Depresi Dalam Perspektif Pekerjaan Sosial,
vol. 4 No 3, pp. 1-9, 2017.
[7] M. G. S. C. E. H. Munmun De Choudhury, Predicting Depression via Social Media, pp. 1-10, 2013.
[8] R. J. Anshu Malhotra, Multimodal Deep Learning based Framework for Detecting Depression and
Suicidal Behaviour by Affective Analysis of Social Media Posts, pp. 1-9, 2018.
[9] B. Y. Pratama, Klasifikasi Tingkat Depresi Berdasarkan Tulisan Di Twitter Menggunakan Metode Naive
Bayes Classifier, Support Vector Mechine, K-Nearest Neighbor, pp. 1-131, 2015.
[10] M. A. M. P. S. A. M. M. I. Nafiz Al Asad, Depression Detection by Analyzing Social Media Posts of User,
pp. 1-17, 2019 IEEE International Conference on Signal Processing, Information, Communication &
Systems (SPICSCON), Dhaka, Bangladesh.
[12] P. Andana, Terapi Murattal Untuk Menurunkan Depresi, pp. 1-58, 2017.
[14] M. R. R. A. P. T. M. Syukri Mustafa, Implementasi Data Mining untuk Evaluasi Kinerja Akademik
Mahasiswa Menggunakan Algoritma Naive Bayes Classifier (NBC), Vols. Vol 4, No 2, pp. 1-151, 2017.
[16] Y. H. C. R. Y. Luthfia Oktasari, Text Mining Dalam Analisis Sentiment Asuransi Menggunakan Metode
Naive Byes Classifier (NBC), Vols. Vol.1, No. 1, pp. 1-6, 2016.
[17] V. A. H. B. S. T. D. Ria Melita, Penerapan Metode Term Frequency Invers dokumen frequency, vol. Vol.
11 No.2, pp. 1-16, 2018.
[18] F. I. N. Haq, Implementasi Naive Bayes Classifier untuk Prediksi KepribadianBig Five pada Twitter
Menggunakan Term Frequency-Inverse Document Frequency (TF-IDF) dan Term Frequency-Relevance
Frequency (TF-RF), vol. Vol.6 No.2, pp. 1-11, 2019.