Proposal 28sept

ANALISIS SENTIMEN PADA SOSIAL MEDIA
MENGGUNAKAN ALGORITMA NAIVE BAYES CLASSIFIER

(NBC) TERHADAP TINGKAT KEPUASAN MASYARKAT
DALAM MENGGUNAKAN LAYANAN DATA OPERATOR
TELEKOMUNIKASI DI INDONESIA
PROPOSAL TUGAS AKHIR
Kelompok Kompetensi : Intelligence System And Machine Learning
Oleh :
Fitri Febriyani S
1103144063
Program Studi Sarjana Sistem Komputer

Fakultas Teknik Elektro
Universitas Telkom
Bandung
2017
i
LEMBAR PERSETUJUAN
ANALISIS SENTIMEN PADA SOSIAL MEDIA

MENGGUNAKAN ALGORITMA NAIVE BAYES CLASSIFIER
(NBC) TERHADAP TINGKAT KEPUASAN MASYARKAT
DALAM MENGGUNAKAN LAYANAN DATA
OPERATOR TELEKOMUNIKASI DI INDONESIA
SENTIMENT ANALYSIS ON SOCIAL MEDIA USING THE

NAIVE BAYES CLASSIFIER (NBC) ALGORITHM
ON THE LEVEL OF PUBLIC SATISFACTION IN USING DATA

SERVICE TELECOMMUNICATION OPERATORS
IN INDONESIA
Fitri Febriyani S
NIM : 1103144063
Disusun dalam rangka memenuhi persyaratan dalam mengajukan Tugas Akhir
pada Program Studi Sarjana Sistem Komputer
Fakultas Teknik Elektro
Universitas Telkom
Proposal ini disetujui untuk menyelesaikan Tugas Akhir

Bandung, 20 September 2017
Calon Pembimbing I Calon Pembimbing II
Muhammad Nasrun, S.Si., M.T Casi Setianingsih, S.T., M.T

NIP. 10750046 NIP. 15890015
i
ABSTRAK
Pada saat ini, yang paling populer adalah media sosial seperti Twitter,
Instagram, Facebook, Path dan lain-lain. Media sosial dapat dimanfaatkan sebagai
sumber informasi untuk sebuah perusahaan atau organisasi untuk melihat pendapat
kosumen atau masyarakat terhadap kualitas layanan terhadap suatu produk.
Telkomsel merupakan salah satu perusahaan operator seluer terbesar di

Indonesia dengan pengguna terbanyak dan jangkauan jaringan terluas di Indonesia.
Akan tetapi situs resmi Telkomsel pernah diretas oleh hacker dengan menampilkan
protes-protes terhadap harga kuota internet dan mencantumkan kalimat menghujat
dengan kata-kata kotor di laman resmi Telkomsel dan sudah merusak nama baik
perusahaan Telkomsel. Hal ini membuat penulis ingin melakukan penelitian
analisis sentimen terhadap Telkomsel melalui akun resmi Telkomsel pada Twitter
dan Instagram untuk mengetahui pendapat seluruh masyarakat Indonesia pada saat
ini terhadap pelayanan Telkomsel dengan situs resmi Telkomsel yang sudah pulih
dari kerusakan yang dilakukan oleh hacker.
Analisis sentimen merupakan teknik untuk mendeteksi opini terhadap suatu

objek dalam sebuah kumpulan data. Dalam analisis sentimen akan dilakukan
pengumpulan data melalui API (Application Programming Interface) yang sudah
tersedia pada Twitter dan Instagram. Selanjutnya dilakukan tahap preprocessing
untuk memperoses data awal mentah dan melakukan pembobotan kata dengan
perhitungan TF-IDF serta melakuakan klasifikasi menggunakan metode Naive
Bayes Classifier (NBC).
Kata Kunci : Twitter, Instagram, Analisis sentimen, Preprocessing, TF-IDF, Naive

Bayes Classifier
ii
ABSTRACT
Currently, the most popular are social media like Twitter, Instagram,
Facebook, Path and others. Social media can be used as a source of information
for companies or organizations to view the opinions of consumers or the public on
the quality of service to a product.
Telkomsel is one of the largest mobile operator companies in Indonesia with

the most users and the widest network coverage in Indonesia. However, the official
website of Telkomsel was hacked by hackers by showing a protest against internet
quota prices and including blasphemous words with dirty words on the official page
of Telkomsel that has damaged the good name of Telkomsel company. This allows
authors to conduct a research analysis of sentiment towards Telkomsel through
Telkomsel official account on Twitter and Instagram to find out the public opinion
of Telkomsel's current service with Telkomsel's official website that has recovered
from the damage done by hackers.
Sentiment analysis is a technique for a collection of data sets. In the

sentiment analysis will be done data through API (Application Programming
Interface) which is available on Twitter and Instagram. The preprocessing stage is
then processed to process raw data and weighting the word using TF-IDF
calculations and using the Naive Bayes Classifier (NBC) method.
Keywords: Twitter, Instagram, Sentiment Analysis, Preprocessing, TF-IDF, Naive

Bayes Classifier
iii
KATA PENGANTAR
Puji syukur atas kehadirat Alloh SWT karena berkat rahmat dan karunia-
Nya penulis dapat meyelesaikan proposal ini. Penulis juga mengucapan terimakasih
kepada pihak yang telah memberikan dukungan serta membantu dalam pembuatan
proposal ini.
Peyusunan proposal penelitian ini bertujuan untuk memenuhi syarat untuk

mengajuka Tugas Akhir pada program studi Sistem Komputer, Universitas Telkom.
Dalam penulisan proposal ini peneliti menyadari bahwa masih terdapat

kekurangan dalam penyusunan proposal ini. Maka dari itu penulis mengharapkan
saran dan kritik untuk perbaikan dimasa yang akan datang. Semoga proposal
penelitian ini dapat bermanfaat.
Bandung, September 2017
Penulis
iv
DAFTAR ISI
LEMBAR PERSETUJUAN..................................................................................... i
ABSTRAK .............................................................................................................. ii
ABSTRACT ........................................................................................................... iii
KATA PENGANTAR ........................................................................................... iv
DAFTAR ISI ........................................................................................................... v
DAFTAR GAMBAR ............................................................................................ vii
DAFTAR TABEL ................................................................................................ viii
BAB I PENDAHULUAN ....................................................................................... 1
1.1 Latar Belakang Masalah .............................................................................. 1
1.2 Perumusan Masalah ..................................................................................... 2
1.3 Tujuan.......................................................................................................... 2
1.4 Batasan Masalah .......................................................................................... 3
1.5 Hipotesa ....................................................................................................... 3
BAB II TINJAUAN PUSTAKA............................................................................. 4
2.1 Twitter dan Twitter API .............................................................................. 4
2.2 Instagram dan Instagram API........................................................................ 4
2.3 Pengumpulan dan Pelabelan Sentimen ....................................................... 5
2.4 Preprocessing .............................................................................................. 5
3.2.1 Tokenization...................................................................................... 5
3.2.2 Cleansing ........................................................................................... 5
3.2.3 Filtering ............................................................................................. 6
3.2.4 Convert Negation .............................................................................. 6
2.5 TF-IDF ........................................................................................................ 6
2.6 Part of Speech (POS) Tagging .................................................................... 6
v
2.7 Naive Bayes Classifier ................................................................................ 7
BAB III METODOLOGI PENELITIAN................................................................ 8
3.1 Studi Literatur ............................................................................................. 8
3.2 Perancangan .................................................................................................. 8
3.2.1 Dataset Opini ..................................................................................... 9
3.2.2 Pre-processing ................................................................................... 9
3.2.3 POS (Part of Speech) Tagging ........................................................ 10
3.2.4 Penentuan Kelas Atribut ................................................................. 11
3.2.5 Pembobotan Kata ............................................................................ 11
3.2.6 Klasifikasi menggunakan Naive Bayes Classifier .......................... 11
3.2.7 Kesimpulan ..................................................................................... 12
3.3 Pengujian ..................................................................................................... 12
3.4 Analisis dan Evaluasi .................................................................................. 12
3.5 Keluaran yang diharapkan........................................................................... 12
BAB IV JADWAL KEGIATAN .......................................................................... 13
4.1 Jadwal Kegiatan ........................................................................................ 13
DAFTAR PUSTAKA ........................................................................................... 15
vi
DAFTAR GAMBAR
Gambar 1. Flow Diagram Analisis Sentimen ............................................................. 8
Gambar 2. Tahap-tahap Pre-processing.............................................................9
vii
DAFTAR TABEL
Tabel 4. 1 Jadwal Kegiatan ................................................................................13
viii
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Pada saat ini merupakan masa modern dengan adanya teknologi yang
berkembang dengan pesat. Salah satu yang paling populer pada saat ini di
Indonesia adalah pengguna internet yang semakin meningkat pada beberapa
tahun terakhir. Melalui hasil survei APJII (Asosiasi Penyelenggara Jasa Internet
Indonesia) statistik pengguna internet tahun 2015 jumlah pengguna internet di
Indonesia sebesar 139 juta [1]. Perilaku pengguna media sosial pada tahun 2015
sebesar 87,4% dari total responden [1]. Sedangkan pada tahun 2016 pengguna
internet di Indonesia mencapai 132,7 juta dan pengguna aktif media sosial
mencapai 129,2 juta sekitar 97,4% dari jumlah penduduk di Indonesia [2].
Media sosial menghasilkan data yang bervolume besar atau kaya akan
sentimen dalam bentuk tweets, update status, posting blog, komentar dan lain-
lain [3]. Masyarakat banyak menggunakan media sosial untuk mengekspresikan
opini, pengalaman maupun hal lain yang menjadi perhatian mereka [1]. Hal ini
dapat dimanfaatkan sebagai sumber informasi untuk sebuah perusahaan atau
organisasi untuk melihat opini konsumen atau masyarakat terhadap kualitas
layanan, prediksi penjualan, sosial, politik, strategi perusahaan dan pemantauan
terhadap sebuah produk [4].
Penelitian ini memanfaatkan media sosial sebagai sumber informasi

atau data untuk melakukan analisis sentimen terhadap tingkat kepuasan
masyarkat pada operator seluler di Indonesia. Data yang akan dikumpulkan
pada penelitian ini merupakan berbentuk teks berbahasa Indonesia melalui
Twitter dan komentar pada Instagram. Analisis sentimen adalah sebuah teknik
untuk mendeteksi opini terhadap suatu objek (misalnya individu, orgnaisasi
atupun produk) dalam sebuah kumpulan data [1]. Dalam analisis sentimen hal
mendasar yang dilakukan adalah pengelompokan polaritas kata yang berasal
dari setiap kalimat atau pendapat pada tiga sifat, yaitu positf, netral dan negatif.
1
Adapun proses yang akan dilakukan pada penelitian ini adalah
preprocessing dimana data yang sudah disiapkan menjadi data yang siap untuk
dianalisis [1]. Terdapat beberapa metode Machine Learning yang dapat
dilakukan untuk menganalisis sentimen. Namun pada penelitian ini akan
dilakukan dengan metode Naive Bayes Classifier (NBS). Metode Naive Bayes
Classifier merupakan teknik pembelajaran mesin yang berbasis probablistik [5].
1.2 Perumusan Masalah
Adapun perumusan masalah berdasarkan latar belakang di atas adalah

sebagai berikut :
1. Bagaimana mengklasifikasi data melalui media sosial dengan

menggunakan algoritma Naive Bayes Classifier untuk mengetahui tingkat
kepuasan masyarakat terhadap operator selular?
2. Bagaimana tingkat keakurasi data pada tingkat kepuasan masyarakat
terhadap operator selular dengan menggunakan algoritma Naive Bayes
Classifier?
1.3 Tujuan
Adapun tujuan yang ingin dicapai pada penelitian ini adalah dapat
memberikan informasi kepada masyarakat tentang kepuasan masyarakat
diseluruh Indonesia dalam menggunakan operator seluler sehingga masyarakat
dapat memilih operator seluler yang baik digunakan sesuai kebutuhannya
masing-masing.
2
1.4 Batasan Masalah
Adapun batasan masalah dalam penyusunan tugas akhir ini adalah

sebagai beerikut.
1. Dalam melakukan klasifikasi sentimen digunakan algoritma Naive Bayes

Classifier.
2. Jumlah data yang digunakan sebanyak 10.000 data melalui tweet dan
komentar pada Instagram terkait tentang tingkat kepuasan masyarakat
terhadap operator selular dengan bahasa Indonesia.
3. Melakukan Pos tagging dengan menggunakan tools yang sudah ada.
1.5 Hipotesa
Perancangan aplikasi ini menggunakan bahasa pemograman Python

yang akan menampilkan hasil perbandingan sentimen positif, sentimen netral
dan sentimen negatif melalui data yang didapat dari Twetter dan komentar pada
Instagram dengan tampilan berupa diagram terkait tingkat kepuasan masyarakat
terhadap layanan data operator telekomunikasi. Serta menampilkan hasil
perhitungan yang akurat dari perbandingan klasifikasi yang dihasilkan
sebelumnya dengan menggunakan algoritma Naive Bayes Classifier (NBC).
3
BAB II
TINJAUAN PUSTAKA
2.1 Twitter dan Twitter API
Twitter merupakan salah satu media sosaial dan memiliki layanan

microblogging yang penggunanya dapat melakukan pengiriman pesan secara
realtime yang biasa disebut dengan tweet. Panjang karakter tweet dibatasi hanya
sampai 140 karakter. Twitter merupakan tempat untuk berbagi pengalaman dan
juga akan mudah penggunanya dalam mengikuti berita, tren dan informasi dari
seluruh penjuru dunia [1].
Twitter merupakan salah satu media sosial yang menyediakan API

(Application Programming Interface) yang dapat digunakan untuk
mengumpulkan tweet secara streaming melalui Twitter serta dapat menyimpan
setiap tweet sesuai waktu posting [6].
2.2 Instagram dan Instagram API
Instagram merupakan media sosial yang penggunanya dapat berbagi

foto dan dapat menyukai serta memberikan komentar terhadap foto pengguna
lain. Semua foto yang diunggah dapat diberi caption dan hashtag, termasuk
tagging terhadap pengguna lain. Selain foto, pengguna Instagram juga dapat
berbai video berdurasi pendek (kurang lebih 1 menit) [7].
Instagram juga menyediakan API (Application Programming

Interface) yang merupakan tool pemrograman berbasis layanan yang dapat
digunakan untuk mengakses pencarian tag, pencarian foto, tranding foto, print
foto, custom item, feeds dan komentar-komentar yang terdapat pada Instagram
menggunakan bahasa pemrograman tertentu dari sisi programmer (developer)
[7].
4
2.3 Pengumpulan dan Pelabelan Sentimen
Data yang akan diambil berupa kalimat opini melalui Twitter dan
komentar Instagram dalam berbahasa Indonesia. Data yang diambil secara acak
melalui Twitter dan komentar Instagram dengan beberapa kata kunci yang
berhubungan dengan layanan data operator telekomunikasi. Layanan data
perator yang akan menjadi objek pada penelitian ini adalah SimPATI, Tri, XL
Axiata dan Indosat Ooredoo. Pengumpulan data dilakukan dengan
memanfaatkan Twitter API dan Instagram API.
Dari keseluruhan komentar masyarakat melalui Instagram dan Twitter

yang sudah dikumpulkan menjadi dataset akan dibagi menjadi dua klasifikasi
yaitu sentimen positif dan sentimen negatif. Melalui dataset tersebut akan
dilakukan pelabelan untuk setiap kata-kata dari komentar atau tweet. Pelabelan
akan dibagi menjadi 3 kelas yaitu positif, netral dan negatif.
2.4 Preprocessing
Pada tahap preprocessing merupakan tahap dimana data awal mentah

akan dilakukan proses tokenization, cleansing, filtering dan convert negation.
3.2.1 Tokenization
Proses tokenisasi merupakan proses yang dilakukan untuk

memisahkan setiap kata dari kalimat tweet atau komentar menjadi
beberapa kata yang berdiri sendiri [8]. Pada proses tokenisasi juga dapat
dilakukan pembuangan tanda baca yang tidak doperlukan [1].
3.2.2 Cleansing
Dilakukakan tahap cleansing untuk membuang setiap tanda

yang tidak dibutuhkan seperti tanda tanya, tanda seru, koma dan titik
[1]. Salah satu tujuan dari pembuangan tanda baca yaitu untuk
menghindari terganggunya proses klasifikasi.
5
3.2.3 Filtering
Proses filtering merupakan tahapan untuk menghilangkan kata-

kata yang tidak penting atau kata-kata yang kurang berpengaruh pada
proses klasifikasi [8]. Proses ini mennggunakan stopward list.
Stopward merupakan kata yang dianggap tidak memiliki makna [1].
3.2.4 Convert Negation
Metode Naive Bayes Classifier akan dikombinasikan dengan

fitur untuk mendeteksi kata negasi. Negasi merupakan suatu yang
dikenal dalam semua bahasa dan biasanya negasi digunakan untuk
mengubah polaritas dari suatu pernyataan [9]. Kata negasi adalah kata
yang dideteksi positif dapat berubah menjadi negatif begitupun
sebaliknya. Kata-kata negasi dapat dilihat dari kamus yang berisikan
kata negasi [10]
2.5 TF-IDF
Pembobotan kata dilakukan dengan perhitungan TF-IDF (term

ferquency inverse document frequency). TF-IDF adalah teknik pembobotan
berbasis statistik. Bobot kalimat diperoleh dari penjumlahan bobot term pada
sebuah kalimat, dimana term dapat berupa kata, frasa atau tipe sintatik lainnya
[11].
2.6 Part of Speech (POS) Tagging
POS tagging adalah sebuah proses untuk memberikan kelas pada sebuah
kata dan dilakukan dengan cara parsing, kemudian ditentukan kelas untuk
setiap kata dengan bantuan kamus yang dibuat sendiri berdasarkan KBBI
(Kamus Besar Bahasa Indonesia) [10]. POS tagging merupakan hal yang
mendasar dalam melakukan pengolahan bahasa alami seperti kata
disambiguasi, penguraian, penjawab pertanyaan dan terjemahan mesin. Hal
utama dalam penggunaan POS tagging pada analisis ini adalah untuk mengatasi
kata-kata yang bersifat ambiguitas [12].
6
2.7 Naive Bayes Classifier
Dalam proses klasifiksi data dilakukan dengan menggunakan algoritma

Naive Bayes Classifier (NBC). Naive Bayes Classifier adalah algoritma
klasifikasi statistik berdasarkan teorema Bayes. Algoritma ini menunjukkan
kinerja prediktif yang tinggi dan memperoleh hasil yang sebanding dengan
teknik klasifikasi lainnya, seperti pohon keputusan dan jairngan syaraf tiruan
[13].
Naive Bayes Classifier mengasumsikan bahwa keberadaan sebuah fitur

dalam sebuah kelas tidak ada kaitannya dengan keberadaan fitur lainnya.
Misalkan sesuatu dapat dianggap buah apel jika berwarna kuning, bulat dan
berdiameter sekitar 3 inch. Walaupun fitur ini saling berkaitan antara satu
dengan yang lainnya, NBC tetap menganggap fitur tersebut independen [14].
7
BAB III
METODOLOGI PENELITIAN
3.1 Studi Literatur
Studi literatur atau studi pustaka dilakukan dengan mengumpulkan

beberapa buku, jurnal, artikel, makalah dan situs internet sebagai bahan
referensi yang berkaitan dengan Naive Bayes Classifier, Data Mining, Analisis
Sentimen dan lain-lain.
3.2 Perancangan
Perancangan sistem aplikasi pada penelitian ini akan dibuat sebuah

aplikasi yang menggunakan bahasa pemograman Python yang akan
memberikan perbandingan sentimen positif, netral dan negatif dalam bentuk
grafik tentang kepuasan masyarakat dalam menggunakan layanan data operator
telekomunikasi dengan menggunakan algoritma Naive Bayes Classifier. Tahap-
tahap metodologi yang dilakukan pada penelitian ini dapat dilihat pada Gambar
1 berikut.
Gambar 1. Flow Diagram Analisis Sentimen
8
3.2.1 Dataset Opini
Tahap awal yang dilakukan adalah mengumpulkan data dengan

menggunakan Twitter API dan Instagram API kemudian data terebut
disusun dalam bentuk dataset. Data yang dukumpulkan dalam dataset
sebanyak 10.000 data sentimen. Twitter API digunakan untuk
pengambilan data sentimen melalui akun resmi SimPATI, Tri, XL
Axiata dan Indosat Ooredoo pada Twitter. Sedangkan Instagram API
digunakan untuk pengambilan data sentimen melalui komentar foto
pada akun resmi SimPATI, Tri, XL Axiata dan Indosat Ooredoo pada
Instagram.
3.2.2 Pre-processing
Pada tahap ini akan dilakukan pemrosesan data yang sudah

dikumpulkan sebelumnya pada dataset. Ada beberapa proses yang
dilakukan pada tahap pre-processing ini, yaitu sebagai berikut.
Gambar 2. Tahap-tahap Pre-processing
9
a. Tokenization
Proses tokenization dilakukan untuk memotong kalimat
menjadi beberapa bagian atau kata-kata. Hasil dari pemotongan ini
disebut dengan token.
b. Cleansing
Kemudian proses Cleansing untuk membuang karakter serta

tanda baca yang tidak dibutuhkan, seperti koma, titik, tanda seru
dan tanda tanya.
c. Filtering
Sedangkan Filtering dilakukan untuk membuang kata-kata

yang dianggap tidak memiliki makna (stopwords) sehingga
pengguna dapat berfokus pada kata-kata yang lebih penting dari
pada kata-kata terlalu umum digunakan.
d. Convert Negation
Pada proses ini dilakukan untuk mendeteksi kata-kata yang

bersifat negasi. Misalkan kata bagus yang dideteksi sebuah kata
positif dapat berubah menjadi kata negatif karena adanya kata
tidak sebelum kata tersebut.
3.2.3 POS (Part of Speech) Tagging
Pada tahap POS tagging dilakukan untuk memberikan lebel atau

kelas sebuah kata pada suatu kalimat. POS tagging dimanfaatkan untuk
mengatasi kata-kata yang sifatnya ambigu karena terdapat beberapa
kalimat yang memiliki kata yang maknanya dapat berubah dalam
konteks pemakaiannya. Hal ini juga dapat mempermudah penulis
untuk melakukan klasifikasi secara manual.
10
3.2.4 Penentuan Kelas Atribut
Pemberian kelas atribut dilakukan untuk memisah sentimen

sesuai kelas tertentu. Terdapat 3 kelas yang akan digunakan pada
analisis ini yaitu, kelas positif, kelas netral dan kelas negatif.
3.2.5 Pembobotan Kata
Pembobotan kata dilakukan untuk memberikan skor atau nilai

terhadap frekuensi kemunculan sebuah kata dalam dokumen. Proses ini
bertujuan untuk mencari seberapa sering munculnya sebuah kata dalam
satu dokumen dengan menggunakan perhitungan TF-IDF (Term
Frequency-Inverse Document Frequency).
3.2.6 Klasifikasi menggunakan Naive Bayes Classifier
Pada proses ini dilakukan untuk mencari nilai probabilitas

tertinggi dari data uji dalam kategori yang paling tepat. Melalui data uji
yang sudah disusun sebelumnya probabilitasnya akan dihitung
menggunakan naive bayes classifier melalui beberpa tahap, yaitu
sebagai berikut.
1. Memeprsiapkan atau menyusun data uji

2. Data uji tersebut diubah menjadi data frekuensi dengan
membedakan setiap kata ke dalam kelas positif, netral dan negatif
3. Menghitung probabilitas kelas positif, netral dan negatif
4. Menghitung proabilitas likelihood (kemungkinan) P(w|c), dimana
w adalah atribut kata dan c adalah kelasnya
5. Mengalikan semua peluang atau probabilitas P(w|c) sebelumnya
6. Menentukan kelas menurut nilai terbesar dari hasil yang telah
didapat.
11
3.2.7 Kesimpulan
Kemudian dilakukan penarikan kesimpulan dari hasil yang

didapat dari proses-proses sebelumnya dengan melakukan pengujian
melalui tiga parameter, yaitu accuracy, precision dan recall.
3.3 Pengujian
Pada analisis sentimen ini dilihat dari parameter berikut.
a. Pengujian Komposisi Data

Dari data yang berhasil dikumpulkan akan dibagi menjadi dua
bagian, yaitu training data dan testing data. Training data digunakan
untuk melatih sistem agar dapat mengenali pola yang sedang dicari.
Kemudian testing data yang digunakan untuk menguji hasil dari pelatihan
yang sudah dilakukan sebelumnya.
b. Pengujian dengan metode Naive Bayes Classifier
Penelitian ini dilakukan dengan mengumpulan 10.000 data melalui
Twitter dan Instagram. Kemudian dari data tersebut akan dicari nilai
probablitas tertinggi dengan menggunakan metode Naive Bayes Classifier.
Selanjutnya dilakukan pengujian melalui tiga parameter, yaitu accuracy,
precision dan recall.
3.4 Analisis dan Evaluasi
Dilakukan analisis untuk mengidentifikasi permasalahan yang terjadi

setelah melakukan proses analisis setimen dari data yang sudah dikumpulkan.
Kemudian dilakukan evaluasi untuk mencari solusi dari permasalahan yang
sudah diidentifikasi sebelumnya dan melakukan perbaikan.
3.5 Keluaran yang diharapkan
Aplikasi yang dibangun dapat menghasilkan perbandingan jumlah dari

sentimen positif, netral dan negatif. Serta dapat menghasilkan klasifikasi data
menggunakan algoritma Naive Bayes Classifier.
12
BAB IV
JADWAL KEGIATAN
4.1 Jadwal Kegiatan
Agar dalam pembuatan tugas akhir ini berjalan dengan baik, selesai tepat waktu
dan memperoleh hasil yang diharapkan, maka pentingnya jadwal kegiatan
pengerjaan tugas akhir. Berikut jadwal kegiatan yang direncanakan adalah:
Tabel 4. 2 Jadwal Kegiatan
No Januari Februari Maret April Mei Target

Rencana
. 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Memahami
sistem yang
Studi akan
Literatur dibangun
1. dan serta
Pengumpul mengumpul
an data kan data
yang
dibutuhkan.
Perancanga
n sistem
Perancanga mulai dari
2.
n Sistem metode serta
tools yang
digunakan.
Metode,
tools semua
sudah
diperhitung
kan
3. Pemodelan
sehingga
untuk
pembuatan
aplikasi
sudah siap.
Pembuatan Aplikasi
4. Perangkat sudah dapat
Lunak berjalan
Aplikasi
berjalan
5. Pengujian
baik dan
mengetahui
13
kesalahan
aplikasi.
Perbaikan
aplikasi
Analisis berdasarkan
6. dan hasil
Evaluasi pengujian
dan hasil
evaluasi.
Buku TA
Pembuatan selesai tanpa
7.
Buku TA banyak
revisi.
14
DAFTAR PUSTAKA
[1] N. Muchammad Shiddieqy Hadna, P. Insap Santosa dan W. Wahyu Winarno,

STUDI LITERATUR TENTANG PERBANDINGAN METODE UNTUK
PROSES, Seminar Nasional Teknologi Informasi dan Komunikasi 2016
(SENTIKA 2016), pp. 57-64, 2016.
[2] APJII, Survei Internet APJII 2016, November 2016. [Online]. Available:
http://www.apjii.or.id/survei. [Diakses 8 September 2017].
[3] S. S. Sonawane dan V. A. Kharde, Sentiment Analysis of Twitter Data: A

Survey of Techniques, International Journal of Computer Applications
(0975 8887), pp. 5-15, 2016.
[4] J. Ipmawati, Kusrini dan E. Taufiq Luthfi, Komparasi Teknik Klasifikasi

Teks Mining Pada Analisis Sentimen, IJSE Indonesian Journal on
Software Engineering, vol. 2, pp. 75-83, 2016.
[5] J. Ling, . P. Eka N. Kencana dan T. Bagus Oka, ANALISIS SENTIMEN

MENGGUNAKAN METODE NAVE BAYES CLASSIFIER DENGAN
SELEKSI FITUR CHI SQUARE, E-Jurnal Matematika, vol. 3, pp. 92-99,
2014.
[6] M. Trupthi, S. Pabboju dan G. Narasimha, SENTIMENT ANALYSIS ON

TWITTER USING STREAMING API, International Advance Computing
Conference, pp. 915-919, 2017.
[7] A. Rachmat C dan Y. Lukito, Deteksi Komentar Spam Bahasa Indonesia

Pada Instagram Menggunakan Naive Bayes, ULTIMATICS, vol. IX, pp. 50-
58, 2017.
[8] G. Asrofi Buntoro, ANALISIS SENTIMEN HATESPEECH PADA

TWITTER DENGAN METODE NAVE BAYES CLASSIFIER DAN
15
SUPPORT VECTOR MACHINE, Jurnal Dinamika Informatika, vol. 5,
2016.
[9] A. Fathan Hidayatullah dan A. SN, ANALISIS SENTIMEN DAN

KLASIFIKASI KATEGORI TERHADAP TOKOH PUBLIK PADA
TWITTER, Seminar Nasional Informatika, pp. 115-122, 2014.
[10] G. Asrofi Buntoro, T. Bharata Adji dan A. Erna Purnamasari, Sentiment

Analysis Twitter dengan Kombinasi Lexicon Based dan Double
Propagation, CITEE , pp. 39-43, 2014.
[11] D. Haryalesmana Wahid dan A. SN, Peringkasan Sentimen Esktraktif di

Twitter Menggunakan Hybrid TF-IDF dan Cosine Similarity, IJCCS, vol.
10, pp. 207-218, 2016.
[12] A. Farizki Wicaksono dan A. Purwarianti, HMM Based Part-of-Speech

Tagger for Bahasa Indonesia, On Proceedings of 4th International
MALINDO (Malay and Indonesian Language) Workshop, 2010.
[13] A. Onan, S. Koruko dan H. Bulut, A multiobjective weighted voting

ensemble classier based on differential evolution algorithm for text
sentiment classication, ELSEVIER, pp. 1-16, 2016.
[14] A. Goel, J. Gautam dan S. Kumar, Real Time Sentiment Analysis of Tweets
Using Naive Bayes, 2016 2nd International Conference on Next Generation
Computing Technologies (NGCT-2016), pp. 257-261, 2016.
[15] K. Ariansyah, Proyeksi Jumlah Pelanggan Telepon Bergerak Seluler di

Indonesia, Buletin Pos dan Telekomunikasi, vol. 12, pp. 151-166, 2014.
16

Proposal 28sept

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal 28sept

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS SENTIMEN PADA SOSIAL MEDIA

MENGGUNAKAN ALGORITMA NAIVE BAYES CLASSIFIER

PROPOSAL TUGAS AKHIR

Kelompok Kompetensi : Intelligence System And Machine Learning

Program Studi Sarjana Sistem Komputer

ANALISIS SENTIMEN PADA SOSIAL MEDIA

OPERATOR TELEKOMUNIKASI DI INDONESIA

SENTIMENT ANALYSIS ON SOCIAL MEDIA USING THE

ON THE LEVEL OF PUBLIC SATISFACTION IN USING DATA

Proposal ini disetujui untuk menyelesaikan Tugas Akhir

Calon Pembimbing I Calon Pembimbing II

Muhammad Nasrun, S.Si., M.T Casi Setianingsih, S.T., M.T

Telkomsel merupakan salah satu perusahaan operator seluer terbesar di

Analisis sentimen merupakan teknik untuk mendeteksi opini terhadap suatu

Kata Kunci : Twitter, Instagram, Analisis sentimen, Preprocessing, TF-IDF, Naive

Telkomsel is one of the largest mobile operator companies in Indonesia with

Sentiment analysis is a technique for a collection of data sets. In the

Keywords: Twitter, Instagram, Sentiment Analysis, Preprocessing, TF-IDF, Naive

Peyusunan proposal penelitian ini bertujuan untuk memenuhi syarat untuk

Dalam penulisan proposal ini peneliti menyadari bahwa masih terdapat

Bandung, September 2017

ABSTRACT ........................................................................................................... iii

KATA PENGANTAR ........................................................................................... iv

DAFTAR ISI ........................................................................................................... v

DAFTAR GAMBAR ............................................................................................ vii

DAFTAR TABEL ................................................................................................ viii

BAB I PENDAHULUAN ....................................................................................... 1

1.1 Latar Belakang Masalah .............................................................................. 1

1.2 Perumusan Masalah ..................................................................................... 2

1.4 Batasan Masalah .......................................................................................... 3

1.5 Hipotesa ....................................................................................................... 3

BAB II TINJAUAN PUSTAKA............................................................................. 4

2.1 Twitter dan Twitter API .............................................................................. 4

2.2 Instagram dan Instagram API........................................................................ 4

2.3 Pengumpulan dan Pelabelan Sentimen ....................................................... 5

2.4 Preprocessing .............................................................................................. 5

3.2.2 Cleansing ........................................................................................... 5

3.2.3 Filtering ............................................................................................. 6

3.2.4 Convert Negation .............................................................................. 6

2.5 TF-IDF ........................................................................................................ 6

2.6 Part of Speech (POS) Tagging .................................................................... 6

BAB III METODOLOGI PENELITIAN................................................................ 8

3.1 Studi Literatur ............................................................................................. 8

3.2 Perancangan .................................................................................................. 8

3.2.1 Dataset Opini ..................................................................................... 9

3.2.2 Pre-processing ................................................................................... 9

3.2.3 POS (Part of Speech) Tagging ........................................................ 10

3.2.4 Penentuan Kelas Atribut ................................................................. 11

3.2.5 Pembobotan Kata ............................................................................ 11

3.2.6 Klasifikasi menggunakan Naive Bayes Classifier .......................... 11

3.2.7 Kesimpulan ..................................................................................... 12

3.3 Pengujian ..................................................................................................... 12

3.4 Analisis dan Evaluasi .................................................................................. 12

3.5 Keluaran yang diharapkan........................................................................... 12

BAB IV JADWAL KEGIATAN .......................................................................... 13

4.1 Jadwal Kegiatan ........................................................................................ 13

DAFTAR PUSTAKA ........................................................................................... 15

Gambar 1. Flow Diagram Analisis Sentimen ............................................................. 8

Gambar 2. Tahap-tahap Pre-processing.............................................................9

Tabel 4. 1 Jadwal Kegiatan ................................................................................13

1.1 Latar Belakang Masalah

Penelitian ini memanfaatkan media sosial sebagai sumber informasi

1.2 Perumusan Masalah

Adapun perumusan masalah berdasarkan latar belakang di atas adalah