Anda di halaman 1dari 7

Tugas Akhir - 2012

ANALISIS KLASIFIKASI OPINI PADA JEJARING SOSIAL TWITTER


MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOR (KNN)

Aloysia Renata¹, Warih Maharani², Angelina Prima Kurniati³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak
Seiring dengan perkembangan teknologi dalam hal pengumpulan dan penyimpanan data
menyebabkan tumpukan data yang sangat banyak. Dengan adanya kumpulan data yang banyak,
maka munculah suatu kebutuhan untuk bisa memanfaatkan data tersebut. Pemanfaatan data
tersebut tentunya bertujuan untuk mendapatkan informasi yang penting dari pola-pola data yang
terbentuk. Opini adalah sebuah pendapat yang sebenarnya cukup berharga untuk proses
pengambilan keputusan. Saat ini hampir seluruh manusia mempunyai account pada jejaring
sosial, mereka senang berekspresi mengungkapkan opini melalui internet atau dunia maya,
termasuk Twitter. Proses untuk mendapatkan informasi atau pola-pola berharga dari sekumpulan
data tersebutlah yang dinamakan data mining. Opinion mining adalah salah satu cabang dari data
mining yang hanya fokus terhadap pengolahan data dengan jenis opini. Dan klasifikasi
merupakan salah satu metode dari data mining. Salah satu algoritma klasifikasi yang cukup
dikenal adalah K-Nearest Neigbor (KNN). Algoritma KNN dengan lazy learning bisa dikatakan
cukup sederhana karena dapat bekerja tanpa proses training. Algoritma ini bekerja berdasarkan
jarak terpendek dari satu record ke record lain pada label sample untuk menentukan KNN-nya
dan mudah untuk di implementasikan. Dari hasil pengujian dan analisis didapat bahwa
dibutuhkan sejumlah K untuk menghasilkan nilai True Positif dan True Negatif yang cukup
tinggi.

Kata Kunci : Data mining, opini, klasifikasi, KNN

Abstract
The development of technology for the collection and storage of data causes the stack of data very
much. Given that many data sets, creating a need to be able to utilize the data. Utilization data is
of course intended to get important information from the data patterns are formed. Opinion is an
opinion that is actually quite valuable to the decision making process. Currently, almost all
humans have an account on social networking, they are happy expression or express opinions
through the internet virtual world, including Twitter. The process to obtain information or
patterns from a collection of valuable data is called data mining. Opinion mining is a branch of
data mining, which focuses on data processing to the type of opinion. And classification is one
method of data mining. One well-known classification algorithms are K-Nearest Neigbor (KNN).
KNN with lazy learning algorithms can be quite simple as it can work without the training
process. The algorithm works based on the shortest distance from one record to another record
on the label sample to determine its KNN and easy to implement. From the test results and
analysis obtained the required number of produce a value of True Positives and True Negatives
are pretty high.

Keywords : Data mining, classification, K-nearest neigbor, opinion

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2012

BAB I
Pendahuluan

1.1 Latar Belakang Masalah


Perkembangan teknologi berkembang sangat pesat pada abad ini. Komunikasi
melalui internet sudah sangat menjamur, akses penggunaan yang sangat terjangkau
membuat sebagian besar orang memilih berkomunikasi melalui dunia maya. Jaringan
ilmu pengetahuan, bisnis, berita dan sosial banyak mengalami peningkatan yang
signifikan dan menjadi sangat bermanfaat bila digunakan dalam lingkup yang benar
dan sesuai.

Banyak sekali contoh penggunaan internet dalam lingkup jejaring sosial


seperti my space, facebook, twitter, plurk dan sebagainya. Web berupa jejaring sosial
telah secara dramatis mengubah cara orang mengekspresikan fakta, pandangan dan
pendapat. Mereka sekarang dapat posting dan menyatakan apapun yang ingin mereka
katakan di forum internet, diskusi kelompok, dan blog, yang secara kolektif disebut
user-generated. Dalam kenyataannya, kata-kata yang terucap dari manusia
merupakan salah satu sumber informasi yang dapat terukur dengan banyak aplikasi
informasi. Untuk itulah banyak fitur yang harus terus dikembangkan untuk
menunjang kebutuhan informasi dari teknologi yang sudah dan yang akan datang.

Informasi teks dapat dikategorikan menjadi dua jenis utama: fakta dan
opini..[12] Opini atau pendapat biasanya subyektif ekspresi yang menggambarkan
perasaan seseorang, penilaian atau perasaan terhadap entitas, kejadian dan properti
mereka.Untuk tugas akhir ini, saya hanya fokus pada ekspresi pendapat yang
menyampaikan opini orang-orang yang bersifat positif atau negatif. Banyak
penelitian pada pengolahan informasi tekstual yang telah difokuskan pada pemilihan
dan pengambilan informasi faktual, misalnya, pencarian Web, klasifikasi teks,
clustering teks dan sejenisnya. Namun, pendapat sangatlah penting untuk setiap kali
membuat keputusan. Hal ini tidak hanya berlaku untuk individu tetapi juga berlaku
untuk organisasi.

Ketepatan algoritma K-Nearest Neighbor (KNN) dalam klasifikasi kalimat


sentimen, sangat dipengaruhi oleh ada atau tidaknya fitur-fitur yang tidak relevan,
atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. [25]
KNN memiliki beberapa kelebihan yaitu keunggulan terhadap data yang memiliki
banyak noise dan biasanya efektif apabila datanya besar. Algoritma KNN ini
diharapkan memiliki konsistensi yang kuat.

Untuk itu, dalam tugas akhir ini digunakan metode KNN yang ditujukan
untuk mengklasifikasikan atau mengolah opini sehingga akan diketahui klasifikasi
dari opini tersebut (positif atau negatif). Dengan menggunakan metode ini,
diharapkan mendapat tingkat akurasi yang cukup tinggi dalam mengklasifikasikan
opini.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2012

1.2 Rumusan Masalah dan Batasan Masalah


Dengan latar belakang yang sudah dipaparkan, pada bagian ini akan
dituliskan rumusan dan batasan untuk klasifikasi sentimen pada opini, agar diketahui
sebuah kalimat mempunyai tipe opini positif atau negatif.

Rumusan masalah dalam tugas akhir ini adalah :


1. Bagaimana mengklasifikasikan sebuah opini menjadi tipe positif atau negatif
dengan metode K-Nearest Neighbor (KNN)?
2. Bagaimana menganalisa hasil yang didapat dari pengklasifikasian kalimat
opini menggunakan K-Nearest Neighbor (KNN) dengan parameter K, jumlah
data dan pengaruh stop word removal?

Batasan masalah dalam tugas akhir ini adalah :


1. Data teks opini yang digunakan berupa kalimat, bukan dokumen.
2. Data teks yang akan dipakai berasal dari jejaring sosial Twitter.
3. Data teks opini yang akan digunakan dalam bahasa Inggris.
4.Tidak mengatasi kata dan kalimat yang cara penulisannya tidak umum
(disingkat).
5. Tidak mengatasi kata atau frasa dengan arti ganda dan berbeda pada sebuah
kalimat.

1.3 Tujuan
Tujuan dari tugas akhir ini adalah :
1. Mengklasifikasikan kalimat opini (positif atau negatif) dengan metode K-
Nearest Neighbor (KNN).
2. Menganalisis hasil yang didapat dari klasifikasi kalimat opini menggunakan
K-Nearest Neighbor (KNN) dengan parameter K, jumlah data dan pengaruh
stop word removal.

1.4 Metodologi Penyelesaian Masalah


Metodologi yang digunakan untuk memecahkan masalah pada tugas akhir ini
adalah :
1. Identifikasi Masalah
Pada tahap ini, akan dilakukan identifikasi mengenai masalah yang dibahas di
tugas akhir ini, yaitu mengenai analisis opini dengan menggunakan metode
K-Nearest Neighbor (KNN).

2. Studi Literatur
Pada tahap ini, akan dilakukan pencarian sumber-sumber terhadap materi
yang akan digunakan untuk mendukung penulisan tugas akhir ini. Referensi
yang dicari antara lain adalah jurnal, artikel, maupun buku mengenai K-
Nearest Neighbor (KNN) dan Sentiment Analysis atau Opinion Mining.

3. Perancangan Sistem
Pada tahap ini, akan dilakukan perancangan sistem klasifikasi yang dibangun
dengan menggunakan sebuah pendekatan tertentu untuk memisahkan kalimat
opini dan bukan opini pada level dokumen, kemudian pada level kalimat,

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2012

metode K-Nearest Neighbor (KNN)digunakan untuk mengklasifikasikan


apakah sebuah opini itu bernilai positif atau negatif.

4. Implementasi Sistem dan Analisis Hasil


Sistem yang telah dirancang dengan menggunakan pendekatan tertentu dan
metode K-Nearest Neighbor (KNN) ini diuji dengan menggunakan dataset
dari Twitter. Lalu, dari hasil yang didapatkan akan dilakukan analisis
terhadap kalimat-kalimat opini tersebut.

5. Kesimpulan dan Penyusunan Tugas akhir


Pada tahap ini, akan dilakukan penentuan kesimpulan berdasarkan analisis
dari hasil implementasi sistem yang telah dilakukan pada tahap sebelumnya.
Setelah diambil kesimpulan, akan dilakukan penyusunan tugas akhir dan
pengumpulan dokumentasi dengan mengikuti aturan-aturan yang telah
ditetapkan oleh institusi.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2012

BAB V
Kesimpulan dan Saran

5.1 Kesimpulan
Berdasarkan hasil analisis terhadap pengujian maka dapat ditarik kesimpulan
sebagai berikut:
1. Pada penelitian ini, didapatkan rata-rata jumlah True Positif dan True Negatif
390,67 untuk dataset utama; pada saat jumlah K optimal 13 untuk dataset
MostPost, 9 untuk dataset MostNeg dan 19 untuk dataset Netral.
2. Variasi jumlah kelas dan jumlah record data yang diuji berpengaruh terhadap
perubahan nilai TP & TN.
3. KNN memiliki jumlah TP & TN yang lebih tinggi pada imbalance data
dibandingkan pada balance data.
4. Pada penelitian ini, penggunaaan fungsi SWR pada preprocessing dapat
mengurangi akurasi terhadap metode klasifikasi utama KNN.

5.2 Saran
1. Untuk smoothing data, pada preprocessing dapat dikembangkan dengan
menggunakan tagging dan stemming.
2. K-Nearest Neighbor dapat dikembangkan sehingga bisa menangani berbagai
tipe data yang diinputkan.
3. Untuk jenis bahasa pada Twitter, dapat dikembangkan dengan menangani
bahasa Indonesia.
4. Perhatikan penggunaan jenis atribut, karena berpengaruh terhadap
perhitungan euclidean distance untuk penentuan klasifikasi.

24

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2012

Daftar Pustaka
[1] Azis, Nur Aziza. Ngomongin K-Nearest Neighbor [Online]. Tersedia :
http://kacapembesar.wordpress.com/2009/01/04/ngomongin-k-nearest-
neighbor/ [22 Maret 2011].
[2] Barbalau, Luliana. Boost Your Confidence In a 2x2 Standard Table.
USA:Adecco.
[3] Batista, Gustavo and Diego Furtado Silva. (2009). How k-Nearest Neighbor
Parameters Affect Its Performance. Brasil: Universidade de Sao Paulo (USP).
[4] Chun-Yan Wang, dkk. (2010). A K-Nearest Neighbor Algorithm Based on
Cluster in Text Classification. International Conference on Computer,
Mechatronics, Control and Electronic Engineering (CMCE).
[5] Denoeux, Thierry. (1995). A k-Nearest Neighbor Classification Rule Based on
Dempster-Shafer Theory. IEEE TRANSACTIONS ON SYSTEMS. MAN,
AND CYBERNETICS, VOL 25. NO. 5
[6] El-Halees, Alaa. Arabic Opinion Mining Using Combined Classification
Approach. Gaza:Islamic University of Gaza.
[7] Esuli, Andrea and Fabrizio Sebastiani. SENTIWORDNET: A Publicly Available
Lexical Resource for Opinion Mining. Italy:Dipartimento di Matematica Pure
Applicata, Universit`a di Padova Via Giovan Battista Belzoni.
[8] Francois, Damien. (2009). Binary Classification Performances Measure Cheat
Sheet.
[9] Hasti, Trevor, dkk. ”The Elements of Statistical Learning: Data Mining,
Inference, and Prediction”,Springer.
[10] Khan, K. and Baharudin,B.B.,Khan, A. (2009). Mining Opinion From Text
Document:A Survey. DEST'09. 3rd IEEE International Conference on Start
Page.
[11] Kozma, Laszlo. (2008). K Nearest Neighbors Algorithm (kNN). Helsinki
University of Technology, Special Course in Computer and Information
Science
[12] Liu, Bing. (2010). Sentiment Analysis and Subjectivity. Chicago:University of
Illinois at Chicago.
[13] Ohana, Bruno. (2009). Opinon Mining with SentWordNet Lexical Resource.
Dublin Institute of Technology.
[14] Pang, Li and Lee, Lillian. (2008). Analyze Opinion Mining and Sentiment.
[15] Russell, A., Matthew. (2011). Mining The Social Web. United State of
America:O'Reilly Media, Inc.
[16] Saraswati, Ni Wayan Sumartini. (2011). Tesis: Text Mining Dengan Metode
Naive Bayes Classifier dan Support Vector Machines Untuk Sentiment
Analysis. Denpasar:Universitas Udayana.
[17] Singh, Viviek Kumar, dkk. (2012). Opinion Mining from Weblogs and Its
Relevance for Socio-Political Research. India:South Asian University &
Banaras Hindu University.
[18] Suchiany, Arvica. (2011). Analisis dan Implementasi Klasifikasi dalam Data
mining menggunakan algoritma K-Nearest Neighbor Based Association
(KNNBA). Bandung:Institut Teknologi Telkom.
[19] Thirumuruganathan, Saravanan. A Detailed Introduction to K-Nearest
Neighbor (KNN) Algorithm [Online]. Tersedia :
http://saravananthirumuruganathan.wordpress.com/2010/05/17/a-detailed-
introduction-to-k-nearest-neighbor-knn-algorithm/ [26 Januari 2012]

25

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2012

[20] Vissia M.Sc, Ing. Herman. “OpenDover” Sentiment Analysis [Online].


Tersedia : http://www.slideshare.net/igmelig/opinion-miner-online-sentiment-
analysis [26 Januari 2012]
[21] Wei, Cho Chin. (2008). Opinion Mining Sentiment Classification.
[22] Wikipedia. K-nearest Neighbor Algorithm [Online]. Tersedia:
http://en.wikipedia.org/wiki/KNN [22 Maret 2011].
[23] Witten, Ian H and Eibe Frank. (2005). ”Data mining”,2nd ed.
Amsterdam:Morgan Kaufmann Publishers.
[24] Xia, Fei. (2011). K Nearest Neighbor.
[25] Xu, Guandong(et.al.). (2010). Web Mining and Social Networking. New
York:Springer.
[26] Xu, Weijia, dkk (2006). Anytime K-Nearest Neighbor Search for Database
Applications. First International Workshop on Similarity Search and
Applications.
[27] Yofiyanto, Evan. Buku TA : K-Nearest Neighbor (KNN) [Online]. Tersedia :
http://kuliahinformatika.wordpress.com/2010/02/13/buku-ta-k-nearest-
neighbor-knn/ [22 Maret 2011].

26

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)

Anda mungkin juga menyukai