Resume
Resume
Abstrak
Seiring dengan perkembangan teknologi dalam hal pengumpulan dan penyimpanan data
menyebabkan tumpukan data yang sangat banyak. Dengan adanya kumpulan data yang banyak,
maka munculah suatu kebutuhan untuk bisa memanfaatkan data tersebut. Pemanfaatan data
tersebut tentunya bertujuan untuk mendapatkan informasi yang penting dari pola-pola data yang
terbentuk. Opini adalah sebuah pendapat yang sebenarnya cukup berharga untuk proses
pengambilan keputusan. Saat ini hampir seluruh manusia mempunyai account pada jejaring
sosial, mereka senang berekspresi mengungkapkan opini melalui internet atau dunia maya,
termasuk Twitter. Proses untuk mendapatkan informasi atau pola-pola berharga dari sekumpulan
data tersebutlah yang dinamakan data mining. Opinion mining adalah salah satu cabang dari data
mining yang hanya fokus terhadap pengolahan data dengan jenis opini. Dan klasifikasi
merupakan salah satu metode dari data mining. Salah satu algoritma klasifikasi yang cukup
dikenal adalah K-Nearest Neigbor (KNN). Algoritma KNN dengan lazy learning bisa dikatakan
cukup sederhana karena dapat bekerja tanpa proses training. Algoritma ini bekerja berdasarkan
jarak terpendek dari satu record ke record lain pada label sample untuk menentukan KNN-nya
dan mudah untuk di implementasikan. Dari hasil pengujian dan analisis didapat bahwa
dibutuhkan sejumlah K untuk menghasilkan nilai True Positif dan True Negatif yang cukup
tinggi.
Abstract
The development of technology for the collection and storage of data causes the stack of data very
much. Given that many data sets, creating a need to be able to utilize the data. Utilization data is
of course intended to get important information from the data patterns are formed. Opinion is an
opinion that is actually quite valuable to the decision making process. Currently, almost all
humans have an account on social networking, they are happy expression or express opinions
through the internet virtual world, including Twitter. The process to obtain information or
patterns from a collection of valuable data is called data mining. Opinion mining is a branch of
data mining, which focuses on data processing to the type of opinion. And classification is one
method of data mining. One well-known classification algorithms are K-Nearest Neigbor (KNN).
KNN with lazy learning algorithms can be quite simple as it can work without the training
process. The algorithm works based on the shortest distance from one record to another record
on the label sample to determine its KNN and easy to implement. From the test results and
analysis obtained the required number of produce a value of True Positives and True Negatives
are pretty high.
BAB I
Pendahuluan
Informasi teks dapat dikategorikan menjadi dua jenis utama: fakta dan
opini..[12] Opini atau pendapat biasanya subyektif ekspresi yang menggambarkan
perasaan seseorang, penilaian atau perasaan terhadap entitas, kejadian dan properti
mereka.Untuk tugas akhir ini, saya hanya fokus pada ekspresi pendapat yang
menyampaikan opini orang-orang yang bersifat positif atau negatif. Banyak
penelitian pada pengolahan informasi tekstual yang telah difokuskan pada pemilihan
dan pengambilan informasi faktual, misalnya, pencarian Web, klasifikasi teks,
clustering teks dan sejenisnya. Namun, pendapat sangatlah penting untuk setiap kali
membuat keputusan. Hal ini tidak hanya berlaku untuk individu tetapi juga berlaku
untuk organisasi.
Untuk itu, dalam tugas akhir ini digunakan metode KNN yang ditujukan
untuk mengklasifikasikan atau mengolah opini sehingga akan diketahui klasifikasi
dari opini tersebut (positif atau negatif). Dengan menggunakan metode ini,
diharapkan mendapat tingkat akurasi yang cukup tinggi dalam mengklasifikasikan
opini.
1.3 Tujuan
Tujuan dari tugas akhir ini adalah :
1. Mengklasifikasikan kalimat opini (positif atau negatif) dengan metode K-
Nearest Neighbor (KNN).
2. Menganalisis hasil yang didapat dari klasifikasi kalimat opini menggunakan
K-Nearest Neighbor (KNN) dengan parameter K, jumlah data dan pengaruh
stop word removal.
2. Studi Literatur
Pada tahap ini, akan dilakukan pencarian sumber-sumber terhadap materi
yang akan digunakan untuk mendukung penulisan tugas akhir ini. Referensi
yang dicari antara lain adalah jurnal, artikel, maupun buku mengenai K-
Nearest Neighbor (KNN) dan Sentiment Analysis atau Opinion Mining.
3. Perancangan Sistem
Pada tahap ini, akan dilakukan perancangan sistem klasifikasi yang dibangun
dengan menggunakan sebuah pendekatan tertentu untuk memisahkan kalimat
opini dan bukan opini pada level dokumen, kemudian pada level kalimat,
BAB V
Kesimpulan dan Saran
5.1 Kesimpulan
Berdasarkan hasil analisis terhadap pengujian maka dapat ditarik kesimpulan
sebagai berikut:
1. Pada penelitian ini, didapatkan rata-rata jumlah True Positif dan True Negatif
390,67 untuk dataset utama; pada saat jumlah K optimal 13 untuk dataset
MostPost, 9 untuk dataset MostNeg dan 19 untuk dataset Netral.
2. Variasi jumlah kelas dan jumlah record data yang diuji berpengaruh terhadap
perubahan nilai TP & TN.
3. KNN memiliki jumlah TP & TN yang lebih tinggi pada imbalance data
dibandingkan pada balance data.
4. Pada penelitian ini, penggunaaan fungsi SWR pada preprocessing dapat
mengurangi akurasi terhadap metode klasifikasi utama KNN.
5.2 Saran
1. Untuk smoothing data, pada preprocessing dapat dikembangkan dengan
menggunakan tagging dan stemming.
2. K-Nearest Neighbor dapat dikembangkan sehingga bisa menangani berbagai
tipe data yang diinputkan.
3. Untuk jenis bahasa pada Twitter, dapat dikembangkan dengan menangani
bahasa Indonesia.
4. Perhatikan penggunaan jenis atribut, karena berpengaruh terhadap
perhitungan euclidean distance untuk penentuan klasifikasi.
24
Daftar Pustaka
[1] Azis, Nur Aziza. Ngomongin K-Nearest Neighbor [Online]. Tersedia :
http://kacapembesar.wordpress.com/2009/01/04/ngomongin-k-nearest-
neighbor/ [22 Maret 2011].
[2] Barbalau, Luliana. Boost Your Confidence In a 2x2 Standard Table.
USA:Adecco.
[3] Batista, Gustavo and Diego Furtado Silva. (2009). How k-Nearest Neighbor
Parameters Affect Its Performance. Brasil: Universidade de Sao Paulo (USP).
[4] Chun-Yan Wang, dkk. (2010). A K-Nearest Neighbor Algorithm Based on
Cluster in Text Classification. International Conference on Computer,
Mechatronics, Control and Electronic Engineering (CMCE).
[5] Denoeux, Thierry. (1995). A k-Nearest Neighbor Classification Rule Based on
Dempster-Shafer Theory. IEEE TRANSACTIONS ON SYSTEMS. MAN,
AND CYBERNETICS, VOL 25. NO. 5
[6] El-Halees, Alaa. Arabic Opinion Mining Using Combined Classification
Approach. Gaza:Islamic University of Gaza.
[7] Esuli, Andrea and Fabrizio Sebastiani. SENTIWORDNET: A Publicly Available
Lexical Resource for Opinion Mining. Italy:Dipartimento di Matematica Pure
Applicata, Universit`a di Padova Via Giovan Battista Belzoni.
[8] Francois, Damien. (2009). Binary Classification Performances Measure Cheat
Sheet.
[9] Hasti, Trevor, dkk. ”The Elements of Statistical Learning: Data Mining,
Inference, and Prediction”,Springer.
[10] Khan, K. and Baharudin,B.B.,Khan, A. (2009). Mining Opinion From Text
Document:A Survey. DEST'09. 3rd IEEE International Conference on Start
Page.
[11] Kozma, Laszlo. (2008). K Nearest Neighbors Algorithm (kNN). Helsinki
University of Technology, Special Course in Computer and Information
Science
[12] Liu, Bing. (2010). Sentiment Analysis and Subjectivity. Chicago:University of
Illinois at Chicago.
[13] Ohana, Bruno. (2009). Opinon Mining with SentWordNet Lexical Resource.
Dublin Institute of Technology.
[14] Pang, Li and Lee, Lillian. (2008). Analyze Opinion Mining and Sentiment.
[15] Russell, A., Matthew. (2011). Mining The Social Web. United State of
America:O'Reilly Media, Inc.
[16] Saraswati, Ni Wayan Sumartini. (2011). Tesis: Text Mining Dengan Metode
Naive Bayes Classifier dan Support Vector Machines Untuk Sentiment
Analysis. Denpasar:Universitas Udayana.
[17] Singh, Viviek Kumar, dkk. (2012). Opinion Mining from Weblogs and Its
Relevance for Socio-Political Research. India:South Asian University &
Banaras Hindu University.
[18] Suchiany, Arvica. (2011). Analisis dan Implementasi Klasifikasi dalam Data
mining menggunakan algoritma K-Nearest Neighbor Based Association
(KNNBA). Bandung:Institut Teknologi Telkom.
[19] Thirumuruganathan, Saravanan. A Detailed Introduction to K-Nearest
Neighbor (KNN) Algorithm [Online]. Tersedia :
http://saravananthirumuruganathan.wordpress.com/2010/05/17/a-detailed-
introduction-to-k-nearest-neighbor-knn-algorithm/ [26 Januari 2012]
25
26