Anda di halaman 1dari 7

Statistika, Vol. 6, No.

1, Mei 2018

ANALISIS KLASTER PADA DOKUMEN TEKS OPINI


PENGGUNA TWITTER TERHADAP KASUS MIRAS OPLOSAN
MENGGUNAKAN METODE K-MEANS

1Jaka Aulia Pratama, 2Neneng Sunengsih, 3Maman Suherman


1
Bidang Statistika dan Persandian, DISKOMINFO Kabupaten Bandung
2
Program Studi Statistika, FMIPA, Universitas Padjadjaran Bandung
3
Fakultas Ilmu Sosial dan Politik, Universitas Nurtanio Bandung
Email : jakajek@gmail.com

ABSTRAK
Teknologi komunikasi dan informasi merupakan sektor yang paling pesat berkembang
di era digital saat ini. Hal tersebut tidak lepas dari kebutuhan mendasar manusia sebagai
makhluk sosial, dimana akses terhadap informasi dan keragaman bentuk dalam
berkomunikasi menjadi lahan basah bagi para penyedia layanan, salah satunya Twitter.
Layanan jejaring sosial Twitter menjadi wadah dalam menyampaikan berbagai macam
opini, termasuk kasus miras oplosan yang viral disampaikan para penggunanya selama
bulan April 2018. Penelitian ini bertujuan untuk menganalisi opini pengguna Twitter
terhadap kasus mira oplosan di bulan April 2018 tersebut menggunakan metode K-
means. Hasil dari penelitian ini menunjukan klaster paling optimum terbentuk sebanyak
tiga klaster berdasarkan nilai dunn index sebesar 0.8312. Dari ketiga klaster tersebut,
dapat diasumsikan opini pengguna Twitter dari tanggal 1 April 2018 hingga 23 April
2018 terhadap kasus miras oplosanmasih terpusat pada sosok pengedar miras oplosan,
pihak berwenang, dan korban.
Kata kunci : Text Mining, Klaster, K-means,Twitter

sehingga masing-masing penyedia


PENDAHULUAN
layanan jejaring sosial memiliki fitur
Perkembangan teknologi komunikasi unik yang menjadi pilihan bagi
dan informasi di dunia digital yang penggunanya. Salah satu layanan jejaring
begitu pesat dirasakan saat ini, sosial yang memiliki fitur unik dalam
merupakan indikasi dari kebutuhan layanan komunikasi dan informasi adalah
manusia sebagai makhluk sosial yang layanan jejaring sosial Twitter. Twitter
menginginkan cara efektif juga efisien merupakan suatu wadah berkomunikasi
dalam berkomunikasi dan mendapatkan dan berbagi informasi, dimana bentuk
informasi. Salah satu wadah komunikasi komunikasi dan informasi dapat
dan informasi dalam dunia digital antara disampaikan dalam sebuah tweet.
lain adalah jejaring sosial.Berbagai Banyaknya karakter dalam sebuah
penyedia layanan jejaring sosial tweet dibatasi sebanyak seratus empat
bermunculan seiring berkembangnya cara puluh karakter, oleh karenanya pengguna
manusia berkomunikasi. Oleh karenanya, layanan jejaring sosial Twitter dituntut
setiap penyedia layanan jejaring sosial untuk menggunakan kata-kata yang
berlomba untuk menawarkan fitur-fitur singkat, padat dan jelas dalam
yang berbeda antar satu dan lainnya, berkomunikasi dan berbagi informasi

49
Statistika, Vol. 6, No. 1, Mei 2018

dengan sesama pengguna. Informasi- tinggi satu sama lainnya tetapi memiliki
informasi yang biasa dibagikan di tingkat ketidakmiripan yang tinggi
layanan jejaring sosial Twitter sangat dengan objek di klaster lain. Metode
beragam bentuknya. Salah satu bentuk clustering dibagi menjadi dua kelompok,
informasi antara lain adalah opini yaitu metode hierarki dan metode non-
terhadap suatu fenomena. Twitter hierarki [3]. Pada metode non-
menyediakan fitur hashtag (#), dimana hierarkijumlah klaster (k) sudah
fitur tersebut berfungsi untuk menjadikan ditentukan diawal pengelompokan.
suatu kata sebagai kata kunci dalam suatu Metode non-hierarkidapat diaplikasikan
opini dengan topik yang sama. Salah satu untuk set data yang sangat lebih besar
opini yang sedang ramai disampaikan jika dibandingkan dengan metode
selama bulan April 2018 melalui tweet hierarki. Menurut [4], teknik clustering
dan hashtag antara lain mengenai non-hierarkidirancang untuk
fenomena miras oplosan di Indonesia. mengelompokan item bukan variabel.
Banyaknya korban dan mulai Salah satu algoritma pada metode
terungkapnya bisnis miras oplosan di clutering non-hierarki yaitu K-means.
Indonesia, mengakibatkan layanan K-means merupakan salah satu
jejaring sosial Twitter menjadi wadah metode non-hierarkiyang paling sering
bagi para penggunanya untuk digunakan [4]. Pada metode ini sebuah
menyampaikan beragam opini dengan set data diklasifikasikan ke dalam
topik tersebut. Beragamnya opini pada beberapa klaster yang sudah ditentukan,
topik miras oplosan di layanan jejaring dimana klaster tersebut diasumsuikan
sosial Twitter selama April 2018,menjadi fix.K-means menggunakan centroid
suatu kumpulan data berupa teks yang sebagai pusat klasternya, centroid
dapat dianalisa lebih dalam melalui tersebut biasanya berupa nilai rata-rata.
pendekatan statistika. K-means membagi objek kedalam k
Dari kumpulan data teks berupa opini klaster, kemudian menempatkan objek
tersebut, salah satu informasi yang bisa kedalam klaster yang memiliki jarak
didapatkan adalah kata apa yang sering centroid terdekat. Setelah itu dilakukan
muncul pada kumpulan opini tersebut, perhitungan kembali nilai centroid yang
dan kata-kata tersebut dapat terbagi baru, dan dilakukan kembali penempatan
kedalam beberapa klaster. Oleh objek kedalam klaster yang memiliki
karenanya, pada penelitian ini peneliti jarak terekat dengan nilai centroid yang
bermaksud untuk mengaplikasikan Text baru. Proses tersebut terus dilakukan
Mining pada kumpulan data teks berupa sampai tidak ada centroid yang
opini pengguna layanan jejaring sosial berpindah. Pengukuran jarak dilakukan
Twitter terhadap miras oplosan selama untuk menunjukan kedekatan antara dua
bulan April 2018. Sedangkan tujuan buah objek. Pada penelitian ini, ukuran
dalam penelitian ini adalah mengetahui jarak yang akan digunakan adalah
kata-kata yang sering muncul, dan Euclidean distance, hal ini dikarenakan
mendapatkan klaster-klaster kata yang Euclidean distance merupakan
terbentuk berdasarkan kumpulan opini dissimilarity measure yang paling umum
pengguna Twitter terhadap miras oplosan digunakan untuk data yang berskala
selama bulan April 2018. interval atau rasio [6].
Analisis klaster atau clustering
merupakan suatu proses mengelompokan
data ke dalam sebuah kelas atau cluster,
dimana objek yang berada di dalam
klaster memiliki tingkat kemiripan yang

50
Statistika, Vol. 6, No. 1, Mei 2018

METODE PENELITIAN akan lebih mudah memahami


permasalahan yang diteliti melalui
Text Mining visualisasi yang ditampilkan
Text Mining bisa didefinisikan sebagai 4. Knowledge Discoovery
proses penggalian informasi di mana Pada tahapan ini pola dari suatu
pengguna berinteraksi dengan kumpulan dokumen mulai teridentifikasi dan
dokumen dari waktu ke waktu dengan pengetahuan untuk mengatasi
menggunakan suatu alat analisis. Text permasalahan telah didapat.
Mining mencari informasi berarti dari
sumber-sumber data melalui identifikasi Dikarenakan data teks biasanya tidak
dan eksplorasi pola tertentu, dalam kasus terstruktur, terutama data teks yang
ini sumber data adalah kumpulan diperoleh dari suatu layanan jejaring
dokumen dengan pola yang ditemukan sosial, maka diperlukan tahapan
pada data teks yang tidak berstruktur. persiapan data terlebuh dahulu. Hal ini
Praproses dari Text Mining sendiri bertujuan untuk mempermudah peneliti
berpusat pada identifikasi dan ekstraksi dalam menganalisis data teks tersebut.
fitur representatif untuk dokumen Berikut adalah tahapan persiapan data
Natural Language [2]. teks dalam penelitian ini:
Proses Text Mining biasanya 1. Tokenizing
membutuhkan penyusunan teks masukan Adalah proses penguraian string
berdasarkan tata bahasa, yang diikuti teks menjadi suatu term atau kata.
dengan menggali pola dari data yang 2. Filtering
sudah terstruktur, evaluasi dan Adalah tahapan seleksi tokens yang
interpretasi hasil. Proses ini biasanya dianggap tidak penting seperti
digunakan untuk pengklasifikasian, Stopwords. Stopwords adalah kata-
penggerombolan, analisis makna, kata yang tidak mengandung makna
pengambil kesimpulan dari dokumen dan penting seperti ‘dan’, ‘di’, ‘kamu’,
pemodelan hubungan objek yang berupa ‘the’, ‘and’, dll.
kata [3]. Berikut merupakan tahapan 3. Stemming
dalam Text Mining menurut [5] : Adalah suatu proses yang bertujuan
1. Information Retrieval untuk mengambil kata dasar dari
Yaitu tahapan untuk memperoleh kata yang mngandung imbuhan,
dokumen yang sesuai dengan baik itu imbuhan awalan, akhiran
permintaan peneliti atau yang maupun awalan dan akhiran.
sesuai dengan permasalahan
2. Naturtal Language Processing
Yaitu tahapan untuk HASIL PENELITIAN
mentransformasi kata-kata yang Pada bagian ini akan dijelaskan
terdapat dalam dokumen yang telah mengenai hasil analisa dari penelitian ini.
diperoleh sebelumnya. Dimana dari Tweets dengan kata kunci “miras
dokeumen awalnya yang tidak oplosan” yang diperoleh dari tanggal 1
terstruktur menjadi lebih April 2018 hingga 23 April 2018 adalah
terstruktur, sehingga dapat diperole sebanyak 9954 tweets.Sebelum dianalisis
informasi yang lebih akurat dan menggunakan metode K-means klaster,
berguna. tweets tersebut telah melewati serangkain
3. Information Extraction prosedur persiapan data teks yaitu
Yaitu tahapan dimana informasi tokenizing, filtering dan stemming,
yang sudah diperoleh sebelumnya sehingga tweets berbahasa Indonesia
akan diekstrak sehingga peneliti

51
Statistika, Vol. 6, No. 1, Mei 2018

tersebut sudah berupa kata dasar dan siap


untuk dianalisa.
Berikut adalah Tabel 1 yang
menunjukan hasil validasi klaster
menggunakan internal validationdunn
index untuk metode K-means.

Tabel 1.Validasi Klaster Menggunakan Internal


Validation Dunn Index
Dunn
Klaster
Index
2 0.8171 Gambar 1. Plot Komponen Utama dari Tiga
3 0.8312 Klaster
4 0.5064 Dari Gambar 1 tersebut, terlihat bahwa
5 0.513 masih terdapat beberapa bulatan dengan
6 0.4811 warna berbeda yang masuk ke suatu
7 0.4811
kumpulan bulatan dengan warna
dominan. Sehingga, pada tiga klaster
8 0.5074
tersebut masih terdapat beberapa tweets
9 0.5074
dan terms kata yang belum terpisah
10 0.5188 secara sempurna,walaupun nilai dunn
index untuk tiga klaster menghasilkan
Terlihat pada Tabel 1, klaster nilai yang paling tinggi.Pada bagian
sebanyak tiga buah menghasilkan nilai selanjutnya, akan ditampilkan terms kata
dunn indexyang paling tinggi diantara yang dominan dan wordclouddari
klaster-klaster lainnya yaitu sebesar masing-masing klaster yang terbentuk.
0.8312. Sejalan dengan hal tersebut,
maka banyaknya klaster yang akan Klaster Satu
dibentuk pada penelitian ini adalah tiga Tabel 2. Sepuluh Kata Dominan Pada Klaster
klaster karena nilai dunn index tertinggi satu
menunjukan bahwa klaster tersebut Kata Frekuensi
optimum. Dari tiga klaster yang bos 1410
terbentuk menggunakan metode K-means tewas 1391
diperoleh tweets sebanyak 8318 untuk orang 1326
klaster satu, 420 tweets untuk klaster dua, minum 1102
dan 1216 tweets untuk klaster tiga. korban 1011
Selanjutnya adalah Gambar 1 yang
polisi 982
menunjukan plot komponen utama dari
edar 639
tiga klaster menggunakan metode K-
simbolon 596
means yang terbentuk.
maut 573
big 570

52
Statistika, Vol. 6, No. 1, Mei 2018

Gambar 3. Wordcloud Pada Klaster Dua


Gambar 2. Wordcloud Pada Klaster Satu Tabel 3 menunjukan 10 kata yang
Tabel 2 menunjukan 10 kata yang paling sering muncul di klaster dua. Dari
paling sering muncul di klaster satu. Dari Tabel 3 tersebut, terlihat bahwa kata
Tabel 2 tersebut, terlihat bahwa kata “bos” menjadi kata yang paling sering
“bos” menjadi kata yang paling sering muncul pada tweets yang terdapat di
muncul padatweetsyang terdapat di klaster dua yaitu sebanyak 85
klaster satu yaitu sebanyak 1410 kemunculan. Kemudian, Gambar 3
kemunculan.Kemudian, Gambar 2 menunjukan visualisasi berupa
menunjukan visualisasi berupa wordcloud yang memperlihatkan kata-
wordcloud yang memperlihatkan kata- kata yang sering muncul di klaster dua.
kata yang sering muncul di klaster satu. Terlihat pada Gambar 3, kata dengan
Terlihat pada Gambar 2, kata dengan ukuran yang semakin besar menunjukan
ukuran yang semakin besar menunjukan bahwa kata tersebut adalah kata yang
bahwa kata tersebut adalah kata yang paling sering muncul di klaster dua.Pada
paling sering muncul di klaster satu.Pada bagian selanjutnya, akan ditampilkan
bagian selanjutnya, akan ditampilkan terms kata yang dominan dan
terms kata yang dominan dan wordcloud wordclouddari klaster tiga.
dari klaster dua.
Klaster Tiga
Klaster Dua Tabel 4. Sepuluh Kata Dominan Pada Klaster
Tabel 3. Sepuluh Kata Dominan Pada Klaster Dua Tiga
Kata Frekuensi Kata Frekuensi
bos 85 tewas 284
minum 80 Bos 263
orang 80 orang 260
mati 74 korban 188
tewas 71 Big 160
korban 67 minum 151
narkoba 60 polisi 151
main 59 simbolon 151
nama 59 syamsudin 146
tik 59 edar 135

53
Statistika, Vol. 6, No. 1, Mei 2018

pada kata-kata yang paling sering muncul


di setiap klaster, yaitu adanya kata-kata
yang sama muncul di masing-masing
klaster. Pada data teks tersebut, masih
ditemukan kata-kata yang tidak
mengandung arti penting, hal ini
dikarenakan kata-kata tersebut bukanlah
bahasa Indonesia yang baku atau istilah-
istilah terbarukan yang tidak tersaring
oleh kamus corpus yang digunakan pada
penelitian ini. Dari ketiga klaster yang
terbentuk, opini pengguna layanan
jejaring sosial Twitterterhadap miras
oplosan dari tanggal 1 April 2019 hingga
23 April 2018, dapat diasumsikan masih
terpusat pada sosok pengedar miras
oplosan, pihak berwenang, dan korban.
Gambar 4. Wordcloud Pada Klaster Tiga
Saran untuk penelitian selanjutnya
Tabel 4 menunjukan 10 kata yang adalah membandingkan hasil K-means
paling sering muncul di klaster tiga. Dari klaster pada data teks berbahasa
Tabel 4 tersebut, terlihat bahwa kata Indonesia dengan metode lainnya seperti
“tewas” menjadi kata yang paling sering K-medoids atau Hierarchical.Tahapan
muncul pada tweets yang terdapat di persiapan data seperti cleaning menjadi
klaster tigayaitu sebanyak 284 bagian yang sangat penting untuk
kemunculan. Kemudian, Gambar 4 menghindari kemunculan kata yang tidak
menunjukan visualisasi berupa mengandung arti penting, oleh karenanya
wordcloud yang memperlihatkan kata- diperlukan pengembangan lebih lanjut
kata yang sering muncul di klaster tiga. dalam kamus corpus yang digunakan
Terlihat pada Gambar 4, kata dengan pada penelitian ini seiring dengan
ukuran yang semakin besar menunjukan berkembangnya istilah-istilah terbarukan
bahwa kata tersebut adalah kata yang atau bahasa “gaul” dan singkatan-
paling sering muncul di klaster tiga. singkatan dalam bahasa Indonesia.

KESIMPULAN DAFTAR PUSTAKA


Berdasarkan penelitian yang telah
[1] Ansari, Z. et al. 2011. Quantitative
dilakukan bahwa dapat disimpulkan data
Evaluation of Perfomance and
teks berupa tweets mengenai miras
Validity Indices for Clustering the
oplosan yang diambil pada tanggal 1
Web Navigational Sessions. World of
April 2018 hingga 23 April 2018
Computer Science and Information
sebanyak 9954 tweets, dengan
Technology Journal. 5. 217-226.
menggunakan metode K-means dapat
[2] Feldman, R., & Sanger, J. 2007. The
dibagi menjadi tiga klaster dengan nilai
text mining handbook: advanced
dunn index sebesar 0.8312. Plot
approaches in analyzing unstructured
komponen utama dari ketiga klaster
data. Cambridge University Press.
tersebut menunjukan adanya beberapa
[3] J. Han, M. Kamber. 2006. Data
tweets yang tidak terpisah secara
Mining Concepts and Techniques,
sempurna. Hal tersebut dapat terlihat juga
Morgan Kaufmann. America.

54
Statistika, Vol. 6, No. 1, Mei 2018

[4] Johnson, R A., Wichern, D W. 2002.


Applied Multivariate Statistical
Analysis, the fifth edition. Prentice
Hall Inc. New Jersey.
[5] McDonald, Dr Diane. 2012. The
Value and Benefits of Text Mining.
JISC United Kindgom
[6] Timm, Neil H. 2002. Applied
Multivariat Analysis: Springer.

55

Anda mungkin juga menyukai