Nurjayanti
Fakultas Teknis, Jurusan Teknik Informatika
Universitas Widyatama
Jalan Cikutra No. 204A, Bandung, Indonesia
nurjayanti@widyatama.ac.id
Abstrak geospatial, text-mining, density-based clustering,
DBSCAN, NER rule-based
Salah satu fungsi media sosial adalah untuk
berbagi pesan atau kabar berita dari satu pengguna Abstract
kepada pengguna media sosial lainnya. Adanya
Social media has a function as messages or
kesadaran atau perhatian (awareness) masyarakat
news feed sharing platform between users, either in
terhadap kejadian nyata seperti kecelakaan menjadi
the form of texts, images, photos, or videos. The
pemicu bagi masyarakat untuk menggunggah kabar
public awareness on real-time events such as
berita tersebut ke media sosial. Pesan pada media
accidents become a trigger for users to upload the
sosial yang diunggah seringkali menyebutkan lokasi
news feed into social media. Messages on social
kejadian tersebut.
media often mentioned the location where the event
Proses deteksi kejadian secara real-time lengkap happened.
dengan informasi geospatialmerupakan dasar dalam
The process of events detection in real-time and
membuat pemetaan lokasi kecelakaan ini. Yang
geospatial information is the basis for mapping event
disebut kejadian pada penelitian ini adalah pesan
location. An event in this study is a message on social
media sosial yang memiliki topik “kecelaakan alat
media which has “transportation accident” as the
transportasi”. Dengan menggunakan text-mining,
topic. The social media messages can be processed to
pesan tersebut dapat diproses untuk diperoleh
obtain geospatial information by using text-mining
infomasi geospatial yang kemudian dapat
and then visualized into a map. The algorithm used in
divisualisasikan kedalam peta. Algoritma yang
the text-mining with density-based clustering method
digunakan pada text-mining dengan metode density-
is DBSCAN (Density-Based Spatial Clustering of
based clusteringyaitu algoritma DBSCAN ( Density-
Applications with Noise) algorithm. DBSCAN
Based Spatial Clustering of Applications with Noise ).
algorithm uses two parameters: the radius of each
Algoritma DBSCAN menggunakan dua parameter
cluster me mber to the cluster core (ε) and MinPts
yaitu radius masing-masing anggota clusterdengan
(Minimal Points) which provides a minimum number
inti cluster Eps( ) dan MinPts (Minimal Points) yang of cluster members in Eps. Extraction locations then
memberikan batasan jumlah minimum anggota performed on each cluster that produced from
cluster dalam Eps. Ektraksi lokasi kemudian clustering. Mapping visualization is done against
dilakukan pada cluster yang dihasilkan proses cluster locations that are extracted using NER rule-
clustering. Visualisasi peta dilakukan terhadap lokasi based method and parsing to Google Maps
clusteryang diekstrak menggunakan metode NER Geocoding API.
rule-based dan parsing lokasi ke Google Maps
Keywords:
Geocoding API.
geospatial, text-mining, density-based clustering,
Kata kunci :
DBSCAN, NER rule-based
Twitter. Preprocessing dimulai dengan text- menandai semua objek sebagai “unvisited” dan
preprocessing yang terdiri dari tahap case foldingdan kemudian memilih secara random satu objek untuk
tokenizing. Setelah text-preprocessing selesai diuji kedekatannya dengan menggunakan fungsi
kemudian dilanjutkan dengan tahap pembobotan pengukuran jarak yaitu Euclidean Distance. Berikut
kata. Data hasil text-preprocessingdibentuk kedalam
hasil clustering untuk dan minpts = 1 untuk 50
vektor yang direpresentasikan dengan kata.
teks yang diuji.
Kemudian dihitung frekuensi kemunculan setiap kata
tersebut. Berikut contoh data pada tabel hasil Tabel 4 Contoh Hasil Clustering
perhitungan bobot yang dilakukan oleh sistem. ID Teks Cluster
Tabel 3 Pembobotan Kata 1 gunakan jalur sesuai ketentuan jangan melawan 7
arus karena rawan kecelakaan kesadaran kita
Terms F term on text Total text with terms Total Text TFIDF keselamatan semua pictwittercomuzyzwcnq
arah 1 9 50 0.745 2 gunakan jalur sesuai ketentuan jangan melawan 7
arus krn rawan kecelakaan kesadaran kita
Perhitungan untuk kata “arah” pada teks kesatu keselamatan semua pictwittercomlitosjblr
muncul sebanyak 1 kali dalam teks ke-1 dimana dari
50 teks yang diuji kata muncul pada 9 teks. Sehingga Iterasi pengujian pada teks dilakukan sampai
perhitungannya adalah sebagai berikut. semua teks dikunjungi (visited). Misal jika objek
berikutnya yaitu teks-1 dan teks-2 yang akan diuji
(5) dimana teks-1 adalah objek pusat cluster C1maka
Density-based perhitungan jaraknya adalah:
Clustering dengan DBSCAN
Setiap teks adalah objek yang akan diuji Tabel 5 Contoh Perhitungan Bobot
kedekatannya oleh DBSCAN dalam proses
clustering. Pada tahap awal, DBSCAN akan
p Term TFIDF1 TFIDF2
x J i
1 arus 1.097 1.097 0
2 gunakan 1.222 1.222 0
3 jalur 1.097 1.097 0
4 jangan 1.097 1.097 0
5 karena 1.398 0 1.954404
6 kecelakaan 0.009 0.009 0
7 kesadaran 1.398 1.398 0
8 keselamatan 1.398 1.398 0
9 ketentuan 1.398 1.398 0
10 kita 1.398 1.398 0
11 melawan 1.398 1.398 0
12 pictwittercomuzyzwcnq 1.699 0 2.886601
13 rawan 0.854 0.854 0
14 semua 1.398 1.398 0
15 sesuai 1.398 1.398 0
16 pictwittercomlitosjblr 0 1.699 2.886601
∑ 7.727606
Teks-2 karena berada didalam radius yaitu
sehingga teks-2 adalah anggota cluster C1.
Pada iterasi pembuatan cluster baru berikutnya
semua noise akan diuji, termasuk objek r apakah Dari grafik pada gambar 2 dapat dilihat bahwa
jumlah clusteryang dihasilkan dari proses clustering
berada dalam radius untuk cluster atau tidak.
dipengaruhi oeh nilai dan MinPts. Pada percobaan
Visualisasi Pemetaan
yang dilakukan jumlah clusterpaling banyak pada
Data yang dihasilkan DBSCAN kemudian
nilai MinPts= 1 dan dimana sebuah cluster
diproses pada tahap preprocessingvisualiasi yaitu
paling sedikit memiliki anggota 1 teks tweet dan
dengan menghitung frekuensi kemunculan kata
dalam sebuah cluster. Kemudian dilakukan jarak antara teks dengan inti cluster . Sementara
pengecekan apakah kata dapat diidentifikasi oleh jumlah clusteryang paling sedikit pada pada nilai
Google Maps Geocoding . Berikut contoh tabel hasil
dimana berarti jarak antara teks dengan inti
pengecekan lokasi menggunakan Google Maps
Geocoding, informasi yang diberikan terdiri dari cluster . Sehingga dapat disimpulkan bahwa
status, longitude, latitude, dan alamat. semakin kecil nilai dan MinPts maka jumlah
Pengujian dan Analisis cluster semakin banyak. Dan sebaliknya semakin
Jumlah cluster yang dihasilkan dari proses besar nilai dan MinPts maka jumlah cluster
density-based clustering menunjukan jumlah semakin sedikit.
kejadian ( event) yaitu kecelakaan yang terjadi. Pada Pengujian hasil keluaran sistem dilakukan pada
percobaan menggunakan nilai diantara 1 sampai 6 skenario pengujian. Dimana pengujian dilakukan
10 untuk data 50 teks tweetyang diambil secara real- dengan variasi parameter ϵ dan MinPts untuk melihat
time pada tanggal 21 Juni 2016 diperoleh jumlah jumlah cluster yang dihasilkan. Evaluasi clustering
kejadian sebagai berikut. dilakukan dengan menghitung nilai Silhoutte
Coefficient. Nilai Silhoutte Coefficientadalah antara -
1 dan 1. Kondisi yang baik adalah jika nilai Silhoutte
Coefficientmendekati 1, yang menunjukan cluster
dimana teks tweet berada padat dan jauh terpisah
dari cluster lainnya. Berikut nilai Silhoutte
Coefficientpada masing-masing skenario pengujian.
Tabel 6 Hasil Evaluasi Clustering
MinPts Jumlah Jumlah Silhoutte
Cluster Teks dalam Coefficient
Cluster
Gambar 1 Grafik Jumlah Kejadian (Event) Kecelakaan 5 1 26 50 0.055
yang Terjadi 6 1 9 50 0.142
7 1 2 50 0.254
3 2 2 4 0.532
4 2 2 10 0.522
5 2 2 26 0.126
titik lokasi pada visualisasi pemetaan lokasi [6]. Konkol, M. (2012). Named Entity Recognition.
kecelakaan. Pilsen: University of West Bohemia .
3. Nilai parameter dan MinPtsmempengaruhi [7]. Krstajic, M., Rohrdantz, C., Hund, M., &
jumlah cluster yang dihasilkan proses Weiler, A. (2012). Getting There First: Real-
Time Detection of Real-Word Incidents on
clustering. Semakin kecil nilai dan MinPts
Twitter. Proceedings of the 2nd IEEE
maka jumlah cluster semakin banyak. Dan
Workshop on Interactive Visual Text Analytics
sebaliknya semakin bear nilai dan MinPts -IEEE VisWeek 2012. Seattle, WA, USA:
maka jumlah cluster semakin sedikit. Konstanzer Online Publications System.
4. Nilai silhoutte coefficient pada evaluasi
[8]. Kusrini, & Luthfi, E. T. (2009). Algoritma Data
clustering mempengaruhi probalitas lokasi
Mining. Yogyakarta: ANDI.
benar dari cluster. Jika nilai silhoutte coefficient
mendekati 1 maka probalitas lokasi benar [9]. Sebastiani, F. (2002). Machine learning in
semakin tinggi dan jika nilai silhoutte automated text categorization. ACM
coefficientmendekati -1 maka probalitas lokasi Computing, 34, 1-47.
benar semakin rendah.
5. Hasil keluaran sistem sudah dapat memberikan [10]. The Streaming APIs | Twitter Developers.
informasi lokasi kecelakaan. Informasi lokasi (n.d.). Retrieved 05 01, 2016, from Twitter:
berupa daftar kemungkinan lokasi yang ada https://dev.twitter.com/streaming/overview
secara eksplisit dalam teks pesan media sosial [11]. Witten, I. (2005). Text mining. In M. Singh,
pada setiap cluster. Akan tetapi hasil keluaran Practical handbook of internet computing. Boca
belum dapat disajikan dengan baik untuk publik Raton, Florida: Chapman & Hall/CRC Press.
karena lokasi yang ditemukan belum spesifik
menyebutkan suatu lokasi dengan detail. [12]. Witten, I. a. (2000). Data mining: Practical
machine learning tools and techniques. San
Francisco, CA: Morgan Kaufmann.
REFERENSI
[1]. Chung-Hong, L. (2012). Mining spatio-
temporal information on microblogging streams
using a density-based online clustering method .
39(10).
[2]. Data Mining. (n.d.). Retrieved March 20, 2015,
from Oracle:
http://www.oracle.com/technetwork/database/o
ptions/advanced-analytics/odm/index.html
[3]. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X.
(n.d.). A density-based algorithm for
discovering clusters in large spatial databases
with noise.
[4]. Google Maps APIs. (n.d.). Retrieved May 20,
2016, from Google Developers:
https://developers.google.com/maps/documenta
tion/geocoding
[5]. Han, J., Kamber, M., & Pei, J. (2012). Data
Mining Concepts and Techniques, Third
Edition. USA: Elsevier Inc.