Anda di halaman 1dari 8

JURNAL MASYARAKAT INFORMATIKA INDONESIA

JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

ANALISIS TEXT-MINING DENGAN METODE DENSITY-BASED


CLUSTERING PADA PESAN MEDIA SOSIAL UNTUK
PEMETAAN LOKASI KECELAKAAN

Nurjayanti
Fakultas Teknis, Jurusan Teknik Informatika
Universitas Widyatama
Jalan Cikutra No. 204A, Bandung, Indonesia
nurjayanti@widyatama.ac.id
Abstrak geospatial, text-mining, density-based clustering,
DBSCAN, NER rule-based
Salah satu fungsi media sosial adalah untuk
berbagi pesan atau kabar berita dari satu pengguna Abstract
kepada pengguna media sosial lainnya. Adanya
Social media has a function as messages or
kesadaran atau perhatian (awareness) masyarakat
news feed sharing platform between users, either in
terhadap kejadian nyata seperti kecelakaan menjadi
the form of texts, images, photos, or videos. The
pemicu bagi masyarakat untuk menggunggah kabar
public awareness on real-time events such as
berita tersebut ke media sosial. Pesan pada media
accidents become a trigger for users to upload the
sosial yang diunggah seringkali menyebutkan lokasi
news feed into social media. Messages on social
kejadian tersebut.
media often mentioned the location where the event
Proses deteksi kejadian secara real-time lengkap happened.
dengan informasi geospatialmerupakan dasar dalam
The process of events detection in real-time and
membuat pemetaan lokasi kecelakaan ini. Yang
geospatial information is the basis for mapping event
disebut kejadian pada penelitian ini adalah pesan
location. An event in this study is a message on social
media sosial yang memiliki topik “kecelaakan alat
media which has “transportation accident” as the
transportasi”. Dengan menggunakan text-mining,
topic. The social media messages can be processed to
pesan tersebut dapat diproses untuk diperoleh
obtain geospatial information by using text-mining
infomasi geospatial yang kemudian dapat
and then visualized into a map. The algorithm used in
divisualisasikan kedalam peta. Algoritma yang
the text-mining with density-based clustering method
digunakan pada text-mining dengan metode density-
is DBSCAN (Density-Based Spatial Clustering of
based clusteringyaitu algoritma DBSCAN ( Density-
Applications with Noise) algorithm. DBSCAN
Based Spatial Clustering of Applications with Noise ).
algorithm uses two parameters: the radius of each
Algoritma DBSCAN menggunakan dua parameter
cluster me mber to the cluster core (ε) and MinPts
yaitu radius masing-masing anggota clusterdengan
(Minimal Points) which provides a minimum number
inti cluster Eps( ) dan MinPts (Minimal Points) yang of cluster members in Eps. Extraction locations then
memberikan batasan jumlah minimum anggota performed on each cluster that produced from
cluster dalam Eps. Ektraksi lokasi kemudian clustering. Mapping visualization is done against
dilakukan pada cluster yang dihasilkan proses cluster locations that are extracted using NER rule-
clustering. Visualisasi peta dilakukan terhadap lokasi based method and parsing to Google Maps
clusteryang diekstrak menggunakan metode NER Geocoding API.
rule-based dan parsing lokasi ke Google Maps
Keywords:
Geocoding API.
geospatial, text-mining, density-based clustering,
Kata kunci :
DBSCAN, NER rule-based

Jurnal Nasional JMII 2016 31


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

I. PENDAHULUAN Analisa clusteratau clusteringadalah proses


pembagian atau pengelompokan ( partitioning) satu
Proses deteksi kejadian secara real-time lengkap set objek data kedalam beberapa subset yang disebut
dengan informasi geospatialmerupakan dasar dalam cluster. Objek dalam sebuah clusterbisa memiliki
membuat pemetaan lokasi. Yang disebut kejadian kemiripan satu dengan yang lainnya atau
pada penelitian ini adalah pesan media sosial yang ketidakmiripan dengan objek pada cluster lain [5].
memiliki topik “kecelaakan alat transportasi”.
Density-Based Clustering
Algoritma yang akan digunakan pada text-
mining dengan metode density-based clusteringyaitu Density-based clustering adalah metode
algoritma DBSCAN (Density-Based Spatial clustering yang dapat digunakan untuk mencari
Clustering of Applications with Noise ). Algoritma clusters yang betuknya berubah-ubah (arbitary
DBSCAN menggunakan dua parameter yaitu radius shape) yang dimodelkan berupa daerah yang padat
(dense regions ) pada ruang data yang dipisahkan
masing-masing anggota clusterdengan inti cluster( ) oleh daerah yang jarang (sparse regions) [5].
dan MinPts (Minimal Points) yang memberikan
batasan jumlah minimum anggota clusterdalam Eps. Algoritma DBSCAN: Density-Based Spatial
Clustering of Applications with Noise
Algoritma DBSCAN digunakan pada spatial
II. LANDASAN TEORI
database yang memuat noise. Densitydari objek
a. Text-mining dan Data Mining
dapat diukur dari banyaknya objek yang dekat ke .
Data miningdapat lebih dikarakterisasi sebagai DBSCAN mencari objek inti (core objects) yaitu
ekstraksi dari implisit, yang sebelumnya tidak objek yang memiliki daerah sekitar yang padat (dense
diketahui, dan informasi yang berpotensi berguna neighborhoods). DBSCAN menghubungkan (density-
dari data [12]. Informasi pada data miningdiperoleh connected) objek inti dan daerah sekitarnya untuk
dari data implisit: data tersebut tersembunyi, tidak membentuk daerah padat sebagai cluster. Sementara
dikenali, dan sulit diekstrak tanpa sumber daya untuk objek yang bukan anggota clusterdianggap sebagai
teknik otomatis data mining . Sementara text-mining, noise [5]. Berikut contoh pseudocode algoritma
informasi yang diekstrak adalah jelas dan eksplisit DBSCAN.
disebutkan dalam teks [10].
b. Vector Space Model (VSM) Algoritma II.1 DBSCAN: a density-based
clustering algorithm
Vector Space Model adalah teknik pada teks Input :
clusteringyang digunakan untuk pembobotan dengan D: a data set containing n objects
merepresentasikan teks sebagai kumpulan titik di
suatu ruang vektor. Dalam VSM, teks : the radius parameter, and
MinPts : the neighborhood density
direpresentasikan dalam bentuk vektor ( t1, t 2, ... t i) threshold
dimana setiap timewakili sebuah kata. Kumpulan Output: A set of density-based clusters
teks kemudian direpresentasikan dalat satu set vektor Method:
(1) mark all objects as unvisited;
yang dapat digambarkan dalam bentuk matriks (2) do
sebagai berikut. Perhitungan bobot pada VSM dapat (3) randomly select an unvisited object
menggunakan TF-IDF ( Term Frequency –Inverse p;
Document Frequency) dimana dari matriks diatas (4) mark p as visited;
bobot direpresentasikan oleh setiap elemen xji [5]. (5) if the -neighborhood of p has at
Perhitungan bobot dengan TF-IDF dapat dilihat pada least MinPts objects
persamaan 1: (6) create a new cluster C, and add p to
C;

(7) let N be the set of objects in the -


c. Analisa Cluster neighborhood of p;
(8) for each point p’ in N

Jurnal Nasional JMII 2016 32


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

(9) if p’ is unvisited banyak pengguna Twitter. Attribut yang dipilih


(10) mark p’ as visited;
adalah teks tweetdengan jumlah maksimal karakter
(11) if the -neighborhood of p’ per teks adalah 140 karakter.
has at least MinPts points,
(12) add those points to N; Tabel 1 Daftar Kata Kunci Pencarian Data
(13) if p’ is not yet member of
Kata
any cluster, add p’ to C; Format Parameter
Kunci
(14) end for;
(15) output C; kecelakaan, kecelakaan mobil, kecelakaan motor,
kecelakaan
(16) else mark p as noise; kecelakaan kendaraan
tabrakan, tabrakan mobil, tabrakan motor, tabrakan
(17) until no object is unvisited; tabrakan
kendaraan, menabrak

Evaluasi Clustering Metode scrapping web digunakan pada


pengambilan data secara langsung dari halaman
Silhoutte coefficientmerupakan metode evaluasi Twitter Search. Implementasi program akan
cluster secara internal dimana menggabungkan mengakses URL https://twitter.com/i/search/timeline.
konsep cohesion (bagaimana relasi kedekatan/ Proses dimulai dengan mengirimkan query
kepadatan objek dalam cluster) dan separation permintaan pencarian teks tweet. Apabila respon
(seberapa baiknya masing-masing cluster terpisah yang dikirimkan kembali oleh Twitter adalah sukses,
antara satu dan lainnya). teks tweet kemudian diekstrak dari informasi yang
Silhoutte coefficient didefinisikan sebagai diterima. Teks tweet yang diekstrak tersebut
berikut pada persamaaan 2. kemudian disimpan sebagai data mentah ( raw data ).
Sementara jika gagal permintaan akan dikirimkan
kembali oleh sistem.
b. Tahapan Penelitian
Dimana a(o) adalah rata-rata jarak objek oke
objek lain dalam cluster dan b(o) adalah minimal Berikut gambaran alur kerja atau tahapan
jarak rata-rata dari objek o ke objek lain dalam penelitian implementasi text-mining dengan metode
cluster berbeda. Nilai silhoutte coefficient adalah density-based clustering pada media sosial yang akan
antara -1 dan 1. Kondisi yang baik adalah jika nilai dilakukan. Tahapan penelitian diatas sebagai berikut:
silhoutte coefficient mendekati 1, yang menunjukan
clusterdimana objek oberada padat dan jauh terpisah 1. Raw Data, pada tahap ini data penelitian
dari clusterlainnya. dikumpulkan kemudian disimpan dan disebut
sebagai data mentah (raw data).
d. Named Entity Recognition 2. Preprocessing, data mentah diolah pada tahap
preprocessingsehingga sesuai dan siap diproses
Named Entity Recognition (NER) merupakan
oleh text-mining, yaitu pada tahap implementasi
sub-tasksdari Information Extraction (IE) [6]. NER
density-based clustering.
merupakan bagian penting dari Natural Language
3. Data after preprocessing merupakan data yang
Processing (NLP). NER bertugas untuk mencari dan
diperoleh dari tahap preprocessing.
menklasifikasi nama (entitas) dalam teks yang ditulis
4. Density-Based Clustering, tahap implementasi
dengan bahasa natural.
metode density-based clustering pada data hasil
preprocessing. Pada proses clustering, jarak
antar teks dihitung menggunakan fungsi
III.ANALISIS DAN PERANCANGAN Euclidean Distance kemudian proses clustering
dilakukan dengan algoritma DBSCAN.
a. Sumber Data 5. Extract locations, ektraksi informasi lokasi dari
Jenis data yang digunakan adalah teks tweet teks pada cluster dengan menggunakan NER
pada Twitter yang berisi informasi kecelakaan rule-baseduntuk memilih teks yang diperkirakan
dimana teks menggunakan bahasa Indonesia. mengandung informasi lokasi secara eksplisit.
Pengambilan teks tweet dibatasi parameter kata Kata hasil keluaran NER kemudian di parsing
kunci dan bahasa. Data yang dipilih berasal dari

Jurnal Nasional JMII 2016 33


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

menggunakan Google Maps Geocoding API


Perhitungan jarak objek p ke objek pusat dapat
untuk meminta informasi geocoding.
menggunakan pengukuran numerik yaitu
6. Data from text-mining, data hasil keluaran
menggunakan Euclidean Distance. Berikut rumus
penerapan metode density-based clustering.
Euclidean Distance:
7. Analysis & evaluation, analisa dan evaluasi hasil
keluaran metode density-based clustering dan
hasil ekstraksi lokasi dari setiap clusteryang
dihasilkan proses clustering. Tahapan Visualisasi Pemetaan
8. Result, data yang sudah dievaluasi kemudian
diproses untuk dibuat kedalam visualisasi Visualisasi dilakukan terhadap setiap cluster
pemetaan atau geospatial. Pada tahap ini dibuat yang dihasilkan DBSCAN. Adapun tahapan pada
hasil dan kesimpulan dari penelitian. visualisasi pemetaan antara lain:
9. Mapping, tahap menampilkan visualisasi 1. Tahap ekstraksi lokasi masing-masing cluster
pemetaan lokasi kecelakaan. Pemetaan dilakukan dengan menggunakan NER rule-based.
dengan bantuan Google Maps Geocoding API. 2. Visualisasi dengan menggunakan Google Maps
Geocoding API dimana parameter yang
Tahapan Preprocessing digunakan adalah kata pada setiap cluster.
Pada tahap preprocessing dihasilkan data set Dengan menggunakan geocoding akan
yang siap untuk diproses oleh metode density-based dihasilkan koordinat geografis (dalam latitude
clustering. Tahapan preprocessing terdiri dari sub dan longitude) yang kemudian dapat digunakan
tahap yaitu text-preprocessing dan pembobotan sebagai titik lokasi pada Google Maps.
kata.Pada text-preprocessingdilakukan case folding Respon status yang diberikan geocoding pada
dan tokenizing pada data mentah yang dikumpulkan . permintaan (request) yang dikirimkan terdiri dari
Proses processing diawali dengan inisialisasi tabel kode berikut: [4]
hash yaitu tabel yang digunakan untuk menyimpan
frekuensi kemunculan kata pada sejumlah data yang Tabel 2 Respon Status Geocoding
akan diproses oleh clustering.Teks pada data yang Status Keterangan
dihasilkan tahap text-preprocessingdipecah ke dalam menunjukan tidak ada errorterjadi.
bentuk kata kemudian dihitung bobot untuk kata OK Alamat berhasil diuraikan dan paling
sedikit satu geocodedikembalikan.
tersebut. Pembobotan kata akan menghasilkan nilai menunjukan geocodeberhasil tetapi
TF-IDF setiap kata pada teks. Persamaan untuk mengembalikan hasil kosong. Hal
menghitung TF-IDF yang digunakan sebagai berikut. ZERO_RESULTS tersebut mungkin jika geocoder
memberikan alamat yang tidak ada
(not existing address).
menunjukan bahwa permintaan
OVER_QUERY_LIMIT
melebihi kuota
REQUEST_DENIED menunjukan bahwa permintaan ditolak
Tahapan Implementasi DBSCAN umumnya menunjukan bahwa query
INVALID_REQUEST (address, componentsatau latlng)
Hasil pembobotan kata yang sudah dilakukan hilang
kemudian digunakan dalam proses density-based menunjukan bahwa permintaan tidak
clustering. Algoritma DBSCAN yang akan UNKNOWN_ERROR
dapat diproses karena server error.
diimplementasikan akan membuat cluster sesuai Pemintaan munkin berhasil diproses
jika dikirim ulang.
dengan parameter masukan, yaitu dan MinPts.
Parameter dan MinPtsakan mempengaruhi IV. IMPLEMENTASI DAN ANALISIS
jumlah cluster yang terbentuk. DBSCAN akan
membuat suatu daerah yang berpusat di dengan Preprocessing
radius sebesar , sehingga anggota clusteradalah Penelitian implementasi density-based
objek-objek dalam radius dari objek pusat . clustering dilakukan terhadap 50 pesan teks dari

Jurnal Nasional JMII 2016 34


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

Twitter. Preprocessing dimulai dengan text- menandai semua objek sebagai “unvisited” dan
preprocessing yang terdiri dari tahap case foldingdan kemudian memilih secara random satu objek untuk
tokenizing. Setelah text-preprocessing selesai diuji kedekatannya dengan menggunakan fungsi
kemudian dilanjutkan dengan tahap pembobotan pengukuran jarak yaitu Euclidean Distance. Berikut
kata. Data hasil text-preprocessingdibentuk kedalam
hasil clustering untuk dan minpts = 1 untuk 50
vektor yang direpresentasikan dengan kata.
teks yang diuji.
Kemudian dihitung frekuensi kemunculan setiap kata
tersebut. Berikut contoh data pada tabel hasil Tabel 4 Contoh Hasil Clustering
perhitungan bobot yang dilakukan oleh sistem. ID Teks Cluster
Tabel 3 Pembobotan Kata 1 gunakan jalur sesuai ketentuan jangan melawan 7
arus karena rawan kecelakaan kesadaran kita
Terms F term on text Total text with terms Total Text TFIDF keselamatan semua pictwittercomuzyzwcnq
arah 1 9 50 0.745 2 gunakan jalur sesuai ketentuan jangan melawan 7
arus krn rawan kecelakaan kesadaran kita
Perhitungan untuk kata “arah” pada teks kesatu keselamatan semua pictwittercomlitosjblr
muncul sebanyak 1 kali dalam teks ke-1 dimana dari
50 teks yang diuji kata muncul pada 9 teks. Sehingga Iterasi pengujian pada teks dilakukan sampai
perhitungannya adalah sebagai berikut. semua teks dikunjungi (visited). Misal jika objek
berikutnya yaitu teks-1 dan teks-2 yang akan diuji
(5) dimana teks-1 adalah objek pusat cluster C1maka
Density-based perhitungan jaraknya adalah:
Clustering dengan DBSCAN
Setiap teks adalah objek yang akan diuji Tabel 5 Contoh Perhitungan Bobot
kedekatannya oleh DBSCAN dalam proses
clustering. Pada tahap awal, DBSCAN akan
p Term TFIDF1 TFIDF2
x J i
1 arus 1.097 1.097 0
2 gunakan 1.222 1.222 0
3 jalur 1.097 1.097 0
4 jangan 1.097 1.097 0
5 karena 1.398 0 1.954404
6 kecelakaan 0.009 0.009 0
7 kesadaran 1.398 1.398 0
8 keselamatan 1.398 1.398 0
9 ketentuan 1.398 1.398 0
10 kita 1.398 1.398 0
11 melawan 1.398 1.398 0
12 pictwittercomuzyzwcnq 1.699 0 2.886601
13 rawan 0.854 0.854 0
14 semua 1.398 1.398 0
15 sesuai 1.398 1.398 0
16 pictwittercomlitosjblr 0 1.699 2.886601
∑ 7.727606
Teks-2 karena berada didalam radius yaitu
sehingga teks-2 adalah anggota cluster C1.
Pada iterasi pembuatan cluster baru berikutnya

Jurnal Nasional JMII 2016 35


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

semua noise akan diuji, termasuk objek r apakah Dari grafik pada gambar 2 dapat dilihat bahwa
jumlah clusteryang dihasilkan dari proses clustering
berada dalam radius untuk cluster atau tidak.
dipengaruhi oeh nilai dan MinPts. Pada percobaan
Visualisasi Pemetaan
yang dilakukan jumlah clusterpaling banyak pada
Data yang dihasilkan DBSCAN kemudian
nilai MinPts= 1 dan dimana sebuah cluster
diproses pada tahap preprocessingvisualiasi yaitu
paling sedikit memiliki anggota 1 teks tweet dan
dengan menghitung frekuensi kemunculan kata
dalam sebuah cluster. Kemudian dilakukan jarak antara teks dengan inti cluster . Sementara
pengecekan apakah kata dapat diidentifikasi oleh jumlah clusteryang paling sedikit pada pada nilai
Google Maps Geocoding . Berikut contoh tabel hasil
dimana berarti jarak antara teks dengan inti
pengecekan lokasi menggunakan Google Maps
Geocoding, informasi yang diberikan terdiri dari cluster . Sehingga dapat disimpulkan bahwa
status, longitude, latitude, dan alamat. semakin kecil nilai dan MinPts maka jumlah
Pengujian dan Analisis cluster semakin banyak. Dan sebaliknya semakin
Jumlah cluster yang dihasilkan dari proses besar nilai dan MinPts maka jumlah cluster
density-based clustering menunjukan jumlah semakin sedikit.
kejadian ( event) yaitu kecelakaan yang terjadi. Pada Pengujian hasil keluaran sistem dilakukan pada
percobaan menggunakan nilai diantara 1 sampai 6 skenario pengujian. Dimana pengujian dilakukan
10 untuk data 50 teks tweetyang diambil secara real- dengan variasi parameter ϵ dan MinPts untuk melihat
time pada tanggal 21 Juni 2016 diperoleh jumlah jumlah cluster yang dihasilkan. Evaluasi clustering
kejadian sebagai berikut. dilakukan dengan menghitung nilai Silhoutte
Coefficient. Nilai Silhoutte Coefficientadalah antara -
1 dan 1. Kondisi yang baik adalah jika nilai Silhoutte
Coefficientmendekati 1, yang menunjukan cluster
dimana teks tweet berada padat dan jauh terpisah
dari cluster lainnya. Berikut nilai Silhoutte
Coefficientpada masing-masing skenario pengujian.
Tabel 6 Hasil Evaluasi Clustering
MinPts Jumlah Jumlah Silhoutte
Cluster Teks dalam Coefficient
Cluster
Gambar 1 Grafik Jumlah Kejadian (Event) Kecelakaan 5 1 26 50 0.055
yang Terjadi 6 1 9 50 0.142
7 1 2 50 0.254
3 2 2 4 0.532
4 2 2 10 0.522
5 2 2 26 0.126

Dari hasil evaluasi clusteringdiatas diperoleh


nilai Silhoutte Coefficient yang paling mendekati 1
adalah hasil clusteringpada skenario 4 yaitu 0.532
dengan 3, MinPts = 2 dan jumlah cluster 2.
Dimana nilai Silhoutte Coefficient pada skenario 4
menunjukan bahwa teks dalam cluster memiliki
density yang baik dan memiliki kemiripan atau
Gambar 2 Grafik Keterhubungan Nilai Epsilon, kesamaan kejadian yang lebih tinggi.
MinPts, dan Jumlah Cluster

Jurnal Nasional JMII 2016 36


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

Nilai Silhoutte Coefficient pada skenario 1


sebesar 0.055 dengan 5, MinPts = 1 dan jumlah
cluster 26 adalah nilai yang paling mendekati -1.
Sehingga pada skenario 1 teks dalam cluster
memiliki density yang kurang baik dan memiliki
kemiripan atau kesamaan kejadian yang lebih rendah.
Setelah dilakukan evaluasi clustering, kemudian
dilakukan analisa terhadap informasi lokasi yang
ditemukan pada hasil clustering. Pengujian informasi
lokasi dilakukan dengan membandingkan hasil
keluaran sistem dengan hasil observasi pada
informasi lokasi yang eksplisit ada pada teks dalam Tabel 7 Hasil Pengujian Lokasi pada Cluster
cluster.
Jumlah Cluster Silhoutte Coefficient Jumlah Lokasi Jumlah Lokasi Jumlah Lokasi Probalitas Lokasi Probalitas Lokasi
Ditemukan Benar Salah Benar Salah

26 0.055 26 14 12 0.538 0.462


9 0.142 26 14 12 0.538 0.462
2 0.254 26 14 12 0.538 0.462
2 0.532 2 2 0 1 0
2 0.522 5 5 0 1 0
2 0.126 17 11 6 0.647 0.353
Pada skenario pengujian 4 dan 5 probalitas
lokasi benar lebih tinggi dibandingkan dengan hasil
Dari pengujian diatas dihasilkan kemungkinan lokasi
skenario 3 dan 6 walaupun jumlah clustersama. Hal
clusterbenar paling tinggi pada percobaan clustering
ini dipengaruhi juga nilai Silhoutte Coefficient pada
pada skenario ke-4 dengan 3 dan MinPts = 2 dan skenario 4 dan 5 yang paling mendekati 1. Dimana
dapat disimpulkan bahwa pada skenario ke 4 dan 5,
skenario ke-5 dengan 4 dan MinPts = 2.
teks pada clustermemiliki kemiripan atau kesamaan
Dari pengujian diatas dihasilkan kemungkinan kejadian lebih tinggi sehingga probalitas lokasi
lokasi clusterbenar paling tinggi pada percobaan kejadian yang ditemukan juga lebih tinggi.
clustering pada skenario ke-4 dengan 3 dan V. KESIMPULAN
MinPts = 2 dan skenario ke-5 dengan 4 dan Dari penelitian yang dilakukan dapat diambil
MinPts = 2. kesimpulan sebagai berikut:
1. Density-based clustering menggunakan
algoritma DBSCAN dapat digunakan untuk
mendeteksi dan mengelompokan kejadian
(event) nyata yang diunggah usermelalui pesan
pada media sosial. DBSCAN membuat
sejumlah cluster berdasarkan paramater
masukan yaitu dan MinPts.
2. Identifikasi dan ekstraksi informasi geospatial
atau lokasi dari suatu eventpada sebuah cluster
dapat menggunakan Google Maps Geocoding
API, dimana parameter pencarian yang
Gambar 3 Grafik Hubungan Jumlah Cluster dan digunakan adalah kata pada teks anggota
Probalitas Lokasi cluster. Informasi koordinat geografis yang
dihasilkan geocodingdapat digunakan sebagai

Jurnal Nasional JMII 2016 37


JURNAL MASYARAKAT INFORMATIKA INDONESIA
JMII Vol 1, No. 1, 2016 ISSN: 2541-5093

titik lokasi pada visualisasi pemetaan lokasi [6]. Konkol, M. (2012). Named Entity Recognition.
kecelakaan. Pilsen: University of West Bohemia .
3. Nilai parameter dan MinPtsmempengaruhi [7]. Krstajic, M., Rohrdantz, C., Hund, M., &
jumlah cluster yang dihasilkan proses Weiler, A. (2012). Getting There First: Real-
Time Detection of Real-Word Incidents on
clustering. Semakin kecil nilai dan MinPts
Twitter. Proceedings of the 2nd IEEE
maka jumlah cluster semakin banyak. Dan
Workshop on Interactive Visual Text Analytics
sebaliknya semakin bear nilai dan MinPts -IEEE VisWeek 2012. Seattle, WA, USA:
maka jumlah cluster semakin sedikit. Konstanzer Online Publications System.
4. Nilai silhoutte coefficient pada evaluasi
[8]. Kusrini, & Luthfi, E. T. (2009). Algoritma Data
clustering mempengaruhi probalitas lokasi
Mining. Yogyakarta: ANDI.
benar dari cluster. Jika nilai silhoutte coefficient
mendekati 1 maka probalitas lokasi benar [9]. Sebastiani, F. (2002). Machine learning in
semakin tinggi dan jika nilai silhoutte automated text categorization. ACM
coefficientmendekati -1 maka probalitas lokasi Computing, 34, 1-47.
benar semakin rendah.
5. Hasil keluaran sistem sudah dapat memberikan [10]. The Streaming APIs | Twitter Developers.
informasi lokasi kecelakaan. Informasi lokasi (n.d.). Retrieved 05 01, 2016, from Twitter:
berupa daftar kemungkinan lokasi yang ada https://dev.twitter.com/streaming/overview
secara eksplisit dalam teks pesan media sosial [11]. Witten, I. (2005). Text mining. In M. Singh,
pada setiap cluster. Akan tetapi hasil keluaran Practical handbook of internet computing. Boca
belum dapat disajikan dengan baik untuk publik Raton, Florida: Chapman & Hall/CRC Press.
karena lokasi yang ditemukan belum spesifik
menyebutkan suatu lokasi dengan detail. [12]. Witten, I. a. (2000). Data mining: Practical
machine learning tools and techniques. San
Francisco, CA: Morgan Kaufmann.
REFERENSI
[1]. Chung-Hong, L. (2012). Mining spatio-
temporal information on microblogging streams
using a density-based online clustering method .
39(10).
[2]. Data Mining. (n.d.). Retrieved March 20, 2015,
from Oracle:
http://www.oracle.com/technetwork/database/o
ptions/advanced-analytics/odm/index.html
[3]. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X.
(n.d.). A density-based algorithm for
discovering clusters in large spatial databases
with noise.
[4]. Google Maps APIs. (n.d.). Retrieved May 20,
2016, from Google Developers:
https://developers.google.com/maps/documenta
tion/geocoding
[5]. Han, J., Kamber, M., & Pei, J. (2012). Data
Mining Concepts and Techniques, Third
Edition. USA: Elsevier Inc.

Jurnal Nasional JMII 2016 38

Anda mungkin juga menyukai