Anda di halaman 1dari 9

1

Ekstraksi Informasi Media Sosial Twitter Mengenai Kecelakaan


Lalu Lintas Menggunakan Pendekatan Ontology-Based
Information Extraction

Yasin Awwab, Nur Aini Rakhmawati


Jurusan Sistem Informasi, Fakultas Tekonologi Informasi dan Komunikasi, Institut Teknologi Sepuluh
Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: yasinaw27@gmail.com, nur.aini@is.its.ac.id

Abstrak— Kecelakaan lalu lintas menjadi salah satu kejadian video. Twitter semakin banyak digunakan oleh organisasi
yang sering terjadi di Indonesia. Dari data yang dihimpun berita dalam menerima pembaruan selama keadaan darurat
KORLANTAS POLRI diketahui setiap 3 bulan terdapat sekitar [2]. Keadaan darurat tersebut salah satunya merupakan
25.000 kecelakaan lalu lintas. Informasi mengenai kecelakaan
kecelakaan lalu lintas. Namun, informasi mengenai
lalu lintas banyak dibagikan oleh pengguna media sosial
termasuk Twitter. Twitter memiliki berbagai informasi kecelakaan lalu lintas yang terdapat di media sosial Twitter
mengenai kecelakaan lalu lintas. Namun, informasi yang berada sulit untuk diekstraksi karena ekspresi linguistik dari insiden
di Twitter tersebut belum terdapat pengolahan dan pemetaan dapat bervariasi secara signifikan di antara pengguna Twitter
mengenai informasi tersebut. Oleh sebab itu, penelitian ini yang berbeda [4].
bertujuan untuk mengolah dan memetakan informasi mengenai Oleh sebab itu pada penelitian ini dibuatlah sebuah ontology
kecelakaan lalu lintas yang terdapat di Twitter sehingga dapat menggunakan Bahasa Indonesia yang terkait dengan
memberikan manfaat bagi masyarakat maupun menjadi
masukan dalam pengembangan terkait lalu lintas di Indonesia.
kecelakaan lalu lintas sebagai kerangka knowledge base pada
Metode yang dalam penelitian ini menggunakan domain proses ekstraksi informasi untuk memetakan komponen
ontology dan Named-Entity Recognition untuk proses ekstraksi kecelakaan lalu lintas yang akan digunakan dalam penelitian
data. Metode Named-Entity Recognition digunakan untuk ini. Kemudian dengan menggunakan metode Named Entity
mendapatkan kata kunci dari sebuah tweet berdasarkan Recognition dapat mendeteksi named-entity pada setiap tweet
kategori kelasnya seperti aktor, waktu, lokasi, dan keterangan yang didapatkan. Tujuan penelitian ini adalah untuk
penyebab kecelakaan tersebut. Penelitian ini menghasilkan melakukan ekstraksi informasi mengenai kecelakaan lalu
model Named Entity Recognition yang dapat menghasilkan lintas dari media sosial Twitter untuk mengetahui persebaran
tingkat akurasi yang cukup akurat, serta penggunaan ontology data kecelakan lalu lintas sesuai dengan entitas yang telah
mampu mengkategorikan penyebab kecelakaan lalu lintas. Nilai
akurasi yang didapatkan oleh model Actor memiliki precision
ditentukan.
sebesar 99,31%, recall sebesar 98,56%, dan F1 score sebesar
98,93%. Untuk model Location memiliki precision sebesar II. PENELITIAN TERKAIT
99,54%, recall sebesar 98,37%, dan F1 score sebesar 98,95%.
Untuk model Keterangan memiliki precision sebesar 99,83%,
recall sebesar 90,58%, dan F1 score sebesar 94,98%. Untuk Penelitian ini memiliki keterkaitan dengan beberapa
model Time memiliki precision sebesar 100%, recall sebesar penelitian lain yang serupa. Salah satunya adalah penelitian
100%, dan F1 score sebesar 100%. yang berjudul Spatiotemporal and semantic information
extraction from Web news reports about natural hazards [3].
Kata Kunci— Semantic Web, Ontologi, Named Entity Penelitian ini bertujuan untuk melakukan ekstraksi data
Recognition, Twitter, Kecelakaan Lalu Lintas
melalui website news reports mengenai kejadian alam
yang berbahaya dan kemudian ditampilkan dalam bentuk
I. PENDAHULUAN geocoding. Metode yang digunakan pada penelitian ini
adalah dengan mengekstrak web text document berita
yang kemudian dilakukan preprocessing data
K ecelakaan lalu lintas merupakan salah satu kejadian
darurat yang sering terjadi di Indonesia. Pada bulan
Oktober - Desember 2018, total telah terjadi lebih dari 25.000
menggunakan aplikasi GATE. Penelitian
menggunakan aplikasi ontologi editor dengan
ini

kejadian kecelakaan lalu lintas [1]. Dengan banyaknya menggunakan. Tahap terakhir dengan geocoding dan
kejadian tersebut, sumber informasi mengenai kecelakaan geovisualization.
lalu lintas merupakan suatu hal yang penting untuk diolah Selanjutnya adalah penelitian A methodology for traffic-
menjadi sebuah informasi yang dapat dipelajari. Sumber related Twitter messages interpretation [4] yang menjadi
informasi kecelakaan lalu lintas tersebut dapat diambil dari acuan utama dalam penelitian ini. Pada penelitian ini
bertujuan untuk melakukan interpretasi dari data yang telah
berbagai sumber informasi, salah satunya yaitu tersebar di
diekstrak dari Twitter mengenai berbagai macam hal yang
berbagai media sosial termasuk Twitter.
berkaitan dengan lalu lintas. Data-data yang didapatkan akan
Twitter merupakan media sosial berbasis mobile dan web
diolah dengan menggunakan ontologi dengan model TEDO
yang menghadirkan fitur untuk saling berbagi informasi yang merupakan Traffic Event Domain Ontologi. Sehingga
secara mudah. Pengguna Twitter dapat memposting sebuah data yang diinterpretasikan terdiri dari nama kejadian, aktor
tweet untuk berbagi informasi dengan pengguna lain, tweet yang terlibat, lokasi, dan waktu.
tersebut dapat berupa tulisan, gambar, maupun berbagi link
2

Dalam hal penyusunan model ontology berdasarkan data Kecelakaan yang disebabkan oleh lingkungan dapat
kecelakaan lalu lintas, penelitian ini mengacuk kepada Fuzzy terjadi karena lalu lintas campuran antara kendaraan
ontologi-based sentiment analysis of transportation and city cepat dengan kendaraan dengan pejalan,
feature reviews for safe traveling [5] dimana penelitian ini pengawasan dan penegakan hhukum belum efektif,
membahas mengenai pengolahan data lalu lintas yang pelayanan gawat darurat yang kurang cepat. Selain
terdapat pada kota-kota besar dengan tujuan untuk itu seperti cuaca juga menjadi indicator kecelakaan
meningkatkan kenyamanan dan keamanan selama perjalanan. lalu lintas. Cuaca yang : gelap, hujan. Kabut, asap..
Penelitian ini berdasarkan data yang diambil pada social
Name Entity Recognition (NER)
networking dan online discussion yang terdapat di forum
website. Data yang didapatkan kemudian melalui tahap pre- Name Entity Recognition (NER) atau Name Entity
processing data. Proses ini mempertimbangkan setiap kata Recognition and Classification (NERC) adalah salah satu
adjectaive dan adverbs di tiap kata nya. Kemudian diolah dari beberapa komponen utama dari information
menggunakan Ontologi SWRL dan Ontologi Fuzzy extraction yang memiliki tujuan untuk mendeteksi dan
berdasarkan score tiap senti-word. Data yang dihasilkan mengklasifikasikan sebuah named-entity pada sebuah
ditujukan untuk pengendara di jalan raya dan perusahan string (teks) [9].
transportasi.
Sebagai landasan mengenai teori big data dalam sebuah
media sosial seperti Twitter, penelitian ini mengacu kepada
Social big data: Recent achievements and new challenges [6]
yang membahas mengenai pemilihan social media sebagai
sumber data yang akan digunakan. Sosial media sudah Gambar 1 Contoh deteksi entitas dengan NER
menjadi salah satu sumber data yang paling representative
dan relevan. Pengambilan dan pemrosesan data yang ada di Ontologi
dalam social media menggunakan paradigma algoritma Ontologi adalah spesifikasi dari sebuah klasifikasi [10].
MapReduce dan Apache Spark. Ontologi terbagi menjadi 4 komponen yang diantaranya
Mengenai pengolahan ekstraksi informasi sebuah tweet yaitu:
menggunakan Named Entity Recognition, penelitian ini a. Concept
mengacu pada Analysis of named entity recognition and Concept (Konsep) adalah sebuah kumpulan dari
linking for tweets [7] karena penelitian ini lebih membahas berbagai objek. Konsep adalah bentuk fundamental
mengenai analisis dari proses ekstraksi data dari media sosial elemen dari sebuah domain yang biasanya
Twitter. Penelitian ini juga membandingkan berbagai macam merepresntasikan kumpulan dari kelompok yang
metode dalam menggunakan Named Entity Recognition. memiliki kesamaan.
Dengan hasil berupa akurasi, presisi, dan recall dari setiap b. Instance
percobaan metode yang dilakukan. Instance atau biadanya dikenal sebagai individual
adalah sebuah komponen “ground-level” yang
III. DASAR TEORI merepresentasikan objek yang spesifik dari sebuah
konsep.
c. Relation
Faktor Kecelakaan Lalu Lintas Relation (Relasi) adalah suatu hubungan antara dua
Faktor penyebab kecelakaan lalu lintas menurut Direktorat konsep dalam sebuah domain.
Jendral Dinas Perhubungan Darat dapat dikategorikan d. Axioms
berdasarkan 4 kategori [8], yang diantaranya yaitu : Axioms digunakan untuk memaksakan kendala atau
a. Pengemudi masalah pada nilai dari suatu kelas.
Kecelakaan lalu lintas yang disebabkan oleh Ontologi berperan penting dalam memainkan peran di
pengemudi dapat disebabkan oleh beberapa faktor dalam semantic web untuk mendukung pertukaran informasi
yang diantaranya yaitu lengah, mengantuk, tidak yang tersebar dari berbagai lingkungan. Semantic web
terampil, mabuk, kecepatan tinggi, tidak menjaga merepresentasikan data ke dalam machine-processable way,
jarak, kesalahan pejalan dan gangguan binatang. dimana itu menjadi suatu alas an untuk menjadi sebuah
b. Kendaraan ekstensi dari sebuah web yang sudah ada [11].
Kecelakaan lalu lintas yang disebabkan oleh Semantic Web
pengemudi dapat disebabkan oleh beberapa faktor
Semantic web merupakan sebuah konsep pemikiran dari
yang diantaranya yaitu lengah, mengantuk, tidak
bagaimana memiliki data pada web yang dapat didefinisikan
terampil, mabuk, kecepatan tinggi, tidak menjaga
jarak, kesalahan pejalan dan gangguan binatang. dan dihubungkan dengan suatu cara sehingga dapat
c. Jalan dimengerti oleh mesin dengan tujuan untuk otomatisasi,
Penyebab kecelakaan lalu lintas yang disebabkan integrasi dan penggunaan kembali data diantara berbagai
oleh jalan diantaranya disebabkan oleh aplikasi. Dengan adanya semantic web maka berbagai
persimpangan, jalan sempit, akses yang tidak perangkat lunak akan mampu mencari, membagi, dan
dikontrol atau dikendalikan, marka jalan kurang atau mengintegrasikan informasi dengan cara yang lebih muda
tidak jelas, tidak ada rambu batas kecepatan, [12].
permukaan jalan licin
OpenNLP
d. Lingkungan
OpenNLP adalah sebuah library dari Java yang digunakan
untuk membantu dalam proses Natural Language Processing
3

yang telah dikembangkan oleh Apache [13]. OpenNLP 2. Data tersebut didapatkan dari proses crawling
memiliki tujuan untuk mempermudah sebuah program Twitter menggunakan tweetscraper.
computer dalam melakukan ekstraksi makna dari natural 3. Data yang telah didapatkan kemudian akan
language [13]. OpenlNLP mampu mendukung beberapa disimpan di database mySQL.
tugas berikut:
4. Data yang tersimpan dalam database tersebut
• Tokenization
kemudian kemudian dilakukan preprocessing.
• Sentence Segmentation
Proses tersebut akan membersihkan data mencakup
• Part -of-speech tagging
penghapusan duplikasi, case folding, date merging,
• Named Entity Recognition
data cleansing.
• Chunking
• Parsing 5. Data yang telah dibersihkan tersebut selanjutnya
• Coreference Resolution. akan melalui proses ekstraksi informasi. Proses ini
menggunakan OpenNLP API Parser untuk
OpenNLP melakukan pendekatan dengan cara menginisasi mendapatkan informasi yang diinginkan dari suatu
data model yang mendukung tugas tertentu kemudian tweet.
memberikan method kepada model untuk melakukan tugas 6. Langkah selanjutnya adalah mengkategorikan tweet
yang diinginkan. OpenNLP sendiri berjalan diatas Java, ke dalam kategori yang sudah dibuat pada Domain
sehingga dalam pengoperasiannya membutuhkan JDK (Java Ontology dengan bantuan software Protégé.
Development Kit) dan JRE (Java Run-time Environment) Kategori yang terkandung di dalam ontologi
[14]. berbentuk class dan subclass yang ditentukan di
dalam buku panduan Pertamina. Library yang
IV. METODOLOGI digunakan untuk membantu tahap ini adalah Apache
Jena.
A. Arsitektur Sistem 7. Data hasil proses ekstraksi informasi yang telah
didapatkan akan disimpan kedalam database
Arsitektur Sistem berisi desain dari sistem aplikasi yang MySQL.
akan dibuat, terdiri dari komponen-komponen yang
8. Pada tahap visualisasi menggunakan program
membentuk suatu aplikasi. Arsitektur sistem yang dibuat
berbasis PHP dan javascript dengan framework
pada penelitian ini dijelaskan pada Gambar 2.
code igniter yang kemudian dibuat sedemikian rupa
sehingga terbuat dashboard visualisasi.

B. Crawling Data

Crawling data merupakan sebuah tahap dimana terdapat


proses pengambilan data tweet dari Twitter yang kemudian
data tersebut akan digunakan sebagai data dalam proses pre-
proccessing data. Tahap crawling data ini menggunakan
keyword mengenai kecelakaan lalu lintas pada suatu tweet di
Twitter. Tahap crawling data di Twitter menggunakan
tweetscraper yang kemudian dimasukkan dalam bentuk
array dan selanjutnya disimpan dalam database. Crawling
pertama kali mengetahui keyword yang paling sering muncul.
Setelah itu dilakukan crawling dengan menggunakan
keyword yang paling sering digunakan tersebut sehingga
menghasilkan database berupa tweet hasil crawling data.

C. Preprocessing Data

Alur pada tahap pra-proses data memiliki beberapa


langkah pengerjaan utama yaitu melakukan pengubahan data
teks menjadi huruf kecil (tahap case folding), menghapus data
yang memiliki duplikasi (tahap delete duplication), dan
melakukan pembersihan data dari simbol-simbol tweeter dan
sebagainya (tahap data cleansing). Data yang didapatkan dari
hasil crawling menunjukkan bahwa keterangan waktu tweet
di post terdapat didalam kolom yang berbeda dengan isi
Gambar 2 Arsitektur Sistem tweet. Oleh sebab itu perlu melakukan merger isi tweet
dengan keterangan waktu posting (timestamp) kedalam satu
Adapun penjelasan dari arsitektur sistem adalah sebagai kolom yang sama.
berikut:
1. Data yang digunakan dalam penelitian ini
merupakan tweet mengenai kecelakaan lalu lintas.
4

Tabel 1 Contoh hasil preprocessing Truk Trek, truck, truk

Sebelum preprocessing Setelah preprocessing Becak Becak, becak_motor


Bus menabrak pertengahan bus menabrak pertengahan
trotroar jalan fly over dan trotroar jalan fly over dan
terguling ditengah jalan. terguling ditengah jalan
2. Kecelakaan lalu lintas
Kecelakaan tunggal pas mau kecelakaan tunggal pas mau Class Kecelakaan lalu lintas memiliki beberapa
masuk fly over amplas dari masuk fly over amplas dari arah kategori kejahatan dalam bentuk subclass. Subclass
arah asrama haji menuju asrama haji menuju tjmorawa tersebut akan menampung instances keterangan
tj.morawa. menurut supir menurut supir sendiri dia dalam
sendiri dia dalam keadaan keadaan mengantuk banting stir
yang sesuai dengan kategorinya. Kategori instance
mengantuk banting stir… 2019-03-03 didapatkan dari Direktorat Jendral Dinas
http:// medanku.com/bus- Perhubungan Darat [8].
menabrak-p ertengah
Tabel 3 Subclass dan instance dari class
D. Desain Domain Ontology KecelakaanLaluLintas

Perancangan Ontologi Kejahatan dilakukan menggunakan Subclass Instances


perangkat lunak Protégé. Pada tahap ini akan ditentukan Jalan jalan_bergelombang
jalan_berlubang
Class apa saja yang akan dibuat dalam ontology dan memiliki
jalan_licin
instance, yaitu Class Actor dan Class Kecelakaan lalu lintas. jalan_rusak
Lengkapnya dapat dilihat pada Gambar 3. jalan_sempit
persimpangan
tergelincir
Kendaraan ban_pecah
lampu_mati
mogok
pecah_ban
rem_blong
Lingkungan banjir
berkabut
genangan_air
hujan_deras
penyempitan_lajur
Pengemudi kecepatan_tinggi
kehilangan_kendali
kelelahan
lalai
mabuk
melamun
melanggar_lampu
melawan_arus
menerobos_lampu
mengantuk
mengebut
ngantuk
ngebut
rem_mendadak
tertidur
tidak_terampil

Gambar 3 Ontograf yang telah dibuat E. NER Tagging


1. Actor
Class Actor menampung aktor-aktor yang Pada proses ini menjelaskan mengenai proses labeling atau
didapatkan dari hasil ekstraksi menggunakan nameSpan pada dataset yang digunakan dengan memberikan
metode NER. Aktor-aktor tersebut berbentuk nameSpan <START: > dan <END> pada entitas yang telah
instances dalam ontologi. Kategori instance ditentukan. Masing-masing entitas memiliki data dengan
didapatkan dari keywords yang paling populer dari nameSpan masing-masing dengan jumlah minimum data
hasil crawling data. yang dibutuhkan untuk setiap entitasnya adalah 15000 baris.
Entitas yang digunakan dalam penelitian ini adalah Actor,
Tabel 2 Subclass dan instance pada class Actor
Location, Keterangan dan Time. Penggunaan NER Tagging
Subclass Instances dapat dilihat pada Tabel 4.

Tabel 4 Tagging entitas NER dan penggunaanya


Mobil Bajaj, mbl, mbl_elf, mobil, mobil_box,
mobil_elf, mobil_travel, pick_up,
Class Tag Penggunaan
pikap, sedan, taksi, taxi, travel
Actor <START:actor> Data yang dibutuhkan berupa
Sepeda_Motor Motor, Pemotor, sepeda_motor, entity_name <END> mobil, motor, sepeda, truk,
spd_motor, ojek, ojol, ojek_online bus, becak, dan kereta.
Location <START:location> Daya yang dibutuhkan adalah
Sepeda Sepeda, sepedah, spd entity_name <END> data nama provinsi,
kabupaten, dan kota.
Bis Bis, bus, kopaja Time <START:time> Data yang dibutuhkan berupa
entity_name <END> tanggal tweet tersebut di post.
Kereta_api Kereta, kereta_api
5

Keterangan <START:keterangan> Data yang dibutuhkan berupa Tabel 5 Jumlah tweet yang didapatkan
entity_name <END> penyebab kecelakaan
tersebut. Keyword Jumlah Tweet
Kecelakaan Lalu Lintas 274,925
Lakalantas 80,856
F. Token Tagging Kecelakaan tunggal 162,814
Kecelakaan beruntun 296,274
Pada proses ini menjelaskan mengenai proses labeling Total 846,311
yang akan digunakan sebagai acuan dalam melakukan proses
tokenization. Dataset yang digunakan, pada setiap token, 2. Preprocess Data
word, phrase yang ingin di token dipisahkan dengan
memberikan white space ataupun special syntax seperti Kemudian dari hasil yang didapatkan pada preprocessing
<SPLIT> . Dengan ketentuan, syntax tersebut digunakan data adalah tweet yang telah dibersihkan dari simbol-simbol
disetiap akhir kalimat ditandai dengan titik atau koma. seperti tanda koma, tanda retweet, link, dan lain-lain. Setelah
penghapusan tweet yang tidak memenuhi kaidah SPOK dan
G. Model Training menghilangkan tweet yang memiliki duplikat. Setelah proses
tersebut jumlah tweet mengalami pengurangan yang cukup
signifikan. Jumlah tweet setelah preprocessing data dapat
Pada proses ini menjelaskan mengenai proses training
dilihat pada Tabel 6 berikut.
pada dataset yang digunakan guna mendapatkan output file
data model (dengan ekstensi .bin / .train). Proses training Tabel 6 Jumlah tweet setelah preprocessing
dilakukan dengan menggunakan library OpenNLP,
TokenizerTrainer pada Command Line. Keyword
Jumlah Jumlah setelah
Tweet preprocessing
Kecelakaan Lalu Lintas 274,925 63,159
H. Pengujian Model Lakalantas 112,298 44,687
Kecelakaan tunggal 162,814 38,806
Model yang telah dibuat akan melalui tahap pengujian data Kecelakaan beruntun 296,274 66,719
untuk mengetahui kualitas data tersebut. Pengujian data akan Total 846,311 213,371
menggunakan Precision, Recall, Accuracy, dan F-Measure.
Setelah mendapatkan hasil dari masing-masing model Keseluruhan data tersebut di pisah berdasarkan tahun
pengujian, maka data akan diuji lagi menggunakan posting pada setiap tweet. Data yang didapatkan dari proses
MAP(mean Average Precision). Prosedur pengujian akan yang telah dilakukan sebelumnya paling lama mencapai
membagi data menjadi 2 proporsi bagian, yaitu 80% bagian tahun 2009. Namun karena kebutuhan data yang dibutuhkan
untuk pelatihan, dan 20% bagian untuk melakukan pengujian. pada penelitian kali ini hanya mencakup tahun 2019 dan 2018
Dalam setiap tes yang telah dilakukan, 20% bagian saja. Sehingga total data yang didapatkan pada rentang tahun
dipisahkan untuk evaluasi kinerja dan 80% bagian sisanya 2018-2019 adalah 25,451 data. Jumlah keseluruhan data
digunakan untuk pelatihan. pertahun dapat dilihat pada Tabel 7 berikut.

I. Parser dengan Opennlp API Tabel 7 Jumlah tweet yang didapatkan berdasarkan tahun posting

Tahun Jumlah Tweet


Pada proses ini menjelaskan mengenai proses 2019 8000
pengembangan executor untuk menjalankan proses tokenizer 2018 17451
dan NER secara berurutan. Dengan begitu proses NER bisa 2017 19762
lebih baik karena input dilakukan tokenization terlebih 2016 22377
dahulu. 2015 22874
2014 22697
2013 44357
J. Visualisasi Dashboard 2012 34605
2011 17695
Melalui hasil yang telah didapatkan dari hasil ekstraksi 2010 6612
2009 553
informasi yang telah dilakukan maka data siap divisualkan
Total 216983
kedalam sebuah model dashboard. Pada penelitian ini
menggunakan visualisasi dalam bahasa pemrograman PHP
3. Pengujian Data
dan Javascript. Rancangan dashboard yang akan ditampilkan
dari hasil ekstraksi informasi mengenai kecelakaan lalu lintas Pengujian model yang dilakukan terhadap keseluruhan
berdasarkan wilayah, periode waktu, dan jumlah kecelakaan model named entity. Hasil pengujian model yang dilakukan
yang terjadi. pada model Actor, Location, Time, dan Keterangan.
Pengujian menggunakan query yang dijelaskan Kode
V. ANALISA DAN PEMBAHASAN Program X. Hasil keseluruhan pengujian model yang
didapatkan dapat dilihat pada Tabel 8.
1. Pengambilan Data
Tabel 8 Hasil pengujian model
Dari proses pengambilan data menggunakan
Model Precision Recall F1
TweetScraper, . dari proses tersebut secara keseluruhan Actor 99,31% 98,56% 98,93%
mendapatkan total 846,311 tweet mengenai kecelakaan lalu Location 99,54% 98,37% 98,95%
lintas dari 4 keywords tersebut. Rincian data berupa keyword Time 100,00% 100,00% 100,00%
dan jumlah tweet yang didapatkan dapat dilihat pada Tabel 5. Keterangan 99,83% 90,58% 94,98%
6

Model Actor mendapatkan nilai-nilai tersebut berdasarkan hanya sampai dengan bulan ke-6 yaitu bulan juni. Sehingga
hasi evaluasi pada 3,397 sampel yang memiliki 3,952 entitas. memiliki dua tampilan yang berbeda tergantung pemilihan
Dari data entitas tersebut, model berhasil menemukan 3,922. tahun yang diinginkan. Hasil visualisasi meliputi statistik
Dari data yang ditemukan, 3,895 berhasil diprediksi dengan keseluruhan mengenai kecelakaan lalu lintas di Indonesia
benar dan sisanya 27 salah. berdasarkan informasi yang berasal dari media sosial Twitter.
Selanjutnya, model Location mendapatkan nilai-nilai tersebut Selanjutnya lebih spesifik berdasarkan location yang dipilih
berdasarkan hasi evaluasi pada 15,752 sampel yang memiliki atau actor yang dipilih.
20,022 entitas. Dari data entitas tersebut, model berhasil
menemukan 19,787. Dari data yang ditemukan, 19,695
berhasil diprediksi dengan benar dan sisanya 92 salah.
Kemudian, model Time mendapatkan nilai-nilai tersebut
berdasarkan hasi evaluasi pada 15,511 sampel yang memiliki Gambar 5 Jumlah kategori kecelakaan lalu lintas pada tahun 2019
15,511 entitas. Dari data entitas tersebut, model berhasil
menemukan 15,511. Dari data yang ditemukan, 15,511
berhasil diprediksi dengan benar dan sisanya 0 salah. Hasil
ini dapat mencapai 100% karena keterangan waktu posting
yang tercantum pada sebuah tweet merupakan hasil dari tahap
Gambar 4 Jumlah kategori kecelakaan lalu lintas pada tahun 2018
preprocessing. Sehingga pola data keterangan waktu yang
dimiliki setiap tweet sama persis dengan lainnya. Gambar 6 merupakan hasil visualisasi berupa jumlah
Terakhir model Keterangan mendapatkan nilai-nilai kategori penyebab kecelakaan lalu lintas yang terjadi selama
tersebut berdasarkan hasi evaluasi pada 14,073 sampel yang tahun 2019 terhitung sampai bulan juni. Sedangkan Gambar
memiliki 14,680 entitas. Dari data entitas tersebut, model merupakan hasil visualisasi berupa jumlah pebyebab
berhasil menemukan 13,319. Dari data yang ditemukan, kecelakaan lalu lintas selama tahun 2018. Pada perbandingan
13,297 berhasil diprediksi dengan benar dan sisanya 22 salah. tersebut, data tersebut. Menunjukkan bahwa kecenderungan
penyebab utama kecelakaan lalu lintas berasal dari kondisi
4. Ekstraksi Informasi kendaraan yang kurang memadai. Sedangkan faktor
lingkungan merupakan faktor yang jarang menjadi penyebab
Hasil ekstraksi informasi yang telah dilakukan menggunakan
kecelakaan lalu lintas. Faktor tertinggi selanjutnya di tahun
parser OpenNLP API berupa sekumpulan data dari suatu
2018 merupakan faktor pengemudi kemudian faktor jalan
tweet yang menunjukkan Actor, Location, Time dan
sebagai penyebab selanjutnya.
Keterangan penyebab terjadinya kecelakaan lalu lintas.
Proses ekstraksi informasi menyaring tweet yang tidak
memiliki informasi memadai. Yang dimaksud dengan tidak
memiliki informasi memadai yaitu tweet hanya memiliki
informasi mengenai Time saja. Sehingga tweet dengan
kategori tersebut akan dibuang. Contoh suatu tweet yang akan
melalui proses ekstraksi informasi dapat dilihat dari Tabel 9
berikut.

Tabel 9 Contoh tweet yang akan di ekstrak

Tweet
sebuah mobil toyota avanza nopol h fh warna putih terjun ke jurang di Gambar 7 Jumlah kecelakaan lalu lintas pada tahun 2019
kawasan kecamatan pacet kabupaten mojokerto minggu 246 2018 dini
hari diduga karena rem blong empat korban selamat dalam kecelakaan
tunggal tersebut 2018-06-24
hindari jalan berlubang pemotor tewas terlindas truk gandeng 2019-05-
09

Dari tweet diatas, akan dilakukan proses ekstraksi informasi.


Hasil ekstraksi akan menampilkan location, actor, time, dan
Keterangan penyebab yang terdapat didalam tweet tersebut
dan menyimpannya kedalam database. Berikut adalah contoh
hasil informasi yang didapatkan dari tweet tersebut pada .
Gambar 8 Jumlah kecelakaan lalu lintas pada tahun 2018
Tabel 10 Contoh hasil ekstraksi tweet
Gambar 7 menunjukkan statistik kejadian kecelakaan lalu
ID Actor Location Keterangan Time
lintas disetiap bulan selama tahun 2019 dan Gambar 6 8 di
Tweet1 Mobil Pacet Kendaraan 2018-
Mojokerto 06-24
tahun 2018. Dari statistik tersebut tidak terlihat pola tertentu
Tweet2 Sepeda_motor null Jalan 2019- sehingga menunjukkan bahwa waktu tidak mempengaruhi
Truk 05-09 tingkat kejadian kecelakaan lalu lintas. Kemudian pada tahun
2018 menunjukkan bahwa jumlah kejadian kecelakaan lalu
5. Dashboard Visualisasi lintas tidak menentu dan cenderung tidak stabil.

Hasil visualisasi yang dibuat memiliki rentang waktu


antara tahun 2018 – 2019. Namun untuk tahun 2019 terhitung
7

Gambar 9 Jumlah Actor dalam kecelakaan lalu lintas pada tahun 2018 Gambar 5 Jumlah Location dalam kecelakaan lalu lintas pada tahun 2018

Gambar 13 menunjukkan informasi penyebab yang paling


sering terjadi pada kejadian kecelakaan lalu lintas di tahun
2018 dan Gambar 14 di tahun 2019. Rem blong merupakan
faktor yang selama tahun 2018 dan 2019 menjadi penyebab
utama kecelakaan lalu lintas berdasarkan informasi yang
didapatkan dari media sosial Twitter. Fakta ini berhubungan
dengan kategori kendaraan sebagai penyebab utama
kecelakaan lalu lintas.

Gambar 10 Jumlah Actor dalam kecelakaan lalu lintas pada tahun 2019

Gambar 9 menunjukkan Actor yang sering terlibat dalam


sebuah kejadian kecelakaan lalu lintas di tahun 2018 dan
Gambar 10 di tahun 2019 berdasarkan informasi dari media
sosial Twitter. Dari statistik tersebut menunjukkan bahwa
kejadian kecelakaan lalu lintas yang melibatkan aktor-aktor
besar seperti mobil dan truk lebih sering diposting dalam
media sosial Twitter
Gambar 11 menunjukkan informasi Location yang paling
banyak tersebar di media sosial Twitter ketika membahas Gambar 13 Jumlah Location dalam kecelakaan lalu lintas pada tahun
mengenai kecelakaan lalu lintas dalam sebuah kejadian 2019
kecelakaan lalu lintas di tahun 2018 dan Gambar 12 di tahun
2019. Dari data 2018-2019 Surabaya dan Bandung menjadi
kota yang paling banyak melakukan update mengenai
kecelakaan

Gambar 13 Jumlah Location dalam kecelakaan lalu lintas pada tahun


2019

Gambar 11 Jumlah Location dalam kecelakaan lalu lintas pada tahun


2019
8

Technol., vol. 77, pp. 33–48, 2017.


[6] G. Bello-Orgaz, J. J. Jung, and D. Camacho, “Social big data: Recent
achievements and new challenges,” Inf. Fusion, vol. 28, pp. 45–59,
2016.
[7] L. Derczynski et al., “Analysis of named entity recognition and
linking for tweets,” Inf. Process. Manag., vol. 51, no. 2, pp. 32–49,
2015.
[8] S. Warpani, Pengelolaan Lalu Lintas dan Angkutan Jalan. Bandung,
2002.
[9] A. S. Moghaddam, J. Hosseinkhani, S. Chuprat, H. Taherdoost, and
H. B. Baravati, “Proposing a framework for exploration of crime data
VI. KESIMPULAN using web structure and content mining,” Res. J. Appl. Sci. Eng.
Technol., vol. 6, no. 19, pp. 3617–3624, 2013.
[10] E. O. Leary, “Developing a Theory-Based Ontology for " Best
Berdasarkan proses-proses yang telah dilakukan dalam Practices " Knowledge Bases,” no. 1985, pp. 161–168, 2000.
penelitian yang telah dilakukan, dapat disimpulkan sebagai [11] Mohammad Mustafa Taye, “Understanding Semantic Web and
berikut: Ontologies: Theory and Applications,” J. Comput., vol. 2, no. 6, pp.
182–192, 2010.
1. Penggunaan Named Entity Recognition dengan [12] T. BERNERS-LEE, J. HENDLER, and L. ORA, The Semantic Web,
OpenNLP API sebagai metode pembuatan model vol. 284, no. 5. 2001.
untuk ekstraksi informasi pada tweet mampu [13] B. M. Keith, “Getting Started with Apache HBase,” pp. 0–6.
memberikan akurasi yang cukup tinggi. Untuk [14] N. Ibrahim, “Pengembangan Aplikasi Semantic Web Untuk
Membangun Web yang Lebih Cerdas,” J. Inform., vol. 3, pp. 27–40,
model Actor memiliki akurasi untuk precision 2007.
sebesar 99,31%, recall sebesar 98,56%, dan F1
score sebesar 98,93%. Untuk model Location
memiliki akurasi untuk precision sebesar 99,54%,
recall sebesar 98,37%, dan F1 score sebesar
98,95%. Untuk model Keterangan memiliki akurasi
untuk precision sebesar 99,83%, recall sebesar
90,58%, dan F1 score sebesar 94,98%. Untuk model
Time memiliki akurasi untuk precision sebesar
100%, recall sebesar 100%, dan F1 score sebesar
100%.
2. Penelitian ini membuktikan bahwa metode Named
Entity Recognition dengan memanfaatkan OpenNLP
API mampu membatu proses ekstraksi informasi
suatu tweet dengan akurasi model yang cukup
tinggi.
3. Penggunaan ontology sebagai kerangka klasifikasi
keyword yang didapatkan dari proses NER
membantu menentukan kategori dari ekstraksi
informasi yang didapatkan dengan menggunakan
library jena.
4. Penggunaan ontology sebagai knowledge model
memungkinkan untuk membagikan pengetahuan
yang sudah dibentuk pada penelitian ini untuk
digunakan dan dikembangkan pada penelitian
selanjutnya.
5. Dari pegolahan data yang dihasilkan menunjukkan
bahwa faktor penyebab kecelakaan lalu lintas yang
paling besar adalah faktor kendaraan dengan
masalah utama pada kendaraan disebabkan oleh rem
blong.

2 DAFTAR PUSTAKA

[1] K. Polri, “KORLANTAS POLRI - Accident Count,” 2018. [Online].


Available: http://www.korlantas-irsms.info/graph/accidentData.
[Accessed: 14-Feb-2019].
[2] T. Mihovsky and G. Naydenova, “Comparative study on czech
cultivars of red clover (Trifolium Pratense L.) in the conditions of the
central northern Bulgaria,” Bulg. J. Agric. Sci., vol. 23, no. 5, pp. 739–
742, 2017.
[3] W. Wang and K. Stewart, “Spatiotemporal and semantic information
extraction from Web news reports about natural hazards,” Comput.
Environ. Urban Syst., vol. 50, pp. 30–40, 2015.
[4] F. C. Albuquerque et al., “A methodology for traffic-related Twitter
messages interpretation,” Comput. Ind., vol. 78, pp. 57–69, 2016.
[5] F. Ali, D. Kwak, P. Khan, S. M. R. Islam, K. H. Kim, and K. S. Kwak,
“Fuzzy ontology-based sentiment analysis of transportation and city
feature reviews for safe traveling,” Transp. Res. Part C Emerg.
9

Anda mungkin juga menyukai