Abstrak— Kecelakaan lalu lintas menjadi salah satu kejadian video. Twitter semakin banyak digunakan oleh organisasi
yang sering terjadi di Indonesia. Dari data yang dihimpun berita dalam menerima pembaruan selama keadaan darurat
KORLANTAS POLRI diketahui setiap 3 bulan terdapat sekitar [2]. Keadaan darurat tersebut salah satunya merupakan
25.000 kecelakaan lalu lintas. Informasi mengenai kecelakaan
kecelakaan lalu lintas. Namun, informasi mengenai
lalu lintas banyak dibagikan oleh pengguna media sosial
termasuk Twitter. Twitter memiliki berbagai informasi kecelakaan lalu lintas yang terdapat di media sosial Twitter
mengenai kecelakaan lalu lintas. Namun, informasi yang berada sulit untuk diekstraksi karena ekspresi linguistik dari insiden
di Twitter tersebut belum terdapat pengolahan dan pemetaan dapat bervariasi secara signifikan di antara pengguna Twitter
mengenai informasi tersebut. Oleh sebab itu, penelitian ini yang berbeda [4].
bertujuan untuk mengolah dan memetakan informasi mengenai Oleh sebab itu pada penelitian ini dibuatlah sebuah ontology
kecelakaan lalu lintas yang terdapat di Twitter sehingga dapat menggunakan Bahasa Indonesia yang terkait dengan
memberikan manfaat bagi masyarakat maupun menjadi
masukan dalam pengembangan terkait lalu lintas di Indonesia.
kecelakaan lalu lintas sebagai kerangka knowledge base pada
Metode yang dalam penelitian ini menggunakan domain proses ekstraksi informasi untuk memetakan komponen
ontology dan Named-Entity Recognition untuk proses ekstraksi kecelakaan lalu lintas yang akan digunakan dalam penelitian
data. Metode Named-Entity Recognition digunakan untuk ini. Kemudian dengan menggunakan metode Named Entity
mendapatkan kata kunci dari sebuah tweet berdasarkan Recognition dapat mendeteksi named-entity pada setiap tweet
kategori kelasnya seperti aktor, waktu, lokasi, dan keterangan yang didapatkan. Tujuan penelitian ini adalah untuk
penyebab kecelakaan tersebut. Penelitian ini menghasilkan melakukan ekstraksi informasi mengenai kecelakaan lalu
model Named Entity Recognition yang dapat menghasilkan lintas dari media sosial Twitter untuk mengetahui persebaran
tingkat akurasi yang cukup akurat, serta penggunaan ontology data kecelakan lalu lintas sesuai dengan entitas yang telah
mampu mengkategorikan penyebab kecelakaan lalu lintas. Nilai
akurasi yang didapatkan oleh model Actor memiliki precision
ditentukan.
sebesar 99,31%, recall sebesar 98,56%, dan F1 score sebesar
98,93%. Untuk model Location memiliki precision sebesar II. PENELITIAN TERKAIT
99,54%, recall sebesar 98,37%, dan F1 score sebesar 98,95%.
Untuk model Keterangan memiliki precision sebesar 99,83%,
recall sebesar 90,58%, dan F1 score sebesar 94,98%. Untuk Penelitian ini memiliki keterkaitan dengan beberapa
model Time memiliki precision sebesar 100%, recall sebesar penelitian lain yang serupa. Salah satunya adalah penelitian
100%, dan F1 score sebesar 100%. yang berjudul Spatiotemporal and semantic information
extraction from Web news reports about natural hazards [3].
Kata Kunci— Semantic Web, Ontologi, Named Entity Penelitian ini bertujuan untuk melakukan ekstraksi data
Recognition, Twitter, Kecelakaan Lalu Lintas
melalui website news reports mengenai kejadian alam
yang berbahaya dan kemudian ditampilkan dalam bentuk
I. PENDAHULUAN geocoding. Metode yang digunakan pada penelitian ini
adalah dengan mengekstrak web text document berita
yang kemudian dilakukan preprocessing data
K ecelakaan lalu lintas merupakan salah satu kejadian
darurat yang sering terjadi di Indonesia. Pada bulan
Oktober - Desember 2018, total telah terjadi lebih dari 25.000
menggunakan aplikasi GATE. Penelitian
menggunakan aplikasi ontologi editor dengan
ini
kejadian kecelakaan lalu lintas [1]. Dengan banyaknya menggunakan. Tahap terakhir dengan geocoding dan
kejadian tersebut, sumber informasi mengenai kecelakaan geovisualization.
lalu lintas merupakan suatu hal yang penting untuk diolah Selanjutnya adalah penelitian A methodology for traffic-
menjadi sebuah informasi yang dapat dipelajari. Sumber related Twitter messages interpretation [4] yang menjadi
informasi kecelakaan lalu lintas tersebut dapat diambil dari acuan utama dalam penelitian ini. Pada penelitian ini
bertujuan untuk melakukan interpretasi dari data yang telah
berbagai sumber informasi, salah satunya yaitu tersebar di
diekstrak dari Twitter mengenai berbagai macam hal yang
berbagai media sosial termasuk Twitter.
berkaitan dengan lalu lintas. Data-data yang didapatkan akan
Twitter merupakan media sosial berbasis mobile dan web
diolah dengan menggunakan ontologi dengan model TEDO
yang menghadirkan fitur untuk saling berbagi informasi yang merupakan Traffic Event Domain Ontologi. Sehingga
secara mudah. Pengguna Twitter dapat memposting sebuah data yang diinterpretasikan terdiri dari nama kejadian, aktor
tweet untuk berbagi informasi dengan pengguna lain, tweet yang terlibat, lokasi, dan waktu.
tersebut dapat berupa tulisan, gambar, maupun berbagi link
2
Dalam hal penyusunan model ontology berdasarkan data Kecelakaan yang disebabkan oleh lingkungan dapat
kecelakaan lalu lintas, penelitian ini mengacuk kepada Fuzzy terjadi karena lalu lintas campuran antara kendaraan
ontologi-based sentiment analysis of transportation and city cepat dengan kendaraan dengan pejalan,
feature reviews for safe traveling [5] dimana penelitian ini pengawasan dan penegakan hhukum belum efektif,
membahas mengenai pengolahan data lalu lintas yang pelayanan gawat darurat yang kurang cepat. Selain
terdapat pada kota-kota besar dengan tujuan untuk itu seperti cuaca juga menjadi indicator kecelakaan
meningkatkan kenyamanan dan keamanan selama perjalanan. lalu lintas. Cuaca yang : gelap, hujan. Kabut, asap..
Penelitian ini berdasarkan data yang diambil pada social
Name Entity Recognition (NER)
networking dan online discussion yang terdapat di forum
website. Data yang didapatkan kemudian melalui tahap pre- Name Entity Recognition (NER) atau Name Entity
processing data. Proses ini mempertimbangkan setiap kata Recognition and Classification (NERC) adalah salah satu
adjectaive dan adverbs di tiap kata nya. Kemudian diolah dari beberapa komponen utama dari information
menggunakan Ontologi SWRL dan Ontologi Fuzzy extraction yang memiliki tujuan untuk mendeteksi dan
berdasarkan score tiap senti-word. Data yang dihasilkan mengklasifikasikan sebuah named-entity pada sebuah
ditujukan untuk pengendara di jalan raya dan perusahan string (teks) [9].
transportasi.
Sebagai landasan mengenai teori big data dalam sebuah
media sosial seperti Twitter, penelitian ini mengacu kepada
Social big data: Recent achievements and new challenges [6]
yang membahas mengenai pemilihan social media sebagai
sumber data yang akan digunakan. Sosial media sudah Gambar 1 Contoh deteksi entitas dengan NER
menjadi salah satu sumber data yang paling representative
dan relevan. Pengambilan dan pemrosesan data yang ada di Ontologi
dalam social media menggunakan paradigma algoritma Ontologi adalah spesifikasi dari sebuah klasifikasi [10].
MapReduce dan Apache Spark. Ontologi terbagi menjadi 4 komponen yang diantaranya
Mengenai pengolahan ekstraksi informasi sebuah tweet yaitu:
menggunakan Named Entity Recognition, penelitian ini a. Concept
mengacu pada Analysis of named entity recognition and Concept (Konsep) adalah sebuah kumpulan dari
linking for tweets [7] karena penelitian ini lebih membahas berbagai objek. Konsep adalah bentuk fundamental
mengenai analisis dari proses ekstraksi data dari media sosial elemen dari sebuah domain yang biasanya
Twitter. Penelitian ini juga membandingkan berbagai macam merepresntasikan kumpulan dari kelompok yang
metode dalam menggunakan Named Entity Recognition. memiliki kesamaan.
Dengan hasil berupa akurasi, presisi, dan recall dari setiap b. Instance
percobaan metode yang dilakukan. Instance atau biadanya dikenal sebagai individual
adalah sebuah komponen “ground-level” yang
III. DASAR TEORI merepresentasikan objek yang spesifik dari sebuah
konsep.
c. Relation
Faktor Kecelakaan Lalu Lintas Relation (Relasi) adalah suatu hubungan antara dua
Faktor penyebab kecelakaan lalu lintas menurut Direktorat konsep dalam sebuah domain.
Jendral Dinas Perhubungan Darat dapat dikategorikan d. Axioms
berdasarkan 4 kategori [8], yang diantaranya yaitu : Axioms digunakan untuk memaksakan kendala atau
a. Pengemudi masalah pada nilai dari suatu kelas.
Kecelakaan lalu lintas yang disebabkan oleh Ontologi berperan penting dalam memainkan peran di
pengemudi dapat disebabkan oleh beberapa faktor dalam semantic web untuk mendukung pertukaran informasi
yang diantaranya yaitu lengah, mengantuk, tidak yang tersebar dari berbagai lingkungan. Semantic web
terampil, mabuk, kecepatan tinggi, tidak menjaga merepresentasikan data ke dalam machine-processable way,
jarak, kesalahan pejalan dan gangguan binatang. dimana itu menjadi suatu alas an untuk menjadi sebuah
b. Kendaraan ekstensi dari sebuah web yang sudah ada [11].
Kecelakaan lalu lintas yang disebabkan oleh Semantic Web
pengemudi dapat disebabkan oleh beberapa faktor
Semantic web merupakan sebuah konsep pemikiran dari
yang diantaranya yaitu lengah, mengantuk, tidak
bagaimana memiliki data pada web yang dapat didefinisikan
terampil, mabuk, kecepatan tinggi, tidak menjaga
jarak, kesalahan pejalan dan gangguan binatang. dan dihubungkan dengan suatu cara sehingga dapat
c. Jalan dimengerti oleh mesin dengan tujuan untuk otomatisasi,
Penyebab kecelakaan lalu lintas yang disebabkan integrasi dan penggunaan kembali data diantara berbagai
oleh jalan diantaranya disebabkan oleh aplikasi. Dengan adanya semantic web maka berbagai
persimpangan, jalan sempit, akses yang tidak perangkat lunak akan mampu mencari, membagi, dan
dikontrol atau dikendalikan, marka jalan kurang atau mengintegrasikan informasi dengan cara yang lebih muda
tidak jelas, tidak ada rambu batas kecepatan, [12].
permukaan jalan licin
OpenNLP
d. Lingkungan
OpenNLP adalah sebuah library dari Java yang digunakan
untuk membantu dalam proses Natural Language Processing
3
yang telah dikembangkan oleh Apache [13]. OpenNLP 2. Data tersebut didapatkan dari proses crawling
memiliki tujuan untuk mempermudah sebuah program Twitter menggunakan tweetscraper.
computer dalam melakukan ekstraksi makna dari natural 3. Data yang telah didapatkan kemudian akan
language [13]. OpenlNLP mampu mendukung beberapa disimpan di database mySQL.
tugas berikut:
4. Data yang tersimpan dalam database tersebut
• Tokenization
kemudian kemudian dilakukan preprocessing.
• Sentence Segmentation
Proses tersebut akan membersihkan data mencakup
• Part -of-speech tagging
penghapusan duplikasi, case folding, date merging,
• Named Entity Recognition
data cleansing.
• Chunking
• Parsing 5. Data yang telah dibersihkan tersebut selanjutnya
• Coreference Resolution. akan melalui proses ekstraksi informasi. Proses ini
menggunakan OpenNLP API Parser untuk
OpenNLP melakukan pendekatan dengan cara menginisasi mendapatkan informasi yang diinginkan dari suatu
data model yang mendukung tugas tertentu kemudian tweet.
memberikan method kepada model untuk melakukan tugas 6. Langkah selanjutnya adalah mengkategorikan tweet
yang diinginkan. OpenNLP sendiri berjalan diatas Java, ke dalam kategori yang sudah dibuat pada Domain
sehingga dalam pengoperasiannya membutuhkan JDK (Java Ontology dengan bantuan software Protégé.
Development Kit) dan JRE (Java Run-time Environment) Kategori yang terkandung di dalam ontologi
[14]. berbentuk class dan subclass yang ditentukan di
dalam buku panduan Pertamina. Library yang
IV. METODOLOGI digunakan untuk membantu tahap ini adalah Apache
Jena.
A. Arsitektur Sistem 7. Data hasil proses ekstraksi informasi yang telah
didapatkan akan disimpan kedalam database
Arsitektur Sistem berisi desain dari sistem aplikasi yang MySQL.
akan dibuat, terdiri dari komponen-komponen yang
8. Pada tahap visualisasi menggunakan program
membentuk suatu aplikasi. Arsitektur sistem yang dibuat
berbasis PHP dan javascript dengan framework
pada penelitian ini dijelaskan pada Gambar 2.
code igniter yang kemudian dibuat sedemikian rupa
sehingga terbuat dashboard visualisasi.
B. Crawling Data
C. Preprocessing Data
Keterangan <START:keterangan> Data yang dibutuhkan berupa Tabel 5 Jumlah tweet yang didapatkan
entity_name <END> penyebab kecelakaan
tersebut. Keyword Jumlah Tweet
Kecelakaan Lalu Lintas 274,925
Lakalantas 80,856
F. Token Tagging Kecelakaan tunggal 162,814
Kecelakaan beruntun 296,274
Pada proses ini menjelaskan mengenai proses labeling Total 846,311
yang akan digunakan sebagai acuan dalam melakukan proses
tokenization. Dataset yang digunakan, pada setiap token, 2. Preprocess Data
word, phrase yang ingin di token dipisahkan dengan
memberikan white space ataupun special syntax seperti Kemudian dari hasil yang didapatkan pada preprocessing
<SPLIT> . Dengan ketentuan, syntax tersebut digunakan data adalah tweet yang telah dibersihkan dari simbol-simbol
disetiap akhir kalimat ditandai dengan titik atau koma. seperti tanda koma, tanda retweet, link, dan lain-lain. Setelah
penghapusan tweet yang tidak memenuhi kaidah SPOK dan
G. Model Training menghilangkan tweet yang memiliki duplikat. Setelah proses
tersebut jumlah tweet mengalami pengurangan yang cukup
signifikan. Jumlah tweet setelah preprocessing data dapat
Pada proses ini menjelaskan mengenai proses training
dilihat pada Tabel 6 berikut.
pada dataset yang digunakan guna mendapatkan output file
data model (dengan ekstensi .bin / .train). Proses training Tabel 6 Jumlah tweet setelah preprocessing
dilakukan dengan menggunakan library OpenNLP,
TokenizerTrainer pada Command Line. Keyword
Jumlah Jumlah setelah
Tweet preprocessing
Kecelakaan Lalu Lintas 274,925 63,159
H. Pengujian Model Lakalantas 112,298 44,687
Kecelakaan tunggal 162,814 38,806
Model yang telah dibuat akan melalui tahap pengujian data Kecelakaan beruntun 296,274 66,719
untuk mengetahui kualitas data tersebut. Pengujian data akan Total 846,311 213,371
menggunakan Precision, Recall, Accuracy, dan F-Measure.
Setelah mendapatkan hasil dari masing-masing model Keseluruhan data tersebut di pisah berdasarkan tahun
pengujian, maka data akan diuji lagi menggunakan posting pada setiap tweet. Data yang didapatkan dari proses
MAP(mean Average Precision). Prosedur pengujian akan yang telah dilakukan sebelumnya paling lama mencapai
membagi data menjadi 2 proporsi bagian, yaitu 80% bagian tahun 2009. Namun karena kebutuhan data yang dibutuhkan
untuk pelatihan, dan 20% bagian untuk melakukan pengujian. pada penelitian kali ini hanya mencakup tahun 2019 dan 2018
Dalam setiap tes yang telah dilakukan, 20% bagian saja. Sehingga total data yang didapatkan pada rentang tahun
dipisahkan untuk evaluasi kinerja dan 80% bagian sisanya 2018-2019 adalah 25,451 data. Jumlah keseluruhan data
digunakan untuk pelatihan. pertahun dapat dilihat pada Tabel 7 berikut.
I. Parser dengan Opennlp API Tabel 7 Jumlah tweet yang didapatkan berdasarkan tahun posting
Model Actor mendapatkan nilai-nilai tersebut berdasarkan hanya sampai dengan bulan ke-6 yaitu bulan juni. Sehingga
hasi evaluasi pada 3,397 sampel yang memiliki 3,952 entitas. memiliki dua tampilan yang berbeda tergantung pemilihan
Dari data entitas tersebut, model berhasil menemukan 3,922. tahun yang diinginkan. Hasil visualisasi meliputi statistik
Dari data yang ditemukan, 3,895 berhasil diprediksi dengan keseluruhan mengenai kecelakaan lalu lintas di Indonesia
benar dan sisanya 27 salah. berdasarkan informasi yang berasal dari media sosial Twitter.
Selanjutnya, model Location mendapatkan nilai-nilai tersebut Selanjutnya lebih spesifik berdasarkan location yang dipilih
berdasarkan hasi evaluasi pada 15,752 sampel yang memiliki atau actor yang dipilih.
20,022 entitas. Dari data entitas tersebut, model berhasil
menemukan 19,787. Dari data yang ditemukan, 19,695
berhasil diprediksi dengan benar dan sisanya 92 salah.
Kemudian, model Time mendapatkan nilai-nilai tersebut
berdasarkan hasi evaluasi pada 15,511 sampel yang memiliki Gambar 5 Jumlah kategori kecelakaan lalu lintas pada tahun 2019
15,511 entitas. Dari data entitas tersebut, model berhasil
menemukan 15,511. Dari data yang ditemukan, 15,511
berhasil diprediksi dengan benar dan sisanya 0 salah. Hasil
ini dapat mencapai 100% karena keterangan waktu posting
yang tercantum pada sebuah tweet merupakan hasil dari tahap
Gambar 4 Jumlah kategori kecelakaan lalu lintas pada tahun 2018
preprocessing. Sehingga pola data keterangan waktu yang
dimiliki setiap tweet sama persis dengan lainnya. Gambar 6 merupakan hasil visualisasi berupa jumlah
Terakhir model Keterangan mendapatkan nilai-nilai kategori penyebab kecelakaan lalu lintas yang terjadi selama
tersebut berdasarkan hasi evaluasi pada 14,073 sampel yang tahun 2019 terhitung sampai bulan juni. Sedangkan Gambar
memiliki 14,680 entitas. Dari data entitas tersebut, model merupakan hasil visualisasi berupa jumlah pebyebab
berhasil menemukan 13,319. Dari data yang ditemukan, kecelakaan lalu lintas selama tahun 2018. Pada perbandingan
13,297 berhasil diprediksi dengan benar dan sisanya 22 salah. tersebut, data tersebut. Menunjukkan bahwa kecenderungan
penyebab utama kecelakaan lalu lintas berasal dari kondisi
4. Ekstraksi Informasi kendaraan yang kurang memadai. Sedangkan faktor
lingkungan merupakan faktor yang jarang menjadi penyebab
Hasil ekstraksi informasi yang telah dilakukan menggunakan
kecelakaan lalu lintas. Faktor tertinggi selanjutnya di tahun
parser OpenNLP API berupa sekumpulan data dari suatu
2018 merupakan faktor pengemudi kemudian faktor jalan
tweet yang menunjukkan Actor, Location, Time dan
sebagai penyebab selanjutnya.
Keterangan penyebab terjadinya kecelakaan lalu lintas.
Proses ekstraksi informasi menyaring tweet yang tidak
memiliki informasi memadai. Yang dimaksud dengan tidak
memiliki informasi memadai yaitu tweet hanya memiliki
informasi mengenai Time saja. Sehingga tweet dengan
kategori tersebut akan dibuang. Contoh suatu tweet yang akan
melalui proses ekstraksi informasi dapat dilihat dari Tabel 9
berikut.
Tweet
sebuah mobil toyota avanza nopol h fh warna putih terjun ke jurang di Gambar 7 Jumlah kecelakaan lalu lintas pada tahun 2019
kawasan kecamatan pacet kabupaten mojokerto minggu 246 2018 dini
hari diduga karena rem blong empat korban selamat dalam kecelakaan
tunggal tersebut 2018-06-24
hindari jalan berlubang pemotor tewas terlindas truk gandeng 2019-05-
09
Gambar 9 Jumlah Actor dalam kecelakaan lalu lintas pada tahun 2018 Gambar 5 Jumlah Location dalam kecelakaan lalu lintas pada tahun 2018
Gambar 10 Jumlah Actor dalam kecelakaan lalu lintas pada tahun 2019
2 DAFTAR PUSTAKA