net/publication/329207488
CITATIONS READS
0 436
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Arief Wibowo on 27 November 2018.
Abstrak— Penelitian tentang analisis data dari media sosial Dari begitu banyak penelitian yang pernah dipublikasikan,
seperti twitter telah banyak dilakukan dalam beberapa tahun diketahui setidaknya ada lebih dari puluhan paper yang
terakhir. Hal tersebut tidak lepas dari kenyataan bahwa Twitter mengulas tentang kegiatan analisis data twitter untuk data
merupakan salah satu media sosial yang cukup populer digunakan mining. Paper-paper tersebut umumnya telah dipublikasikan
oleh para social-networker. Salah satu layanan yang diberikan pada konferensi di seluruh dunia maupun jurnal elektronik.
oleh twitter adalah API (Application Programming Interface) Paper-paper yang digunakan untuk paper review ini merupakan
yang memungkinkan para pengembang untuk mendapatkan data hasil pencarian untuk paper yang mengulas pemanfataan
twitter secara langsung untuk pengolahan lebih lanjut. Paper ini
ekstraksi data twitter untuk bidang-bidang seperti bisnis, sosial-
bertujuan untuk melakukan review atas paper-paper tentang data
politik, linguistik, peristiwa alam & penyebaran penyakit.
mining twitter yang pernah dipublikasi. Kontribusi dari paper ini
adalah memberikan informasi sejauh mana penelitian-penelitian
Penyajian hasil review paper ini akan dibagi menjadi
yang pernah dilakukan tentang data mining data twitter untuk beberapa bagian pembahasan, yaitu Pendahuluan (bagian 1),
mendapatkan pemetaan yang digunakan sebagai rencana pembahasan Teknik Perolehan Data Twitter (Data Capturing)
penelitian berikutnya. Review paper ini tidak memilih teknik atau (bagian 2), Teknik Analisis Data (bagian 3), Pemanfaatan hasil
metode terbaik serta tidak memberikan opini terhadap suatu data mining twitter (bagian 4) dan diakhiri dengan kesimpulan
analisis yang pernah dilakukan dari penelitian terdahulu. Dari serta rencana penelitian yang akan dilakukan (bagian 5).
review Paper ini dapat diketahui bahwa dapat dilakukan suatu
kegiatan penelitian yang menggunakan data teks twitter, dengan
teknik perolehan data dan metode analisis teks dalam pendekatan II. TEKNIK PEROLEHAN DATA TWITTER
text mining. Twitter berisi pesan singkat yang sebarkan melalui situs
micro-bloging oleh pengguna, yang dibatasi sebanyak 140
Keywords— Twitter, Application Programming Interface (API),
karakter dalam sekali penyampaian. Isi kalimat atau teks pada
Mining Twitter, Text Mining, Paper Review
twitter bersifat multi karakter (dapat terdiri dari angka, huruf
I. PENDAHULUAN atau simbol) dengan struktur kalimat yang bebas sesuai
Twitter telah tumbuh menjadi situs microblogging yang keinginan penggunanya.
populer dalam kategori aplikasi social network. Konten teks Teks twitter dapat terdiri dari beberapa bagian antara lain
Twitter yang menampung maksimal seratus empat puluh emoticon, URLs, RT untuk re-tweet, @ untuk mention
karakter tidak menghalangi layanan ini untuk menjadi media pengguna lain, # untuk hashtag yang digunakan dalam
jejaring sosial yang handal. Hal itu dimungkinkan karena sifat penentuan topik twitter [1]. Antar pengguna twitter yang
pesan Twitter yang bersifat singkat dan langsung sehingga terhubung dengan pengguna lain (follower) dapat saling
memudahkan pengguna untuk menyampaikan informasi yang melihat teks pesan yang disampaikan seorang pengguna
diinginkan. Twitter kepada pengguna yang lain yang dikenal dengan
Penggunaan twitter telah banyak dimanfaatkan untuk istilah Tweet.
berbagai keperluan mulai dari penyampai pesan pribadi, media Data teks twitter yang begitu beragam bentuk dan
promosi produk dan jasa bahkan dijadikan pula sebagai media kandungan isinya, memiliki banyak arti jika diproses lebih
pemberi pesan yang bersifat resmi dari suatu otoritas. Berbagai lanjut, dalam konteks tersebut maka teknik Data Mining
kemanfaatan yang diberikan tersebut twitter menjadi sebagai memiliki peran yang siginifikan selama data twitter tersebut
media jejaring sosial yang cukup efisien dan efektif untuk bisa diperoleh dalam jumlah besar, ratusan hingga ribuan
menyampaikan pesan singkat namun cepat. bahkan jutaan tweet.
Dukungan aplikasi twitter terhadap para pengembang Twitter menawarkan tiga metode utama untuk mengakses
aplikasi telah diberikan dengan sangat signifikan. Melalui dan mendapatkan data tweet melalui Twitter API (Application
fungsi API yang dimiliki, maka data twitter dapat diakses, Programming Interface), antara lain melalui API Streaming,
dikembangkan dan/atau disimpan untuk diproses lebih lanjut.
REST (Representational State Transfer) API dan Search API
Berbagai penelitian yang dilakukan berupa analisis data twitter
pun telah banyak dilakukan dengan berbagai teknik pendekatan [2]. Keseluruhan metode tersebut bersifat terbuka, dapat
dalam kerangka data mining, sehingga dari analisis tersebut diakses oleh publik dengan syarat dan ketentuan yang diatur
diperoleh suatu informasi yang lebih berharga dari kumpulan- oleh situs Twitter seperti batasan jumlah tweet yang bisa
kumpulan teks twitter atau“corpus”.
diambil, jenis atau rentang data yang ingin diambil dan corpus menjadi perkata dalam format per token sehingga
sebagainya. didapatkan data seperti text, username, userid, location,
Twitter API menyediakan akses untuk data tweet dari latitude, longitude. Arsitektur dari TweeQL diuraikan pada
rentang waktu tertentu, dari pengguna tertentu, dengan kata Gambar 2.
kunci tertentu, atau dari suatu wilayah geografis tertentu,
namun tidak memberikan fitur untuk mengekstrak struktur
dari tweet, serta tidak memberikan gambaran data agregat
twitter pada topik yang berbeda (misalnya, frekuensi tweet
tentang topik tertentu dari waktu ke waktu) [3].
API Streaming bergantung pada jaringan kontinyu antara
Twitter dan host penerima yang dirancang untuk mendukung
volume transfer data. API Streaming memungkinkan
pengguna untuk mengeluarkan permintaan yang berjalan terus
menerus terhadap data twitter melalui HTTP dengan
Keyword, Location, atau User Id yang terseleksi.
Sebaliknya, REST API mengikuti permintaan Client-server
yang unik berikut pola dalam respon berkomunikasi pada Gambar 2. Komponen arsitektur TweeQL [3].
hubungan permintaan antara Twitter dan host yang dibuat
secara dinamis dengan basis per permintaan. Selanjutnya Dengan TweeQL dihasilkan klasifikasi kata tweet
twitter akan memberikan data API di format JSON berdasarkan token yang diperoleh dan dihasilkan pula geo-
(JavaScript Object Notation) atau secara interchange format location dari data tweet yang ada. Hasil UDFs Yang
yang mirip dengan representasi dokumen XML. dikembangkan dengan teknik analisis Exponentially Weighted
Berbagai teknik dikembangkan untuk mendapatkan data Moving Mean (EWMA) dapat digunakan untuk mengetahui
twitter secara lebih spesifik sesuai dengan kebutuhan trend atau pendeteksian suatu peristiwa dari teks twitter yang
pengguna. Antara lain TwitterZombie, sebuah aplikasi data diolah.
twitter crawling yang dibangun dengan teknik Search API dan Salah satu model penangkapan data yang dikembangkan
mampu menarik hingga 1,500 corpus dalam sekali proses [2]. menggunakan REST API adalah Twython yang bekerja untuk
Model data capture ini menangkap (crawling) data twitter mendapatkan data twitter sesuai kebutuhan ekstraksi seperti
untuk disimpan dalam database MySQL sebagaimana berdasarkan topik, user id atau data tweet dengan rentang
diilustrasikan pada Gambar 1. tanggal tertentu [4].
TwitterEcho dikembangkan pada platform open source
yang menggunakan Perl scripts untuk menjalankan REST API
[5]. Script pada Perl dibangun untuk mengumpulkan tweet,
profil pengguna dan statistik sederhana (jumlah tweets, jumlah
followers) yang dijalankan per menit dan menggunakan 300
panggilan REST API per jam. Script berikutnya untuk
mendapatkan data seperti daftar teman dan pengikut dari suatu
user tweet. Arsitektur TwitterEcho diilustrasikan pada Gambar
3.
Gambar 1. Diagram Sistem Twitter Zombie [2]
Yang bertanda tangan di bawah ini Ketua Pelaksana Konferensi Nasional Sistem
& Informatika (KNS&I) 2014 menerangkan bahwa :
Telah melalui proses review dan dinyatakan diterima untuk dipresentasikan pada
Konferensi Nasional Sistem & Informatika (KNS&I) 2014 pada tanggal 7 - 8
Nopember 2014. Kami mohon kehadiran Bapak/Ibu Arief Wibowo dan Edi
Winarko pada Konferensi Nasional Sistem & Informatika (KNS&I) 2014.
Demikian surat ini dibuat dengan sebenarnya dipergunakan sebagaimana
mestinya.