Outlet berita cenderung menggunakan "Big Data" dengan cukup longgar. Vendor
biasanya memberikan studi kasus seputar produk spesifik mereka. Tidak ada banyak di luar
sana untuk implementasi open source, tetapi mereka disebutkan. Sebagai contoh, Apache
tidak akan menghabiskan banyak waktu membangun studi kasus tentang hadoop, tetapi
vendor seperti Cloudera dan Hortonworks mungkin akan melakukannya.
Data analytics adalah ilmu untuk menggali wawasan yang dapat ditindaklanjuti dari koleksi
data besar (big data) untuk membantu orang atau organisasi membuat keputusan yang lebih
baik. Analisis data menggunakan teknik dari pembelajaran mesin, kecerdasan buatan,
statistik, dan pemrosesan bahasa alami untuk menemukan pola dalam data dan
memanfaatkan alat-alat dari visualisasi data dan interaksi komputer manusia untuk membuat
pola-pola ini dapat dimengerti oleh pengguna (http://dit.ie/computing/research/).
Data analytics dapat digambarkan sebagai pemeriksaan mendalam tentang makna dan fitur-
fitur penting yang tersedia data, untuk mengidentifikasi informasi penting, menggunakan
metode dan teknik khusus. Ini adalah inter disipliner domain yang mencakup cabang
keilmuan seperti komputer sains (ilmu komputer), ilmu matematika statistik, ekonomi,
psikologi, hukum dan ilmu kognitif lainnya (Adrian Banarescu, 2015).
Berdasarkan hasilnya data analytics terbagi menjadi tiga jenis yaitu descriptive analytics,
predictive analytics, dan prescriptive analytics (SAS, 2016).
Descriptive analyticsadalah proses data analytics untuk mendapatkan gambaran umum dari
data yang sudah dikumpulkan. Ini adalah model yang akan membantu untuk memahami apa
yang terjadi dan mengapa. Contoh dari descriptive analytics adalah Google Analytics. Pada
Google Analytics hanya bisa melihat informasi sederhana seperti ada berapa jumlah visitor
per satuan waktu, halaman mana saja yang paling sering dikunjungi. Analisis deskriptif tidak
menampilkan prediksi halaman apa yang akan dikunjungi pengunjung berikutnya atau
kenapa seorang pengunjung mengunjungi suatu halaman.
Predictive analytics adalah data analytics yang memberikan hasil prediksi tentang sesuatu
yang akan datang dengan peningkatan daya komputasi dengan kemampuan menjalankan
ratusan atau ribuan model dengan cepat dan adopsi teknik prediktif seperti support vector
machines, neural networks dan random forests. Model-model ini menggunakan data masa
lalu dan algoritma prediksi untuk membantu dalam menentukan probabilitas dari apa yang
akan terjadi berikutnya. Contohnya adalah sistem rekomendasi yang dipakai di situs e-
commerce Dari data pengunjung dan pembelian, maka bisa diperkirakan barang apa saja
yang pengunjung sekiranya tertarik untuk membeli. Pada analytics jenis ini mulai diperlukan
machine learning untuk menafsirkan data yang telah dikumpulkan sehingga tidak bisa
langsung melakukan operasi penjumlahan atau rata-rata seperti pada descriptive analytics.
Prescriptive analytics adalah proses analytics yang menghasilkan jawaban atas pertanyaan
kenapa sesuatu akan terjadi serta memberikan saran terhadap kondisi yang kemungkinan
akan terjadi dimasa yang akan datang. Kunci untuk prescriptive analytics adalah mampu
menggunakan data besar, data kontekstual dan banyak daya komputasi untuk menghasilkan
jawaban secara real time. Karena kemampuannya inilah prescriptive analytics sangat
diperlukan oleh top-level manajemen dalam mengambil keputusan. Dalam prosesnya cukup
sulit untuk membuat sistem yang menggunakan analytics preskriptif mengingat algoritmanya
harus benar-benar dapat melihat yang tak terlihat dari hasil analytics Selain itu juga
mempertimbangkan semua opsi untuk pengambilan keputusan. Untuk mencapai hal ini
machine learning sudah pasti menjadi hal yang mutlak digunakan.
DAFTAR PUSTAKA
Adrian Banarescu. (2015). Detecting and Preventing Fraud with Data Analytics. Procedia
Economics and Finance 32 (2015) 1827 – 1836
Data Analytics. 2018. http://dit.ie/computing/research/. diakses 3 November 2018.
Penulis:
Astari Retnowardhani, PhD
Tiswa Ramdani, MMSI
3. MENCARI DATA SET YANG SESUAI DENGAN MODEL DATA DIATAS
Hal itu karena data itu berjumlah telalu besar, bergerak terlalu cepat, dan tidak sesuai dengan
kemampuan struktural dari arsitektur database tradisional.
Big data disiapkan oleh perusahaan-perusahaan besar, firma ataupun organisasi. Data-data ini
diambil, diolah, dan digunakan oleh perusahaan untuk kepentingan tertentu.
Nah, keseluruhan proses untuk mengumpulkan, merapikan, menganalisis big data yang
disebut dengan big data analytics.
Banyak manfaat dari big data analytics khususnya untuk perusahaan. Salah satunya adalah
untuk mengidentifikasi kesempatan-kesempatan baru.
Contohnya, jika ada sponsored post yang lewat di timeline Instagram kamu dengan
preferensi yang sesuai denganmu. Pasti kamu akan langsung membukanya kan?
Nah, kesempatan baru ini yang dimanfaatkan oleh perusahaan dengan menggunakan big
data. Selain mereka diuntungkan, customer pun juga senang karena ada rekomendasi yang
sesuai dengan kebutuhan dan kesukaan mereka.
1. Iris Dataset
Dataset Iris merupakan dataset multivariate yang diperkenalkan oleh ahli statistika dan
biologi inggris, Ronald Fisher, pada tahun 1936. Dataset bunga Iris ini sangat terkenal di
dunia Machine Learning yang digunakan untuk klasifikasi. Dataset ini terdiri dari 3 spesies
Iris yaitu Iris Setosa, Iris Virginica, dan Iris Versicolor dan tiap spesiesnya memiliki 50
sampel. Dalam data Iris terdapat 4 atribut yang dapat mempengaruhi klasifikasi yaitu, sepal
length, sepal width, petal length, dan petal width dalam centimeter yang berbeda-beda.
3. Youtube Dataset
Dataset video Youtube didasarkan pada informasi video-video yang ada di Youtube. Dataset
ini membantu dalam membuat model klasifikasi video menggunakan algoritma Machine
Learning. Kumpulan data ini akan membantu meningkatkan kualitas dari anotasi dan
pelabelan yang dihasilkan dari database. Dataset ini memiliki kumpulan data berlabel dengan
skala yang besar dan berkualitas tinggi. Dalam kumpulan data tersebut, video akan diambil
sampelnya secara seragam. Dataset ini tersedia dalam format CSV (Comma-separated value)
4. HUBUNGAN/PATTERN DATA
Data Curah Hujan Bandung
5. MEMAHAMI CARA KERJA FACEBOOK ATAU GOOGLE DALAM MENGOLAH
DATA DALAM SKALA BESAR (BIG DATA) DARI SEGI ALGORITMA MAUPUN
KOMPLEKSITAS SISTEM
Big data adalah kumpulan data yang lebih besar dan lebih kompleks, sehingga
tidak memungkinkan jika menggunakan pengelola data yang sederhana. Data ini sangat
banyak, terutama dari data-data yang terbaru. Singkatnya adalah pengumpulan dan
penggunaan informasi yang kemudian dikumpulkan, dianalisa, serta mengerti akan data-
data tersebut. Biasanya yang menggunakan big data analytical adalah perusahaan atau
jaringan yang jangkauannya luas dan mempunyai banyak jaringan. Contohnya adalah
Facebook.
Facebook sendiri adalah perusahaan data yang bergerak di layanan jaringan data
dan sosial media, karena Facebook mempunyai sistem jaringan yang besar serta luas
sehingga harus menggunakan big data analytical untuk memahami pola interaksi dan
korelasi suatu hubungan satu dengan yang lainnya. Biasanya, pakar big data analytical
Facebook membaca atau menganalisa pola interaksi user berdasarkan data serta aktivitas
yang user lakukan. Dari sistem atau siklus Facebook, ini membuat perusahaan Facebook
sendiri paham tentang kebutuhan user yang mana menjadi “konsumsi” perusahaan,
Facebook pun juga menampilkan atau menyajikan apa yang sesuai user lakukan di laman
Facebook.
Facebook mempunyai fitur untuk menambahkan identitas di profil dan
menambahkan teman. Setiap harinya ada sekitar 10 miliar pengguna mengirim pesan
melalui Facebook, 4,5 miliar mengklik tombol like, dan 350 juta gambar yang diunduh
setiap harinya. Sehingga bisa kita ketahui, facebook memiliki kapasistas yang sangat
besar untuk menyimpan data penggunanya.
Contoh: User mengupload foto di tanggal 27 November 2018, maka ketika di tahun
berikutnya momen itu bisa diingatkan kembali oleh Facebook di notifikasi akun user
tersebut. Kemudian, adanya fitur “like”, dimana membantu Facebook dalam menganalisis
kebutuhan atau permasalahan seputar konsumen yang biasanya muncul pada halaman
utama/laman/beranda.
Permasalahan yang sering timbul di dunia Facebook adalah cepatnya penyebaran
berita hoax. Tidak menampik bahwa penyebaran melalui sosial media secepat itu,
sehingga fakta belum juga terbuktikan, hoax tersebut sudah lebih dulu tersebar. Fitur
yang tersedia di Facebook itu sendiri juga yang orang-orang dengan mudahnya
menyebarkan. Yaitu fitur “share” atau “like” atau “repost” atau sejenisnya yang
memudahkan user untuk menyebarkan konten yang mungkin belum pasti keabsahannya
Facebook merupakan perusahaan data yang didirkan 4 Februari 2004 oleh Mark
Zuckerberg yang bergerak dalam layanana jejaring sosial. Facebook erat kaitannya
dengan penggunaan Big Data Analytical, yang merupakan suatu proses untuk meneliti
serta mengolah data set yang skalanya cukup besar sehingga mendapatkan suatu pola
interaksi, serta korelasi suatu hubungan satu dengan yang lainnya.
Pada facebook, user/pengguna dapat menambahkan identitas pribadi pada
profilnya, menambahkan teman dengan rekomendasinya, serta fitur-fitur lainnya. Hal itu
yang membuat pakar big data analytical dapat membaca atau melihat pola interaksi
pengguna berdasarkan data serta aktivitas yang pengguna lakukan. Sehingga,
menimbulkan suatu permasalahan baru bagi facebook. Menurut artikel yang dimuat
dalam simpllearn, penggunaan social platform terbesar adalah facebook, yang digunakan
oleh para marketers dalam menunjang suatu bisnis nya.
Dalam penggunaan big data facebook memiliki API, yang merupakan sekumpulan
perintah, fungsi, dan protocol yang dapat digunakan oleh programmer saat membangun
perangkat lunak untuk system operasi tertentu. Sehingga dengan API, programmer dapat
mengambil data pengguna melalui aplikasi visualisasi (salah satunya Gephi), yang
sebelumnya harus dibuat datasets nya (bisa dengan R studio)
3. Model measurement, accuracy
Facebook menggunakan jasa dari hadoop dalam mengembangkan usahanya.
Hadoop bekerja dengan cara memproses data – data dengan skala yang besar. Hadoop
cluster terdiri dari set hardware-hardware komoditas yang murah yang dihubungkan satu
sama lainnya, dan disimpan di lokasi yang sama. Prinsip kerja hadoop adalah scale out,
yaitu adanya penambahan/penghapusan node , dimana hadoop mengikat setiap node
menjadi sebuah system yang terdistribusi. Hadoop dirancang untuk mengalirkan file-file
besar dan jumlah data yang besa. Alasan mengapa perusahaan facebook menggunakan
hadoop, diantaranya adalah:
a. Hadoop dapat memprose data dalam skala besar (petabyte)
b. Efisien, dapat diandalkan dan resmi dari Apache
Facebook menggunakan hadoop sebagai system rekomendasi dan penyimanpan
data di gudang. Keakuratan dalam hadoop untuk memproses data dpada facebook, bisa
dilihat dari :
a. Banyak nya data secara umum yang ada pada facebook
b. Hadoop menemukan bahwa 300juta lebih pengguna yang aktif menggunakan
facebook
c. Setiap harinya, 30 juta pengguna update status
d. Setiap bulan, lebih dari 100 juta pengguna menggugah foto, dan setiap bulannya
hampir 10juta miliar video yang diunggah
e. Setiap minggu terdapat 1 miliar konten baik itu dari link website, blog, yang di share
oleh pengguna.
Dengan facebook, kita dapat mengukur beberapa hal, diantaranya:
1. Degree centrality : Untuk mengetahui seberapa berpengaruh seseorang dalam
facebook di dalam suatu jaringannya.
2. Eigenvector centrality : Semakin direferensikan semakin besar nilai yang akan
didapatkannya
3. Closeness centrality: Untuk mengatahui kedekatan antara node dalam jaringan yang
terdapat pada facebook
4. Betweeness centrality : untuk mengetahui siapa yang berperan sebagai perantara
dalam jaringan suatu node tersebut.
6. Mencari data Social Network melalui crawling ataupun data set yang tersedia, membuat
model, membuat visualisasi, menghitung metrik, dan mengintepretasikan hasil yang di
peroleh.
1.Aplikasi Crawler / Crawling
Aplikasi crawling adalah suatu aplikasi yang digunakan untuk pengambilan data digital secara
mendalam,
berbeda dengan scraper yang hanya mengambil data pada permukaan saja, crawler umum
digunakan oleh web mesin
pencari seperti Google, Yahoo dan sebagainya, yang bertujuan untuk memetakan konten/isi pada
seuatu halamen web
dan dipetakan pada index, dalam lingkup aplikasi yang penulis buat, crawler bertujuan untuk
mengambil data secara
sistematis, efektif serta efisien pada Twitter melalui API (Application Programing Interface)
yang sudah disediakan
oleh Twitter[7].
2. Twitter
Twitter adalah layanan jejaring sosial dan mikroblog online yang memungkinkan penggunanya
untuk mengirim
dan membaca pesan berbasis teks hingga 140 karakter, yang dikenal dengan sebutan kicauan
(tweet / twit). Twitter
didirikan pada bulan Maret 2006 oleh Jack Dorsey, dan situs jejaring sosialnya diluncurkan pada
bulan Juli. Sejak
diluncurkan, Twitter telah menjadi salah satu dari sepuluh situs yang paling sering dikunjungi di
Internet.
3 .Non-blocking I/O
Non-Bloking I/O processing atau Asynchronous processing atau parallel processing adalah suatu
cara menipulasi
dan pengendalian suatu antrian proses pada suatu layer aplikasi, saat ini sebuah processor
computer telah dibuat
menjadi bagian bagian kompleks yang menerapkan konsep MPSoC ( Multi Proccessor System-
on-a Chip )[10],
dimana kita dapat menjalankan berbagai proses dalam satu waktu. Dengan demikin suatu proses
tidak akan menjadi
hambatan untuk proses lainya, karena proses lain bisa di-handle oleh unit pemroses lain, dengan
demikian pembuatan
aplikasi dengan menerapkan konsep Non-blocking I/O menjadi lebih efektif & efisien karena
akan mengurangi jumlah
waktu eksekusi [6,3].
4. Node js
Node js adalah platform yang dibangun di atas runtime Javascript yang ada pada chrome yang
berguna untuk
proses development aplikasi secara cepat dan efisien serta mempermudah pembangunan aplikasi
berbasis jaringan
yang memiliki scalability ( daya pengembangan ) yang tinggi, Node Js menggunakan event-
driven non-blocking I/O
model yang membuat Node Js ringan dan efisen, cocok untuk aplikasi data-intensive realtime
yang berjalan pada
cross platform[2].
5. Perancangan
Guna memecahkan masalah yang diuraikan di atas maka dibuatlah aplikasi Sosial Media Crawler
( Twitter )
Menggunakan Node JS Memanfaatkan Non-Blocking I/O dengan arsitektur sebagaimana
digambarkan pada Gambar
Gambar 1 Arsitektur Aplikasi
1. Aplication, Aplication Server & Storage
Aplikasi berjalan pada serbuah server dengan storage untuk menyimpan data , aplikasi
mengambil data yang
berada di server Twitter dengan penggunakan HTTP Request API yang telah di sediakan oleh
Twitter, kemudian data ditampung di aplikasi (memory) yang lalu write stream ke file dengan
format JSON
(Javascript Object Notation).
2. Twitter Public API
Adalah suatu interface yang disediakan oleh Twitter bagi user dan pengembang guna
mendapatkan data
publik Twitter [1].
Alur proses crawl aplikasi:
1. Aplikasi memulai proses crawl
2. Aplikasi membaca konfigurasi CPU atau unit promroses pada sistem aplikasi yang telah di-
setting
Aplikasi membaca & menghitung konfigurasi CPU pada sistem node / server
3. Melakukan pengecekan, apakah jumlah CPU pada sistem aplikasi lebih banyak dari pada
jumlah CPU yang
ada pada node / server
a. YA : Variabel worker akan di-set sesuai konfigurasi aplikasi, setting dimasukan dari menu
Setting
> general setting
b. TIDAK : Variabel worker akan di-set sesuai dengan jumlah CPU pada node / server
4. Fork proses pekerja ( worker ) sesuai dengan variabel worker
5. Membuat antrian keyword dan antrian token berdasarkan parameter yang sudah di input pada
masing masing
menu “Keywords” dan “Tokens”
6. Melakukan pendaftaran proses crawler pada masing masing worker yang idle
7. Melakukan pengecekan, adanya signal hentikan crawling?
a. YA : Menghapus antrian
b. TIDAK : Melanjutkan crawling
8. Melakukan pengecekan, adanya antrian dalam pool?
a. YA : Kembali proses nomor 7
b. TIDAK : Menghapus antrian
9. Matikan proses worker
Alur dan proses forking dari sub proses 1 ( Gambar 2 ) Fork Proses Pekerja, pada tahap ini main
proses akan
mengirim perintah untuk melakukan forking worker proses sebanyak variabel worker.
Menggunakan perintah
require(‘child_proces’).fork() pada perulangan CPU dijelaskan pada Gambar 3.